ตัวแปรอิสระ = ตัวแปรสุ่ม?


25

ฉันสับสนเล็กน้อยหากตัวแปรอิสระ (เรียกอีกอย่างว่าตัวทำนายหรือคุณสมบัติ) ในแบบจำลองทางสถิติตัวอย่างเช่นในการถดถอยเชิงเส้นเป็นตัวแปรสุ่มหรือไม่?XY=β0+β1X


12
โมเดลเชิงเส้นมีเงื่อนไขบนดังนั้นไม่ว่าจะสุ่มหรือไม่ก็ตาม X
ซีอาน

4
ตรวจสอบนี้ เป็นคำถามที่ดี BTW
Antoni Parellada

@ ซีอานในการออกแบบแบบคงที่สมมติฐานเชิงเส้นของแบบจำลองจะไม่ถูกปรับตามXดูคำตอบของฉัน ดังนั้นมันมีความสำคัญมาก นั่นคือเหตุผลที่การทดลองนั้นง่ายต่อการตีความมากกว่าผลการศึกษาเชิงสังเกตการณ์
อัคซากัล

คำตอบ:


19

มีสองสูตรทั่วไปของการถดถอยเชิงเส้น เพื่อมุ่งเน้นแนวคิดฉันจะทำให้เป็นนามธรรมบ้าง คำอธิบายทางคณิตศาสตร์เกี่ยวข้องมากกว่าคำอธิบายภาษาอังกฤษเล็กน้อยดังนั้นให้เริ่มด้วยตัวหลัง:

เชิงเส้นถดถอยเป็นรูปแบบที่มีการตอบสนองYจะถือว่าสุ่มที่มีการกระจายที่กำหนดโดย regressors Xผ่านเส้น map β(X)และอาจจะเป็นโดยพารามิเตอร์อื่น ๆ\θ

ในกรณีส่วนใหญ่ชุดของการกระจายที่เป็นไปได้คือครอบครัวสถานที่ที่มีพารามิเตอร์αและθและβ(X)ให้พารามิเตอร์\αตัวอย่าง archetypical คือการถดถอยปกติซึ่งชุดการแจกแจงคือครอบครัวปกติN(μ,σ)และμ=β(X)เป็นฟังก์ชันเชิงเส้นของ regressors

เนื่องจากฉันยังไม่ได้อธิบายทางคณิตศาสตร์มันยังคงเป็นคำถามเปิดที่ว่าวัตถุทางคณิตศาสตร์ประเภท , ,และอ้างถึง - และฉันเชื่อว่านั่นเป็นปัญหาหลักในชุดข้อความนี้ แม้ว่าหนึ่งสามารถสร้างทางเลือก (เทียบเท่า) ที่หลากหลายส่วนใหญ่จะเทียบเท่าหรือกรณีพิเศษของคำอธิบายต่อไปนี้XYβθ


  1. คง regressors regressorsจะแสดงเป็นพาหะจริง P การตอบสนองเป็นตัวแปรสุ่ม (โดยที่นั้นมี endowed กับสนาม sigma และความน่าจะเป็น) รุ่นเป็นฟังก์ชัน (หรือถ้าคุณชอบชุดของฟังก์ชั่นแปรโดย ) เป็นทอพอโลยีมิติ จำกัด (โดยปกติคือ differentiable สอง) submanifold (หรือ submanifold-with-boundary) ของมิติของพื้นที่ของการแจกแจงความน่าจะเป็น XRp Y : Ω R Ω : R × Θ M d RM d Θ M d d Θ R d - 1 Y ( β ( X ) , θ ) β R P * θ Θ Y f ( β ( X ) , θY:ΩRΩf:R×ΘMdRMdΘMddfมักจะถูกนำไปใช้อย่างต่อเนื่อง (หรือ differentiable เพียงพอ) คือ "พารามิเตอร์รบกวน" มันควรจะเป็นว่าการกระจายของคือสำหรับเวกเตอร์คู่คู่ที่ไม่รู้จัก (ที่ "สัมประสิทธิ์การถดถอย") และไม่ทราบ\ เราอาจเขียนΘRd1Yf(β(X),θ)βRpθΘ

    Yf(β(X),θ).

  2. การถดถอยแบบสุ่ม regressors และการตอบสนองเป็นมิติเวกเตอร์ตัวแปรสุ่ม{R} โมเดลเป็นวัตถุชนิดเดียวกันเมื่อก่อน แต่ตอนนี้มันให้ความน่าจะเป็นแบบมีเงื่อนไขp+1Z=(X,Y):ΩRp×RfY | X ~ ( β ( X ) , θ )

    Y|Xf(β(X),θ).

คำอธิบายทางคณิตศาสตร์นั้นไร้ประโยชน์โดยไม่ต้องมีใบสั่งยาบอกว่ามันมีจุดประสงค์ที่จะใช้กับข้อมูล ในกรณี regressor คงที่เราตั้งที่ถูกระบุโดยผู้ทดลอง ดังนั้นมันอาจช่วยให้ดูเป็นผลิตภัณฑ์ endowed กับผลิตภัณฑ์พีชคณิตซิกมา ทดลองกำหนดและธรรมชาติกำหนด (ไม่ทราบบางนามธรรม) \ในกรณีสุ่ม regressor ธรรมชาติกำหนด ,ส่วนประกอบของตัวแปรสุ่มกำหนดXΩRp×ΩXωΩωΩXπX(Z(ω))X(ซึ่งก็คือ "สังเกตุ") และตอนนี้เรามีคู่ที่ได้รับคำสั่งเหมือนกับในกรณี regressor คงที่(X(ω),ω))Ω


ตัวอย่าง archetypical ของการถดถอยเชิงเส้นหลายครั้ง (ซึ่งฉันจะแสดงโดยใช้สัญกรณ์มาตรฐานสำหรับวัตถุมากกว่าหนึ่งทั่วไปมากกว่านี้) คือสำหรับบางคง{+} เมื่อแตกต่างกันทั่วรูปภาพของมันจะแยกออกเป็นส่วนย่อยหนึ่งมิติซึ่งเป็นเส้นโค้งในสองมิติของการแจกแจงปกติ

f(β(X),σ)=N(β(x),σ)
σΘ=R+xRp

เมื่อ - ในรูปแบบใดก็ตาม -ประมาณว่าและเป็น , ค่าของเป็นค่าที่ทำนายได้ของเกี่ยวข้องกับว่าจะเป็นถูกควบคุมโดยผู้ทดลอง (กรณีที่ 1) หรือถูกสังเกตเท่านั้น (กรณีที่ 2) ถ้าเราตั้งค่า (กรณีที่ 1) หรือสังเกตการก่อให้เกิด (กรณีที่ 2)ของดังนั้นการตอบสนองเกี่ยวข้องกับนั้นเป็นตัวแปรสุ่มที่มีการแจกแจง ซึ่งไม่ทราบ แต่ββ σ σ β ( x ) Y x x x X Y X N ( β ( x ) , σ ) N ( β ( x ) , σ )β^σσ^β^(x)YxxxX YXN(β(x),σ)ที่คาดว่าจะเป็นซิก)N(β^(x),σ^)


ให้ฉันพูดถึงว่านี่เป็นคำตอบที่ยอดเยี่ยม (แต่อาจไม่ใช่สำหรับทุกคน)
l7ll7

2
ป.ล. คุณรู้จักหนังสือเล่มใดบ้างซึ่งคำถามพื้นฐานเหล่านี้ถูกอธิบายอย่างแม่นยำเหมือนที่คุณทำที่นี่? ในฐานะนักคณิตศาสตร์หนังสือทั้งหมดที่ฉันพบสะท้อนคำตอบอื่น ๆ ที่นี่ซึ่งมีความแม่นยำน้อยกว่ามากจากมุมมองทางคณิตศาสตร์ (สิ่งนี้ไม่ได้ทำให้พวกเขาแย่แน่นอนมันเป็นเพียงแค่หนังสือเหล่านั้นไม่เหมาะกับฉัน - ฉันจะรักหนังสือที่แม่นยำยิ่งขึ้นเช่นคำตอบนี้)
l7ll7

ในประโยคแรกของย่อหน้าสุดท้ายไม่ใช่ค่าที่ทำนายสำหรับ (การรับรู้ของตัวแปรสุ่ม ) ไม่ใช่ค่าที่ทำนายสำหรับ ? หรือฉันเข้าใจผิดภาษาของคุณและ "ค่าที่คาดการณ์สำหรับ " หมายถึง "ค่าที่คาดการณ์เมื่อคือค่าที่ตั้งไว้ (สังเกตได้) ของ " YYxxxXβ^(x)yYxxxX
ชาด

1
@Chad ขอบคุณสำหรับการชี้ให้เห็นภาษาที่คลุมเครือ ฉันได้แก้ไขประโยคนั้นเพื่ออธิบายความหมายซึ่งสอดคล้องกับความเข้าใจของคุณ
whuber

7

ก่อนอื่น @whuber ให้คำตอบที่ยอดเยี่ยม ฉันจะให้มันใช้เวลาที่แตกต่างกันอาจจะง่ายกว่าในบางแง่มุมด้วยการอ้างอิงถึงข้อความ

แรงจูงใจ

Xสามารถสุ่มหรือคงที่ในสูตรการถดถอย ขึ้นอยู่กับปัญหาของคุณ สำหรับการศึกษาเชิงสังเกตการณ์นั้นจะต้องมีการสุ่มและสำหรับการทดลองมักจะได้รับการแก้ไข

ตัวอย่างที่หนึ่ง ฉันกำลังศึกษาผลกระทบของการได้รับรังสีอิเล็กตรอนต่อความแข็งของชิ้นส่วนโลหะ ดังนั้นฉันจึงนำชิ้นส่วนโลหะสองสามตัวอย่างมาแสดงระดับการแผ่รังสีที่แตกต่างกัน ระดับแสงของฉันคือ X และคงที่เพราะฉันตั้งค่าเป็นระดับที่ฉันเลือก ฉันควบคุมเงื่อนไขของการทดสอบอย่างเต็มที่หรืออย่างน้อยก็ลอง ฉันสามารถทำเช่นเดียวกันกับพารามิเตอร์อื่น ๆ เช่นอุณหภูมิและความชื้น

ตัวอย่างที่สอง คุณกำลังศึกษาผลกระทบของเศรษฐกิจต่อความถี่ของการฉ้อโกงในการสมัครบัตรเครดิต ดังนั้นคุณถอยหลังเหตุการณ์การฉ้อโกงที่มีต่อจีดีพี คุณไม่ได้ควบคุม GDP คุณไม่สามารถตั้งระดับที่ต้องการได้ ยิ่งกว่านั้นคุณอาจต้องการดูการถดถอยหลายตัวแปรดังนั้นคุณมีตัวแปรอื่น ๆ เช่นการว่างงานและตอนนี้คุณมีการรวมกันของค่าใน X ซึ่งคุณสังเกตแต่ไม่ได้ควบคุม ในกรณีนี้ X เป็นแบบสุ่ม

ตัวอย่างที่สาม คุณกำลังศึกษาประสิทธิภาพของสารกำจัดศัตรูพืชชนิดใหม่ในไร่เช่นไม่ได้อยู่ในสภาพห้องปฏิบัติการ แต่ในฟาร์มทดลองจริง ในกรณีนี้คุณสามารถควบคุมบางสิ่งบางอย่างเช่นคุณสามารถควบคุมปริมาณของสารกำจัดศัตรูพืชที่จะใส่ อย่างไรก็ตามคุณไม่ได้ควบคุมทุกสิ่งเช่นสภาพอากาศหรือดิน ตกลงคุณสามารถควบคุมดินได้ในระดับหนึ่ง แต่ไม่สมบูรณ์ นี่คือในระหว่างกรณีที่เงื่อนไขบางอย่างที่มีการตั้งข้อสังเกตและเงื่อนไขบางอย่างจะควบคุม มีสาขาการศึกษาทั้งหมดนี้เรียกว่าการออกแบบการทดลองซึ่งมุ่งเน้นไปที่กรณีที่สามนี้ซึ่งการวิจัยการเกษตรเป็นหนึ่งในแอปพลิเคชันที่ใหญ่ที่สุดของมัน

คณิตศาสตร์

นี่คือส่วนทางคณิตศาสตร์ของคำตอบ มีชุดของสมมติฐานที่มักจะนำเสนอเมื่อศึกษาการถดถอยเชิงเส้นที่เรียกว่าเงื่อนไข Gauss-Markov พวกเขามีทฤษฎีและไม่มีใครมารบกวนเพื่อพิสูจน์ว่าพวกเขามีส่วนร่วมในการตั้งค่าใด ๆ อย่างไรก็ตามมันมีประโยชน์มากในการทำความเข้าใจข้อ จำกัด ของวิธีกำลังสองน้อยที่สุด (OLS)

ดังนั้นชุดของสมมติฐานจะแตกต่างกันสำหรับการสุ่มและคงที่ X ซึ่งประมาณสอดคล้องกับการศึกษาเชิงสังเกตการณ์และการทดลอง ประมาณอย่างที่ฉันแสดงในตัวอย่างที่สามบางครั้งเราอยู่ในระหว่างสุดขั้วจริงๆ ฉันพบส่วนของทฤษฎีบท "Gauss-Markov" ในสารานุกรมการออกแบบการวิจัยโดย Salkind เป็นจุดเริ่มต้นที่ดีมันมีอยู่ใน Google หนังสือ

สมมติฐานที่แตกต่างกันของการออกแบบคงที่มีดังนี้สำหรับรูปแบบการถดถอยปกติ :Y=Xβ+ε

  • E[ε]=0
  • Homoscedasticity,E[ε2]=σ2
  • ไม่มีความสัมพันธ์แบบอนุกรมE[εi,εj]=0

เทียบกับสมมติฐานเดียวกันในการออกแบบแบบสุ่ม:

  • E[ε|X]=0
  • Homoscedasticity,E[ε2|X]=σ2
  • ไม่มีความสัมพันธ์แบบอนุกรมE[εi,εj|X]=0

ในขณะที่คุณสามารถเห็นความแตกต่างในการปรับสมมติฐานบนเมทริกซ์การออกแบบสำหรับการออกแบบแบบสุ่ม การปรับสภาพทำให้สมมติฐานเหล่านี้แข็งแกร่งขึ้น ตัวอย่างเช่นเราไม่เพียงแค่พูดเช่นในการออกแบบแบบคงที่ว่าข้อผิดพลาดมีค่าเฉลี่ยเป็นศูนย์ ในการออกแบบแบบสุ่มเราก็บอกว่ามันไม่ได้ขึ้นอยู่กับ X, โควาเรียต


2

ในสถิติตัวแปรสุ่มคือปริมาณที่แตกต่างกันแบบสุ่มในบางวิธี คุณสามารถค้นหาการสนทนาที่ดีในเธรด CV ที่ยอดเยี่ยมนี้: "ตัวแปรสุ่ม" มีความหมายอย่างไร

ในรูปแบบการถดถอยของตัวแปร (X-ตัวแปรตัวแปรอธิบายตัวแปรอื่น ๆ ) จะถือว่าได้รับการแก้ไขและเป็นที่รู้จัก พวกเขาจะไม่ถือว่าเป็นแบบสุ่ม การสุ่มทั้งหมดในแบบจำลองจะถือว่าอยู่ในเทอมผิดพลาด พิจารณาแบบจำลองการถดถอยเชิงเส้นอย่างง่ายตามสูตรมาตรฐาน: ข้อผิดพลาด, , เป็นตัวแปรสุ่มและเป็นแหล่งกำเนิดของการสุ่มในโมเดล เนื่องจากข้อผิดพลาดเป็นตัวแปรสุ่มเช่นกัน แต่ไม่ถือว่าเป็นตัวแปรสุ่ม (แน่นอนมันอาจเป็นตัวแปรสุ่มในความเป็นจริง
ε Y X

Y=β0+β1X+εwhere εN(0,σ2)
εYXแต่ไม่ได้มีการสันนิษฐานหรือสะท้อนในโมเดล)

คุณหมายความว่าเป็นค่าคงที่หรือไม่? เพราะนั่นเป็นวิธีเดียวที่จะทำให้ความรู้สึกของจากมุมมองทางคณิตศาสตร์เนื่องจากเป็นตัวแปรสุ่มและนอกจากนี้มีการกำหนดระหว่างตัวแปรสุ่มสองตัวเท่านั้นและไม่ใช่ "ตัวแปรอย่างอื่น" + ตัวแปรสุ่ม แม้ว่าหนึ่งในสองตัวแปรสุ่มอาจเป็นค่าคงที่ซึ่งเป็นกรณีที่ฉันอ้างถึง X εXXε
l7ll7

ป.ล. ฉันดูคำอธิบายทั้งหมดจากลิงก์ดังกล่าวและไม่มีการให้ความกระจ่าง: ทำไม? เพราะไม่มีใครทำให้การเชื่อมต่อระหว่างตัวแปรสุ่มเป็น probabilists เข้าใจมันและความเข้าใจในสถิติ ดังนั้นคำตอบบางคำกล่าวจะนิยามนิยามของทฤษฎีความน่าจะเป็นมาตรฐานที่แม่นยำในขณะที่คำตอบบางคำจะนิยามนิยามทางสถิติที่คลุมเครือ (ยังไม่ชัดเจนสำหรับฉัน) แต่ไม่มีใครอธิบายการเชื่อมต่อระหว่างแนวคิดทั้งสองนี้ได้ (ข้อยกเว้นอย่างเดียวคือคำตอบแบบจำลองตั๋วในกล่องยาวซึ่งอาจแสดงคำสัญญา แต่ถึงอย่างนั้น [... ]
l7ll7

ความแตกต่างไม่ชัดเจนพอที่จะให้ความกระจ่างสว่าง; ฉันจะต้องไตร่ตรองกับคำตอบเฉพาะนี้เพื่อดูว่ามีค่าใด ๆ หรือไม่)
l7ll7

@ user10324 ถ้าคุณชอบคุณสามารถคิดว่าเป็นชุดของค่าคงที่ คุณอาจคิดว่ามันเป็นตัวแปรที่ไม่สุ่ม X
gung - Reinstate Monica

ไม่วิธีคิดแบบไม่สุ่มของการคิดเกี่ยวกับมันไม่ทำงานด้วยเหตุผลสองประการ: หนึ่งอย่างที่ฉันโต้เถียงในความคิดเห็นข้างต้นไม่มีสิ่งเช่น "ตัวแปร" ในคณิตศาสตร์และสองแม้ว่ามันจะเป็น ดังนั้นนอกจากนี้ในกรณีนั้นไม่ได้กำหนดไว้ตามที่ฉันโต้เถียงในความคิดเห็นข้างต้น
l7ll7

1

ไม่แน่ใจว่าฉันเข้าใจคำถามนี้หรือไม่ แต่ถ้าคุณเพิ่งถามว่า "ต้องเป็นตัวแปรอิสระเสมอเป็นตัวแปรสุ่ม" ดังนั้นคำตอบคือไม่

ตัวแปรอิสระคือตัวแปรที่ถูกตั้งสมมติฐานว่าสัมพันธ์กับตัวแปรตาม จากนั้นคุณทดสอบว่าเป็นกรณีนี้ผ่านการสร้างแบบจำลอง (การวิเคราะห์การถดถอยน่าจะเป็น)

มีภาวะแทรกซ้อนจำนวนมากและ "ifs, buts and maybes" ที่นี่ดังนั้นฉันขอแนะนำให้รับสำเนาของเศรษฐมิติพื้นฐานหรือหนังสือสถิติที่ครอบคลุมการวิเคราะห์การถดถอยและการอ่านอย่างละเอียด หลักสูตรออนไลน์ถ้าเป็นไปได้


ตกลง แต่มันคืออะไรถ้ามันไม่ใช่ตัวแปรสุ่ม? แค่ฟังก์ชั่น ฉันสับสนเกี่ยวกับลักษณะทางคณิตศาสตร์ของวัตถุ " " อันที่จริงผมพบในขณะเดียวกันตำราเรียน, น่าจะเป็นและสถิติโดย Papoulis ที่ในหน้า 149 เขาบอกว่า "ได้รับสองตัวแปรสุ่มและ [ ... ]" และจากนั้นก็จะอธิบายวิธีการถอยหลังบนYดังนั้นเขาดูเหมือนจะเข้าใจเป็นตัวแปรสุ่มหรือไม่ X Y X Y XXXYXYX
l7ll7

ป.ล. ฉันต้องการเพิ่มว่าไม่มีสิ่งใดเป็น "ตัวแปร" ในวิชาคณิตศาสตร์เมื่อคุณมองว่าเป็นวัตถุ "แบบสแตนด์อโลน" (พื้นหลังของฉันคือคณิตศาสตร์) ตัวแปรในคณิตศาสตร์เป็นเพียงส่วนหนึ่งของวัตถุแบบสแตนด์อโลน (เช่นข้อโต้แย้งของฟังก์ชัน) แต่ไม่มีความหมายแบบสแตนด์อโลน ถ้าฉันจะเขียน "X" ในวิชาคณิตศาสตร์ก็อาจหมายถึงฟังก์ชั่นหรือมันอาจจะเป็นจำนวนเฉพาะถ้าได้รับมอบหมายค่าก่อนหน้านี้ แต่เราไม่ได้มีเพียงแค่xและตั้งแต่เข้าสู่ระบบ การถดถอยเป็นแบบจำลองทางคณิตศาสตร์ที่ผมสนใจในความหมายทางคณิตศาสตร์ของXx x XxxxxX
l7ll7

ดูเหมือนว่าคุณมีความเข้าใจคณิตศาสตร์มากกว่าฉันมาก ฉันแค่ให้คำตอบกับวิชาเศรษฐศาสตร์ / สถิติของมหาวิทยาลัยในระดับปริญญาตรี ฉันสงสัยว่าบางทีคุณอาจจะคิดมากนิดหน่อยอย่างน้อยก็จากมุมมองของการวิเคราะห์เชิงปฏิบัติ เกี่ยวกับการอ้างอิงจากหนังสือเล่มนั้นการตีความของฉันคือว่าเฉพาะ x และ y ที่เขาอ้างถึงนั้นเป็นแบบสุ่ม - แต่นั่นไม่ได้หมายความว่า x ใด ๆ หรือ y ใด ๆ ที่สุ่ม
Statsanalyst

เช่นตัวแปรตามในแบบจำลองสำหรับแนวโน้มการลงคะแนนในการเมืองของสหราชอาณาจักรอาจเป็นจำนวนคะแนนที่ได้รับจากผู้สมัครรับเลือกตั้งในแต่ละเขตเลือกตั้ง (ขี่ม้าไปแคนาดากับชาวอเมริกัน) และตัวแปรอิสระอาจเป็นราคาบ้านโดยเฉลี่ย ความมั่งคั่ง / รายได้ในสหราชอาณาจักร) ทั้งสองอย่างนี้เป็นตัวแปร "สุ่ม" ที่ฉันเข้าใจ แต่นี่จะเป็นสิ่งที่สมเหตุสมผลในการสร้างแบบจำลอง
Statsanalyst

ตกลงนั่นเป็นเรื่องดีที่จะรู้ว่าคำตอบแบบไหนที่ฉันสามารถคาดหวังได้ / เป็นมาตรฐานที่แผนกเศรษฐศาสตร์ / สถิติและฉันขอขอบคุณข้อเสนอแนะนั้นมาก (ฉันจะโหวตอีกครั้ง แต่ฉันทำไม่ได้ ปัญหาเกี่ยวกับคณิตศาสตร์คือ "เมื่อคุณดำลงคุณจะไม่ย้อนกลับไป": การฝึกฝนตลอดทั้งปีในความแม่นยำทางคณิตศาสตร์จะทำให้เกิดความรู้สึกไม่สบายใจหากมีบางสิ่งที่ไม่ใสเหมือนคริสตัลออกมาจนกว่าจะได้ claritiy [... ]
l7ll7
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.