ข้อสมมติฐานในการรับค่าประมาณ OLS


14

บางคนสามารถอธิบายสั้น ๆ ให้ฉันได้ทำไมจึงต้องใช้สมมติฐานทั้งหกเพื่อคำนวณค่าประมาณ OLS ฉันพบเฉพาะเกี่ยวกับความหลากหลายทางชีวภาพ - ว่าถ้ามันมีอยู่เราไม่สามารถสลับเมทริกซ์ (X'X) และประมาณการตัวประมาณโดยรวม แล้วคนอื่น ๆ (เช่นลิเนียริตี้เชิงเส้นศูนย์ข้อผิดพลาดเฉลี่ย ฯลฯ )?



1
คุณกำลังมองหาคำอธิบายเกี่ยวกับแนวคิดหรือคุณต้องการการสาธิตทางคณิตศาสตร์หรือไม่?
gung - Reinstate Monica

4
สี่เหลี่ยมจัตุรัสขั้นต่ำสุดธรรมดาคือโพรซีเดอร์เชิงตัวเลขคุณไม่จำเป็นต้องมีข้อสันนิษฐานมากมายในการคำนวณ (นอกเหนือจากการย้อนกลับ) จำเป็นต้องใช้สมมติฐานเพื่อหาข้อสรุปที่สมเหตุสมผลโดยดูคำตอบของฉันเมื่อวานนี้: stats.stackexchange.com/questions/148803/…
kjetil b halvorsen

1
คุณหมายถึง "หกข้อสมมติ" แบบใด คุณพูดถึงเพียงสาม
whuber

ฉันหมายถึง 1) linearity 2) ไม่มี multicollinearity 3) ศูนย์หมายถึงข้อผิดพลาด 4) ข้อผิดพลาดของทรงกลม (homoscedasticity และไม่มีความสัมพันธ์อัตโนมัติ) 5) การถดถอยแบบไม่สุ่มและ 6) การแจกแจงแบบปกติ ดังนั้นตามที่ฉันเข้าใจจากคำตอบด้านล่างมีเพียงสามข้อแรกเท่านั้นที่จำเป็นในการหาตัวประมาณค่าและสิ่งอื่น ๆ ที่จำเป็นเพื่อให้แน่ใจว่าตัวประมาณค่าเป็นสีน้ำเงิน
Ieva

คำตอบ:


23

คุณสามารถคำนวณตัวประมาณค่า OLS ได้ตลอดเวลานอกเหนือจากตัวพิมพ์ใหญ่เมื่อคุณมีความสัมพันธ์หลายทางที่สมบูรณ์แบบ ในกรณีนี้คุณมีการพึ่งพาหลายชั้นอย่างสมบูรณ์ในเมทริกซ์ X ของคุณ ดังนั้นการคาดคะเนอันดับเต็มจึงไม่เป็นจริงและคุณไม่สามารถคำนวณตัวประมาณ OLS ได้เนื่องจากปัญหาการย้อนกลับ

ในทางเทคนิคคุณไม่จำเป็นต้องใช้สมมติฐาน OLS อื่น ๆ ในการคำนวณตัวประมาณ OLS อย่างไรก็ตามตามทฤษฎีของ Gauss – Markov คุณจำเป็นต้องทำตามสมมติฐาน OLS (สมมติฐาน clrm) เพื่อให้ตัวประมาณของคุณเป็น BLUE

คุณสามารถค้นหาการอภิปรายอย่างกว้างขวางเกี่ยวกับทฤษฎีบทเกาส์ - มาร์กอฟและการคำนวณทางคณิตศาสตร์ที่นี่:

http://economictheoryblog.com/2015/02/26/markov_theorem/

นอกจากนี้หากคุณกำลังมองหาภาพรวมของสมมติฐาน OLS นั่นคือมีกี่สิ่งที่พวกเขาต้องการและจะเกิดอะไรขึ้นถ้าคุณละเมิดสมมติฐาน OLS เดียวอาจพบการอภิปรายที่ซับซ้อนที่นี่:

http://economictheoryblog.com/2015/04/01/ols_assumptions/

ฉันหวังว่าจะช่วยได้ไชโย!


14

ต่อไปนี้เป็นไปตามส่วนข้ามง่ายสำหรับอนุกรมเวลาและแผงมันแตกต่างกันบ้าง

  1. ในประชากรและดังนั้นในตัวอย่างแบบจำลองสามารถเขียนเป็น: นี่คือสมมติฐานเชิงเส้นตรงซึ่งบางครั้งก็เข้าใจผิด รูปแบบที่ควรจะเป็นเชิงเส้นในพารามิเตอร์ - คือβk คุณมีอิสระที่จะทำสิ่งที่คุณต้องการด้วยxผมตัวเอง บันทึกสี่เหลี่ยม ฯลฯ หากไม่ใช่ในกรณีนี้ OLS จะไม่สามารถประมาณโมเดลได้ - คุณต้องมีเครื่องมือประมาณค่าแบบไม่เชิงเส้นอื่น ๆ
    Y=β0+β1x1++βkxk+u=Xβ+u
    βkxi
  2. ตัวอย่างสุ่ม (สำหรับส่วนข้าม) สิ่งนี้จำเป็นสำหรับการอนุมานและคุณสมบัติตัวอย่าง มันค่อนข้างจะไม่เกี่ยวข้องกับกลไกบริสุทธิ์ของ OLS
  3. ไม่มีวิธีที่สมบูรณ์แบบคอลัมน์เพิ่มเติม collinearity นี้ว่าจะต้องไม่มีความสัมพันธ์ที่สมบูรณ์แบบระหว่างฉัน นี่คือข้อสันนิษฐานว่าเพื่อให้แน่ใจว่า( X ' X )เป็น nonsingular เช่นว่า( X ' X ) - 1มีอยู่xi(XX)(XX)1
  4. ศูนย์เงื่อนไขเฉลี่ย: 0 ซึ่งหมายความว่าคุณได้ระบุรูปแบบที่ถูกต้องเช่น: ไม่มีตัวแปรที่ละเว้นและแบบฟอร์มการทำงานที่คุณประเมินนั้นถูกต้องสัมพันธ์กับรูปแบบประชากร (ไม่ทราบ) นี่เป็นข้อสันนิษฐานที่เป็นปัญหากับ OLS อยู่เสมอเนื่องจากไม่มีวิธีที่จะรู้ว่าจริงหรือไม่E(u|X)=0
  5. ความแปรปรวนของข้อผิดพลาดเป็นค่าคงที่มีเงื่อนไขบน : V a r ( u | X ) = σ 2 อีกครั้งสิ่งนี้ไม่มีความหมายสำหรับกลไกของ OLS แต่มั่นใจได้ว่าข้อผิดพลาดมาตรฐานปกติจะถูกต้องXiVar(u|X)=σ2
  6. ปกติ; ระยะข้อผิดพลาดมึงเป็นอิสระจากและตามยู~ N ( 0 , σ 2 ) ครั้งนี้จะไม่เกี่ยวข้องสำหรับกลไกการทำงานของ OLS แต่เพื่อให้แน่ใจว่าการกระจายการสุ่มตัวอย่างของβ kเป็นปกติ^ β k ~ N ( β k , V R ( ^ β k ) )XiuN(0,σ2)βkβk^N(βk,Var(βk^))

ตอนนี้สำหรับความหมาย

  1. ภายใต้ 1 - 6 (สมมติฐานโมเดลเชิงเส้นตรงแบบคลาสสิก) OLS คือ BLUE (ตัวประมาณค่าแบบไม่มีเส้นตรงที่ดีที่สุด) ซึ่งดีที่สุดในแง่ของความแปรปรวนต่ำสุด นอกจากนี้ยังมีประสิทธิภาพในการประมาณเชิงเส้นทั้งหมดเช่นเดียวกับตัวประมาณทั้งหมดที่ใช้ฟังก์ชันของ x ที่สำคัญยิ่งกว่าภายใต้ 1 - 6 OLS ก็เป็นตัวประมาณค่าความแปรปรวนขั้นต่ำที่ไม่เอนเอียง นั่นหมายความว่าในบรรดาตัวประมาณค่าที่เป็นกลางทั้งหมด (ไม่ใช่แค่แบบเชิงเส้น) OLS มีความแปรปรวนที่น้อยที่สุด OLS ก็สอดคล้องกันเช่นกัน

  2. ภายใต้ 1 - 5 (สมมติฐาน Gauss-Markov) OLS เป็นสีน้ำเงินและมีประสิทธิภาพ (ตามที่อธิบายไว้ข้างต้น)

  3. ภายใต้ 1 - 4 OLS ไม่มีความเป็นกลางและสอดคล้องกัน

ที่จริง OLS นี้ยังสอดคล้องภายใต้สมมติฐานที่อ่อนแอกว่าคือว่า: ( 1 ) E ( U ) = 0และ( 2 ) C o V ( x J , U ) = 0 ความแตกต่างจากสมมติฐาน 4 คือภายใต้สมมติฐานนี้คุณไม่จำเป็นต้องตอกย้ำความสัมพันธ์ในการทำงานอย่างสมบูรณ์แบบ(4)(1) E(u)=0(2) Cov(xj,u)=0


ฉันคิดว่าคุณวาดภาพมืดเกินไปเกี่ยวกับเงื่อนไขค่าศูนย์ หากมีอคติจากนั้นการลดผลรวมของการเบี่ยงเบนกำลังสองน้อยที่สุดจะไม่เป็นสิ่งที่เหมาะสมที่จะทำ แต่ในทางกลับกันคุณสามารถจับอคติได้โดยขยับสมการถดถอย (ดูดซับอคติเป็น ) จากนั้น คุณทำมีค่าเฉลี่ย 0. ในคำอื่น ๆ 4 มีทั้งเป็นไปไม่ได้ที่จะตรวจสอบและง่ายที่จะไม่สนใจ β0
3697176

ฉันขอโทษ แต่ฉันไม่เห็นด้วย หรือบางทีฉันแค่เข้าใจคุณผิด? คุณช่วยอธิบายหรือให้ข้อมูลอ้างอิงได้ไหม
Repmat

ฉันไม่ได้พูดถึงการประมาณค่าผิดเพี้ยนโดยเจตนา (เช่นการถดถอยของสัน) ซึ่งฉันเชื่อว่า OP ไม่สนใจฉันกำลังพูดถึงรูปแบบของรูปแบบซึ่ง --- เหตุผลบางอย่างแปลก --- การตกค้างεมีค่าเฉลี่ยอัลฟ่า 0 ในกรณีนี้มันง่ายที่จะทำการแปลงอย่างเป็นทางการเป็นy = α + β 0 + β 1 x 1 + +y=β0+β1x1++βxxn+ϵϵα0โดยที่ค่าเฉลี่ยของ ηเป็นศูนย์ y=α+β0+β1x1++βxxn+ηη
user3697176

@ user3697176 สิ่งที่คุณเขียนไม่ถูกต้อง ฉันเพิ่งโพสต์คำตอบเพื่ออธิบายว่าทำไม
Alecos Papadopoulos

หากสมมติฐานที่ 1 ไม่เป็นที่พอใจเรายังคงใช้ OLS เพื่อประมาณค่าความแปรปรวนร่วมของประชากรไม่ได้ (แม้ว่าเราจะรู้ว่าไม่มีความสัมพันธ์เชิงเส้น)
สูงสุด

7

ความคิดเห็นในคำถามอื่นทำให้เกิดข้อสงสัยเกี่ยวกับความสำคัญของเงื่อนไขโดยให้เหตุผลว่าสามารถแก้ไขได้โดยการรวมคำที่คงที่ในข้อกำหนดการถดถอยและ "สามารถเพิกเฉยได้ง่าย"E(uX)=0

ไม่เป็นเช่นนั้น รวมของระยะอย่างต่อเนื่องในการถดถอยจะดูดซับอาจไม่ใช่ศูนย์หมายถึงเงื่อนไขของระยะข้อผิดพลาดถ้าเราคิดว่านี้หมายถึงเงื่อนไขที่มีอยู่แล้วอย่างต่อเนื่องและไม่ได้เป็นหน้าที่ของ regressors นี่คือสมมติฐานที่สำคัญที่ต้องทำให้เป็นอิสระจากการที่เรารวมคำที่คงที่หรือไม่:

E(uX)=const.

ถ้าเรื่องนี้ถือแล้วค่าเฉลี่ยที่ไม่ใช่ศูนย์กลายเป็นรำคาญซึ่งเราก็สามารถแก้ปัญหาโดยรวมระยะอย่างต่อเนื่อง

แต่ถ้าสิ่งนี้ไม่ถือ (เช่นถ้าค่าเฉลี่ยตามเงื่อนไขไม่ใช่ศูนย์หรือค่าคงที่ที่ไม่ใช่ศูนย์) การรวมคำที่คงที่นั้นไม่ได้แก้ปัญหา: สิ่งที่มันจะ "ดูดซับ" ในกรณีนี้คือขนาด ที่ขึ้นอยู่กับตัวอย่างที่เฉพาะเจาะจงและการรับรู้ของ regressors ในความเป็นจริงสัมประสิทธิ์ที่ไม่รู้จักที่แนบมากับชุดของมันไม่ได้เป็นค่าคงที่ แต่แปรผันขึ้นอยู่กับ regressors ผ่านค่าเฉลี่ยเงื่อนไขที่ไม่คงที่ของคำผิดพลาด

สิ่งนี้หมายความว่าอย่างไร เพื่อลดความซับซ้อนสมมติกรณีที่ง่ายที่สุดที่ ( ฉันดัชนีสังเกต) แต่ที่E ( U ฉัน | x ฉัน ) = H ( xฉัน ) นั่นคือข้อผิดพลาดหมายถึง - อิสระจาก regressors ยกเว้นจากคนที่เกิดขึ้นพร้อมกัน (ในXเราไม่ได้รวมชุดของคน)E(uiXi)=0iE(uixi)=h(xi)X

สมมติว่าเราระบุการถดถอยด้วยการรวมคำที่คงที่ (regressor ของชุดของคำ)

y=a+Xβ+ε

และสัญกรณ์กระชับ

y=Zγ+ε

ที่= ( , , . . . ) ' , Z = [ 1 : X ] , γ = ( , β ) ' , ε = U -a=(a,a,a...)Z=[1:X]γ=(a,β)ε=ua

จากนั้นตัวประมาณ OLS จะเป็น

γ^=γ+(ZZ)1Zε

สำหรับunbiasednessเราจำเป็น 0 แต่E[εZ]=0

E[εixi]=E[uiaxi]=h(xi)a

ซึ่งไม่สามารถเป็นศูนย์สำหรับทั้งหมดเนื่องจากเราตรวจสอบกรณีที่h ( x i )ไม่ใช่ฟังก์ชันคงที่ ดังนั้นih(xi)

E[εZ]0E(γ^)γ

และ

ถ้าจากนั้นแม้ว่าเราจะรวมคำที่คงที่ในการถดถอยไว้ตัวประมาณ OLS จะไม่เป็นกลาง ซึ่งหมายความว่ายัง Gauss-มาร์คอฟส่งผลต่อประสิทธิภาพ, E(uixi)=h(xi)h(xj)=E(ujxj)จะหายไป

ยิ่งไปกว่านั้นข้อผิดพลาด มีค่าเฉลี่ยที่แตกต่างกันสำหรับแต่ละiและดังนั้นจึงมีความแปรปรวนที่แตกต่างกัน (เช่นเป็น heteroskedastic ดังนั้นเงื่อนไขการจัดจำหน่ายใน regressors แตกต่างกันทั่วสังเกตฉัน εii

แต่ที่นี้หมายถึงว่าแม้ระยะข้อผิดพลาดจะถือว่าปกติแล้วการกระจายของข้อผิดพลาดการสุ่มตัวอย่างγ - γจะเป็นปกติ แต่ไม่ mormal ศูนย์เฉลี่ยและมีอคติที่ไม่รู้จัก และความแปรปรวนจะแตกต่างกัน ดังนั้นuiγ^γ

ถ้าดังนั้นแม้ว่าเราจะรวมคำที่คงที่ในการถดถอยการทดสอบสมมติฐานไม่สามารถใช้ได้อีกต่อไปE(uixi)=h(xi)h(xj)=E(ujxj)

กล่าวอีกนัยหนึ่งคือคุณสมบัติ "ตัวอย่าง จำกัด " หายไปหมดแล้ว

เราเหลือตัวเลือกให้ใช้การอนุมานที่ถูกต้องเชิงเส้นกำกับเท่านั้นซึ่งเราจะต้องตั้งสมมติฐานเพิ่มเติม

ดังนั้นใส่เพียงExogeneity เข้มงวดไม่สามารถจะ "เพิกเฉยได้อย่างง่ายดาย"


ฉันไม่แน่ใจว่าฉันเข้าใจอย่างถ่องแท้ ไม่ได้สมมติว่าค่าเฉลี่ยนั้นไม่ใช่หน้าที่ของ regressors ที่เทียบเท่ากับการทำ homoscedasticity หรือไม่?
แบทแมน

@Batman คุณหมายถึงส่วนใดของโพสต์ของฉัน
Alecos Papadopoulos

เมื่อคุณพูดว่า "การรวมคำที่คงที่ในการถดถอยจะดูดซับค่าเฉลี่ยเงื่อนไขที่ไม่เป็นศูนย์ของคำผิดพลาดถ้าเราสมมติว่าค่าเฉลี่ยตามเงื่อนไขนี้เป็นค่าคงที่และไม่ใช่ฟังก์ชันของ regressors นี่เป็นข้อสมมติฐานที่สำคัญ ที่จะต้องทำให้เป็นอิสระจากว่าเราจะรวมคำคงที่หรือไม่ " ไม่ได้สมมติว่าค่าเฉลี่ยตามเงื่อนไขไม่ใช่หน้าที่ของ regressors ตรงตามที่เราสมมติเมื่อเราคิดว่าเป็นเนื้อเดียวกันหรือไม่?
แบทแมน

@Batman Homoskedasticity เป็นข้อสมมติฐานเกี่ยวกับความแปรปรวน หมายความว่า - การพึ่งพาอาศัยกันไม่ได้หมายความว่าก็เป็นค่าคงที่เช่นกันซึ่งเป็นสิ่งจำเป็นสำหรับการรักร่วมเพศแบบมีเงื่อนไข ในความเป็นจริงหมายถึงอิสระE ( U | x ) = C o n s T ร่วมกับ heteroskedasticity แบบมีเงื่อนไขE ( u 2x ) = g ( x ) เป็นตัวแปรรุ่นมาตรฐาน E(uj2x)E(ux)=const.E(u2x)=g(x)
Alecos Papadopoulos
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.