รายการที่สมบูรณ์ของสมมติฐานปกติสำหรับการถดถอยเชิงเส้นคืออะไร?


72

อะไรคือสมมติฐานปกติสำหรับการถดถอยเชิงเส้น?

พวกเขารวมถึง:

  1. ความสัมพันธ์เชิงเส้นระหว่างตัวแปรอิสระและตัวแปรตาม
  2. ข้อผิดพลาดอิสระ
  3. การแจกแจงปกติของข้อผิดพลาด
  4. homoscedasticity

มีคนอื่นอีกไหม?


3
คุณสามารถค้นหารายการที่ค่อนข้างสมบูรณ์ในหนังสือเล่มเล็ก ๆ ของ William Berry ใน "การทำความเข้าใจสมมติฐานการถดถอย": books.google.co.th/books/about/?hl=th

3
ในขณะที่ผู้ตอบได้ระบุแหล่งข้อมูลที่ดีบางอย่างมันเป็นคำถามที่ยากที่จะตอบในรูปแบบนี้และหนังสือ (มาก) ได้ทุ่มเทให้กับหัวข้อนี้เท่านั้น ไม่มีหนังสือทำอาหารและไม่ควรได้รับสถานการณ์ที่หลากหลายที่การถดถอยเชิงเส้นสามารถรวมได้
Andy W

3
ในทางเทคนิคการถดถอยเชิงเส้น (ธรรมดา) เป็นรูปแบบของรูปแบบ , iid ว่าคำสั่งทางคณิตศาสตร์อย่างง่ายครอบคลุมทุกสมมติฐาน สิ่งนี้ทำให้ฉันคิดว่า @Andy W ที่คุณอาจตีความคำถามในวงกว้างมากขึ้นบางทีในแง่ของศิลปะและการปฏิบัติในการถดถอย ความคิดเพิ่มเติมของคุณเกี่ยวกับสิ่งนี้อาจมีประโยชน์ที่นี่ Y iE[Yi]=XiβYi
whuber

2
@Andy WI ไม่ได้พยายามที่จะแนะนำการตีความของคุณไม่ถูกต้อง ความคิดเห็นของคุณแนะนำวิธีคิดเกี่ยวกับคำถามที่เกินกว่าสมมติฐานทางเทคนิคบางทีอาจชี้ไปที่สิ่งที่จำเป็นสำหรับการตีความผลลัพธ์การถดถอยที่ถูกต้อง มันไม่จำเป็นที่จะต้องเขียนบทความเพื่อตอบโต้ แต่แม้กระทั่งรายการของปัญหาที่กว้างขึ้นบางอย่างก็สามารถให้ความกระจ่างและอาจขยายขอบเขตและความสนใจของหัวข้อนี้
whuber

1
@whuber ถ้านี้หมายความว่าวิธีการที่แตกต่างกันสำหรับที่แตกต่างกันจึงไม่สามารถ IID :)ฉันY ฉันEYi=XiβiYi
mpiktas

คำตอบ:


78

คำตอบนั้นขึ้นอยู่กับว่าคุณให้คำจำกัดความที่ครบถ้วนและปกติอย่างไร สมมติว่าเราเขียนโมเดลการถดถอยเชิงเส้นด้วยวิธีดังต่อไปนี้:

yi=xiβ+ui

โดยที่เป็นเวกเตอร์ของตัวแปรทำนายเป็นพารามิเตอร์ที่น่าสนใจคือตัวแปรตอบสนองและเป็นสิ่งรบกวน หนึ่งในประมาณการที่เป็นไปได้ของคือการประมาณกำลังสองน้อยที่สุด: xiβyiuiβ β = argmin β Σ ( Y ฉัน - xฉัน β ) 2 = ( Σ xฉันx ' ฉัน ) - 1 Σ xฉันYฉัน

β^=argminβ(yixiβ)2=(xixi)1xiyi.

ตอนนี้เกือบทุกตำราเรียนจัดการกับสมมติฐานเมื่อประมาณการนี้มีคุณสมบัติที่ต้องการเช่นความเป็นกลางความสอดคล้องประสิทธิภาพประสิทธิภาพคุณสมบัติการกระจายบางอย่าง ฯลฯβ^

คุณสมบัติเหล่านี้แต่ละอย่างต้องการสมมติฐานบางประการซึ่งไม่เหมือนกัน ดังนั้นคำถามที่ดีกว่าคือการถามว่าจำเป็นต้องใช้สมมติฐานใดสำหรับคุณสมบัติที่ต้องการของการประเมิน LS

คุณสมบัติที่ฉันพูดถึงข้างต้นต้องการตัวแบบความน่าจะเป็นสำหรับการถดถอย และที่นี่เรามีสถานการณ์ที่มีการใช้โมเดลที่แตกต่างกันในฟิลด์ที่ใช้ต่างกัน

กรณีง่าย ๆ คือให้ถือว่าเป็นตัวแปรสุ่มอิสระโดยที่นั้นไม่ใช่การสุ่ม ฉันไม่ชอบคำปกติ แต่เราสามารถพูดได้ว่านี่เป็นกรณีปกติในสาขาที่นำไปใช้มากที่สุด (เท่าที่ฉันรู้)yixi

นี่คือรายการของคุณสมบัติที่ต้องการของการประมาณทางสถิติ:

  1. การประมาณการมีอยู่
  2. Unbiasedness: EEβ^=β
  3. ความสอดคล้อง:เนื่องจาก (นี่คือขนาดของตัวอย่างข้อมูล)β^βnn
  4. ประสิทธิภาพ:มีขนาดเล็กกว่าสำหรับการประมาณการทางเลือกของ\Var(β^)Var(β~)β~β
  5. ความสามารถในการอย่างใดอย่างหนึ่งโดยประมาณหรือคำนวณฟังก์ชั่นการกระจายของ\β^

การดำรงอยู่

คุณสมบัติการดำรงอยู่อาจดูแปลก แต่มันสำคัญมาก ในคำจำกัดความของเรากลับเมทริกซ์ β^xixi.

มันไม่ได้รับประกันว่าผกผันของเมทริกซ์นี้มีอยู่สำหรับสายพันธุ์ที่เป็นไปได้ทั้งหมดของ\ดังนั้นเราจึงได้สมมติฐานแรกของเราทันที:xi

เมทริกซ์ควรอยู่ในระดับเต็มเช่นย้อนกลับได้xixi

Unbiasedness

เรามี ถ้า

Eβ^=(xixi)1(xiEyi)=β,
Eyi=xiβ.

เราอาจนับเป็นข้อสันนิษฐานที่สอง แต่เราอาจระบุไว้ทันทีเนื่องจากนี่เป็นหนึ่งในวิธีธรรมชาติในการกำหนดความสัมพันธ์เชิงเส้น

โปรดทราบว่าเพื่อให้ได้มาซึ่งความเป็นกลางเราต้องการเพียงแค่สำหรับทั้งหมดและเป็นค่าคงที่ ไม่จำเป็นต้องมีคุณสมบัติความเป็นอิสระEyi=xiβixi

ความมั่นคง

สำหรับการรับสมมติฐานเพื่อความมั่นคงที่เราจำเป็นต้องระบุอย่างชัดเจนมากขึ้นสิ่งที่เราหมายถึง\สำหรับลำดับของตัวแปรสุ่มเรามีโหมดการลู่ที่แตกต่างกัน: ในความเป็นไปได้เกือบจะแน่นอนในการแจกแจงและการรับรู้ช่วงเวลา th สมมติว่าเราต้องการได้ความเป็นไปได้ของการลู่เข้า เราสามารถใช้กฎจำนวนมากหรือใช้ความไม่เท่าเทียมกันหลายตัวแปร Chebyshev โดยตรง (ใช้ข้อเท็จจริงที่ว่า ):pEβ^=β

Pr(β^β>ε)Tr(Var(β^))ε2.

(ตัวแปรของความไม่เท่าเทียมกันนี้มาโดยตรงจากการใช้ความไม่เท่าเทียมของมาร์คอฟกับโดยสังเกตว่า .)β^β2Eβ^β2=TrVar(β^)

ตั้งแต่การบรรจบกันในความน่าจะหมายความว่าระยะซ้ายมือจะต้องหายไปสำหรับการใด ๆเป็นเราต้องว่าเป็นnนี่คือเหตุผลที่สมบูรณ์แบบเนื่องจากมีข้อมูลความแม่นยำที่เราคาดการณ์ควรเพิ่มขึ้นε>0nVar(β^)0nβ

เรามี

Var(β^)=(xixi)1(ijxixjCov(yi,yj))(xixi)1.

ความเป็นอิสระทำให้มั่นใจได้ว่าดังนั้นการแสดงออกที่ง่ายขึ้นเพื่อ Cov(yi,yj)=0

Var(β^)=(xixi)1(ixixiVar(yi))(xixi)1.

ทีนี้สมมติว่าแล้ว Var(yi)=const

Var(β^)=(xixi)1Var(yi).

ตอนนี้ถ้าเราต้องการให้ถูก จำกัด สำหรับแต่ละเราจะได้รับ 1nxixin

Var(β)0 as n.

ดังนั้นเพื่อให้ได้ความสอดคล้องเราจึงสันนิษฐานว่าไม่มีความสัมพันธ์อัตโนมัติ ( ) ความแปรปรวนเป็นค่าคงที่และไม่เติบโตมากเกินไป ข้อสมมติฐานแรกมีความพึงพอใจถ้ามาจากกลุ่มตัวอย่างอิสระCov(yi,yj)=0Var(yi)xiyi

อย่างมีประสิทธิภาพ

ผลคลาสสิกเป็นทฤษฎีบท Gauss-มาร์คอฟ เงื่อนไขสำหรับมันเป็นสองเงื่อนไขแรกสำหรับความสอดคล้องและเงื่อนไขสำหรับความเป็นกลาง

คุณสมบัติการกระจาย

หากเป็นเรื่องปกติเราจะได้รับเป็นเรื่องปกติทันทีเนื่องจากเป็นการรวมกันเชิงเส้นของตัวแปรสุ่มแบบปกติ ถ้าเราสันนิษฐานก่อนหน้าสมมติฐานความเป็นอิสระ uncorrelatedness และความแปรปรวนคงที่เราได้ ที่ 2yiβ^

β^N(β,σ2(xixi)1)
Var(yi)=σ2

หากไม่ปกติ แต่เป็นอิสระเราสามารถได้รับการกระจายโดยประมาณของขอบคุณทฤษฎีบทขีด จำกัด กลาง สำหรับวันนี้เราต้องคิดว่า สำหรับบางเมทริกซ์ ความแปรปรวนแบบคงที่สำหรับมาตรฐานเชิงเส้นกำกับนั้นไม่จำเป็นถ้าเราสมมติว่า yiβลิมn →การ 1β^

limn1nxixiA
A
limn1nxixiVar(yi)B.

โปรดทราบว่ามีความแปรปรวนคงที่ของเรามีที่2 ทฤษฎีบทขีด จำกัด กลางจากนั้นให้ผลลัพธ์ต่อไปนี้แก่เรา:yB=σ2A

n(β^β)N(0,A1BA1).

ดังนั้นจากนี้เราจะเห็นว่าความเป็นอิสระและความแปรปรวนคงที่สำหรับและสมมติฐานบางอย่างสำหรับทำให้เรามีจำนวนมากของคุณสมบัติที่มีประโยชน์สำหรับการประมาณการ LS \yixiβ^

ประเด็นก็คือสมมติฐานเหล่านี้สามารถผ่อนคลายได้ ตัวอย่างเช่นเราต้องการให้ไม่ใช่ตัวแปรสุ่ม สมมติฐานนี้เป็นไปไม่ได้ในการใช้งานทางเศรษฐมิติ ถ้าเราปล่อยจะสุ่มเราจะได้รับผลที่คล้ายกันถ้าใช้ความคาดหวังที่มีเงื่อนไขและคำนึงถึงแบบแผนของ\สมมติฐานที่เป็นอิสระก็สามารถผ่อนคลายได้เช่นกัน เราแสดงให้เห็นแล้วว่าบางครั้งก็ไม่จำเป็นต้องมีความสัมพันธ์เท่านั้น แม้สิ่งนี้จะผ่อนคลายมากขึ้นและยังคงเป็นไปได้ที่จะแสดงให้เห็นว่าการประเมิน LS จะเป็นไปอย่างสม่ำเสมอและไม่แสดงอาการปกติ ดูตัวอย่างหนังสือของไวท์เพื่อดูรายละเอียดเพิ่มเติมxixixi


ความคิดเห็นเกี่ยวกับทฤษฎีบทเกาส์ - มาร์คอฟ เพียงระบุว่า OLS นั้นดีกว่าตัวประมาณค่าอื่น ๆ ที่เป็นฟังก์ชันเชิงเส้นของข้อมูล อย่างไรก็ตามตัวประมาณที่ใช้กันทั่วไปจำนวนมากโดยเฉพาะอย่างยิ่งความน่าจะเป็นสูงสุด (ML) ไม่ใช่ฟังก์ชันเชิงเส้นของข้อมูลและสามารถมีประสิทธิภาพมากกว่า OLS ภายใต้เงื่อนไขของทฤษฎี Gauss-Markov
Peter Westfall

@PeterWestfall สำหรับข้อผิดพลาดปกติของ Gaussian MLE คือ OLS :) และคุณไม่สามารถรับประสิทธิภาพได้ดีกว่า MLE ฉันพยายามที่จะเบาด้วยรายละเอียดทางคณิตศาสตร์ในโพสต์นี้
mpiktas

1
ประเด็นของฉันคือมีตัวประมาณค่าที่มีประสิทธิภาพมากกว่า OLS ภายใต้การแจกแจงแบบไม่ปกติเมื่อมีเงื่อนไขของ GM จีเอ็มนั้นไร้ประโยชน์เป็นหลักเพราะคำว่า OLS นั้น "ดี" ภายใต้กฎเกณฑ์ที่ไม่ปกติเพราะตัวประมาณที่ดีที่สุดในกรณีที่ไม่ใช่แบบปกติคือฟังก์ชันที่ไม่เชิงเส้นของข้อมูล
Peter Westfall

@mpiktas ดังนั้นทั้งเราใช้เป็นไม่สุ่มและใช้ประมาณการหรือเราใช้เป็นแบบสุ่มและใช้ประมาณการ ? xY^xY|x^
Partendan Rajendran

16

มีคำตอบที่ดีจำนวนมากที่นี่ มันเกิดขึ้นกับฉันว่ามีข้อสันนิษฐานข้อหนึ่งที่ไม่ได้ระบุไว้ (อย่างน้อยก็ไม่ชัดเจน) แบบจำลองการถดถอยสมมติว่า (ค่าของตัวแปรอธิบาย / ตัวทำนายของคุณ) ได้รับการแก้ไขและรู้จักและความไม่แน่นอนทั้งหมดในสถานการณ์นั้นมีอยู่ภายในตัวแปรนอกจากนี้ความไม่แน่นอนนี้จะถือว่าเป็นข้อผิดพลาดในการสุ่มตัวอย่างเท่านั้น XY

นี่คือวิธีการคิดเกี่ยวกับเรื่องนี้คือ: ถ้าคุณกำลังสร้างรูปแบบการอธิบาย (การสร้างแบบจำลองผลการทดลอง) คุณรู้ว่าสิ่งที่ระดับของตัวแปรอิสระที่มีเพราะคุณจัดการ / บริหารงานพวกเขา ยิ่งกว่านั้นคุณตัดสินใจว่าระดับเหล่านั้นจะเป็นอย่างไรก่อนที่คุณจะเริ่มรวบรวมข้อมูล ดังนั้นคุณจึงกำหนดแนวคิดของความไม่แน่นอนทั้งหมดในความสัมพันธ์ดังที่มีอยู่ภายในการตอบสนอง ในทางตรงกันข้ามถ้าคุณกำลังสร้างแบบจำลองการทำนายมันเป็นความจริงที่ว่าสถานการณ์นั้นแตกต่างกัน แต่คุณยังคงปฏิบัติต่อผู้ทำนายราวกับว่าพวกเขาได้รับการแก้ไขและเป็นที่รู้จักเพราะในอนาคตเมื่อคุณใช้แบบจำลองเพื่อทำนาย เกี่ยวกับค่าที่น่าจะเป็นของคุณจะมีเวกเตอร์yxและแบบจำลองได้รับการออกแบบมาเพื่อรักษาค่าเหล่านั้นราวกับว่าถูกต้อง นั่นคือคุณจะได้รับการตั้งครรภ์ของความไม่แน่นอนที่เป็นค่าที่ไม่รู้จักY y

สมมติฐานเหล่านี้สามารถเห็นได้ในสมการสำหรับแบบจำลองการถดถอยต้นแบบ: แบบจำลองที่มีความไม่แน่นอน (อาจเกิดจากข้อผิดพลาดในการวัด) ในและอาจมีกระบวนการสร้างข้อมูลเดียวกัน คาดว่าจะมีลักษณะดังนี้: ที่แสดงถึงข้อผิดพลาดในการวัดแบบสุ่ม (สถานการณ์เช่นหลังได้นำไปสู่การทำงานกับข้อผิดพลาดในตัวแปรแบบจำลองผลเบื้องต้นคือถ้ามีข้อผิดพลาดในการวัดใน , naive

yi=β0+β1xi+εi
x
yi=β^0+β^1(xi+ηi)+ε^i,
ηxβ^1จะถูกลดทอน - ใกล้กับ 0 มากกว่ามูลค่าที่แท้จริงของมันและหากมีข้อผิดพลาดในการวัดในการทดสอบทางสถิติของจะถูกลดทอนลงแต่ไม่มีอคติ) yβ^

หนึ่งผลการปฏิบัติของความไม่สมดุลที่แท้จริงในสมมติฐานทั่วไปคือว่าถอยบนจะแตกต่างจากถอยในปี(ดูคำตอบของฉันที่นี่: อะไรคือความแตกต่างระหว่างการทำถดถอยเชิงเส้นบน y กับ x กับ x กับ yสำหรับการอภิปรายรายละเอียดเพิ่มเติมของข้อเท็จจริงนี้)yxxy


มันหมายความว่าอะไร"คงที่" | "สุ่ม"เป็นภาษาธรรมดาหรือไม่ และวิธีแยกแยะระหว่างเอฟเฟกต์คงที่และสุ่ม (= ปัจจัย) ฉันคิดว่าในการออกแบบของฉันมี 1 ปัจจัยที่รู้จักกันคงที่มี 5 ระดับ ขวา?
สแตน

1
@stan ฉันเข้าใจความสับสนของคุณ คำศัพท์ในสถิติมักทำให้เกิดความสับสนและไม่ช่วยเหลือ ในกรณีนี้ "แก้ไข" ไม่เหมือนกับของแก้ไขใน 'ลักษณะพิเศษถาวร & ลักษณะพิเศษแบบสุ่ม' (แม้ว่าจะเกี่ยวข้องกัน) ที่นี่เราไม่ได้พูดถึงผลกระทบ - เรากำลังพูดถึงข้อมูลนั่นคือตัวแปรทำนาย / อธิบายของคุณ วิธีที่ง่ายที่สุดในการทำความเข้าใจแนวคิดของข้อมูลที่ถูกแก้ไขคือคิดถึงการทดลองที่วางแผนไว้ ก่อนที่คุณจะทำอะไรเมื่อคุณกำลังออกแบบการทดสอบคุณจะต้องตัดสินใจว่าระดับการอธิบายของคุณคืออะไรคุณจะไม่ค้นพบสิ่งเหล่านี้ตลอดเส้นทาง XX
gung

การสร้างแบบจำลองการทำนายด้วย W / นั้นไม่เป็นความจริง แต่เราจะปฏิบัติต่อข้อมูลของเราด้วยวิธีนี้ในอนาคตเมื่อเราใช้แบบจำลองเพื่อคาดการณ์ X
gung

ทำไม ands และεมีหมวกอยู่ในสมการด้านล่าง แต่ไม่ใช่ในอันดับสูงสุด?
user1205901

2
@ user1205901 โมเดลอันดับต้น ๆ ของกระบวนการสร้างข้อมูลด้านล่างเป็นค่าประมาณของคุณ
gung

8

สมมติฐานของโมเดลการถดถอยเชิงเส้นแบบคลาสสิกประกอบด้วย:

  1. พารามิเตอร์เชิงเส้นและข้อกำหนดรุ่นที่ถูกต้อง
  2. อันดับเต็มของ X Matrix
  3. ตัวแปรอธิบายต้องอยู่ภายนอก
  4. ข้อกำหนดข้อผิดพลาดที่เป็นอิสระและเป็นเอกเทศ
  5. ข้อกำหนดข้อผิดพลาดแบบกระจายทั่วไปในประชากร

แม้ว่าคำตอบที่นี่จะให้ภาพรวมที่ดีของสมมติฐาน OLS คลาสสิก แต่คุณสามารถหาคำอธิบายที่ครอบคลุมมากขึ้นเกี่ยวกับสมมติฐานของโมเดลการถดถอยเชิงเส้นแบบดั้งเดิมที่นี่:

https://economictheoryblog.com/2015/04/01/ols_assumptions/

นอกจากนี้บทความอธิบายถึงผลที่ตามมาในกรณีที่หนึ่งละเมิดสมมติฐานบางอย่าง


6

สามารถใช้สมมติฐานที่แตกต่างกันเพื่อปรับ OLS

  • ในบางสถานการณ์ผู้เขียนทดสอบส่วนที่เหลือเพื่อความเป็นปกติ
    • แต่ในสถานการณ์อื่น ๆ ที่เหลือไม่ปกติและผู้เขียนใช้ OLS อยู่ดี!
  • คุณจะเห็นข้อความที่บอกว่า homoscedasticity เป็นสมมติฐาน
    • แต่คุณเห็นนักวิจัยที่ใช้ OLS เมื่อมีการละเมิดความเป็นเกย์

สิ่งที่ช่วยให้?!

คำตอบคือชุดของสมมติฐานที่แตกต่างกันสามารถนำมาใช้เพื่อแสดงให้เห็นถึงการใช้การประมาณกำลังสองน้อยที่สุด (OLS) OLS เป็นเครื่องมือเหมือนค้อน: คุณสามารถใช้ค้อนบนตะปู แต่คุณสามารถใช้บนหมุดตอกเพื่อแยกน้ำแข็ง ฯลฯ ...

สมมติฐานสองประเภทกว้าง ๆ คือสมมติฐานที่ใช้กับกลุ่มตัวอย่างขนาดเล็กและกลุ่มที่ต้องพึ่งพากลุ่มตัวอย่างขนาดใหญ่เพื่อให้สามารถใช้ทฤษฎีบทขีด จำกัด กลางได้

1. สมมติฐานตัวอย่างเล็ก ๆ

สมมติฐานตัวอย่างเล็กน้อยตามที่กล่าวไว้ในฮายาชิ (2000) คือ:

  1. เส้นตรง
  2. เข้มงวด exogeneity
  3. ไม่มีความหลากหลายทางชีวภาพ
  4. ข้อผิดพลาดทรงกลม (homoscedasticity)

ภายใต้ (1) - (4) ทฤษฎีบทเกาส์ - มาร์กอฟใช้และตัวประมาณกำลังสองน้อยที่สุดธรรมดาคือตัวประมาณแบบไม่เอนเอียงเชิงเส้นที่ดีที่สุด

  1. เรื่องธรรมดาของเงื่อนไขข้อผิดพลาด

การสมมติข้อผิดพลาดตามปกติเพิ่มเติมช่วยให้สามารถทดสอบสมมติฐานได้ หากเงื่อนไขข้อผิดพลาดเป็นเงื่อนไขปกติการแจกแจงของตัวประมาณค่า OLS ก็เป็นเงื่อนไขปกติเช่นกัน

อีกประเด็นที่น่าสังเกตก็คือด้วยค่านิยมปกติตัวประมาณค่า OLS ก็เป็นตัวประมาณค่าความน่าจะเป็นสูงสุดด้วย

2. สมมติฐานตัวอย่างขนาดใหญ่

สมมติฐานเหล่านี้สามารถแก้ไข / ผ่อนคลายได้ถ้าเรามีตัวอย่างขนาดใหญ่เพียงพอเพื่อให้เราสามารถพึ่งพากฎหมายจำนวนมาก (สำหรับความสอดคล้องของตัวประมาณค่า OLS) และทฤษฎีขีด จำกัด กลาง (เพื่อให้การกระจายตัวตัวอย่างของตัวประมาณค่า OLS มาบรรจบกัน การกระจายตัวแบบปกติและเราสามารถทำการทดสอบสมมติฐาน, พูดคุยเกี่ยวกับค่า p ฯลฯ .. )

ฮายาชิเป็นคนเศรษฐศาสตร์มหภาคและสมมติฐานตัวอย่างขนาดใหญ่ของเขาถูกกำหนดโดยคำนึงถึงบริบทของอนุกรมเวลา:

  1. เป็นเส้นตรง
  2. เครื่องเขียนอัตลักษณ์
  3. regressors ที่กำหนดไว้ล่วงหน้า: ข้อผิดพลาดเป็นมุมฉากกับข้อผิดพลาดเกิดขึ้นพร้อมกันของพวกเขา
  4. E[xx]เต็มอันดับ
  5. xiϵiเป็นลำดับความแตกต่างของการพลีชีพด้วยช่วงเวลาที่ จำกัด
  6. ช่วงเวลาที่ 4 ของ regressors จำกัด

คุณอาจพบกับเวอร์ชันที่แข็งแกร่งกว่าของสมมติฐานเหล่านี้ตัวอย่างเช่นข้อกำหนดข้อผิดพลาดนั้นมีความเป็นอิสระ

สมมติฐานตัวอย่างขนาดใหญ่ที่เหมาะสมนำคุณไปสู่การกระจายตัวตัวอย่างของเครื่องมือประมาณค่า OLS ที่เป็นอาการปกติ

อ้างอิง

Hayashi, Fumio, 2000, เศรษฐมิติ


5

ทุกอย่างเกี่ยวกับสิ่งที่คุณต้องการทำกับโมเดลของคุณ ลองนึกภาพว่าข้อผิดพลาดของคุณเบ้บวก / ไม่ปกติ หากคุณต้องการทำนายช่วงเวลาคุณสามารถทำได้ดีกว่าการใช้การแจกแจงแบบ t หากความแปรปรวนของคุณเล็กลงตามค่าที่คาดการณ์ไว้น้อยกว่าอีกครั้งคุณจะทำช่วงเวลาการทำนายที่ใหญ่เกินไป

เป็นการดีกว่าที่จะเข้าใจว่าทำไมจึงมีสมมติฐาน


4

ไดอะแกรมต่อไปนี้แสดงให้เห็นว่าจำเป็นต้องใช้สมมติฐานใดเพื่อให้ได้ผลลัพธ์ที่เกี่ยวข้องในสถานการณ์ที่แน่นอนและไม่แน่นอน

ข้อ จำกัด OLS

asymptotic OLS สมมติฐาน

ฉันคิดว่ามันเป็นสิ่งสำคัญที่จะคิดเกี่ยวกับไม่เพียง แต่สมมติฐานคืออะไร แต่ความหมายของสมมติฐานเหล่านั้นคืออะไร ตัวอย่างเช่นหากคุณสนใจที่จะมีค่าสัมประสิทธิ์ที่เป็นกลางคุณก็ไม่จำเป็นต้องมีความรักร่วมเพศ


2

ต่อไปนี้เป็นข้อสมมติฐานของการวิเคราะห์การถดถอยเชิงเส้น

สเปคที่ถูกต้อง ระบุรูปแบบการทำงานเชิงเส้นอย่างถูกต้อง

exogeneity เข้มงวด ข้อผิดพลาดในการถดถอยควรมีค่าเฉลี่ยเป็นศูนย์

ไม่มีพหุ regressors ใน X จะต้องเป็นอิสระเป็นเส้นตรง

Homoscedasticityซึ่งหมายความว่าคำผิดพลาดมีความแปรปรวนเดียวกันในแต่ละการสังเกต

ไม่มีความสัมพันธ์อัตโนมัติ : ข้อผิดพลาดจะไม่สัมพันธ์กันระหว่างการสังเกต

ภาวะปกติ บางครั้งมีการสันนิษฐานเพิ่มเติมว่าข้อผิดพลาดนั้นมีเงื่อนไขการกระจายแบบปกติบน regressors

การสังเกต Iid :เป็นอิสระจากและมีการกระจายแบบเดียวกับ,สำหรับทั้งหมด( x j , y j ) i j(xi,yi)(xj,yj)ij

สำหรับข้อมูลเพิ่มเติมเยี่ยมชมหน้านี้


4
มากกว่า "ไม่มีความหลากหลายทางเชื้อชาติ" ฉันจะพูดว่า "ไม่มีการพึ่งพาเชิงเส้น" Collinearity มักใช้เป็นแบบต่อเนื่องมากกว่าการวัดแบบเด็ดขาด มันเป็นคอลลิเออริตี้ที่เข้มงวดหรือแน่นอนเท่านั้นที่ถูกห้าม
Peter Flom

2
แล้วการถดถอยอนุกรมเวลาล่ะ สิ่งที่เกี่ยวกับกำลังสองน้อยที่สุดทั่วไป? รายการของคุณจะอ่านคล้ายกับรายการของบัญญัติเมื่อในความเป็นจริงสมมติฐาน 4 ข้อสุดท้ายอาจ จำกัด มากเกินไปถ้าเราใส่ใจเพียงความมั่นคงและความเป็นเชิงเส้นกำกับเชิงสัมพัทธ์ของการประมาณกำลังสองน้อยที่สุด
mpiktas

1
Multicollinearity ทำให้เกิดปัญหาในการตีความ (เกี่ยวข้องกับการระบุตัวตนของพารามิเตอร์บางตัว) แต่มันไม่ได้เป็นข้อสันนิษฐานมาตรฐานของตัวแบบถดถอยเชิงเส้น ความหลากหลายทางชีวภาพที่ใกล้เคียงกันนั้นเป็นปัญหาการคำนวณเป็นหลัก
whuber

@whuber & Peter Flom: ตามที่ฉันอ่านในหนังสือของ Gujarati ที่หน้า no. 65-75 tiny.cc/cwb2g มันนับว่า "no multicollinearity" เป็นข้อสันนิษฐานของการวิเคราะห์การถดถอย
love-stats

@mpiktas: หากคุณไปที่ URL ที่ระบุในคำตอบคุณจะพบข้อสันนิษฐานเกี่ยวกับการถดถอยอนุกรมเวลา
love-stats

2

ไม่มีสิ่งใดเป็นรายการของสมมติฐานเดียวจะมีอย่างน้อย 2: หนึ่งสำหรับการแก้ไขและหนึ่งสำหรับเมทริกซ์การออกแบบแบบสุ่ม นอกจากนี้คุณอาจต้องการดูข้อสันนิษฐานสำหรับการถดถอยอนุกรมเวลา (ดูหน้า 13)

กรณีที่การออกแบบเมทริกซ์จะคงอาจจะเป็นหนึ่งที่พบมากที่สุดและการตั้งสมมติฐานของมันมักจะแสดงเป็นทฤษฎีบท Gauss-มาร์คอฟ การออกแบบแบบตายตัวหมายความว่าคุณสามารถควบคุมผู้ลงทะเบียนได้อย่างแท้จริง ตัวอย่างเช่นคุณดำเนินการทดลองและสามารถตั้งค่าพารามิเตอร์เช่นอุณหภูมิความดัน ฯลฯ ดูเพิ่มเติม p.13 ที่นี่X

น่าเสียดายที่ในสังคมศาสตร์เช่นเศรษฐศาสตร์คุณแทบจะไม่สามารถควบคุมพารามิเตอร์ของการทดสอบได้ โดยปกติคุณจะสังเกตเห็นสิ่งที่เกิดขึ้นในทางเศรษฐกิจบันทึกตัวชี้วัดสภาพแวดล้อมแล้วถอยกลับไป ปรากฎว่ามันเป็นสถานการณ์ที่แตกต่างและยากกว่าเรียกว่าการออกแบบแบบสุ่ม ในกรณีนี้ทฤษฎีบทเกาส์ - มาร์คอฟถูกแก้ไขด้วยดูที่ p.12 ที่นี่ด้วย คุณสามารถดูได้ว่าเงื่อนไขจะแสดงในแง่ของความน่าจะเป็นตามเงื่อนไขซึ่งไม่ใช่การเปลี่ยนแปลงที่ไม่น่ากลัว

ในเศรษฐมิติสมมติฐานมีชื่อ:

  • เป็นเส้นตรง
  • exogeneity ที่เข้มงวด
  • ไม่มีความหลากหลายทางชีวภาพ
  • ความแปรปรวนข้อผิดพลาดของทรงกลม (รวมถึงความเป็นเนื้อเดียวกันและไม่มีความสัมพันธ์)

สังเกตว่าฉันไม่เคยพูดถึงเรื่องปกติ ไม่ใช่ข้อสมมติฐานมาตรฐาน มันมักจะใช้ในหลักสูตรการถดถอยแบบอินโทรเพราะมันทำให้บางรุ่นง่ายขึ้น แต่มันไม่จำเป็นสำหรับการถดถอยในการทำงานและมีคุณสมบัติที่ดี


1

สมมติฐานของความเป็นเชิงเส้นคือแบบจำลองนั้นเป็นแบบเส้นตรงในพารามิเตอร์ มันก็ดีที่จะมีตัวแบบการถดถอยที่มีเอฟเฟกต์กำลังสองหรือสูงกว่าตราบใดที่ฟังก์ชันกำลังของตัวแปรอิสระเป็นส่วนหนึ่งของตัวแบบเชิงเส้น หากแบบจำลองไม่มีเงื่อนไขการสั่งซื้อที่สูงกว่าเมื่อมันควรจะเห็นได้ชัดว่าการขาดความพอดีจะปรากฏในเนื้อเรื่องของส่วนที่เหลือ อย่างไรก็ตามตัวแบบการถดถอยมาตรฐานไม่ได้รวมตัวแบบที่ตัวแปรอิสระยกกำลังของพารามิเตอร์ (แม้ว่าจะมีวิธีการอื่นที่สามารถนำมาใช้ในการประเมินรูปแบบดังกล่าว) โมเดลดังกล่าวมีพารามิเตอร์ที่ไม่ใช่เชิงเส้น


1

สัมประสิทธิ์การถดถอยกำลังสองน้อยที่สุดให้วิธีสรุปแนวโน้มคำสั่งแรกในข้อมูลทุกประเภท @mpiktas คำตอบคือการรักษาอย่างละเอียดของเงื่อนไขภายใต้สี่เหลี่ยมน้อยที่สุดจะดีที่สุดมากขึ้น ฉันต้องการใช้วิธีอื่นและแสดงกรณีทั่วไปมากที่สุดเมื่อใช้กำลังสองน้อยที่สุด มาดูสูตรทั่วไปที่สุดของสมการกำลังสองน้อยที่สุด:

E[Y|X]=α+βX

มันเป็นแบบจำลองเชิงเส้นสำหรับค่าเฉลี่ยเชิงเงื่อนไขของการตอบสนอง

หมายเหตุฉันมีข้อผิดพลาด หากคุณต้องการสรุปความไม่แน่นอนของคุณจะต้องสนใจทฤษฎีบทขีด จำกัด กลาง ระดับทั่วไปส่วนใหญ่ของตัวประมาณกำลังสองน้อยสุดจะรวมตัวกันเป็นปกติเมื่อพบเงื่อนไขของ Lindeberg : ต้มลงเงื่อนไขของ Lindeberg สำหรับกำลังสองน้อยที่สุดต้องการให้เศษส่วนของส่วนที่เหลือกำลังสองที่ใหญ่ที่สุดเป็นผลรวมของผลรวมของ\ หากการออกแบบของคุณจะทำการสุ่มตัวอย่างที่ใหญ่กว่าและมีขนาดใหญ่กว่านั้นการทดลองก็คือ "ตายในน้ำ"n βn

เมื่อตรงตามเงื่อนไขของ Lindeberg พารามิเตอร์การถดถอยจะถูกกำหนดไว้อย่างดีและตัวประมาณเป็นตัวประมาณที่ไม่เอนเอียงซึ่งมีการแจกแจงแบบประมาณ ตัวประมาณที่มีประสิทธิภาพมากขึ้นอาจมีอยู่ ในกรณีอื่น ๆ ของ heteroscedasticity หรือข้อมูลความสัมพันธ์มักจะเป็นประมาณการถ่วงน้ำหนักเป็นมีประสิทธิภาพมากขึ้น นั่นเป็นเหตุผลที่ฉันจะไม่สนับสนุนการใช้วิธีไร้เดียงสาเมื่อมีวิธีที่ดีกว่า แต่พวกเขามักจะไม่ได้!บีตาββ^


1
สำหรับเศรษฐมิติ: มันมีค่าที่ชี้ให้เห็นว่าเงื่อนไขนี้มีความหมายถึงความเป็นเอกเทศที่เข้มงวดดังนั้นความเป็นเอกภาพที่เข้มงวดจึงไม่จำเป็นต้องระบุเป็นข้อสันนิษฐานในแบบจำลองตามเงื่อนไขที่มีเงื่อนไข มันเป็นเรื่องจริงโดยอัตโนมัติทางคณิตศาสตร์ (ทฤษฎีการพูดคุยที่นี่ไม่ใช่การประมาณ)
Peter Westfall
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.