อะไรคือผลของการมีความแปรปรวนแบบไม่คงที่ในเงื่อนไขข้อผิดพลาดในการถดถอยเชิงเส้น


9

หนึ่งในสมมติฐานของการถดถอยเชิงเส้นคือควรมีความแปรปรวนคงที่ในข้อผิดพลาดและว่าช่วงความเชื่อมั่นและการทดสอบสมมติฐานที่เกี่ยวข้องกับรูปแบบขึ้นอยู่กับสมมติฐานนี้ จะเกิดอะไรขึ้นเมื่อเงื่อนไขข้อผิดพลาดไม่มีความแปรปรวนคงที่

คำตอบ:


15

ผลที่ตามมาของความแตกต่างคือ:

  1. สี่เหลี่ยมน้อยสามัญ (OLS) ประมาณการยังคงสอดคล้องกันแต่มันไม่ได้อยู่ที่มีประสิทธิภาพb^=(XX)Xy

  2. การประมาณโดยที่คือไม่ได้ประมาณการสอดคล้องกันอีกต่อไปสำหรับเมทริกซ์ความแปรปรวนของประมาณการของคุณ{ข}} อาจมีความเอนเอียงและไม่สอดคล้องกัน และในทางปฏิบัติมันสามารถประเมินความแปรปรวนได้ต่ำเกินไปVar^(b)=(XX)1σ^2σ^2=1nkeeb^

คะแนน (1) อาจไม่ใช่ประเด็นสำคัญ ผู้คนมักจะใช้เครื่องมือประมาณการ OLS ธรรมดาอยู่ดี แต่ต้องระบุจุด (2) จะทำอย่างไร?

คุณจำเป็นต้องมีข้อผิดพลาดมาตรฐาน heteroscedasticity สอดคล้อง วิธีการมาตรฐานคือการพึ่งพาสมมติฐานขนาดใหญ่ผลเชิงซีโมติกและประเมินความแปรปรวนของโดยใช้:b

Var^(b)=1n(XXn)1S(XXn)1
โดยที่ประมาณว่าขวา)'SS=1nki(xiei)(xiei)

สิ่งนี้ทำให้เกิดข้อผิดพลาดมาตรฐานที่สอดคล้องกับ heteroskedasticity พวกเขายังเป็นที่รู้จักกันในนามข้อผิดพลาดมาตรฐานของฮูเบอร์ - ไวท์ข้อผิดพลาดมาตรฐานที่มีประสิทธิภาพการประมาณ "แซนวิช" ฯลฯ ... แพคเกจสถิติมาตรฐานขั้นพื้นฐานใด ๆ มีตัวเลือกสำหรับข้อผิดพลาดมาตรฐานที่แข็งแกร่ง ใช้มัน!

ความคิดเห็นเพิ่มเติมบางอย่าง (อัปเดต)

ถ้า heteroskedasticity มีขนาดใหญ่พอประมาณการ OLS ปกติอาจมีปัญหาในทางปฏิบัติที่ยิ่งใหญ่ ในขณะที่ยังเป็นตัวประมาณที่สอดคล้องกันคุณอาจพบปัญหาตัวอย่างเล็กน้อยซึ่งการประมาณทั้งหมดของคุณได้รับแรงผลักดันจากการสังเกตความแปรปรวนเล็กน้อยและสูง (นี่คือสิ่งที่ @ seanv507 กำลังพูดถึงในความคิดเห็น) ตัวประมาณ OLS ไม่มีประสิทธิภาพในการให้น้ำหนักมากกว่าการสังเกตค่าความแปรปรวนสูงกว่าค่าที่เหมาะสม การประเมินอาจมีเสียงดังมาก

ปัญหาเกี่ยวกับการพยายามแก้ไขความไร้ประสิทธิภาพคือคุณอาจไม่ทราบเมทริกซ์ความแปรปรวนร่วมสำหรับเงื่อนไขข้อผิดพลาดดังนั้นการใช้บางอย่างเช่นGLSสามารถทำให้สิ่งเลวร้ายยิ่งขึ้นถ้าการประมาณค่าความแปรปรวนของคำว่าแปรปรวนเป็นขยะ

นอกจากนี้ข้อผิดพลาดมาตรฐานของ Huber-White ที่ฉันให้ไว้ข้างต้นอาจมีปัญหาใหญ่ในตัวอย่างเล็ก ๆ มีวรรณกรรมที่มีความยาวในหัวข้อนี้ เช่น. ดู Imbens and Kolesar (2016), "ข้อผิดพลาดมาตรฐานที่แข็งแกร่งในตัวอย่างเล็ก ๆ : คำแนะนำการใช้งานจริง"

ทิศทางการศึกษาต่อ:

หากนี่คือการศึกษาด้วยตนเองสิ่งที่ควรพิจารณาในทางปฏิบัติถัดไปคือข้อผิดพลาดมาตรฐานแบบกลุ่ม สิ่งเหล่านี้ถูกต้องสำหรับความสัมพันธ์โดยพลการภายในกลุ่ม


1
Matthew - ฉันคิดว่าปัญหาที่เกิดขึ้นจริงในทางปฏิบัติจะทำให้ประเด็นชัดเจนขึ้น (1) เช่นตัวประมาณจะไม่ 'ลำเอียง' ต่อภูมิภาคที่มีความแปรปรวนสูงกว่าหรือไม่ - ซึ่งจะเป็นปัญหาที่ใหญ่กว่าหากภูมิภาคเหล่านั้นอยู่ไกลจากค่าเฉลี่ยก่อให้เกิดการใช้ประโยชน์สูง
seanv507

3
@ seanv507 heteroskedasticity ไม่ได้มีอคติกับการประมาณการ OLS สิ่งที่ฉันคิดว่าคุณหมายถึงไม่มีประสิทธิภาพ โดยน้ำหนักของการสังเกตสูงแปรปรวนและการสังเกตต่ำแปรปรวนอย่างเท่าเทียมกัน OLS ประมาณการมีความแปรปรวนสูงกว่าเป็นทฤษฎีทำได้กับสิ่งที่ต้องการน้ำหนักแปรปรวนผกผัน ไม่ว่าคุณต้องการใช้การประมาณในช่วงการประเมิน (เช่นสำหรับการประมาณ ) ขึ้นอยู่กับว่าคุณเชื่อว่าคุณรู้มากไหน σi2bσi2
แมทธิวกันน์

1
Matthew ฉันรู้ว่ามันไม่ได้มีอคติ (ฉันขอโทษ [กับคุณและ OP] สำหรับการใช้คำในเครื่องหมายคำพูด :) ฉันไม่สามารถนึกถึงคำที่เหมาะสมได้) แต่ฉันพยายามที่จะดึงเอาความหมายเชิงปฏิบัติ (และแนะนำให้ OP ต้องการเข้าใจสิ่งเหล่านั้น) - เมื่อ / ทำไมจุด (1) ไม่ใช่ประเด็นสำคัญ คุณจะไม่เห็นด้วยหรือเปล่าว่าผลคือขึ้นอยู่กับภูมิภาคที่มีความแปรปรวนสูงกว่าที่คุณคาดหวัง / ต้องการ (สัญชาตญาณเส้นตรงที่ใช้งานง่ายคือแต่ละภูมิภาคมีน้ำหนักเท่ากันในขณะที่ OLS จะมีสมาธิมากกว่า ภูมิภาคแปรปรวน) b
seanv507

@ seanv507 รู้สึกอิสระที่จะเพิ่มคำตอบของคุณเอง!
Matthew Gunn

ในสถานที่ของการใช้ข้อผิดพลาดมาตรฐานที่แข็งแกร่ง heteroskedasticity (ซึ่ง Ed Leamer ในบทความ 2010 ของเขา"Tantalus บนถนนสู่ Asymptopia"เรียกWhite-washing ) ผู้ใช้อาจพยายามแก้ไขการประเมินจุด (ร่วมกับการประมาณค่าความแปรปรวน) โดย heteroskedasticity แอลเอส นี่อาจจะคุ้มค่าที่จะกล่าวถึงในคำตอบของคุณ
Richard Hardy

3

คำตอบสั้น ๆ นั้นก็คือแบบจำลองของคุณนั้นผิดเช่น

  • เพื่อให้สแควร์สน้อยสามัญเป็นB est L inear U ตัวกระตุ้นE แบบเอนเอียงจะพิจารณาความแปรปรวนคงที่ของข้อผิดพลาด
  • สมมติฐานของเกาส์ - มาร์คอฟ - ถ้าปฏิบัติตาม - รับประกันได้ว่าตัวประมาณกำลังสองน้อยที่สุดสำหรับสัมประสิทธิ์นั้นไม่เอนเอียงและมีความแปรปรวนขั้นต่ำในตัวประมาณเชิงเส้นที่ไม่เอนเอียงทั้งหมดβ

ดังนั้นในกรณีของปัญหาความแตกต่างของการประเมินความแปรปรวนร่วมกับเมทริกซ์ความแปรปรวนเกิดขึ้นซึ่งนำไปสู่ข้อผิดพลาดมาตรฐานที่ผิดพลาดของค่าสัมประสิทธิ์ซึ่งจะนำไปสู่สถิติที่ผิดและค่า p กล่าวโดยย่อถ้าคำผิดพลาดของคุณไม่มีความแปรปรวนคงที่แล้วสี่เหลี่ยมน้อยที่สุดไม่ใช่วิธีที่มีประสิทธิภาพที่สุดในการประมาณ มีลักษณะที่นี้คำถามที่เกี่ยวข้อง


0

"Heteroscedasticity" ทำให้ยากที่จะประเมินค่าเบี่ยงเบนมาตรฐานจริงของข้อผิดพลาดการคาดการณ์ สิ่งนี้สามารถนำไปสู่ช่วงความเชื่อมั่นที่กว้างเกินไปหรือแคบเกินไป (โดยเฉพาะอย่างยิ่งพวกเขาจะแคบเกินไปสำหรับการคาดการณ์ที่ไม่อยู่ในกลุ่มตัวอย่างหากความแปรปรวนของข้อผิดพลาดเพิ่มขึ้นเมื่อเวลาผ่านไป)

นอกจากนี้ตัวแบบการถดถอยอาจเน้นหนักไปที่ชุดย่อยของข้อมูล

การอ้างอิงที่ดี: การทดสอบสมมติฐานของการถดถอยเชิงเส้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.