อะไรคืออันตรายของการละเมิดข้อสันนิษฐานเกี่ยวกับความเป็นเนื้อเดียวกันสำหรับการถดถอยเชิงเส้น?


28

ยกตัวอย่างเช่นพิจารณาChickWeightชุดข้อมูลในอาร์ความแปรปรวนเพิ่มขึ้นตามกาลเวลาดังนั้นหากฉันใช้การถดถอยเชิงเส้นอย่างง่ายเช่น:

m <- lm(weight ~ Time*Diet, data=ChickWeight)

คำถามของฉัน:

  1. รูปแบบใดที่จะเป็นที่น่าสงสัย?
  2. ปัญหา จำกัด อยู่ที่การประมาณนอกTimeช่วงหรือไม่?
  3. การถดถอยเชิงเส้นมีความอดทนต่อการละเมิดสมมติฐานนี้อย่างไร (กล่าวคือมันจะต้องทำให้เกิดปัญหาแบบ heteroscedastic อย่างไร)

1
นอกจากสิ่งที่กล่าวถึงในคำตอบช่วงเวลาการทำนายของคุณจะไม่มีการครอบคลุมที่เหมาะสม
Glen_b -Reinstate Monica

คำตอบ:


22

ตัวแบบเชิงเส้น (หรือ "กำลังสองน้อยที่สุดธรรมดา") ยังคงมีคุณสมบัติที่ไม่เอนเอียงในกรณีนี้

ในหน้าของ heteroskedasticity ในแง่ของข้อผิดพลาดคุณยังคงมีการประมาณค่าพารามิเตอร์ที่เป็นกลาง แต่คุณปล่อยเมทริกซ์ความแปรปรวนร่วม: การอนุมานของคุณ (เช่นการทดสอบพารามิเตอร์) อาจถูกปิด การแก้ไขทั่วไปคือการใช้วิธีการที่แข็งแกร่งสำหรับการคำนวณเมทริกซ์ความแปรปรวนร่วมหรือที่รู้จักข้อผิดพลาดมาตรฐาน สิ่งที่คุณใช้นั้นขึ้นอยู่กับโดเมน แต่วิธีการของไวท์เป็นการเริ่มต้น

และสำหรับความสมบูรณ์ความสัมพันธ์แบบต่อเนื่องของข้อผิดพลาดนั้นแย่กว่าเนื่องจากจะนำไปสู่การประมาณค่าพารามิเตอร์แบบเอนเอียง


การประเมินข้อผิดพลาดมาตรฐานที่แข็งแกร่ง (เช่นวิธีการของ White) ช่วยในการทดสอบ / ช่วงความมั่นใจของพารามิเตอร์ แต่ไม่ได้ช่วยในการทำนายช่วงเวลา?
kjetil b halvorsen

ความแปรปรวนร่วมของพารามิเตอร์เวกเตอร์ใช้ในการคำนวณการคาดการณ์ดังนั้นช่วงเวลาการทำนายของคุณก็จะมีอคติโดยทั่วไปเช่นกัน
Mustafa S Eisa

แก้ไข. การถือครองที่เป็นกลางการอนุมานอาจถูกปิด อีกสองปรสิตถูกต้องว่า
Dirk Eddelbuettel

1
ขอบคุณสำหรับการจับมันและการมีความชัดเจน (มากกว่าเงียบหรือ "ขับโดย" downvote) ฉันเป็นเพียงเลอะเทอะเล็กน้อยในการใช้คำศัพท์ ดีขึ้นแล้ว.
Dirk Eddelbuettel

23

Homoscedasticity เป็นหนึ่งในข้อสมมติของเกาส์มาร์คอฟที่จำเป็นสำหรับ OLS ในการเป็นตัวประมาณค่าแบบไม่มีเส้นตรงที่ดีที่สุด (BLUE)

β

สรุปข้อมูลจากเว็บไซต์ข้างต้นโดยสังเขป heteroscedasticity ไม่ได้แนะนำอคติในการประมาณค่าสัมประสิทธิ์ของคุณ อย่างไรก็ตามความแตกต่างระหว่างความแปรปรวนร่วมคุณไม่สามารถประเมินเมทริกซ์ความแปรปรวนร่วมแปรปรวนได้อย่างถูกต้อง ดังนั้นข้อผิดพลาดมาตรฐานของสัมประสิทธิ์จึงผิด นี่หมายความว่าเราไม่สามารถคำนวณค่าสถิติและค่า p ใด ๆ ได้ดังนั้นจึงไม่สามารถทำการทดสอบสมมติฐานได้ โดยรวมแล้วภายใต้ heteroscedasticity OLS จะสูญเสียประสิทธิภาพและไม่ใช่สีน้ำเงินอีกต่อไป

อย่างไรก็ตาม heteroscedasticity ไม่ใช่จุดสิ้นสุดของโลก โชคดีที่การแก้ไขความแตกต่างที่ยากไม่ใช่เรื่องยาก ตัวประมาณแซนวิชช่วยให้คุณสามารถประเมินข้อผิดพลาดมาตรฐานที่สอดคล้องกันสำหรับค่าสัมประสิทธิ์ อย่างไรก็ตามการคำนวณข้อผิดพลาดมาตรฐานผ่านตัวประมาณแซนวิชมาที่ค่าใช้จ่าย ตัวประมาณไม่ได้มีประสิทธิภาพมากและข้อผิดพลาดมาตรฐานอาจมีขนาดใหญ่มาก วิธีหนึ่งที่จะได้รับประสิทธิภาพคืนมาคือการจัดกลุ่มข้อผิดพลาดมาตรฐานหากเป็นไปได้

คุณสามารถค้นหาข้อมูลรายละเอียดเพิ่มเติมเกี่ยวกับเรื่องนี้ในเว็บไซต์ที่ฉันอ้างถึงข้างต้น


12

การขาดความเป็นเนื้อเดียวกันอาจทำให้การประมาณการข้อผิดพลาดมาตรฐานที่ไม่น่าเชื่อถือของพารามิเตอร์ การประมาณพารามิเตอร์ไม่มีอคติ แต่การประมาณการอาจไม่มีประสิทธิภาพ (ไม่ใช่ BLUE) คุณสามารถหาข้อมูลเพิ่มเติมได้จากลิงค์ต่อไปนี้


12

เป็นการดีที่จะจำไว้ว่าการมีตัวประมาณค่าที่เป็นกลางไม่ได้หมายความว่าแบบจำลองนั้น "ถูกต้อง" ในหลาย ๆ สถานการณ์เกณฑ์กำลังสองน้อยที่สุดสำหรับการประมาณค่าสัมประสิทธิ์การถดถอยก่อให้เกิดแบบจำลองที่มีสัมประสิทธิ์การถดถอย (1) ที่ไม่มีความหมายที่ถูกต้องหรือ (2) การคาดการณ์ที่เอียงไปสู่การลดข้อผิดพลาดขนาดใหญ่ โดยมีข้อผิดพลาดเล็ก ๆ น้อย ๆ ตัวอย่างเช่นนักวิเคราะห์บางคนเชื่อว่าแม้เมื่อเปลี่ยนเป็นเข้าสู่ระบบ(Y) ทำให้แบบจำลองนั้นพอดีกับการคาดการณ์ Yใช้ OLS เนื่องจากการประมาณการไม่มีอคติ วิธีนี้จะลดผลรวมของข้อผิดพลาดกำลังสองน้อยที่สุด แต่แบ่งเอฟเฟกต์ข้ามβไม่ถูกต้องและส่งผลให้เกิดข้อผิดพลาดแบบสัมบูรณ์ที่ไม่สามารถแข่งขันได้ บางครั้งการขาดความมั่นคงของความแปรปรวนส่งสัญญาณปัญหาการสร้างแบบจำลองขั้นพื้นฐานมากขึ้น

เมื่อดูรูปแบบการแข่งขัน (เช่นสำหรับ Y เมื่อเทียบกับ เข้าสู่ระบบ(Y) เทียบกับการถดถอยตามลำดับ) ฉันต้องการเปรียบเทียบความแม่นยำในการทำนายโดยใช้มาตรการที่ไม่ได้รับการปรับให้เหมาะสมตามคำจำกัดความโดยกระบวนการปรับพอดี


1

มีข้อมูลที่ดีในคำตอบอื่น ๆ โดยเฉพาะคำถามแรกของคุณ ฉันคิดว่าฉันจะเพิ่มข้อมูลฟรีเกี่ยวกับคำถามสองข้อสุดท้ายของคุณ

  1. ปัญหาที่เกี่ยวข้องกับ heteroscedasticity ไม่ได้ จำกัด อยู่ที่การคาดการณ์ เนื่องจากส่วนใหญ่เกี่ยวข้องกับช่วงความเชื่อมั่นค่า p และข้อ จำกัด การทำนายไม่ถูกต้องจึงใช้ตลอดช่วงข้อมูลของคุณ
  2. พูดอย่างเคร่งครัดปัญหาที่เกี่ยวข้องกับ heteroscedasticity อยู่แม้ในจำนวนที่น้อยที่สุดของ heteroscedasticity อย่างไรก็ตามในขณะที่คุณสงสัยว่าด้วยความแตกต่างของความแตกต่างน้อยมากปัญหาก็น้อยมากเช่นกัน ไม่มีจริง 'เส้นสว่าง' ที่ heteroscedasticity กลายเป็นมากเกินไป แต่กฎของหัวแม่มือคือแบบจำลองเชิงเส้นจะไม่ได้รับผลกระทบจาก heteroscedasticity มากเกินไปเมื่อความแปรปรวนที่ใหญ่ที่สุดคือ4× ความแปรปรวนที่เล็กที่สุด
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.