แบบจำลองการถดถอยไม่ถูกต้องอย่างไรเมื่อไม่ตรงตามสมมติฐาน?


28

เมื่อติดตั้งโมเดลการถดถอยจะเกิดอะไรขึ้นถ้าข้อสันนิษฐานของผลลัพธ์ไม่เป็นไปตามที่ระบุ:

  1. จะเกิดอะไรขึ้นถ้าสิ่งที่เหลืออยู่ไม่เป็นเนื้อเดียวกัน? หากส่วนที่เหลือแสดงรูปแบบที่เพิ่มขึ้นหรือลดลงในส่วนที่เหลือกับพล็อตที่ติดตั้ง
  2. จะเกิดอะไรขึ้นหากส่วนที่เหลือไม่ได้ถูกแจกจ่ายและล้มเหลวในการทดสอบ Shapiro-Wilk การทดสอบตามปกติของชาปิโร่วิลค์เป็นการทดสอบที่เข้มงวดมากและบางครั้งแม้ว่าพล็อตปกติ -QQ จะดูสมเหตุสมผล แต่ข้อมูลก็ล้มเหลวในการทดสอบ
  3. จะเกิดอะไรขึ้นถ้าตัวทำนายหนึ่งตัวหรือมากกว่านั้นไม่ได้ถูกกระจายโดยทั่วไปอย่ามองไปที่พล็อตปกติ -QQ หรือถ้าข้อมูลล้มเหลวในการทดสอบ Shapiro-Wilk?

ฉันเข้าใจว่าไม่มีการแบ่งสีดำและสีขาวอย่างหนักว่า 0.94 ถูกต้องและ 0.95 ไม่ถูกต้องและในคำถามฉันต้องการทราบว่า:

  1. ความล้มเหลวของภาวะปกตินั้นหมายถึงอะไรสำหรับแบบจำลองที่เหมาะสมตามค่า R-Squared มันเชื่อถือได้น้อยลงหรือไร้ประโยชน์อย่างสมบูรณ์หรือไม่?
  2. การเบี่ยงเบนนั้นยอมรับได้หรือว่ายอมรับได้ในระดับใด?
  3. เมื่อใช้การแปลงข้อมูลเพื่อให้เป็นไปตามเกณฑ์ปกติแบบจำลองจะดีขึ้นหรือไม่ถ้าข้อมูลเป็นปกติมากขึ้น (ค่า P-value ที่สูงกว่าในการทดสอบ Shapiro-Wilk, ดูดีขึ้นในแผน QQ ปกติ) หรือมันไร้ประโยชน์ (เท่าเทียมกันดีหรือ ไม่ดีเมื่อเทียบกับต้นฉบับ) จนกว่าข้อมูลจะผ่านการทดสอบตามปกติ?

ฉันคิดว่าคำตอบของชื่อเท่านั้นคือ "ใช่"
Thomas Cleberg

@ThomasCleberg คำตอบที่น่าสนใจ นั่นคือสิ่งที่คุณพูดเมื่อมีคนถามคุณว่า "คุณเป็นอย่างไรบ้าง" :)
JohnK

ไม่ แต่ถ้าพวกเขาถามฉันว่าฉันยังมีชีวิตอยู่ :)
Thomas Cleberg

คำถามพื้นฐานที่ถามตัวเองว่า: "คุณต้องการใช้แบบจำลองการถดถอยเพื่ออะไร"
Floris

คำตอบ:


32

จะเกิดอะไรขึ้นถ้าสิ่งที่เหลืออยู่ไม่เป็นเนื้อเดียวกัน? หากส่วนที่เหลือแสดงรูปแบบที่เพิ่มขึ้นหรือลดลงในส่วนที่เหลือกับพล็อตที่ติดตั้ง

หากข้อผิดพลาดไม่ใช่ homoscedastic (เราใช้ส่วนที่เหลือเป็นพร็อกซีสำหรับคำผิดพลาดที่ไม่สามารถสังเกตเห็นได้) ตัวประมาณ OLS ยังคงสอดคล้องและไม่เอนเอียง แต่ไม่มีประสิทธิภาพสูงสุดในคลาสของตัวประมาณแบบเชิงเส้นอีกต่อไป ตอนนี้เป็นตัวประมาณ GLS ที่สนุกกับคุณสมบัตินี้

จะเกิดอะไรขึ้นหากส่วนที่เหลือไม่ได้ถูกแจกจ่ายและล้มเหลวในการทดสอบ Shapiro-Wilk การทดสอบตามปกติของชาปิโร่วิลค์เป็นการทดสอบที่เข้มงวดมากและบางครั้งแม้ว่าพล็อตปกติ -QQ จะดูสมเหตุสมผล แต่ข้อมูลก็ล้มเหลวในการทดสอบ

ความปกติไม่จำเป็นต้องใช้ในทฤษฎีบท Gauss-Markov ตัวประมาณ OLS ยังคงเป็นสีน้ำเงิน แต่หากไม่มีกฎเกณฑ์คุณจะมีปัญหาในการอนุมานเช่นการทดสอบสมมติฐานและช่วงความมั่นใจอย่างน้อยที่สุดสำหรับขนาดตัวอย่างที่ จำกัด ยังคงมี bootstrap อย่างไรก็ตาม

Asymptotically นี้เป็นปัญหาน้อยเนื่องจากตัวประมาณ OLS มีการ จำกัด การแจกแจงแบบปกติภายใต้เงื่อนไขที่ไม่สม่ำเสมอ

จะเกิดอะไรขึ้นถ้าตัวทำนายหนึ่งตัวหรือมากกว่านั้นไม่ได้ถูกกระจายโดยทั่วไปอย่ามองไปที่พล็อตปกติ -QQ หรือถ้าข้อมูลล้มเหลวในการทดสอบ Shapiro-Wilk?

เท่าที่ฉันรู้ว่าตัวทำนายนั้นได้รับการพิจารณาว่าคงที่หรือการถดถอยนั้นมีเงื่อนไขสำหรับพวกเขา สิ่งนี้ จำกัด ผลของการไม่ปกติ

ความล้มเหลวของภาวะปกตินั้นหมายถึงอะไรสำหรับแบบจำลองที่เหมาะสมตามค่า R-Squared มันเชื่อถือได้น้อยลงหรือไร้ประโยชน์อย่างสมบูรณ์หรือไม่?

R-squared เป็นสัดส่วนของความแปรปรวนที่อธิบายโดยตัวแบบ มันไม่จำเป็นต้องมีข้อสมมติเชิงบรรทัดฐานและมันเป็นตัวชี้วัดความดีที่เหมาะสมโดยไม่คำนึงถึง หากคุณต้องการใช้สำหรับการทดสอบ F บางส่วนนั่นเป็นอีกเรื่องหนึ่ง

การเบี่ยงเบนนั้นยอมรับได้หรือว่ายอมรับได้ในระดับใด?

ส่วนเบี่ยงเบนจากปกติคุณหมายถึงใช่มั้ย มันขึ้นอยู่กับวัตถุประสงค์ของคุณเพราะฉันได้กล่าวว่าการอนุมานนั้นยากในกรณีที่ไม่มีกฎเกณฑ์ แต่ก็เป็นไปไม่ได้ (bootstrap!)

เมื่อใช้การแปลงข้อมูลเพื่อให้เป็นไปตามเกณฑ์ปกติแบบจำลองจะดีขึ้นหรือไม่ถ้าข้อมูลเป็นปกติมากขึ้น (ค่า P-value ที่สูงกว่าในการทดสอบ Shapiro-Wilk, ดูดีขึ้นในแผน QQ ปกติ) หรือมันไร้ประโยชน์ (เท่าเทียมกันดีหรือ ไม่ดีเมื่อเทียบกับต้นฉบับ) จนกว่าข้อมูลจะผ่านการทดสอบตามปกติ?

ในระยะสั้นหากคุณมีสมมติฐาน Gauss-Markov ทั้งหมดบวกกับค่านิยมปกติตัวประมาณค่า OLS คือ Best Unbiased (BUE) นั่นคือประสิทธิภาพที่ดีที่สุดในการประมาณค่าคลาสทั้งหมด - Cramer-Rao Lower Bound แน่นอนว่ามันเป็นที่พึงปรารถนา แต่มันไม่ใช่จุดจบของโลกถ้ามันไม่ได้เกิดขึ้น ข้อสังเกตข้างต้นนำไปใช้

เกี่ยวกับการเปลี่ยนแปลงโปรดจำไว้ว่าในขณะที่การแจกแจงคำตอบอาจนำมาใกล้กับความเป็นปกติ แต่การตีความอาจไม่ตรงไปตรงมาในภายหลัง

นี่เป็นเพียงคำตอบสั้น ๆ สำหรับคำถามของคุณ คุณดูเหมือนจะกังวลอย่างยิ่งกับความหมายของการไม่ปฏิบัติตามปกติ โดยรวมแล้วฉันจะบอกว่ามันไม่ได้เป็นความหายนะเช่นเดียวกับคน (ได้รับการทำเพื่อ?) เชื่อและมีวิธีแก้ปัญหา การอ้างอิงทั้งสองที่ฉันได้รวมไว้เป็นจุดเริ่มต้นที่ดีสำหรับการอ่านเพิ่มเติมการอ้างอิงแรกของธรรมชาติทางทฤษฎี

การอ้างอิง :

ฮายาชิ, ฟูมิโอะ : "เศรษฐมิติ", Princeton University Press, 2000

Kutner, Michael H. และคณะ "ประยุกต์ใช้แบบจำลองเชิงสถิติเชิงเส้น", McGraw-Hill Irwin, 2005


YXiβi

2
y

βiβiYY1,,Yn

@DeltaIV คุณหมายถึงอะไรโดย "model model" มันคือโมเดลจริงที่เป็นเส้นตรงในพารามิเตอร์ ที่ไม่ได้ จำกัด เรา แต่ในการพิจารณาเป็นตัวประมาณฟังก์ชันเชิงเส้นตรงของการตอบสนอง จีเอ็มระบุว่าหากเรา จำกัด ความสนใจของเราในฟังก์ชันเชิงเส้นของการตอบสนองดังนั้น OLS จะเป็นสีน้ำเงินภายใต้สมมติฐานเพิ่มเติมบางประการ ทีนี้ถ้าเราถือว่าความเป็นบรรทัดฐานด้วยเช่นกันไม่ว่าหน้าที่การตอบสนองของคุณกำลังพิจารณาอะไรคุณก็ไม่สามารถทำได้ดีกว่า OLS โดยแน่นอนว่าตัวประมาณนั้นไม่เอนเอียง
JohnK

Yiβi
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.