เหตุใดการวินิจฉัยจึงขึ้นอยู่กับส่วนที่เหลือ


12

ในการถดถอยเชิงเส้นอย่างง่ายเรามักจะต้องการตรวจสอบว่าสมมติฐานบางอย่างตรงตามความสามารถในการอนุมาน (เช่นกระจายตามปกติ)

มันมีเหตุผลที่จะตรวจสอบสมมติฐานโดยการตรวจสอบว่าค่าติดตั้งมีการกระจายตามปกติ?

คำตอบ:


20

เหตุใดการวินิจฉัยจึงขึ้นอยู่กับส่วนที่เหลือ

เนื่องจากสมมติฐานหลายข้อเกี่ยวข้องกับการแจกแจงแบบมีเงื่อนไขของไม่ใช่การแจกแจงแบบไม่มีเงื่อนไข นั่นเท่ากับการคาดเดาข้อผิดพลาดซึ่งเราประมาณโดยค่าตกค้างY

ในการถดถอยเชิงเส้นอย่างง่ายเรามักจะต้องการตรวจสอบว่าสมมติฐานบางอย่างตรงตามความสามารถในการอนุมาน (เช่นกระจายตามปกติ)

สมมติฐานเชิงบรรทัดฐานที่เกิดขึ้นจริงไม่ได้เกี่ยวกับส่วนที่เหลือ แต่เกี่ยวกับคำผิดพลาด สิ่งที่ใกล้ที่สุดสำหรับคนที่คุณมีคือสิ่งที่เหลืออยู่ซึ่งเป็นสาเหตุที่เราตรวจสอบพวกเขา

มันสมเหตุสมผลที่จะตรวจสอบการตรวจสอบสมมติฐานโดยการตรวจสอบว่าค่าติดตั้งมีการกระจายตามปกติ?

ครั้งที่มีการกระจายของค่าติดตั้งขึ้นอยู่กับรูปแบบของ 's ไม่ได้บอกอะไรคุณมากนักเกี่ยวกับสมมติฐานx

ตัวอย่างเช่นฉันเพิ่งรันการถดถอยกับข้อมูลจำลองซึ่งมีการระบุสมมติฐานทั้งหมดอย่างถูกต้อง ตัวอย่างเช่นปกติของข้อผิดพลาดเป็นที่พอใจ นี่คือสิ่งที่เกิดขึ้นเมื่อเราพยายามตรวจสอบค่านิยมปกติของค่าติดตั้ง:

การวินิจฉัยภาวะปกติบนติดตั้ง

เห็นได้ชัดว่าไม่ธรรมดา ในความเป็นจริงพวกเขาดู bimodal ทำไม? ดีเพราะการกระจายของค่าติดตั้งขึ้นอยู่กับรูปแบบของ 's ข้อผิดพลาดเป็นเรื่องปกติ แต่ค่าติดตั้งอาจจะเกือบทุกอย่างx

อีกสิ่งหนึ่งที่ผู้คนมักจะตรวจสอบ (บ่อยกว่านั้นคือความเป็นจริง) ของ s ... แต่ไม่มีเงื่อนไขใน ; อีกครั้งสิ่งนี้ขึ้นอยู่กับรูปแบบของ s และไม่ได้บอกอะไรคุณมากเกี่ยวกับสมมติฐานที่เกิดขึ้นจริง อีกครั้งฉันได้สร้างข้อมูลบางส่วนที่สมมติฐานทั้งหมดถือ; นี่คือสิ่งที่จะเกิดขึ้นเมื่อเราพยายามตรวจสอบความเป็นมาตรฐานของค่าไม่มีเงื่อนไข:x x yyxxy

การวินิจฉัยภาวะปกติเกี่ยวกับค่า y ดิบ

อีกครั้งที่ไม่ปกติเราดูที่นี่ (ของปีมีความลาด) ไม่ได้เกี่ยวข้องกับเงื่อนไขปกติของ sy

อันที่จริงฉันมีหนังสืออยู่ข้างๆฉันตอนนี้ที่พูดถึงความแตกต่าง (ระหว่างการแจกแจงแบบมีเงื่อนไขและการแจกแจงแบบไม่มีเงื่อนไขของ ) - นั่นคือมันอธิบายในบทแรกว่าทำไมแค่มองการกระจายตัวของไม่ใช่ ขวาและจากนั้นในบทที่ตามมาซ้ำ ๆ การตรวจสอบสมมติฐานภาวะปกติโดยดูที่การกระจายของค่าโดยไม่คำนึงถึงผลกระทบของ 'sการประเมินความเหมาะสมของสมมติฐานที่ (อีกสิ่งหนึ่งก็มักจะไม่สามารถที่จะดูเพียงแค่ ฮิสโทแกรมเพื่อทำการประเมิน แต่เป็นปัญหาอื่นทั้งหมด )y - y - x -Yyyx


สมมติฐานคืออะไรเราจะตรวจสอบพวกเขาและเราจะต้องทำให้พวกเขาเมื่อไหร่?

  • 's อาจจะถือว่าเป็นคงที่ (สังเกตได้โดยไม่ผิดพลาด) โดยทั่วไปเราจะไม่พยายามตรวจสอบการวินิจฉัยนี้ (แต่เราควรมีความคิดที่ดีว่าเป็นเรื่องจริงหรือไม่)x

  • ระบุความสัมพันธ์ระหว่างและในโมเดลได้อย่างถูกต้อง (เช่นเชิงเส้น) ถ้าเราลบกระชับที่ดีที่สุดเชิงเส้นรุ่นไม่ควรมีรูปแบบที่เหลืออยู่ในความสัมพันธ์ระหว่างค่าเฉลี่ยของความคลาดเคลื่อนและxx xE(Y)xx

  • ความแปรปรวนคงที่ (เช่นไม่ได้ขึ้นอยู่กับการแพร่กระจายของข้อผิดพลาดเป็นค่าคงที่มันอาจถูกตรวจสอบโดยดูการแพร่กระจายของส่วนที่เหลือเทียบกับหรือโดยการตรวจสอบฟังก์ชั่นบางอย่าง ของกำลังสองเทียบกับและตรวจสอบการเปลี่ยนแปลงของค่าเฉลี่ย (เช่นฟังก์ชันเช่นบันทึกหรือรากที่สอง R ใช้รากที่สี่ของส่วนที่เหลือยกกำลังสอง)x x xVar(Y|x)xxx

  • ความเป็นอิสระตามเงื่อนไข / ความเป็นอิสระของข้อผิดพลาด สามารถตรวจสอบรูปแบบการพึ่งพาที่เฉพาะเจาะจงได้ (เช่นความสัมพันธ์แบบอนุกรม) หากคุณไม่สามารถคาดหวังรูปแบบการพึ่งพาอาศัยกันได้มันเป็นเรื่องยากที่จะตรวจสอบ

  • การแจกแจงแบบมีเงื่อนไขของ / ภาวะปกติของข้อผิดพลาด สามารถตรวจสอบได้เช่นโดยการทำ QQ พล็อตที่เหลือY

(มีข้อสันนิษฐานอื่น ๆ ที่ฉันไม่ได้กล่าวถึงเช่นข้อผิดพลาดเพิ่มเติมที่ว่าข้อผิดพลาดนั้นมีค่าเฉลี่ยเป็นศูนย์และอื่น ๆ )

หากคุณสนใจที่จะประเมินความพอดีของเส้นกำลังสองน้อยที่สุดและไม่พูดถึงข้อผิดพลาดมาตรฐานคุณไม่จำเป็นต้องตั้งสมมติฐานเหล่านี้ให้มากที่สุด ตัวอย่างเช่นการกระจายข้อผิดพลาดส่งผลกระทบต่อการอนุมาน (การทดสอบและช่วงเวลา) และอาจส่งผลกระทบต่อประสิทธิภาพของการประมาณค่าได้ แต่เส้น LS ยังคงเป็นเส้นตรงที่ดีที่สุดโดยไม่มีอคติเช่น ดังนั้นหากการแจกแจงไม่ปกติมากนักซึ่งการประมาณเชิงเส้นทั้งหมดไม่ดีก็ไม่จำเป็นต้องมีปัญหามากนักหากสมมติฐานเกี่ยวกับคำที่ผิดพลาดนั้นไม่มีอยู่


ฉันเพิ่มไดอะแกรมลงในคำตอบแล้ว
Glen_b -Reinstate Monica

2
นี่คือคำตอบที่ดี ถ้าคุณต้องการมากกว่านี้ฉันครอบคลุมอาณาเขตที่คล้ายกันที่นี่: จะเกิดอะไรขึ้นถ้ามีการแจกแจงปกติ แต่ Y ไม่ใช่
gung - Reinstate Monica

@ gung ฉันเตะตัวเองโดยไม่เชื่อมโยงกับมันก่อน
Glen_b -Reinstate Monica

1
@Glen: การจัดการที่ดีมาก ฉันมีความสับสนเหมือนกันมาเป็นเวลานานด้วยการปฏิบัติในหัวข้อที่ไม่ค่อยดีนักในตำราและเกือบจะเป็นแหล่งข้อมูลมากมายบนอินเทอร์เน็ต ในอีกทางหนึ่งการแจกแจงแบบไม่มีเงื่อนไขของ Y นั้นถูกตรวจสอบเกือบตลอดเวลาเพื่ออนุมานโมเดลสำหรับการแจกแจงแบบมีเงื่อนไขโดยเฉพาะอย่างยิ่งในบริบทอนุกรมเวลา มีเหตุผลทางทฤษฎีเบื้องหลังหรือไม่ ฉันพยายามถามมันเป็นคำถาม แต่ฉันคิดว่ามันไม่สามารถใช้วลีได้อย่างถูกต้อง: stats.stackexchange.com/questions/74886/ …
Cagdas Ozgenc

@CagdasOzgenc เหตุผลเดียวที่ฉันสามารถคิดทำคือเพราะมันง่ายที่จะทำก่อนที่คุณจะมีรูปแบบ คำตอบที่คุณมีในคำถามที่เชื่อมโยงนั้นดูเหมือนคำตอบที่ดีสำหรับฉันเมื่อมีการโพสต์
Glen_b -Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.