ในการถดถอยเชิงเส้นอย่างง่ายเรามักจะต้องการตรวจสอบว่าสมมติฐานบางอย่างตรงตามความสามารถในการอนุมาน (เช่นกระจายตามปกติ)
มันมีเหตุผลที่จะตรวจสอบสมมติฐานโดยการตรวจสอบว่าค่าติดตั้งมีการกระจายตามปกติ?
ในการถดถอยเชิงเส้นอย่างง่ายเรามักจะต้องการตรวจสอบว่าสมมติฐานบางอย่างตรงตามความสามารถในการอนุมาน (เช่นกระจายตามปกติ)
มันมีเหตุผลที่จะตรวจสอบสมมติฐานโดยการตรวจสอบว่าค่าติดตั้งมีการกระจายตามปกติ?
คำตอบ:
เหตุใดการวินิจฉัยจึงขึ้นอยู่กับส่วนที่เหลือ
เนื่องจากสมมติฐานหลายข้อเกี่ยวข้องกับการแจกแจงแบบมีเงื่อนไขของไม่ใช่การแจกแจงแบบไม่มีเงื่อนไข นั่นเท่ากับการคาดเดาข้อผิดพลาดซึ่งเราประมาณโดยค่าตกค้าง
ในการถดถอยเชิงเส้นอย่างง่ายเรามักจะต้องการตรวจสอบว่าสมมติฐานบางอย่างตรงตามความสามารถในการอนุมาน (เช่นกระจายตามปกติ)
สมมติฐานเชิงบรรทัดฐานที่เกิดขึ้นจริงไม่ได้เกี่ยวกับส่วนที่เหลือ แต่เกี่ยวกับคำผิดพลาด สิ่งที่ใกล้ที่สุดสำหรับคนที่คุณมีคือสิ่งที่เหลืออยู่ซึ่งเป็นสาเหตุที่เราตรวจสอบพวกเขา
มันสมเหตุสมผลที่จะตรวจสอบการตรวจสอบสมมติฐานโดยการตรวจสอบว่าค่าติดตั้งมีการกระจายตามปกติ?
ครั้งที่มีการกระจายของค่าติดตั้งขึ้นอยู่กับรูปแบบของ 's ไม่ได้บอกอะไรคุณมากนักเกี่ยวกับสมมติฐาน
ตัวอย่างเช่นฉันเพิ่งรันการถดถอยกับข้อมูลจำลองซึ่งมีการระบุสมมติฐานทั้งหมดอย่างถูกต้อง ตัวอย่างเช่นปกติของข้อผิดพลาดเป็นที่พอใจ นี่คือสิ่งที่เกิดขึ้นเมื่อเราพยายามตรวจสอบค่านิยมปกติของค่าติดตั้ง:
เห็นได้ชัดว่าไม่ธรรมดา ในความเป็นจริงพวกเขาดู bimodal ทำไม? ดีเพราะการกระจายของค่าติดตั้งขึ้นอยู่กับรูปแบบของ 's ข้อผิดพลาดเป็นเรื่องปกติ แต่ค่าติดตั้งอาจจะเกือบทุกอย่าง
อีกสิ่งหนึ่งที่ผู้คนมักจะตรวจสอบ (บ่อยกว่านั้นคือความเป็นจริง) ของ s ... แต่ไม่มีเงื่อนไขใน ; อีกครั้งสิ่งนี้ขึ้นอยู่กับรูปแบบของ s และไม่ได้บอกอะไรคุณมากเกี่ยวกับสมมติฐานที่เกิดขึ้นจริง อีกครั้งฉันได้สร้างข้อมูลบางส่วนที่สมมติฐานทั้งหมดถือ; นี่คือสิ่งที่จะเกิดขึ้นเมื่อเราพยายามตรวจสอบความเป็นมาตรฐานของค่าไม่มีเงื่อนไข:x x y
อีกครั้งที่ไม่ปกติเราดูที่นี่ (ของปีมีความลาด) ไม่ได้เกี่ยวข้องกับเงื่อนไขปกติของ s
อันที่จริงฉันมีหนังสืออยู่ข้างๆฉันตอนนี้ที่พูดถึงความแตกต่าง (ระหว่างการแจกแจงแบบมีเงื่อนไขและการแจกแจงแบบไม่มีเงื่อนไขของ ) - นั่นคือมันอธิบายในบทแรกว่าทำไมแค่มองการกระจายตัวของไม่ใช่ ขวาและจากนั้นในบทที่ตามมาซ้ำ ๆ การตรวจสอบสมมติฐานภาวะปกติโดยดูที่การกระจายของค่าโดยไม่คำนึงถึงผลกระทบของ 'sการประเมินความเหมาะสมของสมมติฐานที่ (อีกสิ่งหนึ่งก็มักจะไม่สามารถที่จะดูเพียงแค่ ฮิสโทแกรมเพื่อทำการประเมิน แต่เป็นปัญหาอื่นทั้งหมด )y - y - x -
สมมติฐานคืออะไรเราจะตรวจสอบพวกเขาและเราจะต้องทำให้พวกเขาเมื่อไหร่?
's อาจจะถือว่าเป็นคงที่ (สังเกตได้โดยไม่ผิดพลาด) โดยทั่วไปเราจะไม่พยายามตรวจสอบการวินิจฉัยนี้ (แต่เราควรมีความคิดที่ดีว่าเป็นเรื่องจริงหรือไม่)
ระบุความสัมพันธ์ระหว่างและในโมเดลได้อย่างถูกต้อง (เช่นเชิงเส้น) ถ้าเราลบกระชับที่ดีที่สุดเชิงเส้นรุ่นไม่ควรมีรูปแบบที่เหลืออยู่ในความสัมพันธ์ระหว่างค่าเฉลี่ยของความคลาดเคลื่อนและxx x
ความแปรปรวนคงที่ (เช่นไม่ได้ขึ้นอยู่กับการแพร่กระจายของข้อผิดพลาดเป็นค่าคงที่มันอาจถูกตรวจสอบโดยดูการแพร่กระจายของส่วนที่เหลือเทียบกับหรือโดยการตรวจสอบฟังก์ชั่นบางอย่าง ของกำลังสองเทียบกับและตรวจสอบการเปลี่ยนแปลงของค่าเฉลี่ย (เช่นฟังก์ชันเช่นบันทึกหรือรากที่สอง R ใช้รากที่สี่ของส่วนที่เหลือยกกำลังสอง)x x x
ความเป็นอิสระตามเงื่อนไข / ความเป็นอิสระของข้อผิดพลาด สามารถตรวจสอบรูปแบบการพึ่งพาที่เฉพาะเจาะจงได้ (เช่นความสัมพันธ์แบบอนุกรม) หากคุณไม่สามารถคาดหวังรูปแบบการพึ่งพาอาศัยกันได้มันเป็นเรื่องยากที่จะตรวจสอบ
การแจกแจงแบบมีเงื่อนไขของ / ภาวะปกติของข้อผิดพลาด สามารถตรวจสอบได้เช่นโดยการทำ QQ พล็อตที่เหลือ
(มีข้อสันนิษฐานอื่น ๆ ที่ฉันไม่ได้กล่าวถึงเช่นข้อผิดพลาดเพิ่มเติมที่ว่าข้อผิดพลาดนั้นมีค่าเฉลี่ยเป็นศูนย์และอื่น ๆ )
หากคุณสนใจที่จะประเมินความพอดีของเส้นกำลังสองน้อยที่สุดและไม่พูดถึงข้อผิดพลาดมาตรฐานคุณไม่จำเป็นต้องตั้งสมมติฐานเหล่านี้ให้มากที่สุด ตัวอย่างเช่นการกระจายข้อผิดพลาดส่งผลกระทบต่อการอนุมาน (การทดสอบและช่วงเวลา) และอาจส่งผลกระทบต่อประสิทธิภาพของการประมาณค่าได้ แต่เส้น LS ยังคงเป็นเส้นตรงที่ดีที่สุดโดยไม่มีอคติเช่น ดังนั้นหากการแจกแจงไม่ปกติมากนักซึ่งการประมาณเชิงเส้นทั้งหมดไม่ดีก็ไม่จำเป็นต้องมีปัญหามากนักหากสมมติฐานเกี่ยวกับคำที่ผิดพลาดนั้นไม่มีอยู่