ในการถดถอยเชิงเส้นแต่ละค่าที่ทำนายไว้จะถูกเลือกจากการแจกแจงปกติของค่าที่เป็นไปได้ ดูด้านล่าง
แต่ทำไมค่าคาดการณ์แต่ละค่าที่สันนิษฐานว่ามาจากการแจกแจงแบบปกติ การถดถอยเชิงเส้นใช้สมมติฐานนี้อย่างไร เกิดอะไรขึ้นถ้าค่าที่เป็นไปได้ไม่ได้กระจายตามปกติ?
ในการถดถอยเชิงเส้นแต่ละค่าที่ทำนายไว้จะถูกเลือกจากการแจกแจงปกติของค่าที่เป็นไปได้ ดูด้านล่าง
แต่ทำไมค่าคาดการณ์แต่ละค่าที่สันนิษฐานว่ามาจากการแจกแจงแบบปกติ การถดถอยเชิงเส้นใช้สมมติฐานนี้อย่างไร เกิดอะไรขึ้นถ้าค่าที่เป็นไปได้ไม่ได้กระจายตามปกติ?
คำตอบ:
การถดถอยเชิงเส้นด้วยตัวมันเองนั้นไม่จำเป็นต้องใช้สมมติฐานปกติ (เกาส์เซียน) ตัวประมาณสามารถคำนวณได้
แต่ในฐานะนักสถิติที่เราต้องการที่จะเข้าใจคุณสมบัติบางอย่างของวิธีการนี้คำตอบสำหรับคำถามเช่น: ตัวประมาณกำลังสองน้อยที่สุดเหมาะสมหรือไม่ หรือเราสามารถทำได้ดีกว่ากับตัวประมาณทางเลือกอื่น ๆ ? จากนั้นภายใต้การแจกแจงปกติของข้อผิดพลาดเราสามารถแสดงให้เห็นว่าตัวประมาณค่านี้เหมาะสมที่สุดตัวอย่างเช่นพวกมันเป็น "ความแปรปรวนขั้นต่ำที่ไม่เอนเอียง" หรือความเป็นไปได้สูงสุด ไม่สามารถพิสูจน์ได้โดยไม่มีข้อสันนิษฐานทั่วไป
นอกจากนี้หากเราต้องการสร้าง (และวิเคราะห์คุณสมบัติของ) ช่วงความเชื่อมั่นหรือการทดสอบสมมติฐานเราจะใช้สมมติฐานปกติ แต่เราสามารถสร้างช่วงความมั่นใจแทนด้วยวิธีอื่นเช่นการบูตสแตรป จากนั้นเราไม่ได้ใช้สมมติฐานปกติ แต่ถ้าอย่างนั้นก็เป็นไปได้ไหมที่เราควรใช้ตัวประมาณค่าอื่นที่ไม่ใช่ตัวประกอบกำลังสองน้อยที่สุด
ในทางปฏิบัติแน่นอนว่าการแจกแจงแบบปกติเป็นเรื่องที่สะดวกที่สุด ดังนั้นคำถามที่สำคัญจริงๆคือเราต้องใกล้ถึงเกณฑ์ปกติมากแค่ไหนในการเรียกร้องให้ใช้ผลลัพธ์ที่อ้างถึงข้างต้น นั่นเป็นคำถามที่ยุ่งยากมาก! ผลลัพธ์จากการปรับให้เหมาะสมนั้นไม่แข็งแรงดังนั้นแม้แต่การเบี่ยงเบนเล็กน้อยจากภาวะปกติอาจทำลายการมองโลกในแง่ดี นั่นคือข้อโต้แย้งในความโปรดปรานของวิธีการที่แข็งแกร่ง สำหรับคำถามเพิ่มเติมอีกประการหนึ่งให้ดูที่คำตอบของฉันทำไมเราควรใช้ข้อผิดพลาด t แทนข้อผิดพลาดปกติ?
คำถามที่เกี่ยวข้องอีกประการหนึ่งคือ เหตุใดกฎเกณฑ์ของความตกค้างจึงแทบไม่สำคัญเลยสำหรับการประเมินเส้นถดถอย
EDIT
คำตอบนี้นำไปสู่การอภิปรายในความคิดเห็นขนาดใหญ่ซึ่งนำไปสู่คำถามใหม่ของฉัน: การถดถอยเชิงเส้น: การแจกแจงแบบไม่ปกติใด ๆ ที่ให้อัตลักษณ์ของ OLS และ MLE? ซึ่งในที่สุดก็ได้คำตอบ (สาม) ให้ตัวอย่างที่การแจกแจงแบบไม่ปกตินำไปสู่ตัวประมาณกำลังสองน้อยที่สุด
การสนทนานี้จะเกิดอะไรขึ้นถ้ามีการแจกแจงส่วนที่เหลือตามปกติ แต่ y ไม่ใช่? ตอบคำถามนี้ได้ดี
ในระยะสั้นสำหรับปัญหาการถดถอยเราจะถือว่าการตอบสนองนั้นเป็นเงื่อนไขปกติตามค่าของ x ไม่จำเป็นว่าตัวแปรอิสระหรือตัวแปรตอบกลับเป็นอิสระ
ไม่มีเหตุผลที่ลึกซึ้งสำหรับมันและคุณมีอิสระที่จะเปลี่ยนสมมติฐานการกระจายย้ายไปยัง GLM หรือการถดถอยที่แข็งแกร่ง LM (การกระจายทั่วไป) เป็นที่นิยมเพราะง่ายต่อการคำนวณค่อนข้างเสถียรและส่วนที่เหลืออยู่ในทางปฏิบัติมักจะมากหรือน้อยปกติ
ในการถดถอยใด ๆ โมเดลเชิงเส้น (= การถดถอยที่มีข้อผิดพลาดปกติ) จะค้นหาพารามิเตอร์ที่ปรับความเหมาะสมของโอกาสสำหรับการสันนิษฐานแบบกระจาย ดูที่นี่สำหรับตัวอย่างของการคำนวณที่ชัดเจนของความน่าจะเป็นสำหรับโมเดลเชิงเส้น หากคุณพิจารณาความน่าจะเป็นของโมเดลเชิงเส้นมันจะแปรผันตามผลรวมของกำลังสองและการหาค่าเหมาะที่สุดที่สามารถคำนวณได้อย่างสะดวก
หากคุณต้องการให้พอดีกับแบบจำลองที่มีการแจกแจงที่แตกต่างกันขั้นตอนในตำราเรียนต่อไปจะเป็นแบบจำลองเชิงเส้นทั่วไป (GLM) ซึ่งมีการแจกแจงที่แตกต่างกันหรือแบบจำลองเชิงเส้นทั่วไปซึ่งยังคงเป็นปกติ แต่ผ่อนคลายอิสระ ตัวเลือกอื่น ๆ ที่เป็นไปได้ หากคุณต้องการลดผลกระทบของค่าผิดปกติคุณสามารถพิจารณาการถดถอยที่มีประสิทธิภาพ
หลังจากตรวจสอบคำถามอีกครั้งฉันคิดว่าไม่มีเหตุผลที่จะใช้การแจกแจงแบบปกติเว้นแต่คุณต้องการดำเนินการอนุมานเกี่ยวกับพารามิเตอร์ของการถดถอย และคุณสามารถใช้การถดถอยเชิงเส้นและเพิกเฉยต่อการกระจายของเสียงรบกวน
. จะทำอย่างไรในกรณีที่ไม่มีคุณสมบัติทางสถิติของคำผิดพลาด ด้วยการขอโทษที่ "บัณฑิต" - บูตคำหนึ่งคำ