การถดถอยเชิงเส้นใช้การกระจายแบบปกติอย่างไร


26

ในการถดถอยเชิงเส้นแต่ละค่าที่ทำนายไว้จะถูกเลือกจากการแจกแจงปกติของค่าที่เป็นไปได้ ดูด้านล่าง

แต่ทำไมค่าคาดการณ์แต่ละค่าที่สันนิษฐานว่ามาจากการแจกแจงแบบปกติ การถดถอยเชิงเส้นใช้สมมติฐานนี้อย่างไร เกิดอะไรขึ้นถ้าค่าที่เป็นไปได้ไม่ได้กระจายตามปกติ?

ป้อนคำอธิบายรูปภาพที่นี่


2
ข้อผิดพลาดเท่านั้นที่ตามหลังการแจกแจงแบบปกติ (ซึ่งแสดงถึงความน่าจะเป็นแบบมีเงื่อนไขของ Y ที่ให้ X เป็นปกติเช่นกัน) นี่อาจเป็นแบบดั้งเดิมเพราะเหตุผลที่เกี่ยวข้องกับทฤษฎีบทขีด จำกัด กลาง แต่คุณสามารถแทนที่ปกติด้วยการแจกแจงความน่าจะเป็นแบบสมมาตรและรับค่าสัมประสิทธิ์การประมาณเดียวกันผ่านกำลังสองน้อยที่สุด สิ่งที่แตกต่างกันคือข้อผิดพลาดมาตรฐานที่เหลือความดีของความพอดีและวิธีที่คุณตรวจสอบสมมติฐาน
Kian

4
สมมติฐานปกติส่วนใหญ่มาจากการอนุมาน - การทดสอบสมมติฐาน, CIs, PIs หากคุณตั้งสมมติฐานแตกต่างกันอย่างน้อยก็จะแตกต่างกันไปในกลุ่มตัวอย่างขนาดเล็ก
Glen_b

7
อนึ่งสำหรับการถดถอยเชิงเส้นธรรมดาไดอะแกรมของคุณควรวาดเส้นโค้งปกติในแนวตั้งไม่ใช่แนวทแยงมุม
Glen_b -Reinstate Monica

คำตอบ:


29

การถดถอยเชิงเส้นด้วยตัวมันเองนั้นไม่จำเป็นต้องใช้สมมติฐานปกติ (เกาส์เซียน) ตัวประมาณสามารถคำนวณได้

แต่ในฐานะนักสถิติที่เราต้องการที่จะเข้าใจคุณสมบัติบางอย่างของวิธีการนี้คำตอบสำหรับคำถามเช่น: ตัวประมาณกำลังสองน้อยที่สุดเหมาะสมหรือไม่ หรือเราสามารถทำได้ดีกว่ากับตัวประมาณทางเลือกอื่น ๆ ? จากนั้นภายใต้การแจกแจงปกติของข้อผิดพลาดเราสามารถแสดงให้เห็นว่าตัวประมาณค่านี้เหมาะสมที่สุดตัวอย่างเช่นพวกมันเป็น "ความแปรปรวนขั้นต่ำที่ไม่เอนเอียง" หรือความเป็นไปได้สูงสุด ไม่สามารถพิสูจน์ได้โดยไม่มีข้อสันนิษฐานทั่วไป

นอกจากนี้หากเราต้องการสร้าง (และวิเคราะห์คุณสมบัติของ) ช่วงความเชื่อมั่นหรือการทดสอบสมมติฐานเราจะใช้สมมติฐานปกติ แต่เราสามารถสร้างช่วงความมั่นใจแทนด้วยวิธีอื่นเช่นการบูตสแตรป จากนั้นเราไม่ได้ใช้สมมติฐานปกติ แต่ถ้าอย่างนั้นก็เป็นไปได้ไหมที่เราควรใช้ตัวประมาณค่าอื่นที่ไม่ใช่ตัวประกอบกำลังสองน้อยที่สุด

ในทางปฏิบัติแน่นอนว่าการแจกแจงแบบปกติเป็นเรื่องที่สะดวกที่สุด ดังนั้นคำถามที่สำคัญจริงๆคือเราต้องใกล้ถึงเกณฑ์ปกติมากแค่ไหนในการเรียกร้องให้ใช้ผลลัพธ์ที่อ้างถึงข้างต้น นั่นเป็นคำถามที่ยุ่งยากมาก! ผลลัพธ์จากการปรับให้เหมาะสมนั้นไม่แข็งแรงดังนั้นแม้แต่การเบี่ยงเบนเล็กน้อยจากภาวะปกติอาจทำลายการมองโลกในแง่ดี นั่นคือข้อโต้แย้งในความโปรดปรานของวิธีการที่แข็งแกร่ง สำหรับคำถามเพิ่มเติมอีกประการหนึ่งให้ดูที่คำตอบของฉันทำไมเราควรใช้ข้อผิดพลาด t แทนข้อผิดพลาดปกติ?

คำถามที่เกี่ยวข้องอีกประการหนึ่งคือ เหตุใดกฎเกณฑ์ของความตกค้างจึงแทบไม่สำคัญเลยสำหรับการประเมินเส้นถดถอย

 EDIT

คำตอบนี้นำไปสู่การอภิปรายในความคิดเห็นขนาดใหญ่ซึ่งนำไปสู่คำถามใหม่ของฉัน: การถดถอยเชิงเส้น: การแจกแจงแบบไม่ปกติใด ๆ ที่ให้อัตลักษณ์ของ OLS และ MLE? ซึ่งในที่สุดก็ได้คำตอบ (สาม) ให้ตัวอย่างที่การแจกแจงแบบไม่ปกตินำไปสู่ตัวประมาณกำลังสองน้อยที่สุด


ข้อผิดพลาดกำลังสองน้อยที่สุดเทียบเท่ากับสมมติฐานปกติ
Neil G

4
ไม่มีความขัดแย้งดังกล่าว ยกตัวอย่างเช่นทฤษฎีบทเกาส์ - มาร์คอฟบอกว่าสี่เหลี่ยมจัตุรัสน้อยที่สุดเชิงเส้นเหมาะสมที่สุด (ในแง่ความแปรปรวนน้อยที่สุด) ในบรรดาตัวประมาณค่าเชิงเส้นทั้งหมดโดยไม่จำเป็นต้องมีสมมุติฐานการกระจายตัวใด ๆ (นอกเหนือจากความแปรปรวนที่มีอยู่) กำลังสองน้อยที่สุดเป็นกระบวนการเชิงตัวเลขซึ่งสามารถกำหนดได้โดยอิสระจากโมเดลความน่าจะเป็นใด ๆ ! แบบจำลองความน่าจะเป็นถูกใช้เพื่อวิเคราะห์ขั้นตอนนี้จากมุมมองทางสถิติ
kjetil b halvorsen

2
@NeilG แน่นอน MLE สำหรับปกติคือกำลังสองน้อยที่สุด แต่นั่นไม่ได้แปลว่ากำลังสองน้อยที่สุดจะต้องนำมาซึ่งการสันนิษฐานของความปกติ ในทางกลับกันการเบี่ยงเบนขนาดใหญ่จากความเป็นปกติอาจทำให้กำลังสองน้อยที่สุดเป็นทางเลือกที่ไม่ดี (เมื่อตัวประมาณแบบเชิงเส้นทั้งหมดไม่ดี)
Glen_b -Reinstate Monica

1
@ NeilG สิ่งที่ฉันพูดว่าไม่มีความหมายถึงความเท่าเทียมกันของ LS และความเป็นมาตรฐาน แต่อย่างใด แต่คุณพูดอย่างชัดเจนว่าพวกเขาเทียบเท่ากันดังนั้นฉันไม่คิดว่าทั้งสองประโยคของเรานั้นใกล้เคียงกับการพูดซ้ำซาก
Glen_b -Reinstate Monica

1
@Neil คุณสามารถแสดงให้เห็นว่าคำพูดของคุณแสดงถึงสิ่งที่ฉันพูดจริงหรือไม่? ฉันไม่เห็นมันจริงๆ
Glen_b -Reinstate Monica

3

การสนทนานี้จะเกิดอะไรขึ้นถ้ามีการแจกแจงส่วนที่เหลือตามปกติ แต่ y ไม่ใช่? ตอบคำถามนี้ได้ดี

ในระยะสั้นสำหรับปัญหาการถดถอยเราจะถือว่าการตอบสนองนั้นเป็นเงื่อนไขปกติตามค่าของ x ไม่จำเป็นว่าตัวแปรอิสระหรือตัวแปรตอบกลับเป็นอิสระ


1
  1. แต่ทำไมค่าคาดการณ์แต่ละค่าที่สันนิษฐานว่ามาจากการแจกแจงแบบปกติ

ไม่มีเหตุผลที่ลึกซึ้งสำหรับมันและคุณมีอิสระที่จะเปลี่ยนสมมติฐานการกระจายย้ายไปยัง GLM หรือการถดถอยที่แข็งแกร่ง LM (การกระจายทั่วไป) เป็นที่นิยมเพราะง่ายต่อการคำนวณค่อนข้างเสถียรและส่วนที่เหลืออยู่ในทางปฏิบัติมักจะมากหรือน้อยปกติ

  1. การถดถอยเชิงเส้นใช้สมมติฐานนี้อย่างไร

ในการถดถอยใด ๆ โมเดลเชิงเส้น (= การถดถอยที่มีข้อผิดพลาดปกติ) จะค้นหาพารามิเตอร์ที่ปรับความเหมาะสมของโอกาสสำหรับการสันนิษฐานแบบกระจาย ดูที่นี่สำหรับตัวอย่างของการคำนวณที่ชัดเจนของความน่าจะเป็นสำหรับโมเดลเชิงเส้น หากคุณพิจารณาความน่าจะเป็นของโมเดลเชิงเส้นมันจะแปรผันตามผลรวมของกำลังสองและการหาค่าเหมาะที่สุดที่สามารถคำนวณได้อย่างสะดวก

  1. เกิดอะไรขึ้นถ้าค่าที่เป็นไปได้ไม่ได้กระจายตามปกติ?

หากคุณต้องการให้พอดีกับแบบจำลองที่มีการแจกแจงที่แตกต่างกันขั้นตอนในตำราเรียนต่อไปจะเป็นแบบจำลองเชิงเส้นทั่วไป (GLM) ซึ่งมีการแจกแจงที่แตกต่างกันหรือแบบจำลองเชิงเส้นทั่วไปซึ่งยังคงเป็นปกติ แต่ผ่อนคลายอิสระ ตัวเลือกอื่น ๆ ที่เป็นไปได้ หากคุณต้องการลดผลกระทบของค่าผิดปกติคุณสามารถพิจารณาการถดถอยที่มีประสิทธิภาพ


0

หลังจากตรวจสอบคำถามอีกครั้งฉันคิดว่าไม่มีเหตุผลที่จะใช้การแจกแจงแบบปกติเว้นแต่คุณต้องการดำเนินการอนุมานเกี่ยวกับพารามิเตอร์ของการถดถอย และคุณสามารถใช้การถดถอยเชิงเส้นและเพิกเฉยต่อการกระจายของเสียงรบกวน


2
ไม่ได้ทำให้รู้สึกมากสำหรับฉัน
SmallChess

0

(xผม,Yผม)Y=βx+βΣผม(Yผม-Σผมβxผม-)2ηผม=Yผม-(βxผม+)βββββ. จะทำอย่างไรในกรณีที่ไม่มีคุณสมบัติทางสถิติของคำผิดพลาด ด้วยการขอโทษที่ "บัณฑิต" - บูตคำหนึ่งคำ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.