สมมติฐานของตัวแบบเชิงเส้นและจะทำอย่างไรถ้าส่วนที่เหลือไม่ได้รับการแจกแจงแบบปกติ


22

ฉันสับสนเล็กน้อยว่าสมมติฐานของการถดถอยเชิงเส้นคืออะไร

จนถึงตอนนี้ฉันตรวจสอบว่า:

  • ตัวแปรอธิบายทั้งหมดมีความสัมพันธ์เชิงเส้นตรงกับตัวแปรตอบกลับ (ในกรณีนี้)
  • มี collinearity ใด ๆ ในหมู่ตัวแปรอธิบาย (มี collinearity น้อย)
  • ระยะทางของชุดข้อมูลของโมเดลของ Cook ต่ำกว่า 1 (ในกรณีนี้ระยะทางทั้งหมดอยู่ต่ำกว่า 0.4 ดังนั้นจึงไม่มีคะแนนอิทธิพล)
  • ส่วนที่เหลือจะกระจายตามปกติ (อาจไม่เป็นเช่นนั้น)

แต่ฉันก็อ่านต่อไปนี้:

การฝ่าฝืนกฎเกณฑ์มักเกิดขึ้นเพราะ (ก) การกระจายของตัวแปรตามและ / หรือตัวแปรอิสระเป็นตัวของตัวเองอย่างมีนัยสำคัญที่ไม่ปกติและ / หรือ (ข) ข้อสมมติเชิงเส้นถูกละเมิด

คำถามที่ 1 สิ่งนี้ทำให้ฟังดูเหมือนว่าตัวแปรอิสระและตัวแปรตามต้องได้รับการกระจายตามปกติ แต่เท่าที่ฉันรู้ว่านี่ไม่ใช่กรณี ตัวแปรตามของฉันเช่นเดียวกับหนึ่งในตัวแปรอิสระของฉันไม่ได้กระจายตามปกติ พวกเขาควรจะเป็นอย่างไร

คำถามที่ 2 พล็อต QQ ของฉันปกติมีลักษณะดังนี้:

ตรวจสอบมาตรฐานของสารตกค้าง

นั่นแตกต่างจากการแจกแจงแบบปกติเล็กน้อยและshapiro.testยังปฏิเสธสมมติฐานว่าง ๆ ว่าส่วนที่เหลือมาจากการแจกแจงแบบปกติ:

> shapiro.test(residuals(lmresult))
W = 0.9171, p-value = 3.618e-06

ค่าที่เหลือเทียบกับค่าติดตั้งมีลักษณะดังนี้:

ส่วนที่เหลือเทียบกับพอดี

ฉันจะทำอย่างไรถ้าไม่ได้แจกจ่ายสิ่งที่เหลืออยู่ตามปกติ หมายความว่าแบบจำลองเชิงเส้นไม่มีประโยชน์ทั้งหมดหรือไม่


3
ส่วนที่เหลือของคุณเมื่อเทียบกับพล็อตที่ติดตั้งแสดงให้เห็นว่าตัวแปรตามของคุณมีขอบเขตที่ต่ำกว่า สิ่งนี้สามารถขับรูปแบบที่คุณเห็น สิ่งนี้อาจให้ข้อบ่งชี้สำหรับรุ่นอื่น ๆ
Maarten Buis

คำตอบ:


25

ก่อนอื่นฉันจะให้ตัวเองของบทความคลาสสิกและเข้าถึงได้และอ่านมัน: Anscombe FJ (1973)กราฟในการวิเคราะห์ทางสถิติ อเมริกันสถิติ 27: 17-21

ตามคำถามของคุณ:

คำตอบ 1:ไม่จำเป็นต้องกระจายตัวแปรตามหรืออิสระ ในความเป็นจริงพวกเขาสามารถมีการแจกแจงแบบวนรอบทุกชนิด สมมติฐานปกตินำไปใช้กับการกระจายของข้อผิดพลาด ( YiY^i )

คำตอบ 2:คุณกำลังถามเกี่ยวกับสมมติฐานที่แยกกันสองข้อเกี่ยวกับการถดถอยกำลังสองน้อยที่สุด (OLS):

  1. หนึ่งคือข้อสันนิษฐานของเส้นตรง นี่หมายความว่าความสัมพันธ์ระหว่างYกับXแสดงออกมาเป็นเส้นตรง (ใช่ไหมตรงกลับไปที่พีชคณิต: y=a+bxโดยที่aคือyตัดและbคือความชันของเส้น) ของข้อสันนิษฐานนี้ก็หมายความว่าความสัมพันธ์ไม่ได้อธิบายไว้อย่างดีในแนวเส้นตรง (เช่นYคือฟังก์ชันไซน์ของXหรือฟังก์ชั่นสมการกำลังสองหรือแม้กระทั่งเส้นตรงที่เปลี่ยนความชันในบางจุด) แนวทางสองขั้นตอนที่ฉันต้องการเพื่อจัดการกับความไม่เป็นเชิงเส้นคือ (1) ดำเนินการถดถอยแบบไม่ปรับพารามิเตอร์บางชนิดเพื่อแนะนำความสัมพันธ์การทำงานแบบไม่เชิงเส้นเฉพาะระหว่างYและX (เช่นใช้LOWESSหรือGAM s เป็นต้น) และ (2) เพื่อระบุความสัมพันธ์การทำงานโดยใช้การถดถอยหลายครั้งที่มีความไม่เชิงเส้นในX , (เช่นYX+X2 ) หรือแบบจำลองการถดถอยกำลังสองน้อยที่สุดแบบไม่เชิงเส้นที่มีค่าไม่เชิงเส้นในพารามิเตอร์ของ X (เช่นYX+max(Xθ,0)โดยที่θหมายถึงจุดที่เส้นถดถอยของYบนXเปลี่ยนความชัน)

  2. อีกข้อหนึ่งคือข้อสันนิษฐานของการกระจายตัวตามปกติ บางครั้งคนเราสามารถหนีไปได้โดยไม่เหลือสิ่งผิดปกติในบริบท OLS ดูตัวอย่างลัมลีย์ T, อีเมอร์เอส (2002) ความสำคัญของอัสสัมชั Normality ในชุดข้อมูลสาธารณสุขขนาดใหญ่ ทบทวนประจำปีสาธารณสุข 23: 151-69 บางครั้งไม่สามารถ (ดูบทความ Anscombe อีกครั้ง)

อย่างไรก็ตามฉันขอแนะนำให้คิดถึงสมมติฐานใน OLS ไม่มากเท่ากับคุณสมบัติที่ต้องการในข้อมูลของคุณ แต่เป็นจุดออกที่น่าสนใจสำหรับการอธิบายธรรมชาติ หลังจากที่ทุกคนส่วนใหญ่ของสิ่งที่เราดูแลเกี่ยวกับในโลกเป็นที่น่าสนใจมากขึ้นกว่าy -intercept และลาดชัน การละเมิดสมมติฐาน OLS อย่างสร้างสรรค์ (ด้วยวิธีการที่เหมาะสม) ทำให้เราสามารถถามและตอบคำถามที่น่าสนใจมากขึ้น


2
ขอบคุณ! ในสไลด์ของสถิติบางหลักสูตรมันบอกว่าถ้าสมมติฐานล้มเหลวคุณสามารถลองเปลี่ยน Y หรือแปลงตัวแปรอธิบาย เมื่อฉันเปลี่ยน Y โดยทำตัวอย่างเช่น lm (Y ^ 0.3 ~ + X1 + X2 + ... ) จากนั้นส่วนที่เหลือของฉันก็จะกระจายตัวตามปกติ นี่เป็นสิ่งที่ถูกต้องหรือไม่
สเตฟาน

@ สเตฟานใช่! การแปลงคำตอบมักจะเป็นเรื่องดีที่ต้องทำlogและการแปลงพลังงานอย่างง่ายเป็นเรื่องปกติ
Gregor

Var(f(x)f(Var(x))lnY=β0+βXX+εβXeβXβXeCIβX

@Alexis: ทำไมหน้าเหล่านี้ถึงบอกว่าต้องกระจายตัวแปรตามปกติ (1) pareonline.net/getvn.asp?n=2&v=8 (2) statisticssolutions.com/...
stackoverflowuser2010

7
Y=β0+βXX+εεN(0,σ)Y=3+0.5×X+N(0,1)YXβ03,βX0.5XY

11

ปัญหาแรกของคุณคือ

  • แม้จะมีการรับรองของคุณพล็อตที่เหลือแสดงให้เห็นว่าการตอบสนองตามเงื่อนไขที่คาดหวังไม่ได้เป็นเชิงเส้นในค่าติดตั้ง; แบบจำลองสำหรับค่าเฉลี่ยนั้นผิด

  • คุณไม่มีความแปรปรวนคงที่ แบบจำลองสำหรับความแปรปรวนผิด

คุณไม่สามารถแม้แต่จะประเมินความเป็นมาตรฐานกับปัญหาเหล่านั้นได้


โปรดอธิบายอย่างละเอียดเกี่ยวกับวิธีการที่คุณได้ข้อสรุปเกี่ยวกับการเป็นเส้นตรงโดยดูที่แปลง? ฉันเข้าใจว่าข้อสันนิษฐานเกี่ยวกับการรักร่วมเพศไม่ตรงกับที่นี่
ดร. Nisha Arora

y^y^=30060<00303060>60) วาดการประมาณที่ดีที่สุดของคุณเป็นเส้นตรง สำหรับฉันคนที่สองตรงกลางเกือบจะบังเอิญดังนั้นฉันจึงรวมสายของพวกเขาให้สิ่งนี้
Glen_b

ในช่วงกลางครึ่งเกือบทั้งหมดจะเป็นค่าลบในส่วนด้านนอกเกือบทั้งหมดจะเป็นค่าบวก สิ่งเหล่านี้ไม่ใช่ลักษณะของการสุ่มที่เหลือ
Glen_b -Reinstate Monica

ขอบคุณ @Glen_b หลังจากช่องว่างอันยาวนานฉันได้ทบทวนแนวคิดของฉันดังนั้นจึงไม่สามารถมองเห็นได้ตั้งแต่แรก
ดร. Nisha Arora

ในขณะที่มีไม่มากไปที่นี่ฉันคาดหวังว่าข้อมูลต้นฉบับไม่เป็นลบและทั้งแบบจำลองเชิงเส้นทั่วไป (อาจแกมมาที่มี log-link) หรือการแปลง (น่าจะเป็นการเปลี่ยนแปลงการบันทึก) จะเป็นทางเลือกที่เหมาะสมกว่า .
Glen_b

3

ฉันจะไม่พูดแบบเชิงเส้นที่ไร้ประโยชน์อย่างสมบูรณ์ อย่างไรก็ตามนี่หมายความว่าแบบจำลองของคุณไม่ถูกต้อง / อธิบายข้อมูลของคุณอย่างเต็มที่ มีส่วนหนึ่งที่คุณต้องตัดสินใจว่าแบบจำลองนั้น "ดีพอ" หรือไม่

สำหรับคำถามแรกของคุณฉันไม่คิดว่าตัวแบบการถดถอยเชิงเส้นถือว่าตัวแปรตามและอิสระของคุณต้องเป็นปกติ อย่างไรก็ตามมีข้อสันนิษฐานเกี่ยวกับความปกติของสิ่งตกค้าง

สำหรับคำถามที่สองของคุณมีสองสิ่งที่แตกต่างที่คุณควรพิจารณา:

  1. ตรวจสอบรุ่นต่าง ๆ แบบจำลองอื่นอาจดีกว่าที่จะอธิบายข้อมูลของคุณ (ตัวอย่างเช่นการถดถอยเชิงเส้นเป็นต้น) คุณยังคงต้องตรวจสอบว่าสมมติฐานของ "รุ่นใหม่" นี้ไม่ได้ละเมิด
  2. ข้อมูลของคุณอาจมีตัวแปรร่วมไม่เพียงพอ (ตัวแปรตาม) เพื่ออธิบายการตอบสนอง (ผลลัพธ์) ในกรณีนี้คุณไม่สามารถทำอะไรได้อีก บางครั้งเราอาจยอมรับเพื่อตรวจสอบว่าส่วนที่เหลือเป็นไปตามการแจกแจงที่แตกต่างกัน (เช่นการแจกแจงแบบ t) แต่ดูเหมือนจะไม่เป็นเช่นนั้นสำหรับคุณ

นอกเหนือจากคำถามของคุณฉันเห็นว่า QQPlot ของคุณไม่ได้ "ทำให้เป็นมาตรฐาน" ปกติแล้วมันจะเป็นเรื่องง่ายที่จะมองไปที่พล็อตที่เหลือของคุณเมื่อมีมาตรฐานดูstdres

stdres(lmobject)

ฉันหวังว่ามันจะช่วยคุณบางทีคนอื่นจะอธิบายได้ดีกว่าฉัน


0

นอกจากคำตอบก่อนหน้านี้ฉันต้องการเพิ่มคะแนนเพื่อปรับปรุงแบบจำลองของคุณ:

  1. บางครั้งการไม่อยู่ในเกณฑ์ปกติของสารตกค้างบ่งชี้ว่ามีค่าผิดปกติ หากเป็นกรณีนี้ให้จัดการกับผู้ผิดวัตถุประสงค์เสียก่อน

  2. อาจใช้การแปลงบางอย่างเพื่อแก้จุดประสงค์

  3. นอกจากนี้ในการจัดการกับหลาย colinearity คุณสามารถดูhttps://www.researchgate.net/post/My_data_has_the_problem_of_multicolinearity_Removing_unique_variables_using_variance_inflation_factor_Vif_didnt_work_Any_sation


-1

สำหรับคำถามที่สองของคุณ

สิ่งที่เกิดขึ้นกับฉันในทางปฏิบัติคือฉันตอบโต้ด้วยตัวแปรอิสระมากมาย ในรุ่นที่ติดตั้งมากเกินไปฉันมีสิ่งตกค้างไม่ปกติ ถึงแม้ว่าผลลัพธ์ที่ได้พิสูจน์แล้วว่าไม่มีหลักฐานเพียงพอที่จะแยกแยะความเป็นไปได้ที่ coeficients บางรายมีค่าเป็นศูนย์ (ที่มีค่า p-grater มากกว่า 0.2) ดังนั้นในรูปแบบที่สองการยกเลิกตัวแปรตามขั้นตอนการเลือกย้อนหลังฉันได้รับการตรวจสอบส่วนที่เหลือตามปกติทั้งแบบกราฟิกด้วย qqplot และโดยการทดสอบไฮโปซิสด้วยการทดสอบ Shapiro-Wilk ตรวจสอบว่านี่เป็นกรณีของคุณหรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.