ความสัมพันธ์ที่คาดหวังระหว่างส่วนที่เหลือและตัวแปรตามคืออะไร?


26

ในการถดถอยเชิงเส้นหลายครั้งฉันสามารถเข้าใจความสัมพันธ์ระหว่างส่วนที่เหลือและตัวทำนายได้ว่าเป็นศูนย์ แต่ความสัมพันธ์ที่คาดหวังระหว่างตัวแปรที่เหลือและตัวแปรคืออะไร คาดว่าจะมีค่าเป็นศูนย์หรือมีความสัมพันธ์สูง? ความหมายของสิ่งนั้นคืออะไร?


4
"ตัวแปรเกณฑ์" คืออะไร?
whuber

2
@ คนที่ฉันคาดเดา Jfly หมายถึงการตอบสนอง / ผล / ขึ้นอยู่กับ / ฯลฯ ตัวแปร. davidmlane.com/hyperstat/A101702.htmlเป็นที่น่าสนใจที่จะเห็นชื่อหลาย ๆ ตัวแปรดังกล่าวดำเนินการโดย: en.wikipedia.org/wiki/…
Jeromy Anglim

@ Jeromy ขอบคุณ! ฉันเดาว่านั่นเป็นความหมาย แต่ก็ไม่แน่ใจ นั่นเป็นคำศัพท์ใหม่สำหรับฉัน - และสำหรับ Wikipedia อย่างชัดเจน
whuber

ฉันจะคิดว่านี่จะเท่ากับหรือบางอย่างที่คล้ายกันในขณะที่E[R2]R2=[corr(y,y^)]2
ความน่าจะเป็นเชิง

y=f(x)+eที่เป็นฟังก์ชั่นการถดถอยเป็นข้อผิดพลาดและ0 จากนั้น2} นั่นคือสถิติตัวอย่าง ค่าที่คาดหวังของมันจะคล้ายกัน แต่ยุ่งกว่า feCov(f(x),e)=0Corr(y,e)=SD(e)/SD(y)=1R2
Ray Koopman

คำตอบ:


20

ในรูปแบบการถดถอย:

yi=xiβ+ui

ข้อสันนิษฐานทั่วไปคือ ,เป็นตัวอย่างของ iid ภายใต้สมมติฐานที่ว่าและมีอันดับเต็มตัวประมาณสแควร์สสามัญน้อยที่สุด:ฉัน= 1 , . . , n E x i u i = 0 E ( x i x i )(Yผม,xผม,ยูผม)ผม=1,...,nExผมยูผม=0E(xผมxผม')

β^=(Σผม=1nxผมxผม')-1Σผม=1xผมYผม

มีความสอดคล้องและเป็นปกติ ความแปรปรวนร่วมที่คาดหวังระหว่างส่วนที่เหลือและตัวแปรตอบกลับคือ:

Eyiui=E(xiβ+ui)ui=Eui2

ถ้าเราสมมติว่าและเราสามารถคำนวณความแปรปรวนร่วมที่คาดหวังระหว่างและการถดถอยที่เหลืออยู่:E ( U 2 ฉัน | x 1 , . . . , x n ) = σ 2 ปีฉันE(ui|x1,...,xn)=0E(ui2|x1,...,xn)=σ2yi

Eyiu^i=Eyi(yixiβ^)=E(xiβ+ui)(uixi(β^β))=E(ui2)(1Exi(j=1nxjxj)1xi)

ตอนนี้ที่จะได้รับความสัมพันธ์ที่เราต้องคำนวณและ_i) ปรากฎว่าVar ( Uฉัน )Var(yi)Var(u^i)

Var(u^i)=E(yiu^i),

ด้วยเหตุนี้

Corr(yi,u^i)=1Exi(j=1nxjxj)1xi

ตอนนี้คำว่ามา จากเส้นทแยงมุมของหมวกเมทริกซ์ที่_N] เมทริกซ์เป็น idempotent ดังนั้นจึงเป็นไปตามคุณสมบัติต่อไปนี้ H=Xxi(j=1nxjxj)1xi X = [ xฉัน , . . , x N ] HH=X(XX)1XX=[xi,...,xN]H

trace(H)=ihii=rank(H),

ที่เป็นระยะที่เส้นทแยงมุมของHคือจำนวนของตัวแปรอิสระที่เป็นเส้นตรงในซึ่งมักจะเป็นจำนวนของตัวแปร ขอให้เราเรียกมันว่าพีจำนวนเป็นขนาดของกลุ่มตัวอย่างNดังนั้นเราจึงมีเงื่อนไขไม่เป็นลบซึ่งควรรวมถึงพีโดยปกติแล้วจะมีขนาดใหญ่กว่าดังนั้นจำนวนมากจะอยู่ใกล้กับศูนย์ซึ่งหมายความว่าความสัมพันธ์ระหว่างส่วนที่เหลือกับตัวแปรตอบสนองจะใกล้เคียงกับ 1 สำหรับส่วนที่ใหญ่กว่าของการสังเกต H ยศ( H ) xฉันพีเอชฉันฉัน N N พีเอ็นพีเอชฉันฉันhiiHrank(H)xiphiiNNpNphii

คำว่ายังใช้ในการวินิจฉัยการถดถอยแบบต่าง ๆ เพื่อพิจารณาการสังเกตที่มีอิทธิพลhii


10
+1 นี่คือการวิเคราะห์ที่ถูกต้อง แต่ทำไมคุณไม่ทำงานให้เสร็จและตอบคำถาม? สหกรณ์ถามว่าความสัมพันธ์นี้คือ "สูง" และสิ่งที่มันอาจหมายถึง
whuber

ดังนั้นคุณสามารถบอกได้ว่าความสัมพันธ์นั้นมีค่าประมาณ1pN
ความน่าจะเป็นทาง

1
ความสัมพันธ์นั้นแตกต่างกันสำหรับการสังเกตทุกครั้ง แต่ใช่คุณสามารถพูดได้ว่าหาก X ไม่มีค่าผิดปกติ
mpiktas

21

ความสัมพันธ์ขึ้นอยู่กับ 2 หากสูงหมายความว่าการเปลี่ยนแปลงในตัวแปรตามจำนวนมากของคุณสามารถนำมาประกอบกับการเปลี่ยนแปลงในตัวแปรอิสระของคุณและไม่ใช่ข้อผิดพลาดของคุณR 2R2R2

อย่างไรก็ตามถ้าต่ำแสดงว่ารูปแบบส่วนใหญ่ในตัวแปรตามของคุณไม่เกี่ยวข้องกับรูปแบบในตัวแปรอิสระดังนั้นจึงต้องเกี่ยวข้องกับคำที่ผิดพลาดR2

พิจารณาโมเดลต่อไปนี้:

Y XY=Xβ+εโดยที่และไม่เกี่ยวข้องกันYX

สมมติว่ามีเงื่อนไขความสม่ำเสมอเพียงพอสำหรับ CLT ที่จะถือ

0XY Y =X β ε:=Y - Y =Y-0=YεYβ^จะมาบรรจบกันเป็นเนื่องจากและไม่เกี่ยวข้องกัน ดังนั้นจะเป็นศูนย์เสมอ ดังนั้น Y และสัมพันธ์กันอย่างสมบูรณ์แบบ !!!0XYY^=Xβ^ε:=YY^=Y0=YεY

แก้ไขสิ่งอื่นทั้งหมดแล้วการเพิ่มจะช่วยลดความสัมพันธ์ระหว่างข้อผิดพลาดกับการพึ่งพา ความสัมพันธ์ที่ดีไม่จำเป็นต้องทำให้เกิดสัญญาณเตือน นี่อาจหมายถึงว่ากระบวนการพื้นฐานนั้นมีเสียงดัง อย่างไรก็ตามต่ำ(และความสัมพันธ์ระหว่างความผิดพลาดและความสัมพันธ์สูง) อาจเกิดจากการสะกดผิดของโมเดลR 2R2R2


ผมพบคำตอบนี้ทำให้เกิดความสับสนในส่วนที่ผ่านการใช้งานของ " " ที่จะยืนอยู่ทั้งในแง่ข้อผิดพลาดในรูปแบบและคลาดเคลื่อนY - Y จุดที่สับสนอีกอย่างคือการอ้างอิงถึง "การรวมเข้ากับ" แม้ว่าจะไม่มีลำดับของสิ่งใดเลยในหลักฐานที่การบรรจบกันอาจนำไปใช้ การสันนิษฐานว่าXและYไม่มีความสัมพันธ์กันนั้นเป็นเรื่องพิเศษและไม่ได้แสดงให้เห็นถึงสถานการณ์ทั่วไป ทั้งหมดนี้ปิดบังสิ่งที่คำตอบนี้อาจจะพยายามที่จะพูดหรือการเรียกร้องที่เป็นจริงโดยทั่วไป εYY^XY
whuber

17

ฉันพบว่าหัวข้อนี้ค่อนข้างน่าสนใจและคำตอบในปัจจุบันน่าเสียดาย แต่ก็ไม่สมบูรณ์หรือทำให้เข้าใจผิดบางส่วน - แม้จะมีความเกี่ยวข้องและความนิยมสูงของคำถามนี้

ตามคำนิยามของกรอบ OLS คลาสสิกควรจะมีความสัมพันธ์ระหว่างและ Uŷu^เนื่องจากเหลือที่ได้รับต่อการก่อสร้าง uncorrelated กับ deriving OLS ประมาณการ การลดความแปรปรวนของคุณสมบัติภายใต้ homoskedasticity ทำให้มั่นใจได้ว่าข้อผิดพลาดที่เหลือจะถูกกระจายแบบสุ่มรอบค่าติดตั้ง สามารถแสดงได้อย่างเป็นทางการโดย:ŷ

Cov(ŷ,û|X)=Cov(Py,My|X)=Cov(Py,(IP)y|X)=PCov(y,y)(IP)
=Pσ2Pσ2=0

ที่ไหนและมีการฝึกอบรม idempotent หมายถึง:และMP P = X ( X X ) X M = I - PMPP=X(XX)XM=IP

ผลลัพธ์นี้ขึ้นอยู่กับความเป็นเนื้อเดียวกันอย่างเข้มงวดและความเป็นเนื้อเดียวกันและยึดตัวอย่างจริงไว้เป็นจำนวนมาก สัญชาตญาณสำหรับ uncorrelatedness ของพวกเขาคือต่อไปนี้: ค่าติดตั้งเงื่อนไขในจะแน่นิ่งซึ่งมีความคิดที่เป็นอิสระและกันกระจาย อย่างไรก็ตามการเบี่ยงเบนใด ๆ จาก exogeneity และ homoskedasticity สมมติฐานที่เข้มงวดอาจทำให้การอธิบายตัวแปรที่จะเป็นภายนอกและกระตุ้นให้เกิดความสัมพันธ์ที่แฝงอยู่ระหว่างและY X U U YŷXûûŷ

ตอนนี้ความสัมพันธ์ระหว่างสิ่งตกค้างที่และ"ต้นฉบับ"เป็นเรื่องที่แตกต่างอย่างสิ้นเชิง:Yûy

Cov(y,û|X)=Cov(yMy|X)=Cov(y,(1P)y)=Cov(y,y)(1P)=σ2M

การตรวจสอบในทางทฤษฎีและเรารู้ว่าเมทริกซ์ความแปรปรวนร่วมนี้เหมือนกับเมทริกซ์ความแปรปรวนร่วมของส่วนที่เหลือตัวมันเอง (ไม่ได้รับการพิสูจน์) เรามี:u^

Var(û)=σ2M=Cov(y,û|X)

หากเราต้องการคำนวณความแปรปรวนร่วม (สเกลาร์) ระหว่างและตามที่ร้องขอโดย OP เราจะได้รับ:ยูyu^

Covscalar(y,û|X)=Var(û|X)=(ui2)/N

(= โดยสรุปผลรวมของรายการในแนวทแยงของเมทริกซ์ความแปรปรวนร่วมและหารด้วย N)

สูตรด้านบนแสดงถึงจุดที่น่าสนใจ หากเราทดสอบความสัมพันธ์โดยการลดในส่วนที่เหลือ (+ ค่าคงที่) สัมประสิทธิ์ความชันซึ่งสามารถหาได้ง่ายเมื่อเราหารนิพจน์ด้านบนด้วยX)ยูเบต้าU , Y = 1 Var ( U | X )yu^βu^,y=1Var(û|X)

ในอีกทางหนึ่งความสัมพันธ์คือความแปรปรวนร่วมที่เป็นมาตรฐานโดยค่าเบี่ยงเบนมาตรฐานที่เกี่ยวข้อง ตอนนี้เมทริกซ์ความแปรปรวนของเหลือคือในขณะที่ความแปรปรวนของเป็นฉัน ดังนั้นความสัมพันธ์จึงกลายเป็น:Y σ 2ฉันCorr(Y,U)σ2Myσ2ICorr(y,û)

Corr(y,û)=Var(û)Var(u^)Var(y)=Var(û)Var(y)=Var(û)σ2

นี่คือผลลัพธ์หลักที่ควรถือในการถดถอยเชิงเส้น สัญชาตญาณคือเป็นการแสดงออกถึงข้อผิดพลาดระหว่างความแปรปรวนที่แท้จริงของคำผิดพลาดและพร็อกซีสำหรับความแปรปรวนตามส่วนที่เหลือ ขอให้สังเกตว่าความแปรปรวนของจะมีค่าเท่ากับความแปรปรวนของบวกความแปรปรวนของความคลาดเคลื่อนที่{u} ดังนั้นจึงสามารถเขียนใหม่ได้อย่างสังหรณ์ใจมากขึ้นเมื่อ: Y Y ยูCorr(y,û)yy^u^

Corr(y,û)=11+Var(y)^Var(û)

กองกำลังทั้งสองอยู่ที่นี่ในที่ทำงาน ถ้าเรามีแบบที่ดีของเส้นถดถอย, ความสัมพันธ์ที่คาดว่าจะอยู่ในระดับต่ำเนื่องจาก0 ในทางกลับกันเป็นบิตของเหลวไหลที่จะเห็นคุณค่าเพราะมันไม่มีเงื่อนไขและบรรทัดในพื้นที่พารามิเตอร์ การเปรียบเทียบความแปรปรวนแบบไม่มีเงื่อนไขและแบบมีเงื่อนไขภายในอัตราส่วนอาจไม่ใช่ตัวบ่งชี้ที่เหมาะสมหลังจากทั้งหมด บางทีนั่นอาจเป็นเหตุผลว่าทำไมในทางปฏิบัติvar ( Y )Var(û)0Var(y^)

มีความพยายามสรุปคำถาม: ความสัมพันธ์ระหว่างและเป็นบวกและเกี่ยวข้องกับอัตราส่วนของความแปรปรวนของความคลาดเคลื่อนและความแปรปรวนของระยะข้อผิดพลาดที่แท้จริงที่พร็อกซีโดยไม่มีเงื่อนไขแปรปรวนในปีดังนั้นมันเป็นบิตของตัวบ่งชี้ที่ทำให้เข้าใจผิดU Yyûy

แม้จะมีการออกกำลังกายนี้อาจทำให้เรามีสัญชาตญาณบางอย่างเกี่ยวกับการทำงานและการตั้งสมมติฐานทฤษฎีโดยธรรมชาติของการถดถอย OLS เราไม่ค่อยประเมินความสัมพันธ์ระหว่างและUมีการทดสอบที่แน่นอนมากขึ้นสำหรับการตรวจสอบคุณสมบัติของคำผิดพลาดจริง ประการที่สองเก็บไว้ในใจที่เหลือที่ยังไม่ได้คำข้อผิดพลาดและการทดสอบบนเหลือที่ทำให้การคาดการณ์ของลักษณะในระยะข้อผิดพลาดจริงจะถูก จำกัด และความต้องการความถูกต้องของพวกเขาที่จะจัดการด้วยความระมัดระวังสูงสุดยูยูยูyûûu

ตัวอย่างเช่นฉันต้องการจะชี้ให้เห็นคำสั่งที่ทำโดยผู้โพสต์ก่อนหน้านี้ที่นี่ ว่ากันว่า

"หากส่วนที่เหลือของคุณมีความสัมพันธ์กับตัวแปรอิสระของคุณโมเดลของคุณก็คือ heteroskedastic ... "

ฉันคิดว่าอาจไม่ถูกต้องทั้งหมดในบริบทนี้ เชื่อหรือไม่ แต่ที่เหลือ OLSโดยการก่อสร้างทำที่จะuncorrelated กับตัวแปรอิสระx_kหากต้องการดูสิ่งนี้ให้พิจารณา:x kûxk

= X y - X X ( X X ) X y

Xui=XMy=X(IP)y=XyXPy
=XyXX(XX)Xy=XyXy=0
Xui=0Cov(X,ui|X)=0Cov(xki,ui|xki)=0

แต่คุณอาจจะเคยได้ยินอ้างว่าตัวแปรที่อธิบายความสัมพันธ์กับระยะผิดพลาด ขอให้สังเกตว่าการเรียกร้องดังกล่าวขึ้นอยู่กับสมมติฐานเกี่ยวกับประชากรทั้งหมดที่มีรูปแบบการถดถอยพื้นฐานที่แท้จริงซึ่งเราไม่ได้สังเกตด้วยตนเอง ดังนั้นการตรวจสอบความสัมพันธ์ระหว่างและ OLS เชิงเส้น อย่างไรก็ตามเมื่อทำการทดสอบheteroskedasticityเราจะคำนึงถึงช่วงเวลาที่มีเงื่อนไขที่สองเป็นตัวอย่างเราจะทำการคำนวณส่วนที่เหลือกำลังสองของหรือฟังก์ชันของU X XyûXXมันมักจะเป็นกรณีที่มีตัวประมาณค่า FGSL สิ่งนี้แตกต่างจากการประเมินความสัมพันธ์แบบธรรมดา ฉันหวังว่านี่จะช่วยให้เรื่องชัดเจนขึ้น


1
โปรดทราบว่าเรามี (อย่างน้อยก็โดยประมาณ) สิ่งนี้ให้ความสัมพันธ์ซึ่งเป็นสัญชาตญาณเพิ่มเติมเกี่ยวกับสิ่งที่คุณพูดถึงในย่อหน้าถัดไป var(u^)var(y)=SSETSS=1R2corr(y,u^)=1R2
ความน่าจะเป็นเชิง

2
สิ่งที่ฉันพบคำตอบที่น่าสนใจเกี่ยวกับเรื่องนี้ก็คือความสัมพันธ์เป็นเสมอในเชิงบวก
ความน่าจะเป็นที่จะเกิดขึ้น

คุณระบุว่าเป็นเมทริกซ์ แต่คุณหารด้วย Var(y)
mpiktas

@probabilityislogic: ไม่แน่ใจว่าฉันสามารถทำตามขั้นตอนของคุณได้ไหม มันจะอยู่ภายใต้ squareroot 1+ (1/1-R ^ 2) ซึ่งคืออะไร (2-R ^ 2) / (1-R ^ 2)? แต่สิ่งที่เป็นจริงคือมันยังคงเป็นบวก สัญชาตญาณคือถ้าคุณมีเส้นผ่าน scatterplot และคุณถอยหลังบรรทัดนี้กับข้อผิดพลาดจากบรรทัดนั้นก็ควรจะเห็นได้ชัดว่าเมื่อค่า y ของบรรทัดนั้นเพิ่มค่าของส่วนที่เหลือก็เพิ่มขึ้นเช่นกัน ทั้งนี้เนื่องจากส่วนที่เหลือขึ้นอยู่กับการก่อสร้างของ y
Majte

@mpiktas: ในกรณีนี้เมทริกซ์จะกลายเป็นสเกลาร์ในขณะที่เราจัดการ y อยู่ในมิติเดียว
Majte

6

คำตอบของอดัมนั้นผิด แม้จะมีโมเดลที่เหมาะกับข้อมูลอย่างสมบูรณ์แบบคุณยังสามารถรับความสัมพันธ์สูงระหว่างค่าคงที่และตัวแปรตาม นั่นคือเหตุผลที่ไม่มีหนังสือการถดถอยขอให้คุณตรวจสอบความสัมพันธ์นี้ คุณสามารถหาคำตอบได้ในหนังสือ "การวิเคราะห์การถดถอยประยุกต์" ของดร. เดรเปอร์


3
แม้ว่าจะถูกต้องนี่เป็นการยืนยันมากกว่าคำตอบตามมาตรฐานของ CV @Jeff คุณจะช่วยชี้แจง / สำรองการเคลมของคุณหรือไม่ แม้แต่หมายเลขหน้า & รุ่นของ Draper & Smith ก็พอเพียงแล้ว
gung - Reinstate Monica

4

ดังนั้นสิ่งที่เหลืออยู่คือความแปรปรวนที่ไม่ได้อธิบายของคุณความแตกต่างระหว่างการคาดการณ์ของแบบจำลองกับผลลัพธ์ที่แท้จริงที่คุณกำลังสร้างแบบจำลอง ในทางปฏิบัติมีตัวแบบไม่กี่ตัวที่สร้างขึ้นจากการถดถอยเชิงเส้นจะมีค่าตกค้างใกล้เคียงกับศูนย์ทั้งหมดยกเว้นการถดถอยเชิงเส้นจะถูกใช้เพื่อวิเคราะห์กระบวนการเชิงกลหรือกระบวนการคงที่

ตามหลักแล้วค่าที่เหลือจากแบบจำลองของคุณควรเป็นแบบสุ่มซึ่งหมายความว่าไม่ควรมีความสัมพันธ์กับตัวแปรอิสระหรือตัวแปรตามของคุณ (สิ่งที่คุณเรียกว่าตัวแปรเกณฑ์) ในการถดถอยเชิงเส้นเงื่อนไขข้อผิดพลาดของคุณจะถูกกระจายตามปกติดังนั้นส่วนที่เหลือของคุณก็ควรจะกระจายตามปกติเช่นกัน หากคุณมีค่าผิดปกติอย่างมีนัยสำคัญหรือหากค่าส่วนแบ่งของคุณมีความสัมพันธ์กับตัวแปรตามหรือตัวแปรอิสระของคุณแล้วคุณมีปัญหากับรูปแบบของคุณ

หากคุณมีค่าผิดปกติจำนวนมากและการกระจายที่ไม่เป็นปกติของค่าผิดปกติอาจทำให้น้ำหนักของคุณลดลง (Betas) และฉันขอแนะนำให้คำนวณ DFBETAS เพื่อตรวจสอบอิทธิพลของการสังเกตน้ำหนักของคุณ หากส่วนที่เหลือของคุณมีความสัมพันธ์กับตัวแปรตามของคุณแล้วมีความแปรปรวนไม่ได้อธิบายจำนวนมากที่คุณไม่ได้บัญชี คุณอาจเห็นสิ่งนี้หากคุณกำลังวิเคราะห์ข้อสังเกตซ้ำ ๆ ในสิ่งเดียวกันเนื่องจากความสัมพันธ์อัตโนมัติ สิ่งนี้สามารถตรวจสอบได้โดยดูว่าส่วนที่เหลือของคุณมีความสัมพันธ์กับเวลาหรือตัวแปรดัชนีหรือไม่ หากส่วนที่เหลือของคุณมีความสัมพันธ์กับตัวแปรอิสระของคุณแล้วแบบจำลองของคุณคือ heteroskedastic (ดู: http://en.wikipedia.org/wiki/Heteroscedasticity) คุณควรตรวจสอบ (ถ้าคุณยังไม่ได้ดำเนินการ) หากตัวแปรการป้อนข้อมูลของคุณมีการกระจายตามปกติและหากไม่เป็นเช่นนั้นคุณควรพิจารณาปรับขนาดหรือแปลงข้อมูลของคุณ (ชนิดที่พบบ่อยที่สุดคือ log และ square-root) ปกติ

ในกรณีของทั้งคู่ค่าคงที่ของคุณและตัวแปรอิสระของคุณคุณควรทำการทดสอบ QQ-Plot รวมถึงทำการทดสอบ Kolmogorov-Smirnov (บางครั้งการดำเนินการนี้เรียกว่าการทดสอบ Lilliefors) เพื่อให้แน่ใจว่าคุณค่าของคุณ เหมาะสมกับการแจกแจงแบบปกติ

สามสิ่งที่รวดเร็วและอาจเป็นประโยชน์ในการจัดการกับปัญหานี้กำลังตรวจสอบค่ามัธยฐานของค่าคงค้างของคุณควรใกล้เคียงกับศูนย์มากที่สุด (ค่าเฉลี่ยจะเกือบเป็นศูนย์เสมอเนื่องจากการติดตั้งข้อผิดพลาด ในการถดถอยเชิงเส้น) การทดสอบ Durbin-Watson สำหรับความสัมพันธ์อัตโนมัติในส่วนที่เหลือของคุณ (โดยเฉพาะอย่างยิ่งที่ฉันกล่าวก่อนหน้านี้หากคุณกำลังดูการสังเกตหลายอย่างในสิ่งเดียวกัน) และการทำพล็อตส่วนที่เหลือจะช่วยให้คุณมองหา


ขอบคุณมาก. คำอธิบายของคุณเป็นประโยชน์กับฉันมาก
Jfly

1
+1 ดีคำตอบที่ครอบคลุม ฉันจะไป nitpick ที่ 2 คะแนน "ถ้าส่วนที่เหลือของคุณมีความสัมพันธ์กับตัวแปรอิสระของคุณแล้วแบบจำลองของคุณคือ heteroskedastic" - ฉันจะบอกว่าถ้าความแปรปรวนของส่วนที่เหลือของคุณขึ้นอยู่กับระดับของตัวแปรอิสระคุณจะมีความแตกต่างอย่างมาก นอกจากนี้ฉันเคยได้ยินการทดสอบ Kolmogorov-Smirnov / Lilliefors อธิบายว่า "ไม่น่าเชื่อถืออย่างไม่น่าเชื่อ" และในทางปฏิบัติฉันพบว่าสิ่งนี้เป็นจริง ดีกว่าที่จะทำการกำหนดอัตนัยบนพื้นฐานของพล็อต QQ หรือฮิสโตแกรมอย่างง่าย
rolando2

4
การอ้างสิทธิ์ว่า "ส่วนที่เหลือจากแบบจำลองของคุณ ... ไม่ควรสัมพันธ์กับ ... ตัวแปรตาม ... ของคุณ" ไม่เป็นความจริงตามที่อธิบายไว้ในคำตอบอื่น ๆ ในหัวข้อนี้ คุณจะช่วยแก้ไขโพสต์นี้หรือไม่?
gung - Reinstate Monica

1
(-1) ฉันคิดว่าโพสต์นี้ไม่เกี่ยวข้องกับคำถามที่ถาม มันดีเหมือนคำแนะนำทั่วไป แต่อาจเป็นกรณีของ "คำตอบที่ถูกสำหรับคำถามที่ผิด"
ความน่าจะเป็นทาง
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.