ในการถดถอยเชิงเส้นหลายครั้งฉันสามารถเข้าใจความสัมพันธ์ระหว่างส่วนที่เหลือและตัวทำนายได้ว่าเป็นศูนย์ แต่ความสัมพันธ์ที่คาดหวังระหว่างตัวแปรที่เหลือและตัวแปรคืออะไร คาดว่าจะมีค่าเป็นศูนย์หรือมีความสัมพันธ์สูง? ความหมายของสิ่งนั้นคืออะไร?
ในการถดถอยเชิงเส้นหลายครั้งฉันสามารถเข้าใจความสัมพันธ์ระหว่างส่วนที่เหลือและตัวทำนายได้ว่าเป็นศูนย์ แต่ความสัมพันธ์ที่คาดหวังระหว่างตัวแปรที่เหลือและตัวแปรคืออะไร คาดว่าจะมีค่าเป็นศูนย์หรือมีความสัมพันธ์สูง? ความหมายของสิ่งนั้นคืออะไร?
คำตอบ:
ในรูปแบบการถดถอย:
ข้อสันนิษฐานทั่วไปคือ ,เป็นตัวอย่างของ iid ภายใต้สมมติฐานที่ว่าและมีอันดับเต็มตัวประมาณสแควร์สสามัญน้อยที่สุด:ฉัน= 1 , . . , n E x i u i = 0 E ( x i x ′ i )
มีความสอดคล้องและเป็นปกติ ความแปรปรวนร่วมที่คาดหวังระหว่างส่วนที่เหลือและตัวแปรตอบกลับคือ:
ถ้าเราสมมติว่าและเราสามารถคำนวณความแปรปรวนร่วมที่คาดหวังระหว่างและการถดถอยที่เหลืออยู่:E ( U 2 ฉัน | x 1 , . . . , x n ) = σ 2 ปีฉัน
ตอนนี้ที่จะได้รับความสัมพันธ์ที่เราต้องคำนวณและ_i) ปรากฎว่าVar ( Uฉัน )
ด้วยเหตุนี้
ตอนนี้คำว่ามา จากเส้นทแยงมุมของหมวกเมทริกซ์ที่_N] เมทริกซ์เป็น idempotent ดังนั้นจึงเป็นไปตามคุณสมบัติต่อไปนี้ H=X X = [ xฉัน , . . , x N ] ′ H
ที่เป็นระยะที่เส้นทแยงมุมของHคือจำนวนของตัวแปรอิสระที่เป็นเส้นตรงในซึ่งมักจะเป็นจำนวนของตัวแปร ขอให้เราเรียกมันว่าพีจำนวนเป็นขนาดของกลุ่มตัวอย่างNดังนั้นเราจึงมีเงื่อนไขไม่เป็นลบซึ่งควรรวมถึงพีโดยปกติแล้วจะมีขนาดใหญ่กว่าดังนั้นจำนวนมากจะอยู่ใกล้กับศูนย์ซึ่งหมายความว่าความสัมพันธ์ระหว่างส่วนที่เหลือกับตัวแปรตอบสนองจะใกล้เคียงกับ 1 สำหรับส่วนที่ใหญ่กว่าของการสังเกต H ยศ( H ) xฉันพีเอชฉันฉัน N N พีเอ็นพีเอชฉันฉัน
คำว่ายังใช้ในการวินิจฉัยการถดถอยแบบต่าง ๆ เพื่อพิจารณาการสังเกตที่มีอิทธิพล
ความสัมพันธ์ขึ้นอยู่กับ 2 หากสูงหมายความว่าการเปลี่ยนแปลงในตัวแปรตามจำนวนมากของคุณสามารถนำมาประกอบกับการเปลี่ยนแปลงในตัวแปรอิสระของคุณและไม่ใช่ข้อผิดพลาดของคุณR 2
อย่างไรก็ตามถ้าต่ำแสดงว่ารูปแบบส่วนใหญ่ในตัวแปรตามของคุณไม่เกี่ยวข้องกับรูปแบบในตัวแปรอิสระดังนั้นจึงต้องเกี่ยวข้องกับคำที่ผิดพลาด
พิจารณาโมเดลต่อไปนี้:
Y Xโดยที่และไม่เกี่ยวข้องกัน
สมมติว่ามีเงื่อนไขความสม่ำเสมอเพียงพอสำหรับ CLT ที่จะถือ
0XY Y =X β ε:=Y - Y =Y-0=YεYจะมาบรรจบกันเป็นเนื่องจากและไม่เกี่ยวข้องกัน ดังนั้นจะเป็นศูนย์เสมอ ดังนั้น Y และสัมพันธ์กันอย่างสมบูรณ์แบบ !!!
แก้ไขสิ่งอื่นทั้งหมดแล้วการเพิ่มจะช่วยลดความสัมพันธ์ระหว่างข้อผิดพลาดกับการพึ่งพา ความสัมพันธ์ที่ดีไม่จำเป็นต้องทำให้เกิดสัญญาณเตือน นี่อาจหมายถึงว่ากระบวนการพื้นฐานนั้นมีเสียงดัง อย่างไรก็ตามต่ำ(และความสัมพันธ์ระหว่างความผิดพลาดและความสัมพันธ์สูง) อาจเกิดจากการสะกดผิดของโมเดลR 2
ฉันพบว่าหัวข้อนี้ค่อนข้างน่าสนใจและคำตอบในปัจจุบันน่าเสียดาย แต่ก็ไม่สมบูรณ์หรือทำให้เข้าใจผิดบางส่วน - แม้จะมีความเกี่ยวข้องและความนิยมสูงของคำถามนี้
ตามคำนิยามของกรอบ OLS คลาสสิกควรจะมีความสัมพันธ์ระหว่างและ Uเนื่องจากเหลือที่ได้รับต่อการก่อสร้าง uncorrelated กับ deriving OLS ประมาณการ การลดความแปรปรวนของคุณสมบัติภายใต้ homoskedasticity ทำให้มั่นใจได้ว่าข้อผิดพลาดที่เหลือจะถูกกระจายแบบสุ่มรอบค่าติดตั้ง สามารถแสดงได้อย่างเป็นทางการโดย:
ที่ไหนและมีการฝึกอบรม idempotent หมายถึง:และMP P = X ( X ′ X ) X ′ M = I - P
ผลลัพธ์นี้ขึ้นอยู่กับความเป็นเนื้อเดียวกันอย่างเข้มงวดและความเป็นเนื้อเดียวกันและยึดตัวอย่างจริงไว้เป็นจำนวนมาก สัญชาตญาณสำหรับ uncorrelatedness ของพวกเขาคือต่อไปนี้: ค่าติดตั้งเงื่อนไขในจะแน่นิ่งซึ่งมีความคิดที่เป็นอิสระและกันกระจาย อย่างไรก็ตามการเบี่ยงเบนใด ๆ จาก exogeneity และ homoskedasticity สมมติฐานที่เข้มงวดอาจทำให้การอธิบายตัวแปรที่จะเป็นภายนอกและกระตุ้นให้เกิดความสัมพันธ์ที่แฝงอยู่ระหว่างและY X U U Y
ตอนนี้ความสัมพันธ์ระหว่างสิ่งตกค้างที่และ"ต้นฉบับ"เป็นเรื่องที่แตกต่างอย่างสิ้นเชิง:Y
การตรวจสอบในทางทฤษฎีและเรารู้ว่าเมทริกซ์ความแปรปรวนร่วมนี้เหมือนกับเมทริกซ์ความแปรปรวนร่วมของส่วนที่เหลือตัวมันเอง (ไม่ได้รับการพิสูจน์) เรามี:
หากเราต้องการคำนวณความแปรปรวนร่วม (สเกลาร์) ระหว่างและตามที่ร้องขอโดย OP เราจะได้รับ:ยู
(= โดยสรุปผลรวมของรายการในแนวทแยงของเมทริกซ์ความแปรปรวนร่วมและหารด้วย N)
สูตรด้านบนแสดงถึงจุดที่น่าสนใจ หากเราทดสอบความสัมพันธ์โดยการลดในส่วนที่เหลือ (+ ค่าคงที่) สัมประสิทธิ์ความชันซึ่งสามารถหาได้ง่ายเมื่อเราหารนิพจน์ด้านบนด้วยX)ยูเบต้าU , Y = 1 Var ( U | X )
ในอีกทางหนึ่งความสัมพันธ์คือความแปรปรวนร่วมที่เป็นมาตรฐานโดยค่าเบี่ยงเบนมาตรฐานที่เกี่ยวข้อง ตอนนี้เมทริกซ์ความแปรปรวนของเหลือคือในขณะที่ความแปรปรวนของเป็นฉัน ดังนั้นความสัมพันธ์จึงกลายเป็น:Y σ 2ฉันCorr(Y,U)
นี่คือผลลัพธ์หลักที่ควรถือในการถดถอยเชิงเส้น สัญชาตญาณคือเป็นการแสดงออกถึงข้อผิดพลาดระหว่างความแปรปรวนที่แท้จริงของคำผิดพลาดและพร็อกซีสำหรับความแปรปรวนตามส่วนที่เหลือ ขอให้สังเกตว่าความแปรปรวนของจะมีค่าเท่ากับความแปรปรวนของบวกความแปรปรวนของความคลาดเคลื่อนที่{u} ดังนั้นจึงสามารถเขียนใหม่ได้อย่างสังหรณ์ใจมากขึ้นเมื่อ: Y Y ยู
กองกำลังทั้งสองอยู่ที่นี่ในที่ทำงาน ถ้าเรามีแบบที่ดีของเส้นถดถอย, ความสัมพันธ์ที่คาดว่าจะอยู่ในระดับต่ำเนื่องจาก0 ในทางกลับกันเป็นบิตของเหลวไหลที่จะเห็นคุณค่าเพราะมันไม่มีเงื่อนไขและบรรทัดในพื้นที่พารามิเตอร์ การเปรียบเทียบความแปรปรวนแบบไม่มีเงื่อนไขและแบบมีเงื่อนไขภายในอัตราส่วนอาจไม่ใช่ตัวบ่งชี้ที่เหมาะสมหลังจากทั้งหมด บางทีนั่นอาจเป็นเหตุผลว่าทำไมในทางปฏิบัติvar ( Y )
มีความพยายามสรุปคำถาม: ความสัมพันธ์ระหว่างและเป็นบวกและเกี่ยวข้องกับอัตราส่วนของความแปรปรวนของความคลาดเคลื่อนและความแปรปรวนของระยะข้อผิดพลาดที่แท้จริงที่พร็อกซีโดยไม่มีเงื่อนไขแปรปรวนในปีดังนั้นมันเป็นบิตของตัวบ่งชี้ที่ทำให้เข้าใจผิดU Y
แม้จะมีการออกกำลังกายนี้อาจทำให้เรามีสัญชาตญาณบางอย่างเกี่ยวกับการทำงานและการตั้งสมมติฐานทฤษฎีโดยธรรมชาติของการถดถอย OLS เราไม่ค่อยประเมินความสัมพันธ์ระหว่างและUมีการทดสอบที่แน่นอนมากขึ้นสำหรับการตรวจสอบคุณสมบัติของคำผิดพลาดจริง ประการที่สองเก็บไว้ในใจที่เหลือที่ยังไม่ได้คำข้อผิดพลาดและการทดสอบบนเหลือที่ทำให้การคาดการณ์ของลักษณะในระยะข้อผิดพลาดจริงจะถูก จำกัด และความต้องการความถูกต้องของพวกเขาที่จะจัดการด้วยความระมัดระวังสูงสุดยูยูยู
ตัวอย่างเช่นฉันต้องการจะชี้ให้เห็นคำสั่งที่ทำโดยผู้โพสต์ก่อนหน้านี้ที่นี่ ว่ากันว่า
"หากส่วนที่เหลือของคุณมีความสัมพันธ์กับตัวแปรอิสระของคุณโมเดลของคุณก็คือ heteroskedastic ... "
ฉันคิดว่าอาจไม่ถูกต้องทั้งหมดในบริบทนี้ เชื่อหรือไม่ แต่ที่เหลือ OLSโดยการก่อสร้างทำที่จะuncorrelated กับตัวแปรอิสระx_kหากต้องการดูสิ่งนี้ให้พิจารณา:x k
= X ′ y - X ′ X ( X ′ X ) X ′ y
แต่คุณอาจจะเคยได้ยินอ้างว่าตัวแปรที่อธิบายความสัมพันธ์กับระยะผิดพลาด ขอให้สังเกตว่าการเรียกร้องดังกล่าวขึ้นอยู่กับสมมติฐานเกี่ยวกับประชากรทั้งหมดที่มีรูปแบบการถดถอยพื้นฐานที่แท้จริงซึ่งเราไม่ได้สังเกตด้วยตนเอง ดังนั้นการตรวจสอบความสัมพันธ์ระหว่างและ OLS เชิงเส้น อย่างไรก็ตามเมื่อทำการทดสอบheteroskedasticityเราจะคำนึงถึงช่วงเวลาที่มีเงื่อนไขที่สองเป็นตัวอย่างเราจะทำการคำนวณส่วนที่เหลือกำลังสองของหรือฟังก์ชันของU X Xมันมักจะเป็นกรณีที่มีตัวประมาณค่า FGSL สิ่งนี้แตกต่างจากการประเมินความสัมพันธ์แบบธรรมดา ฉันหวังว่านี่จะช่วยให้เรื่องชัดเจนขึ้น
คำตอบของอดัมนั้นผิด แม้จะมีโมเดลที่เหมาะกับข้อมูลอย่างสมบูรณ์แบบคุณยังสามารถรับความสัมพันธ์สูงระหว่างค่าคงที่และตัวแปรตาม นั่นคือเหตุผลที่ไม่มีหนังสือการถดถอยขอให้คุณตรวจสอบความสัมพันธ์นี้ คุณสามารถหาคำตอบได้ในหนังสือ "การวิเคราะห์การถดถอยประยุกต์" ของดร. เดรเปอร์
ดังนั้นสิ่งที่เหลืออยู่คือความแปรปรวนที่ไม่ได้อธิบายของคุณความแตกต่างระหว่างการคาดการณ์ของแบบจำลองกับผลลัพธ์ที่แท้จริงที่คุณกำลังสร้างแบบจำลอง ในทางปฏิบัติมีตัวแบบไม่กี่ตัวที่สร้างขึ้นจากการถดถอยเชิงเส้นจะมีค่าตกค้างใกล้เคียงกับศูนย์ทั้งหมดยกเว้นการถดถอยเชิงเส้นจะถูกใช้เพื่อวิเคราะห์กระบวนการเชิงกลหรือกระบวนการคงที่
ตามหลักแล้วค่าที่เหลือจากแบบจำลองของคุณควรเป็นแบบสุ่มซึ่งหมายความว่าไม่ควรมีความสัมพันธ์กับตัวแปรอิสระหรือตัวแปรตามของคุณ (สิ่งที่คุณเรียกว่าตัวแปรเกณฑ์) ในการถดถอยเชิงเส้นเงื่อนไขข้อผิดพลาดของคุณจะถูกกระจายตามปกติดังนั้นส่วนที่เหลือของคุณก็ควรจะกระจายตามปกติเช่นกัน หากคุณมีค่าผิดปกติอย่างมีนัยสำคัญหรือหากค่าส่วนแบ่งของคุณมีความสัมพันธ์กับตัวแปรตามหรือตัวแปรอิสระของคุณแล้วคุณมีปัญหากับรูปแบบของคุณ
หากคุณมีค่าผิดปกติจำนวนมากและการกระจายที่ไม่เป็นปกติของค่าผิดปกติอาจทำให้น้ำหนักของคุณลดลง (Betas) และฉันขอแนะนำให้คำนวณ DFBETAS เพื่อตรวจสอบอิทธิพลของการสังเกตน้ำหนักของคุณ หากส่วนที่เหลือของคุณมีความสัมพันธ์กับตัวแปรตามของคุณแล้วมีความแปรปรวนไม่ได้อธิบายจำนวนมากที่คุณไม่ได้บัญชี คุณอาจเห็นสิ่งนี้หากคุณกำลังวิเคราะห์ข้อสังเกตซ้ำ ๆ ในสิ่งเดียวกันเนื่องจากความสัมพันธ์อัตโนมัติ สิ่งนี้สามารถตรวจสอบได้โดยดูว่าส่วนที่เหลือของคุณมีความสัมพันธ์กับเวลาหรือตัวแปรดัชนีหรือไม่ หากส่วนที่เหลือของคุณมีความสัมพันธ์กับตัวแปรอิสระของคุณแล้วแบบจำลองของคุณคือ heteroskedastic (ดู: http://en.wikipedia.org/wiki/Heteroscedasticity) คุณควรตรวจสอบ (ถ้าคุณยังไม่ได้ดำเนินการ) หากตัวแปรการป้อนข้อมูลของคุณมีการกระจายตามปกติและหากไม่เป็นเช่นนั้นคุณควรพิจารณาปรับขนาดหรือแปลงข้อมูลของคุณ (ชนิดที่พบบ่อยที่สุดคือ log และ square-root) ปกติ
ในกรณีของทั้งคู่ค่าคงที่ของคุณและตัวแปรอิสระของคุณคุณควรทำการทดสอบ QQ-Plot รวมถึงทำการทดสอบ Kolmogorov-Smirnov (บางครั้งการดำเนินการนี้เรียกว่าการทดสอบ Lilliefors) เพื่อให้แน่ใจว่าคุณค่าของคุณ เหมาะสมกับการแจกแจงแบบปกติ
สามสิ่งที่รวดเร็วและอาจเป็นประโยชน์ในการจัดการกับปัญหานี้กำลังตรวจสอบค่ามัธยฐานของค่าคงค้างของคุณควรใกล้เคียงกับศูนย์มากที่สุด (ค่าเฉลี่ยจะเกือบเป็นศูนย์เสมอเนื่องจากการติดตั้งข้อผิดพลาด ในการถดถอยเชิงเส้น) การทดสอบ Durbin-Watson สำหรับความสัมพันธ์อัตโนมัติในส่วนที่เหลือของคุณ (โดยเฉพาะอย่างยิ่งที่ฉันกล่าวก่อนหน้านี้หากคุณกำลังดูการสังเกตหลายอย่างในสิ่งเดียวกัน) และการทำพล็อตส่วนที่เหลือจะช่วยให้คุณมองหา