มีคำอธิบายที่เข้าใจได้ง่ายหรือไม่ว่าทำไมความสัมพันธ์หลายระดับเป็นปัญหาในการถดถอยเชิงเส้น?


85

wiki กล่าวถึงปัญหาที่เกิดขึ้นเมื่อmulticollinearityเป็นปัญหาในการถดถอยเชิงเส้น ปัญหาพื้นฐานคือความสัมพันธ์ระหว่างกันหลายค่าทำให้การประมาณค่าพารามิเตอร์ไม่เสถียรซึ่งทำให้ยากที่จะประเมินผลของตัวแปรอิสระต่อตัวแปรตาม

ผมเข้าใจเหตุผลทางเทคนิคที่อยู่เบื้องหลังปัญหา (อาจจะไม่สามารถที่จะกลับป่วยปรับอากาศฯลฯ ) แต่ฉันกำลังมองหาง่ายขึ้น (อาจเรขาคณิต?) คำอธิบายสำหรับปัญหานี้X XXXXX

มีรูปแบบทางเรขาคณิตหรือคำอธิบายรูปแบบอื่น ๆ ที่เข้าใจได้ง่ายว่าทำไมความสัมพันธ์หลากหลายรูปแบบเป็นปัญหาในบริบทของการถดถอยเชิงเส้น?


4
เป็นคำถามที่ยอดเยี่ยมจริงๆ วิธีที่ดีที่สุดที่จะเข้าใจบางสิ่งนั้นมาจากคำอธิบายหลายทิศทาง
Tal Galili

1
ดูคำถามที่เกี่ยวข้องและคำอธิบายภาพที่เกี่ยวข้องstats.stackexchange.com/q/70899/3277
ttnphns

คำตอบ:


89

พิจารณากรณีที่ง่ายที่สุดที่ถดถอยกับและและที่และมีความสัมพันธ์เชิงบวกอย่างมาก แล้วผลของในเป็นเรื่องยากที่จะแยกแยะออกจากผลกระทบของในเนื่องจากการเพิ่มขึ้นในมีแนวโน้มที่จะเชื่อมโยงกับการเพิ่มขึ้นของZX Z X Z X Y Z Y X ZYXZXZXYZYXZ

อีกวิธีในการดูที่นี้คือการพิจารณาสมการ ถ้าเราเขียนสัมประสิทธิ์คือการเพิ่มขึ้นของสำหรับการเพิ่มขึ้นของหน่วยทุกหน่วยในขณะที่ถือค่าคงที่แต่ในทางปฏิบัติมันมักจะเป็นไปไม่ได้ที่จะคงที่และความสัมพันธ์เชิงบวกระหว่างและหมายความว่าการเพิ่มหน่วยในมักจะมาพร้อมกับการเพิ่มขึ้นของในเวลาเดียวกันb 1 Y X Z Z X Z X ZY=b0+b1X+b2Z+eb1YXZZXZXZ

คำอธิบายที่คล้ายคลึงกัน แต่มีความซับซ้อนมากกว่านี้จะช่วยให้เกิดความหลากหลายของรูปแบบอื่น ๆ


20
+1 กรณีทางพยาธิวิทยาอย่างยิ่งที่ไฮไลต์ต่อไป และจะแยกไม่ออก X=ZY=b0+b1X+b2Z+eY=b0+(b1+b2)X+0Z+e
vqv

1
+1 ผมชอบคำตอบนี้เพราะหนึ่งในคำถามที่ช่วยเหลือที่พบมากที่สุดคือเหตุผลที่แล้วและ<0 การอนุมานต้องคำนึงถึงปัจจัยการผลิตที่สมจริง b1>0b2<0
muratoa

29

ฉันกินซูชิครั้งเดียวและคิดว่ามันอาจทำให้เข้าใจได้ง่ายถึงปัญหาที่ไม่มีเงื่อนไข สมมติว่าคุณต้องการแสดงเครื่องบินโดยใช้ไม้สองแท่งแตะที่ฐานของพวกเขา

คุณอาจจะถือแท่งตั้งฉากกัน ผลกระทบของการสั่นของมือบนเครื่องบินทำให้เกิดการสั่นคลอนรอบ ๆ สิ่งที่คุณหวังที่จะแสดงให้ผู้คนเห็น แต่หลังจากที่ดูคุณสักพักพวกเขาจะได้รับความคิดที่ดีว่าคุณต้องการแสดงเครื่องบินแบบใด

แต่สมมติว่าคุณนำไม้มาใกล้ชิดกันแล้วดูผลของการสั่นของมือ เครื่องบินที่อยู่ในรูปแบบนั้นจะมีระยะห่างกันมากขึ้น ผู้ชมของคุณจะต้องเฝ้าดูอีกต่อไปเพื่อให้ได้ความคิดที่ดีเกี่ยวกับเครื่องบินที่คุณพยายามแสดงให้เห็น


+1 ฉันคิดว่านี่เป็นคำตอบที่ตรงที่สุด เพราะถึงแม้ว่า multicollinearity ส่งผลกระทบต่อการตีความ ทำไมมันเป็นปัญหาที่ imho คือความมั่นคงในการประมาณ
muratoa

+1 สำหรับการโพสต์ความคิดเห็นนี้ (และมีเพียงความคิดเห็นนี้เท่านั้นในประวัติศาสตร์ของ Stackoverflow) ภายใต้ชื่อผู้ใช้ Snackrifice
stackoverflax

19

วิธีการทางเรขาคณิตคือการพิจารณาสี่เหลี่ยมฉายน้อยบนสเปซทอดXYX

สมมติว่าคุณมีแบบจำลอง:

E[Y|X]=β1X1+β2X2

พื้นที่ประมาณของเราคือระนาบที่กำหนดโดยเวกเตอร์และและปัญหาคือการหาพิกัดที่สอดคล้องกับซึ่งจะอธิบายเวกเตอร์การประมาณกำลังสองน้อยที่สุดของบนระนาบนั้นX1X2(β1,β2)Y^Y

ทีนี้สมมติว่านั่นคือ collinear จากนั้นพื้นที่ย่อยที่พิจารณาโดยและเป็นเพียงเส้นตรงและเรามีอิสระเพียงระดับเดียวเท่านั้น ดังนั้นเราจึงไม่สามารถกำหนดสองค่าและตามที่เราถามX1=2X2X1X2β1β2


2
ฉัน upvoted นานมาแล้ว แต่การอ่านคำตอบของคุณอีกครั้งมันเตือนฉันว่าฉันชอบคำตอบที่ซับซ้อนสำหรับคำถามที่ซับซ้อนจาก Christensen ( j.mp/atRp9w )
chl

@chl: เจ๋งแน่นอนจะไปดูมันแล้ว :)
ars

14

คนสองคนกำลังผลักก้อนหินขึ้นเขา คุณต้องการที่จะรู้ว่าแต่ละคนจะผลักดันอย่างไร สมมติว่าคุณดูพวกเขาดันเข้าด้วยกันเป็นเวลาสิบนาทีและก้อนหินเคลื่อนที่ 10 ฟุต ผู้ชายคนแรกนั้นทำงานทั้งหมดและคนที่สองก็แกล้งทำหรือไม่? หรือในทางกลับกัน? หรือ 50-50 เนื่องจากกองกำลังทั้งสองกำลังทำงานในเวลาเดียวกันคุณจึงไม่สามารถแยกกำลังของทั้งสองออกจากกันได้ ทั้งหมดที่คุณสามารถพูดได้คือแรงรวมของพวกเขาคือ 1 ฟุตต่อนาที

ตอนนี้ลองนึกภาพว่าผู้ชายคนแรกผลักตัวเองหนึ่งนาทีจากนั้นก็เก้านาทีกับผู้ชายคนที่สองและนาทีสุดท้ายก็เป็นแค่ผู้ชายคนที่สองผลัก ตอนนี้คุณสามารถใช้การประมาณแรงในนาทีแรกและนาทีสุดท้ายเพื่อคำนวณกำลังของแต่ละคนแยกกัน แม้ว่าพวกเขาจะยังคงทำงานส่วนใหญ่ในเวลาเดียวกันความจริงที่ว่ามีความแตกต่างเล็กน้อยช่วยให้คุณได้รับการประเมินของแต่ละคน

หากคุณเห็นผู้ชายแต่ละคนผลักตัวเองอย่างอิสระเป็นเวลาสิบนาทีนั่นจะทำให้คุณประเมินกองกำลังได้แม่นยำกว่าหากมีการทับซ้อนกันอย่างมากในกองกำลัง

ฉันปล่อยให้เป็นการออกกำลังกายสำหรับผู้อ่านที่จะขยายกรณีนี้ไปยังชายคนหนึ่งผลักขึ้นเขาและอีกคนผลักลงเขา (มันยังใช้งานได้)

ความสมบูรณ์แบบหลายด้านทำให้คุณไม่สามารถประเมินแรงแยกกันได้ near multicolinearity ช่วยให้คุณมีข้อผิดพลาดมาตรฐานที่ใหญ่ขึ้น


6

วิธีที่ฉันคิดเกี่ยวกับเรื่องนี้จริงๆคือในแง่ของข้อมูล สมมติว่าแต่ละและได้ข้อมูลบางอย่างเกี่ยวกับYยิ่งมีความสัมพันธ์กันมากขึ้นและยิ่งเนื้อหาข้อมูลเกี่ยวกับจากและมากเท่ากันหรือทับซ้อนกันจนถึงจุดที่มีความสัมพันธ์กันอย่างสมบูรณ์และมันเป็นเนื้อหาข้อมูลเดียวกัน หากตอนนี้เราวางและในแบบจำลองเดียวกัน (การถดถอย) เพื่ออธิบายตัวแบบจะพยายาม "แบ่งปัน" ข้อมูลที่ (X1X2YX1X2YX1X2X1X2X1X2YX1 , ) มีประมาณต่อแต่ละและในลักษณะที่กำหนดเองโดยพลการ ไม่มีวิธีที่ดีในการแบ่งปันสิ่งนี้เนื่องจากการแบ่งข้อมูลใด ๆ ยังคงนำไปสู่การรักษาข้อมูลทั้งหมดจาก ( , ) ในโมเดล (สำหรับความสัมพันธ์ที่สมบูรณ์แบบของนี่คือ กรณีที่ไม่สามารถระบุตัวตนได้) สิ่งนี้นำไปสู่การประมาณการรายบุคคลที่ไม่แน่นอนสำหรับค่าสัมประสิทธิ์ของแต่ละบุคคลของและแม้ว่าคุณจะดูค่าที่ทำนายมากกว่าการวิ่งหลายครั้งและ ค่าประมาณและX2YX1X2X1X2XX1X2b1X1+b2X2b1b2สิ่งเหล่านี้จะค่อนข้างเสถียร


4

คนธรรมดาของฉัน (มาก) สัญชาตญาณสำหรับเรื่องนี้คือโมเดล OLS ต้องการระดับ "สัญญาณ" ในตัวแปร X เพื่อตรวจจับว่าให้การทำนาย "ดี" สำหรับ Y หากสัญญาณ "เดียวกัน" กระจายอยู่ทั่ว X หลายตัว (เพราะมันมีความสัมพันธ์กัน) ดังนั้น X ที่มีความสัมพันธ์ไม่สามารถให้ "การพิสูจน์" (นัยสำคัญทางสถิติ) ได้เพียงพอว่ามันเป็นตัวทำนายที่แท้จริง

คำตอบ (วิเศษ) ก่อนหน้านี้ทำงานได้ดีมากในการอธิบายว่าทำไมถึงเป็นเช่นนั้น


3

สมมติว่าคนสองคนร่วมมือกันและค้นพบทางวิทยาศาสตร์ให้สำเร็จ เป็นการง่ายที่จะบอกถึงการมีส่วนร่วมที่ไม่ซ้ำกันของพวกเขา (ใครทำอะไร) เมื่อทั้งสองเป็นบุคคลที่แตกต่างกันโดยสิ้นเชิง (หนึ่งคือคนที่แต่งตัวประหลาดทฤษฎีและอีกคนเป็นคนดีในการทดลอง) ในขณะที่มันยากที่จะแยกแยะ ฝาแฝดทำหน้าที่ในทำนองเดียวกัน


2

หากสอง regressors มีความสัมพันธ์อย่างสมบูรณ์สัมประสิทธิ์ของพวกเขาจะเป็นไปไม่ได้ที่จะคำนวณ; การพิจารณาว่าเพราะเหตุใดพวกเขาจึงตีความได้ยากถ้าเราสามารถคำนวณได้ ในความเป็นจริงสิ่งนี้อธิบายว่าทำไมมันยากที่จะตีความตัวแปรที่ไม่สัมพันธ์กันอย่างสมบูรณ์ แต่ก็ไม่ได้เป็นอิสระอย่างแท้จริง

สมมติว่าตัวแปรตามของเราคือการจัดหาปลารายวันในนิวยอร์กและตัวแปรอิสระของเรารวมถึงหนึ่งสำหรับไม่ว่าจะฝนตกในวันนั้นและอีกหนึ่งสำหรับปริมาณของเหยื่อที่ซื้อในวันนั้น สิ่งที่เราไม่ทราบเมื่อเรารวบรวมข้อมูลของเราคือทุกครั้งที่มีฝนตกชาวประมงไม่ซื้อเหยื่อและทุกครั้งที่ไม่มีพวกเขาซื้อเหยื่อจำนวนหนึ่งอย่างต่อเนื่อง ดังนั้น Bait และ Rain จึงมีความสัมพันธ์อย่างสมบูรณ์แบบและเมื่อเราทำการถดถอยเราไม่สามารถคำนวณค่าสัมประสิทธิ์ของพวกเขาได้ ในความเป็นจริง Bait และ Rain นั้นอาจจะไม่สัมพันธ์กันอย่างสมบูรณ์แบบ แต่เราไม่ต้องการรวมพวกเขาทั้งสองไว้ในฐานะผู้ลงทะเบียน


1

ฉันคิดว่ากับดักตัวแปรดัมมี่ให้ความเป็นไปได้ที่เป็นประโยชน์อีกอย่างในการอธิบายว่าทำไมมัลติคัลเลอร์นิอาร์ตี้จึงเป็นปัญหา จำได้ว่ามันเกิดขึ้นเมื่อเรามีค่าคงที่และหุ่นเต็มชุดในโมเดล จากนั้นผลรวมของหุ่นจะรวมกันเป็นหนึ่งค่าคงที่ดังนั้นความหลากหลายทางชีวภาพ

เช่นตัวจำลองสำหรับผู้ชายและอีกตัวสำหรับผู้หญิง:

yi=β0+β1Mani+β2Womani+ui

การตีความมาตรฐานของคือการเปลี่ยนแปลงที่คาดหวังในที่เกิดจากการเปลี่ยนจาก 0 ถึง 1 ในทำนองเดียวกันคือการเปลี่ยนแปลงที่คาดหวังในที่เกิดจากการเปลี่ยนจาก 0 เป็น 1 Y M n ฉันเบต้า2 Y W o n ฉันβ1YManiβ2YWomani

แต่นั้นควรจะเป็นอะไร ... ? มันคือดังนั้นผลลัพธ์ที่คาดหวังสำหรับคนที่ไม่ใช่ทั้งชายและหญิง ... มันอาจจะปลอดภัยที่จะพูดว่าสำหรับชุดข้อมูลทั้งหมดที่คุณจะพบนั้นไม่ใช่ คำถามที่มีประโยชน์ที่จะถาม :-) E ( y i | M a n i = 0 , W o m a n i = 0 )β0E(yi|Mani=0,Womani=0)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.