วิธีการจัดการกับความสัมพันธ์สูงในหมู่ผู้ทำนายในการถดถอยหลายครั้ง?


18

ฉันพบข้อมูลอ้างอิงในบทความที่ชอบ:

ตาม Tabachnick & Fidell (1996) ตัวแปรอิสระที่มีความสัมพันธ์แบบ bivariate มากกว่า 0.70 ไม่ควรรวมอยู่ในการวิเคราะห์การถดถอยหลายครั้ง

ปัญหา:ฉันใช้ในการออกแบบการถดถอยหลายตัวมีความสัมพันธ์กับตัวแปร 3 ตัวแปร> .80, VIF ที่ประมาณ. 2 - .3, ความอดทน ~ 4-5 ฉันไม่สามารถยกเว้นตัวแปรใด ๆ (ตัวพยากรณ์และผลลัพธ์ที่สำคัญ) เมื่อฉันถดถอยผลลัพธ์ของตัวทำนาย 2 ตัวที่มีความสัมพันธ์กับ. 80 พวกเขายังคงมีนัยสำคัญแต่ละตัวทำนายความแปรปรวนที่สำคัญแต่ละตัวและตัวแปรสองตัวเดียวกันนี้มีค่าสัมประสิทธิ์สหสัมพันธ์ส่วนใหญ่และกึ่งกลางระหว่าง 10 ตัวแปรทั้งหมด

คำถาม:แบบจำลองของฉันใช้ได้แม้มีสหสัมพันธ์สูงหรือไม่ การอ้างอิงใด ๆ ยินดีอย่างมาก!


ขอบคุณสำหรับคำตอบ!

ฉันไม่ได้ใช้ Tabachnick และ Fidell เป็นแนวทางฉันพบการอ้างอิงนี้ในบทความที่เกี่ยวข้องกับ collinearity สูงในหมู่ผู้ทำนาย

ดังนั้นโดยทั่วไปฉันมีกรณีน้อยเกินไปสำหรับจำนวนของตัวทำนายในโมเดล (ตัวแปรเด็ดขาด, ตัวแปรควบคุมการเข้ารหัสหลอกตา - อายุ, อายุ, เพศ ฯลฯ ) - 13 ตัวแปรสำหรับ 72 กรณี ดัชนีเงื่อนไขคือ ~ 29 พร้อมการควบคุมทั้งหมดในและ ~ 23 ที่ไม่มีพวกเขา (5 ตัวแปร)

ฉันไม่สามารถวางตัวแปรใด ๆ หรือใช้การวิเคราะห์แบบแฟกทอเรียลเพื่อรวมเข้าด้วยกันเพราะในทางทฤษฎีแล้วพวกเขามีเหตุผลในตัวเอง สายเกินไปที่จะรับข้อมูลเพิ่มเติม เนื่องจากฉันกำลังทำการวิเคราะห์ใน SPSS อาจเป็นการดีที่สุดที่จะหาไวยากรณ์สำหรับการถดถอยของสันเขา (แม้ว่าฉันจะไม่ได้ทำสิ่งนี้มาก่อนและการตีความผลลัพธ์จะเป็นเรื่องใหม่สำหรับฉัน)

หากเป็นเรื่องสำคัญเมื่อฉันทำการถดถอยแบบขั้นตอนตัวแปร 2 ตัวที่มีความสัมพันธ์กันสูงจะยังคงเป็นตัวทำนายที่สำคัญของผลลัพธ์

และฉันก็ยังไม่เข้าใจว่าความสัมพันธ์บางส่วนที่สูงสำหรับตัวแปรเหล่านี้มีความสำคัญต่อคำอธิบายว่าทำไมฉันจึงเก็บมันไว้ในแบบจำลอง (ในกรณีที่ไม่สามารถทำการถดถอยได้)

คุณจะพูดว่า "การวินิจฉัยการถดถอย: การระบุข้อมูลที่มีอิทธิพลและแหล่งที่มาของความร่วมมือ / David A. Belsley, Edwin Kuh และ Roy E. Welsch, 1980" จะมีประโยชน์ในการทำความเข้าใจความหลากหลายทางชีวภาพ? หรือการอ้างอิงอื่น ๆ อาจมีประโยชน์หรือไม่


2
สำหรับตัวอย่างที่ชัดเจนของสถานการณ์นี้ให้ดูที่การวิเคราะห์ 10 น้ำเกลือที่stats.stackexchange.com/a/14528 ที่นี่IVs ทั้งหมดมีความสัมพันธ์กันอย่างมาก (ประมาณ 60%) แต่ถ้าคุณแยกพวกเขาออกหมดคุณจะไม่เหลืออะไรเลย! มักจะเป็นกรณีที่คุณไม่สามารถวางใด ๆของตัวแปรเหล่านี้ สิ่งนี้ทำให้คำแนะนำ T&F ไม่สามารถป้องกันได้
whuber

ที่จริงมีการออกเสียงเป็นจำนวนมากใน Tabachnick และ Fidell ที่ฉันคิดว่าอย่างน้อยค่อนข้างน่าสงสัย ... เพียงเพราะสิ่งที่พิมพ์ในหนังสือไม่ได้หมายความว่ามันสมเหตุสมผลเสมอ
Glen_b

คำตอบ:


20

ปัญหาที่สำคัญไม่ได้มีความสัมพันธ์ แต่เป็นความร่วมกัน (ดูผลงานของ Belsley เป็นต้น) นี้มีการทดสอบที่ดีที่สุดโดยใช้ดัชนีสภาพ (ในที่มีอยู่R, SASและโปรแกรมอื่น ๆ อาจได้เป็นอย่างดี. ความสัมพันธ์ไม่เป็นความจำเป็นหรือเงื่อนไขที่เพียงพอสำหรับ collinearity. ดัชนีสภาพกว่า 10 (ต่อ Belsley) ระบุ collinearity ปานกลางกว่า 30 อย่างรุนแรง แต่ก็ยังขึ้นอยู่ ตัวแปรใดบ้างที่มีส่วนเกี่ยวข้องในความเป็นคู่

หากคุณพบความ collinearity สูงแสดงว่าการประมาณพารามิเตอร์ของคุณไม่เสถียร นั่นคือการเปลี่ยนแปลงเล็กน้อย (บางครั้งในตัวเลขนัยสำคัญที่ 4) ในข้อมูลของคุณอาจทำให้เกิดการเปลี่ยนแปลงครั้งใหญ่ในการประมาณค่าพารามิเตอร์ของคุณ (บางครั้งแม้แต่กลับเครื่องหมายของพวกเขา) นี่คือสิ่งที่ไม่ดี

การแก้ไขคือ 1) การรับข้อมูลเพิ่มเติม 2) การวางตัวแปรหนึ่งตัว 3) การรวมตัวแปร (เช่นด้วยกำลังสองน้อยที่สุด) และ 4) การดำเนินการถดถอยของสันเขาซึ่งให้ผลลำเอียง แต่ลดความแปรปรวนของการประมาณ


Tabachnick และ Fidell เขียนหนังสือหลายตัวแปรที่ดีสำหรับสังคมศาสตร์ พวกเขาไม่ใช่นักสถิติ แต่เป็นความรู้ที่ดีในหลายตัวแปร แต่ฉันคิดว่าพวกเขาอาจสร้างกฎง่ายๆเพื่อลดความซับซ้อนและอาจพลาดย่อยทางสถิติ ดังนั้นฉันจะพึ่งพาสิ่งที่ปีเตอร์พูดในคำตอบของเขามากกว่าในเอกสารของพวกเขา
Michael R. Chernick

ขอบคุณ @MichaelChernick จริง ๆ แล้วฉันเขียนวิทยานิพนธ์ของฉันเกี่ยวกับการวินิจฉัย collinearity สำหรับการถดถอยหลายครั้ง
Peter Flom - Reinstate Monica

ฉันคิดว่าคุณแก่เท่าฉันดังนั้นงานของคุณก็มาจากงานของ Belsley, Kuh และ Welsch and Cook ฉันรู้ว่างานของ Cook ส่วนใหญ่เกี่ยวกับปัญหาการวินิจฉัยอื่น ๆ (การใช้ประโยชน์และไม่เป็นบรรทัดฐาน) แต่เขาทำอะไรกับ multicollinearity หรือไม่? แน่นอนว่าแนวคิดของการถดถอยบนสันเขากลับไปก่อนเวลาของฉัน
Michael R. Chernick

1
@Peter Flom: ทำไมความสัมพันธ์จึงไม่จำเป็นและไม่เพียงพอสำหรับ collinearity คุณหมายถึงความสัมพันธ์ที่ไม่ใช่เชิงเส้นหรือไม่?
จูเลียน

5
ไม่จำเป็นเพราะถ้ามีตัวแปรจำนวนมากทุกคู่สามารถมีความสัมพันธ์เพียงเล็กน้อยเท่านั้น แต่ผลรวมของพวกมันคือ colinear ไม่เพียงพอเนื่องจากมีหลายกรณีที่ความสัมพันธ์ที่ค่อนข้างสูงไม่ได้ให้ค่าความน่าเชื่อถือต่อดัชนีสภาพ
Peter Flom - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.