เมื่อไหร่ที่เราสามารถพูดถึง collinearity


16

ในตัวแบบเชิงเส้นเราต้องตรวจสอบว่าความสัมพันธ์มีอยู่ในตัวแปรอธิบายหรือไม่ หากพวกเขาสัมพันธ์กันมากเกินไปก็จะมีความเป็นเส้นตรงกัน (นั่นคือตัวแปรอธิบายบางส่วน) ตอนนี้ฉันแค่ดูความสัมพันธ์แบบคู่ระหว่างตัวแปรอธิบายแต่ละอย่าง

คำถามที่ 1: อะไรคือการจำแนกความสัมพันธ์มากเกินไป? ตัวอย่างเช่นความสัมพันธ์ของเพียร์สันคือ 0.5 มากเกินไปหรือไม่

คำถามที่ 2: เราสามารถพิจารณาได้อย่างสมบูรณ์ว่ามีค่าความเป็นคู่ระหว่างตัวแปรสองตัวตามค่าสัมประสิทธิ์สหสัมพันธ์หรือไม่หรือขึ้นอยู่กับปัจจัยอื่น ๆ

คำถามที่ 3: การตรวจสอบกราฟิกของ Scatterplot ของตัวแปรสองตัวนั้นเพิ่มอะไรลงไปในสิ่งที่สัมประสิทธิ์สหสัมพันธ์บ่งชี้หรือไม่?


2
Collinearity (ภาวะเอกฐาน) ระหว่างตัวแปร 3+ นั้นไม่ได้ลดลงเพียงความสัมพันธ์แบบคู่ที่สูง ค้นหาไซต์ที่มีคำถามที่ติดแท็ก "multicollinearity" นอกจากนี้ผมขอแนะนำให้คุณไปอ่านคำตอบของฉัน: stats.stackexchange.com/a/70910/3277
ttnphns

คำตอบ:


15
  1. R=1.0R=.50R.95 0.95คุณสามารถอ่านเพิ่มเติมเกี่ยวกับ VIF และ multicollinearity ในคำตอบของฉันที่นี่:

  2. R.95

  3. เป็นเรื่องที่ฉลาดที่จะดูข้อมูลของคุณไม่ใช่เพียงแค่ข้อมูลสรุป / ผลการทดสอบเชิงตัวเลข การอ้างอิงที่เป็นที่ยอมรับนี่คือสี่ Anscomb ของ


3

คำถามสามข้อของฉันคือ

คำถามที่ 1 จำแนกความสัมพันธ์มากเกินไปว่าอะไร? ตัวอย่างเช่นความสัมพันธ์ของ pearson 0.5 นั้นมากเกินไปหรือไม่

ผู้เขียนหลายคนอ้างว่า collinearity (หลาย -) ไม่ใช่ปัญหา ลองดูที่นี่และที่นี่เพื่อดูความคิดเห็นที่เป็นกรดมากกว่าในเรื่อง บรรทัดล่างคือ multicollinearity ไม่มีผลกระทบต่อการทดสอบสมมติฐานนอกเหนือจากการมีขนาดตัวอย่างที่ต่ำกว่า (มีประสิทธิภาพ) มันจะยากสำหรับคุณที่จะตีความค่าสัมประสิทธิ์การถดถอยถ้าคุณทำเช่นการถดถอย แต่คุณไม่ได้ละเมิดสมมติฐานขั้นพื้นฐานใด ๆ ถ้าคุณเลือกที่จะทำ

คำถามที่ 2 เราสามารถพิจารณาได้อย่างสมบูรณ์ว่ามีค่าความเป็นคู่ระหว่างตัวแปรสองตัวตามค่าสัมประสิทธิ์สหสัมพันธ์หรือไม่หรือขึ้นอยู่กับปัจจัยอื่น ๆ

ผมคิดว่ามีหลายวิธีในการวัดความสัมพันธ์ระหว่างสองตัวแปรจากการคำนวณค่าสัมประสิทธิ์สหสัมพันธ์เพียร์สัน (ถ้าคุณถือว่าเป็นเส้นตรงและเห็นได้ชัดว่าคุณทำเช่นนั้น) เพื่ออันดับของสเปียร์แมน , ความสัมพันธ์ระยะทางและแม้กระทั่งการทำPCAในชุดข้อมูลของคุณ แต่ฉันจะทิ้งคำตอบของคำถามนี้ให้กับผู้รู้ที่ดีกว่าฉัน

คำถามที่ 3 การตรวจสอบกราฟิกของพล็อตกระจายของตัวแปรทั้งสองนั้นเพิ่มอะไรเข้าไปในสิ่งที่สัมประสิทธิ์สหสัมพันธ์บ่งชี้หรือไม่?

IMO คำตอบคือไม่มีเสียง


3
IMHO คำตอบของ (3) นั้นตรงกันข้ามใช่ที่แข็งแกร่งมาก: ในขณะที่ค่าสัมประสิทธิ์สหสัมพันธ์สามารถให้การประเมินเชิงเส้นของความสัมพันธ์เชิงเส้นเพียงตัวเลขเดียวเท่านั้นการได้อย่างรวดเร็วที่ scatterplot จะให้ข้อมูลเพิ่มเติมมากมายเกี่ยวกับสิ่งนั้น ความสัมพันธ์รวมถึงพฤติกรรมที่ไม่ได้คาดไว้ล่วงหน้า อย่างไรก็ตามความสนใจที่แท้จริงของคำถามชุดนี้อยู่ที่วิธีการประเมินความสัมพันธ์ระหว่างตัวแปรสามตัวหรือมากกว่านั้น (แม้จะเป็น (3) จริง ๆ แล้ว) และในกรณีนั้นแม้แต่เมทริกซ์สแคตเตอร์พล็อตไม่เปิดเผยทุกอย่าง
whuber

1
เท่าที่ (1) ไปฉันอ่านการอ้างอิงของคุณ (ไปที่บล็อกของเดฟกิลล์) แตกต่างกัน: เขาระบุว่าการทดสอบแบบหลายทางอย่างเป็นทางการของการเข้าใจผิดนั้นถูกเข้าใจผิด ฉันไม่เห็นเขาอ้างว่าความหลากหลายทางเชื้อชาติไม่ใช่ปัญหา
whuber

ความเข้าใจของฉันเกี่ยวกับคำตอบของเดฟกิลคือความหลากหลายทางเดียวที่ส่งผลต่อผลลัพธ์จะผ่านขนาดตัวอย่างที่เล็กกว่า เช่นเดียวกับที่มันไม่มีเหตุผลที่จะทดสอบขนาดตัวอย่างเล็ก ๆ มันไม่สมเหตุสมผลที่จะทดสอบผลกระทบของความหลากสี แต่ฉันยินดีที่จะรับฟังความคิดเห็นของคุณเกี่ยวกับมันบางทีฉันอาจเข้าใจผิด
pedrofigueira

ความต้องการขนาดตัวอย่างที่ใหญ่ขึ้นอาจส่งผลกระทบอย่างมากต่อการศึกษาส่วนใหญ่! ผลชัดเจนของอาคารใกล้ collinearity กังวลรูปแบบและการเลือกตัวแปรตามที่กล่าว ( อนึ่ง ) ในหัวข้อเช่นstats.stackexchange.com/questions/50537และstats.stackexchange.com/a/28476/919 แต่ขอให้แน่ใจว่าเรากำลังพูดถึงสิ่งเดียวกัน: ไจล์กำลังพูดถึงการทดสอบอย่างเป็นทางการของความหลากหลายทางชีวภาพราวกับว่าตัวแปรอิสระถูกสุ่มตัวอย่าง ที่นี่ความกังวลดูเหมือนมุ่งเน้นไปที่การใช้การวินิจฉัยพหุความสัมพันธ์เพื่อเข้าใจความสามารถและข้อ จำกัด ของแบบจำลอง
whuber

1

วิธีทั่วไปในการประเมินค่าความเป็นเส้นตรงคือการใช้ปัจจัยเงินเฟ้อความแปรปรวน (VIF) สามารถทำได้ใน R โดยใช้ฟังก์ชั่น 'vif' ภายในแพ็คเกจ 'car' สิ่งนี้มีความได้เปรียบมากกว่าการดูความสัมพันธ์ระหว่างตัวแปรสองตัวเท่านั้นเนื่องจากมันประเมินความสัมพันธ์ระหว่างตัวแปรหนึ่งตัวกับส่วนที่เหลือของตัวแปรในโมเดล จากนั้นให้คะแนนเดียวสำหรับตัวทำนายแต่ละตัวในแบบจำลอง

ตามที่ระบุไว้ข้างต้นไม่มีการตัดอย่างหนักและรวดเร็ว แต่คะแนน VIF มักจะตัดสินใจว่ามีปัญหาเมื่ออยู่ระหว่าง 5-10 ฉันใช้กฎง่ายๆสำหรับฟิลด์นี้ นอกจากนี้ - ไม่จำเป็นต้องมีสิ่งใดที่ไม่ถูกต้องเกี่ยวกับการใช้ตัวทำนายที่สัมพันธ์กัน (ตราบใดที่มันไม่สัมพันธ์อย่างสมบูรณ์) คุณเพียงต้องการข้อมูลเพิ่มเติมเพื่อแยกเอฟเฟกต์ เมื่อคุณมีข้อมูลไม่เพียงพอจะมีความไม่แน่นอนจำนวนมากในการประมาณค่าพารามิเตอร์ของตัวทำนายที่สัมพันธ์กันและการประมาณเหล่านี้จะมีความอ่อนไหวต่อการสุ่มตัวอย่างอีกครั้ง

เพื่อตอบคำถามของคุณโดยเฉพาะ:

  1. อย่าใช้สัมประสิทธิ์สหสัมพันธ์ ใช้ VIF ของแบบจำลองพร้อมตัวทำนายทั้งหมดและไม่มีการโต้ตอบ VIFs 5-10 แสดงความสัมพันธ์มากเกินไปการตัดเฉพาะของคุณขึ้นอยู่กับสิ่งที่คุณต้องทำกับโมเดล

  2. ขึ้นอยู่กับตัวทำนายอื่น ๆ ในโมเดลซึ่งเป็นเหตุผลว่าทำไมจึงมีประโยชน์ในการใช้ VIF

  3. Nope! สถิติจะดีขึ้นในเชิงปริมาณสิ่งที่คุณกำลัง eyeballing กับพล็อตกระจาย เว้นแต่จะมีการฝ่าฝืนข้อสันนิษฐานของ OLS อย่างยิ่งเมื่อถอนการทำนายของคุณซึ่งกันและกัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.