อะไรคือข้อดีของวิธีการที่แตกต่างกันในการตรวจจับ collinearity?


11

ฉันต้องการตรวจสอบว่า collinearity เป็นปัญหาในการถดถอย OLS ของฉันหรือไม่ ฉันเข้าใจว่าปัจจัยเงินเฟ้อที่แปรปรวนและดัชนีเงื่อนไขเป็นมาตรการที่ใช้กันทั่วไปสองอย่าง แต่ฉันพบว่ามันยากที่จะหาสิ่งที่ชัดเจนเกี่ยวกับข้อดีของแต่ละวิธีหรือคะแนนที่ควรจะเป็น

แหล่งข้อมูลที่โดดเด่นซึ่งระบุว่าวิธีการทำและ / หรือคะแนนใดที่เหมาะสมจะมีประโยชน์มาก

คำถามที่คล้ายกันถูกถามที่"มีเหตุผลที่ต้องการวัดความหลากหลายของหลายระดับ?" แต่ฉันนึกคิดหลังจากการอ้างอิงที่ฉันสามารถอ้างอิง


4
อย่าลืมว่า collinearity นั้นเป็นเรื่องที่ดีมากดังนั้นแม้ว่าคุณจะพบข้อความที่ให้ตัวเลขที่ดีและสามารถอ้างอิงได้มันไม่ใช่สิ่งที่คุณควรปฏิบัติต่อเป็นค่าตัดที่ยากสำหรับ "ไม่มีปัญหา" กับ "เรามีปัญหา "
Silverfish

4
@Silverfish ให้คำแนะนำที่ดี Belsley, Kuh และ Welsch ยังเน้นย้ำว่า collinearity แม้ในปัจจุบันจะไม่เป็นอันตราย: คุณต้องตรวจสอบว่าจริง ๆ แล้วมันเป็นปัญหาสำหรับการวิเคราะห์ของคุณหรือไม่
whuber

คำตอบ:


11

Belsley, Kuh และ Welsch เป็นข้อความที่จะไปสำหรับชนิดของคำถามนี้ พวกเขารวมถึงการอภิปรายอย่างกว้างขวางของการวินิจฉัยที่มีอายุมากกว่าในส่วนที่ชื่อว่า "Historical Perspective" เกี่ยวกับ VIF ที่พวกเขาเขียน

... ถ้าเราสมมติข้อมูลที่ได้รับการเป็นศูนย์กลางและปรับให้มีความยาวหน่วยความสัมพันธ์เมทริกซ์เป็นเพียงX ...XRXX

เรากำลังพิจารณา1} องค์ประกอบในแนวทแยงของ ,มักถูกเรียกว่าปัจจัยเงินเฟ้อความแปรปรวนและค่าการวินิจฉัยของพวกเขาจะตามมาจากความสัมพันธ์โดยที่เป็นค่าสัมประสิทธิ์สหสัมพันธ์ของถดถอยกับตัวแปรอธิบายที่เหลืออยู่ เห็นได้ชัดว่า VIF สูงบ่งชี้ว่าใกล้กับเอกภาพและจากนั้นชี้ไปที่ collinearity มาตรการนี้จึงมีประโยชน์สำหรับใช้เป็นเครื่องบ่งชี้ถึงความเป็นคู่โดยรวม จุดอ่อนของมันเช่นเดียวกับR1=(XX)1R1riiVIFi

VIFi=11Ri2
Ri2XiRi2Rอยู่ในการไร้ความสามารถที่จะแยกแยะระหว่างการอยู่ร่วมกันใกล้การพึ่งพาและในการขาดขอบเขตที่มีความหมายเพื่อแยกความแตกต่างระหว่างค่าของ VIF ที่สามารถพิจารณาได้สูงและค่าที่สามารถพิจารณาได้ต่ำ

ในสถานที่ของการวิเคราะห์ (หรือ ) BKW เสนอระวังการตรวจสอบควบคุมของมูลค่าเอกพจน์สลายตัวXพวกเขากระตุ้นโดยแสดงให้เห็นว่าอัตราส่วนของค่าที่ใหญ่ที่สุดต่อค่าเอกพจน์ที่น้อยที่สุดคือหมายเลขเงื่อนไขของและแสดงให้เห็นว่าหมายเลขเงื่อนไขมีขอบเขตเท่าไรในการแพร่กระจายของข้อผิดพลาดในการคำนวณการประมาณค่าถดถอย พวกเขาพยายามที่จะสลายตัวโดยประมาณของความแปรปรวนของพารามิเตอร์ประมาณเป็นส่วนประกอบที่เกี่ยวข้องกับค่าเอกพจน์ พลังของการสลายตัวนี้อยู่ในความสามารถ (ในหลาย ๆ กรณี) เพื่อเปิดเผยธรรมชาติRR1XXβ^i ของ collinearity แทนที่จะแสดงเพียงการมีอยู่ของมัน

ทุกคนที่สร้างแบบจำลองการถดถอยพร้อมตัวแปรนับร้อยจะพึงพอใจกับฟีเจอร์นี้! เป็นสิ่งหนึ่งที่ซอฟต์แวร์จะพูดว่า "ข้อมูลของคุณคือ collinear ฉันไม่สามารถดำเนินการต่อ" หรือแม้แต่จะพูดว่า "ข้อมูลของคุณเป็น collinear ฉันกำลังขว้างตัวแปรต่อไปนี้ออกไป" มันเป็นสิ่งที่มีประโยชน์มากกว่าสำหรับการพูดว่า "กลุ่มของตัวแปรทำให้เกิดความไม่เสถียรในการคำนวณ: ดูว่าตัวแปรใดที่คุณสามารถทำได้โดยไม่ต้องพิจารณา ทำการวิเคราะห์องค์ประกอบหลักเพื่อลดจำนวน "Xi1,,Xik

ในที่สุด BKW แนะนำการวินิจฉัย collinearity โดยวิธีการ

... เงื่อนไขสองต่อไปนี้:

  1. ค่าเอกพจน์ตัดสินว่ามีดัชนีสภาพสูงและเกี่ยวข้องกับ
  2. สัดส่วนสูงแปรปรวนสลายตัวสำหรับสองคนหรือมากกว่าประมาณค่าสัมประสิทธิ์ความแปรปรวน

จำนวนดัชนีสภาพถือว่าใหญ่ (พูดมากกว่า ) ใน (1) ระบุจำนวนการพึ่งพาใกล้กันในคอลัมน์ของเมทริกซ์ข้อมูลและขนาดของดัชนีสภาพสูงเหล่านี้เป็นการวัดความหนาแน่นของสัมพัทธ์ " นอกจากนี้ความมุ่งมั่นใน (2) ของสัดส่วนแปรปรวน - การสลายตัวที่มีขนาดใหญ่ (พูดมากกว่า ) ที่เกี่ยวข้องกับดัชนีสภาพสูงแต่ละระบุตัวแปรที่เกี่ยวข้องในการพึ่งพาใกล้ที่สอดคล้องกันและขนาดของสัดส่วนเหล่านี้ร่วมกับสูง ดัชนีสภาพให้การวัดระดับที่การประมาณการถดถอยที่สอดคล้องกันลดลงเมื่อมี collinearity30X0.5


10
  • ความแปรปรวนของปัจจัยเงินเฟ้อ (VIFs) นั้นง่ายต่อการเข้าใจ ถอยหลังแต่ละคอลัมน์เมทริกซ์การออกแบบของคุณที่อื่น ๆ จดบันทึกของรุ่นนี้คำนวณแล้วไปที่นั่น VIF เท่ากับ 10 หมายความว่าคุณสามารถอธิบายความแปรปรวนของตัวทำนายได้ 90% โดยใช้ตัวถอยหลังอื่นทั้งหมด โดยทั่วไปจะใช้สิ่งนี้เป็นกฎของเกณฑ์หัวแม่มือสำหรับ collinearityR21/(1R2)

    อย่างไรก็ตาม VIFs ที่ใช้งานตามปกติไม่สามารถบอกคุณเกี่ยวกับ collinearity กับการสกัดกั้นได้เนื่องจากการสกัดกั้นมักจะถูกรวมไว้ใน "ผู้ช่วย" เหล่านี้อย่างเงียบ ๆ นอกจากนี้หากผู้ลงทะเบียนมี VIF สูงคุณจะไม่ทราบทันทีว่าผู้ลงทะเบียนรายใดที่รับผิดชอบในการจัดลำดับความสำคัญ คุณต้องดูค่าสัมประสิทธิ์มาตรฐานในการถดถอยของผู้ช่วย

  • สภาพดัชนีและการสลายตัว collinearity สัดส่วนของ Belsley, Kuh & Welsch (Belsley อัยการ; Kuh, E. & Welsch เรื่องการวินิจฉัยการถดถอย:. ระบุมีอิทธิพลข้อมูลและแหล่งที่มาของคอลัมน์เพิ่มเติม collinearity John Wiley & Sons, 1980) เป็นไกลยากที่จะเข้าใจ ฉันเคยทำงานกับเหล่านี้เมื่อไม่กี่ปีก่อน แต่ฉันจะไม่พยายามอธิบายพวกเขาที่นี่โดยไม่ได้รับการทบทวน ;-)

    การวินิจฉัยเหล่านี้จะอนุญาตให้ตรวจจับ collinearity ด้วยการสกัดกั้น และคุณสามารถตรวจสอบสัดส่วนการสลายตัวของความเป็นเอกภาพเพื่ออนุมานได้ว่าผู้ลงทะเบียนรายอื่นใดมีหน้าที่รับผิดชอบในการรวมตัวกันของผู้ลงทะเบียนรายหนึ่ง


ขอบคุณ - มีประโยชน์มาก - คุณรู้ตัวถึงการอ้างถึง VIF มากกว่า 10 กฎง่ายๆหรือไม่ ... ฉันสามารถหาบันทึกการบรรยายแบบ econ ได้มากมาย แต่ไม่พบสิ่งใดที่ตีพิมพ์ว่า .. .
kyrenia

@kyrenia "มากกว่า 10" อยู่ไกลจากเกณฑ์เดียวที่ฉันเคยเห็น! ฉันสงสัยว่ามีความแตกต่างระหว่างฟิลด์หรือเพียงแค่ระหว่างผู้เขียน
Silverfish

3
@Silverfish แน่นอนว่ามีการเปลี่ยนแปลงระหว่างฟิลด์ ฉันได้รับการบอกเล่าของคนออกแบบการทดลองที่สอนว่าต้องมีการแก้ไขVIF มากกว่า ! สำหรับการศึกษาเชิงสังเกตควรมีการแปรผันตามจำนวนผู้ลงทะเบียน: ยิ่งมีมากเท่าไหร่ VIF ที่ใหญ่ขึ้นจะได้รับเนื่องจากความผันผวนของโอกาสเท่านั้น ด้วยตัวแปรหลายร้อยรายการในหลาย ๆ กรณีคุณจะต้องทนกับ VIFหรือมากกว่า สันนิษฐานว่ามีข้อมูลเพียงพอในกรณีดังกล่าวเพื่อชดเชยความแปรปรวนเงินเฟ้อดังกล่าว 2100
whuber

@whuber ขอบคุณสำหรับสิ่งนั้น นั่นคือการสังเกตที่น่าสนใจมากและเกี่ยวข้องอย่างมากกับคำถามที่วางโดย OP: เนื่องจากความสำคัญ "อันดับสอง" ของความคิดเห็นภายในระบบ StackExchange ฉันคิดว่าคุณควรพิจารณาที่จะรวมคำตอบที่ยอดเยี่ยมของคุณ
Silverfish

6

สำหรับการอ้างอิงที่มีการอ้างอิงอย่างกว้างขวางหนังสือ Farawayในหน้า 117 ให้กฎง่ายกว่า 30 สำหรับการตรวจสอบปัญหาตามหมายเลขเงื่อนไขและรู้เบื้องต้นเกี่ยวกับสถิติหน้า 101 บอกว่าค่า VIF สูงกว่า 5 หรือ 10 บ่งบอกถึงปัญหา .

อาจมีความสำคัญมากกว่าวิธีที่คุณใช้ในการระบุ multicollinearity ซึ่งจะเป็นวิธีที่คุณจัดการกับมัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.