VIF, ดัชนีเงื่อนไขและค่าลักษณะเฉพาะ


15

ขณะนี้ฉันกำลังประเมินความหลากหลายทางชีวภาพในชุดข้อมูลของฉัน

ค่าขีด จำกัด ของ VIF และดัชนีเงื่อนไขด้านล่าง / สูงกว่าจะแนะนำปัญหาได้อย่างไร

VIF: ฉันเคยได้ยินว่า VIF เป็นปัญหา10

หลังจากลบตัวแปรปัญหาสองตัวแล้ว VIF คือสำหรับแต่ละตัวแปร ตัวแปรต้องการการดูแลที่มากขึ้นหรือ VIF นี้ดูดีหรือไม่?3.96

ดัชนีเงื่อนไข: ฉันได้ยินมาว่าดัชนีสภาพ (CI) 30 หรือมากกว่านั้นเป็นปัญหา CI สูงสุดของฉันคือ 16.66 นี่เป็นปัญหาหรือไม่?

ปัญหาอื่น ๆ :

  • มีปริมาณอื่น ๆ ที่ต้องพิจารณาหรือไม่
  • มีสิ่งอื่นใดอีกไหมที่ฉันต้องจำไว้?

1
โปรดอธิบายคำถาม โดยเฉพาะอย่างยิ่งความคิดเห็นเหล่านี้มาจากก่อนหน้านี้: โดย @chl - "คุณควรพิจารณาเขียนคำถามที่ชัดเจน (น่าสนใจด้วยตัวเอง) พร้อมประเด็นที่ชัดเจนหนึ่งเรื่องและสำรองความคิดเห็นสำหรับข่าวสารเพิ่มเติมที่เกี่ยวข้องกับคำถามดั้งเดิมของคุณ ขึ้น" โดย @shane - "เกี่ยวกับคำถามปัจจุบัน: มันอาจจะดีขึ้นเพราะมันถูกถามคำถามที่แตกต่างกันโดยไม่มีหัวข้อที่ชัดเจนคุณสนใจ multicollinearity โดยทั่วไปหรือไม่หรือคุณสนใจ VIF มันจะดีกว่าไหม เพื่อความชัดเจน "

คำตอบ:


5

ปัญหาพหุสัณฐานมีการศึกษาเป็นอย่างดีในตำราเศรษฐศาสตร์ส่วนใหญ่จริง ๆ นอกจากนี้ยังมีบทความที่ดีในวิกิพีเดียซึ่งสรุปประเด็นสำคัญส่วนใหญ่ได้

XTX

  1. การเปลี่ยนแปลงขนาดใหญ่ในการประมาณค่าพารามิเตอร์ในขณะที่ดำเนินการถดถอยหรือประมาณการในตัวอย่างย่อยขนาดเล็กของข้อมูล
  2. เสื้อF
  3. R2
  4. ดัชนีสภาพเป็นทางเลือกให้ VIF ในกรณีของคุณค่า VIF มิได้ CI แสดงปัญหาที่เหลืออยู่ดังนั้นคุณอาจจะได้รับความพึงพอใจทางสถิติผลนี้ แต่ ...

อาจไม่เชิงเหตุผลเนื่องจากอาจเกิดขึ้น (และมักเป็นกรณี) ที่คุณต้องการตัวแปรทั้งหมดที่จะนำเสนอในรูปแบบ การยกเว้นตัวแปรที่เกี่ยวข้อง (ปัญหาตัวแปรที่ละเว้น) จะทำให้การประเมินพารามิเตอร์แบบเอนเอียงและไม่สอดคล้องกันอยู่ดี ในอีกทางหนึ่งคุณอาจถูกบังคับให้รวมตัวแปรโฟกัสทั้งหมดเพียงเพราะการวิเคราะห์ของคุณขึ้นอยู่กับมัน ในวิธีการขุดข้อมูลแม้ว่าคุณจะมีเทคนิคมากขึ้นในการค้นหาแบบที่ดีที่สุด

ดังนั้นจงคำนึงถึงทางเลือกอื่น ๆ (ที่ฉันจะใช้เอง):

  1. รับจุดข้อมูลเพิ่มเติม (จำได้ว่าข้อกำหนด VIF มีขนาดเล็กลงสำหรับชุดข้อมูลขนาดใหญ่และตัวแปรอธิบายหากมีการเปลี่ยนแปลงอย่างช้าๆอาจเปลี่ยนแปลงสำหรับจุดสำคัญบางอย่างในเวลาหรือข้ามส่วน)
  2. ค้นหาปัจจัย lattent ผ่านองค์ประกอบหลัก (หลังคือการรวมกันของมุมฉากดังนั้นไม่หลาย collinear โดยการก่อสร้างมากขึ้นเกี่ยวข้องกับตัวแปรอธิบายทั้งหมด)
  3. ridge-regression (มันแนะนำอคติเล็ก ๆ ในการประมาณค่าพารามิเตอร์ แต่ทำให้มีความเสถียรสูง)

เทคนิคบางอย่างอยู่ในบทความของวิกิที่ระบุไว้ข้างต้น


3

ฉันเชื่อว่า Belsely กล่าวว่า CI มากกว่า 10 บ่งบอกถึงปัญหาปานกลางที่อาจเกิดขึ้นในขณะที่ 30 กว่านั้นรุนแรงกว่า

นอกจากนี้แม้ว่าคุณควรดูความแปรปรวนร่วมกันโดยชุดของตัวแปรในดัชนีสภาพสูง มีการถกเถียง (หรือครั้งล่าสุดที่ฉันอ่านวรรณกรรมนี้) ว่า collinearity ที่เกี่ยวข้องกับตัวแปรเดียวและการสกัดกั้นนั้นเป็นปัญหาหรือไม่และไม่ว่าตัวแปรที่กระทำผิดอยู่ตรงกลางกำจัดปัญหาได้หรือไม่หรือย้ายมันไปที่อื่น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.