ฉันได้เรียนรู้ว่าการใช้vif()
วิธีการcar
บรรจุภัณฑ์เราสามารถคำนวณระดับของความหลากหลายของอินพุตในโมเดลได้ จากวิกิพีเดียถ้าvif
ค่ามากกว่า5
นั้นเราสามารถพิจารณาได้ว่าข้อมูลที่ได้รับความทุกข์ทรมานจากปัญหาพหุนิยม ตัวอย่างเช่นฉันได้พัฒนาตัวแบบการถดถอยเชิงเส้นโดยใช้lm()
วิธีการและvif()
ให้ดังต่อไปนี้ ในฐานะที่เราสามารถมองเห็นปัจจัยการผลิตub
, lb
และtb
กำลังทุกข์ทรมานจากพหุ
vif(lrmodel)
tb ub lb ma ua mb sa sb
7.929757 50.406318 30.826721 1.178124 1.891218 1.364020 2.113797 2.357946
เพื่อหลีกเลี่ยงปัญหาความสัมพันธ์แบบหลายจุดและเพื่อให้แบบจำลองของฉันแข็งแกร่งขึ้นฉันได้ดำเนินการระหว่างub
และlb
และตอนนี้ตาราง vif ของรูปแบบใหม่มีดังนี้:
tb ub:lb ma mb sa sb ua
1.763331 1.407963 1.178124 1.327287 2.113797 1.860894 1.891218
มีค่าไม่แตกต่างกันมากR^2
และไม่มีความแตกต่างในข้อผิดพลาดจากการทดสอบ CV แบบครั้งเดียวในทั้งสองกรณีข้างต้น
คำถามของฉันคือ:
มันเป็นการดีหรือไม่ที่จะหลีกเลี่ยงปัญหาความสัมพันธ์ระหว่างกันโดยการโต้ตอบตามที่แสดงด้านบน?
มีวิธีการที่ดีกว่าในการนำเสนอปัญหาความสัมพันธ์หลายค่าเมื่อเทียบกับผลลัพธ์ของวิธี vif ข้างต้น
กรุณาให้คำแนะนำของคุณ
ขอบคุณ