มีเหตุผลที่จะชอบการวัดความหลากหลายแบบโดยเฉพาะหรือไม่?


22

เมื่อทำงานกับตัวแปรอินพุตจำนวนมากเรามักจะกังวลเกี่ยวกับความสัมพันธ์แบบหลายค่า มีมาตรการหลายอย่างของความหลากสีที่ใช้ในการตรวจจับคิดและ / หรือสื่อสารความหลากหลายทางชีวภาพ คำแนะนำทั่วไปบางประการ ได้แก่ :

  1. หลายสำหรับตัวแปรเฉพาะ RJ2
  2. ความคลาดเคลื่อนสำหรับตัวแปรเฉพาะ 1-RJ2
  3. ปัจจัยเงินเฟ้อความแปรปรวนสำหรับตัวแปรเฉพาะ VIF=1ความอดทน
  4. หมายเลขเงื่อนไขของเมทริกซ์การออกแบบโดยรวม:

    max (eigenvalue (X'X))นาที (eigenvalue (X'X))

(มีตัวเลือกอื่น ๆ ที่กล่าวถึงในบทความ Wikipedia และที่นี่บน SOในบริบทของ R)

ความจริงที่ว่าสามข้อแรกเป็นฟังก์ชั่นที่สมบูรณ์แบบของกันและกันแสดงให้เห็นว่าข้อได้เปรียบทางสุทธิที่เป็นไปได้เพียงอย่างเดียวระหว่างพวกเขาจะเป็นเรื่องทางจิตวิทยา ในทางกลับกันสามข้อแรกให้คุณตรวจสอบตัวแปรแต่ละตัวซึ่งอาจเป็นข้อได้เปรียบ แต่ฉันได้ยินมาว่าวิธีหมายเลขเงื่อนไขถือว่าดีที่สุด

  • มันเป็นเรื่องจริงเหรอ? ดีที่สุดสำหรับอะไร
  • หมายเลขเงื่อนไขเป็นฟังก์ชั่นที่สมบูรณ์แบบของหรือไม่? (ฉันคิดว่ามันคงเป็น) RJ2
  • ผู้คนพบว่าหนึ่งในนั้นอธิบายได้ง่ายที่สุดหรือไม่ (ฉันไม่เคยพยายามที่จะอธิบายตัวเลขเหล่านี้นอกห้องเรียนฉันแค่ให้คำอธิบายที่หลวมและมีคุณภาพของความหลากสี)

ฉันได้โพสต์คำถามติดตามที่เกี่ยวข้องโดยมีคำตอบสำหรับการเสริมสิ่งที่มีอยู่แล้วที่นี่: stats.stackexchange.com/questions/173665/…
kyrenia

คำตอบ:


15

ย้อนกลับไปในช่วงปลายทศวรรษ 1990 ฉันทำวิทยานิพนธ์เกี่ยวกับความเชื่อเรื่องคอลลิน

ข้อสรุปของฉันคือดัชนีสภาพดีที่สุด

เหตุผลหลักคือแทนที่จะดูตัวแปรแต่ละตัวมันช่วยให้คุณดูชุดของตัวแปร เนื่องจากความเป็นคู่เป็นฟังก์ชันของชุดของตัวแปรจึงเป็นสิ่งที่ดี

นอกจากนี้ผลของการศึกษา Monte Carlo ของฉันแสดงให้เห็นถึงความไวที่ดีกว่าในการแก้ไขปัญหาที่มีปัญหา แต่ฉันลืมรายละเอียดมานานแล้ว

R2

สำหรับข้อมูลเพิ่มเติมลองดูที่หนังสือของ David Belsley หรือถ้าคุณต้องการคุณสามารถได้รับปริญญานิพนธ์ของฉันการวินิจฉัย Multicollinearity สำหรับการถดถอยหลายครั้ง: การศึกษา Monte Carlo


1
ดังนั้นความคิดที่นี่เมื่อดู VIF คุณอาจสรุปได้อย่างผิดพลาดว่า multicollinearity ไม่ใช่ปัญหา แต่ถ้าคุณดูที่หมายเลขเงื่อนไขคุณจะมีแนวโน้มที่จะสรุปได้ถูกต้องหรือไม่ อาจจะเหมือนกับการทดสอบที่มีกำลังทางสถิติมากขึ้น?
gung - Reinstate Monica

4
+1 โชคดีสำหรับการอธิบายหมายเลขเงื่อนไขเรามีเธรดที่ค้างอยู่บนไซต์นี้: มันเป็นการบิดเบือนที่มากที่สุดที่พบในคำอธิบายลำดับที่สองของตัวแปรการออกแบบในรูปแบบคลาวด์พอยต์ ยิ่งมีการบิดเบือนมากเท่าไหร่จุดยิ่งมีแนวโน้มมากขึ้นที่จะอยู่ในพื้นที่ย่อย ข้อมูลเชิงลึกทางเรขาคณิตนี้ยังแสดงให้เห็นว่าทำไมการปรับเมทริกซ์การออกแบบที่มีศูนย์กลางเป็นศูนย์กลางนั้นดีกว่าเมทริกซ์การออกแบบดิบ
whuber

1
มันยากที่จะกำหนดว่าข้อสรุป "ถูกต้อง" คืออะไร แต่มันควรจะมีอะไรเกี่ยวข้องกับการเปลี่ยนแปลงเล็กน้อยในข้อมูลที่ทำให้เกิดการเปลี่ยนแปลงอย่างมากในผลลัพธ์ เมื่อฉันจำได้ดัชนีสภาพมีความสัมพันธ์โดยตรงกับสิ่งนี้มากขึ้น แต่ที่สำคัญคือได้สัดส่วนความแปรปรวนซึ่งทำให้คุณเห็นชุดของตัวแปรและระดับความเป็นเส้นตรงของพวกเขา (แน่นอนทั้งหมดนั้นเมื่อ 14 ปีที่แล้ว .... แต่ฉันไม่คิดว่าสิ่งต่าง ๆ จะเปลี่ยนไปมาตรการเหมือนกัน แต่ความทรงจำของฉันอาจไม่สมบูรณ์)
Peter Flom - Reinstate Monica

3
Gung จุดสำคัญอย่างหนึ่งที่นี่คือหมายเลขเงื่อนไขเป็นอิสระจากพิกัด: มันยังคงไม่เปลี่ยนแปลงภายใต้ (orthogonal) รวมตัวกันอีกครั้งเชิงเส้นของข้อมูล ดังนั้นจึงไม่สามารถแสดงอะไรเกี่ยวกับตัวแปรแต่ละตัวได้ แต่จะต้องจับภาพคุณสมบัติของคอลเลกชันทั้งหมด การใช้มันช่วยป้องกันคุณจากการถูกเข้าใจผิดว่าเกิดขึ้นกับตัวแปรของคุณอย่างไร
whuber

1
ฉันล้นมือเกินไปที่จะทำวิทยานิพนธ์ให้เสร็จ แต่มันก็มีประโยชน์จริงๆ ขอบคุณอีกครั้ง.
gung - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.