คำถามติดแท็ก vif

6
เหตุใดจึงไม่มีการตรวจสอบความสัมพันธ์หลายระดับในสถิติสมัยใหม่ / การเรียนรู้ของเครื่อง
ในสถิติแบบดั้งเดิมในขณะที่สร้างแบบจำลองเราจะตรวจสอบความหลากหลายทางพินิจพิเคราะห์โดยใช้วิธีการเช่นประมาณการค่าความแปรปรวนของเงินเฟ้อ (VIF) แต่ในการเรียนรู้ของเครื่อง เลย ทำไมเราทำเช่นนั้น?

3
ฉันควรใช้ปัจจัยเงินเฟ้อแปรปรวนใด:หรือ ?
ฉันพยายามที่จะตีความปัจจัยเงินเฟ้อแปรปรวนโดยใช้ฟังก์ชั่นในแพคเกจการvif R carฟังก์ชั่นการพิมพ์ทั้งทั่วไปและ{DF})} ตามไฟล์ช่วยเหลือค่าหลังนี้VIFVIF\text{VIF}GVIF1/(2⋅df)GVIF1/(2⋅df)\text{GVIF}^{1/(2\cdot\text{df})} หากต้องการปรับสำหรับมิติของความเชื่อมั่นวงรีฟังก์ชันยังพิมพ์ GVIF ^ [1 / (2 * df)] โดยที่ df คือองศาอิสระที่เกี่ยวข้องกับคำนั้น ฉันไม่เข้าใจความหมายของคำอธิบายนี้ในไฟล์ช่วยเหลือดังนั้นฉันไม่แน่ใจว่าควรใช้หรือ . สำหรับโมเดลของฉันค่าทั้งสองนี้แตกต่างกันมาก (สูงสุดคือ ~ ; สูงสุดคือ ~ )GVIFGVIF\text{GVIF}GVIF1/(2⋅df)GVIF1/(2⋅df)\text{GVIF}^{1/(2\cdot\text{df})}GVIFGVIF\text{GVIF}606060GVIF1/(2⋅df)GVIF1/(2⋅df)\text{GVIF}^{1/(2\cdot\text{df})}333 มีคนช่วยอธิบายให้ฉันฟังหน่อยได้ไหมว่าฉันควรใช้อะไรดีและอะไรคือความหมายโดยการปรับมิติความเชื่อมั่นของวงรี?

2
การวินิจฉัยความผิดพลาดนั้นเป็นปัญหาเฉพาะเมื่อรวมคำศัพท์ไว้ด้วยกัน
ฉันใช้การถดถอยของเขตปกครองของสหรัฐอเมริกาและกำลังตรวจสอบความเป็นคู่ในตัวแปร 'อิสระ' ของฉัน การวินิจฉัยการถดถอยของ Belsley, Kuh และ Welsch แนะนำให้ดูที่ดัชนีสภาพและสัดส่วนการสลายตัวผลต่าง: library(perturb) ## colldiag(, scale=TRUE) for model with interaction Condition Index Variance Decomposition Proportions (Intercept) inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct elderly09_pct inc09_10k:unins09 1 1.000 0.000 0.000 0.000 0.000 0.001 0.002 0.003 0.002 0.002 0.001 0.000 2 3.130 0.000 0.000 …

2
VIF, ดัชนีเงื่อนไขและค่าลักษณะเฉพาะ
ขณะนี้ฉันกำลังประเมินความหลากหลายทางชีวภาพในชุดข้อมูลของฉัน ค่าขีด จำกัด ของ VIF และดัชนีเงื่อนไขด้านล่าง / สูงกว่าจะแนะนำปัญหาได้อย่างไร VIF: ฉันเคยได้ยินว่า VIF เป็นปัญหา≥10≥10\geq 10 หลังจากลบตัวแปรปัญหาสองตัวแล้ว VIF คือสำหรับแต่ละตัวแปร ตัวแปรต้องการการดูแลที่มากขึ้นหรือ VIF นี้ดูดีหรือไม่?≤3.96≤3.96\leq 3.96 ดัชนีเงื่อนไข: ฉันได้ยินมาว่าดัชนีสภาพ (CI) 30 หรือมากกว่านั้นเป็นปัญหา CI สูงสุดของฉันคือ 16.66 นี่เป็นปัญหาหรือไม่? ปัญหาอื่น ๆ : มีปริมาณอื่น ๆ ที่ต้องพิจารณาหรือไม่ มีสิ่งอื่นใดอีกไหมที่ฉันต้องจำไว้?

6
Multicollinearity เมื่อการถดถอยส่วนบุคคลมีความสำคัญ แต่ VIF ต่ำ
ฉันมี 6 ตัวแปร ( ) ที่ผมใช้ในการทำนายYเมื่อทำการวิเคราะห์ข้อมูลของฉันฉันลองการถดถอยเชิงเส้นหลายครั้งก่อน จากนี้มีเพียงสองตัวแปรเท่านั้นที่มีนัยสำคัญ อย่างไรก็ตามเมื่อฉันรันการถดถอยเชิงเส้นเปรียบเทียบตัวแปรแต่ละตัวกับแต่ทั้งหมดนั้นมีนัยสำคัญ (ที่ใดก็ได้จากน้อยกว่า 0.01 ถึงน้อยกว่า 0.001) มันบอกว่านี่เป็นเพราะความหลากสีปีปีหน้าx1...x6x1...x6x_{1}...x_{6}yyyyyyppp การวิจัยครั้งแรกของฉันเกี่ยวกับเรื่องนี้แสดงให้เห็นการตรวจสอบสำหรับพหุโดยใช้VIFs ฉันดาวน์โหลดแพ็กเกจที่เหมาะสมจาก R และจบลงด้วยผลลัพธ์ VIF: 3.35, 3.59, 2.64, 2.24 และ 5.56 จากแหล่งข้อมูลต่าง ๆ ทางออนไลน์จุดที่คุณควรกังวลเกี่ยวกับความหลากหลายทางชีวภาพกับ VIF ของคุณคือที่ 4 หรือ 5 ตอนนี้ฉันกำลังนิ่งงันเกี่ยวกับความหมายของข้อมูลของฉัน ฉันหรือฉันไม่มีปัญหาเรื่องความสัมพันธ์หลายทาง? ถ้าฉันทำแล้วฉันจะทำอย่างไรต่อ (ฉันไม่สามารถรวบรวมข้อมูลเพิ่มเติมและตัวแปรเป็นส่วนหนึ่งของแบบจำลองที่ไม่เกี่ยวข้องอย่างเห็นได้ชัด) หากฉันไม่มีปัญหานี้สิ่งที่ฉันควรทำจากข้อมูลของฉันโดยเฉพาะอย่างยิ่งความจริงที่ว่าตัวแปรเหล่านี้มีความสำคัญสูง เป็นรายบุคคล แต่ไม่สำคัญเลยเมื่อรวมกัน แก้ไข:มีการถามคำถามบางอย่างเกี่ยวกับชุดข้อมูลดังนั้นฉันต้องการขยาย ... ในกรณีพิเศษนี้เรากำลังมองหาที่จะเข้าใจว่าการชี้นำทางสังคมที่เฉพาะเจาะจง (ท่าทางการจ้องมองและอื่น ๆ ) ส่งผลกระทบต่อความน่าจะเป็นของคนที่ผลิตคิวอื่น ๆ เราต้องการให้แบบจำลองของเรามีคุณสมบัติที่สำคัญทั้งหมดดังนั้นฉันจึงไม่สะดวกที่จะลบบางส่วนที่ดูเหมือนซ้ำซ้อน ไม่มีสมมติฐานใด ๆ …

3
อะไรคือข้อดีของวิธีการที่แตกต่างกันในการตรวจจับ collinearity?
ฉันต้องการตรวจสอบว่า collinearity เป็นปัญหาในการถดถอย OLS ของฉันหรือไม่ ฉันเข้าใจว่าปัจจัยเงินเฟ้อที่แปรปรวนและดัชนีเงื่อนไขเป็นมาตรการที่ใช้กันทั่วไปสองอย่าง แต่ฉันพบว่ามันยากที่จะหาสิ่งที่ชัดเจนเกี่ยวกับข้อดีของแต่ละวิธีหรือคะแนนที่ควรจะเป็น แหล่งข้อมูลที่โดดเด่นซึ่งระบุว่าวิธีการทำและ / หรือคะแนนใดที่เหมาะสมจะมีประโยชน์มาก คำถามที่คล้ายกันถูกถามที่"มีเหตุผลที่ต้องการวัดความหลากหลายของหลายระดับ?" แต่ฉันนึกคิดหลังจากการอ้างอิงที่ฉันสามารถอ้างอิง

1
ปัจจัยเงินเฟ้อความแปรปรวนสำหรับตัวแบบเสริมทั่วไป
ในการคำนวณ VIF ตามปกติสำหรับการถดถอยเชิงเส้นแต่ละตัวแปรอิสระ / อธิบายจะถือว่าเป็นตัวแปรตามในการถดถอยกำลังสองน้อยที่สุดธรรมดา กล่าวคือXJXJX_j XJ= β0+ ∑i = 1 , ฉัน≠ jnβผมXผมXJ=β0+Σผม=1,ผม≠JnβผมXผม X_j = \beta_0 + \sum_{i=1, i \neq j}^n \beta_i X_i ค่าจะถูกเก็บไว้สำหรับแต่ละการถดถอยและ VIF ถูกกำหนดโดยR2R2R^2nnn VผมFJ= 11 - R2JVผมFJ=11-RJ2 VIF_j = \frac{1}{1-R^2_j} สำหรับตัวแปรอธิบายโดยเฉพาะ สมมติว่าโมเดลเสริมทั่วไปของฉันใช้รูปแบบ Y= β0+ ∑i = 1nβผมXผม+ ∑j = 1ม.sJ( Xผม) .Y=β0+Σผม=1nβผมXผม+ΣJ=1ม.sJ(Xผม). Y=\beta_0+ \sum_{i=1}^n \beta_iX_i + …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.