คำถามติดแท็ก multicollinearity

สถานการณ์เมื่อมีความสัมพันธ์เชิงเส้นที่แข็งแกร่งระหว่างตัวแปรทำนายเพื่อให้เมทริกซ์สหสัมพันธ์ของพวกเขากลายเป็นเอกพจน์ (เกือบ) "สภาพที่ไม่ดี" นี้ทำให้ยากต่อการระบุบทบาทที่ไม่ซ้ำกันของผู้ทำนายแต่ละคนกำลังเล่น: เกิดปัญหาการประมาณค่าและข้อผิดพลาดมาตรฐานเพิ่มขึ้น เครื่องทำนายที่มีความสัมพันธ์สูงมากแบบ bivariately เป็นตัวอย่างหนึ่งของ multicollinearity

9
มีคำอธิบายที่เข้าใจได้ง่ายหรือไม่ว่าทำไมความสัมพันธ์หลายระดับเป็นปัญหาในการถดถอยเชิงเส้น?
wiki กล่าวถึงปัญหาที่เกิดขึ้นเมื่อmulticollinearityเป็นปัญหาในการถดถอยเชิงเส้น ปัญหาพื้นฐานคือความสัมพันธ์ระหว่างกันหลายค่าทำให้การประมาณค่าพารามิเตอร์ไม่เสถียรซึ่งทำให้ยากที่จะประเมินผลของตัวแปรอิสระต่อตัวแปรตาม ผมเข้าใจเหตุผลทางเทคนิคที่อยู่เบื้องหลังปัญหา (อาจจะไม่สามารถที่จะกลับป่วยปรับอากาศฯลฯ ) แต่ฉันกำลังมองหาง่ายขึ้น (อาจเรขาคณิต?) คำอธิบายสำหรับปัญหานี้X ′ XX′XX′XX' XX′XX′XX' X มีรูปแบบทางเรขาคณิตหรือคำอธิบายรูปแบบอื่น ๆ ที่เข้าใจได้ง่ายว่าทำไมความสัมพันธ์หลากหลายรูปแบบเป็นปัญหาในบริบทของการถดถอยเชิงเส้น?

9
ทำไมจึงเป็นไปได้ที่จะได้รับสถิติ F อย่างมีนัยสำคัญ (p <.001) แต่การทดสอบ t regressor ไม่สำคัญ?
ในการถดถอยเชิงเส้นแบบหลายเหตุใดจึงเป็นไปได้ที่จะมีสถิติ F ที่มีความสำคัญสูง (p &lt;.001) แต่มีค่า p สูงมากในการทดสอบ t ของ regressor ทั้งหมด? ในแบบจำลองของฉันมีผู้ลงทะเบียน 10 ราย หนึ่งมีค่า p-0.1 และส่วนที่เหลืออยู่สูงกว่า 0.9 สำหรับการรับมือกับปัญหานี้ดูคำถามที่ติดตาม

1
ความสัมพันธ์แบบใดที่ทำให้เมทริกซ์เอกพจน์และความหมายของเอกพจน์หรือความใกล้เคียงเอกฐานคืออะไร
ฉันกำลังคำนวณบางอย่างกับเมทริกซ์ที่แตกต่างกัน (ส่วนใหญ่ในการถดถอยโลจิสติก) และฉันมักจะได้รับข้อผิดพลาด "เมทริกซ์คือเอกพจน์" ที่ฉันต้องย้อนกลับไปและลบตัวแปรที่เกี่ยวข้อง คำถามของฉันที่นี่คือสิ่งที่คุณจะพิจารณาเมทริกซ์ที่มีความสัมพันธ์ "สูง" มีค่าขีด จำกัด ของความสัมพันธ์เพื่อเป็นตัวแทนของคำนี้หรือไม่? เช่นเดียวกับตัวแปรที่มีความสัมพันธ์ 0.97 กับอีกอันหนึ่งมันสูงพอที่จะทำให้เมทริกซ์เอกพจน์หรือไม่? ขออภัยหากคำถามนี้เป็นพื้นฐานมากฉันไม่สามารถหาการอ้างอิงใด ๆ ที่พูดถึงปัญหานี้ (คำแนะนำเกี่ยวกับการอ้างอิงใด ๆ จะเป็นประโยชน์อย่างมาก!)

3
ผลของการมีตัวทำนายที่สัมพันธ์กันในตัวแบบการถดถอยหลายแบบคืออะไร?
ฉันเรียนรู้ในชั้นเรียนโมเดลเชิงเส้นของฉันว่าหากตัวทำนายสองตัวมีความสัมพันธ์กันและทั้งสองอย่างรวมอยู่ในรูปแบบหนึ่งจะไม่มีนัยสำคัญ ตัวอย่างเช่นสมมติขนาดของบ้านและจำนวนห้องนอนมีความสัมพันธ์ เมื่อทำนายค่าใช้จ่ายของบ้านโดยใช้ตัวทำนายสองตัวนี้หนึ่งในนั้นสามารถทิ้งได้เพราะทั้งคู่ให้ข้อมูลเหมือนกันจำนวนมาก โดยสังหรณ์ใจสิ่งนี้สมเหตุสมผล แต่ฉันมีคำถามทางเทคนิคเพิ่มเติม: ผลกระทบนี้แสดงให้เห็นอย่างไรในค่า p ของสัมประสิทธิ์การถดถอยเมื่อรวมเพียงหนึ่งหรือรวมทั้งตัวทำนายทั้งสองในตัวแบบ? ความแปรปรวนของสัมประสิทธิ์การถดถอยได้รับผลกระทบอย่างไรจากการรวมทั้งตัวทำนายทั้งสองตัวในแบบจำลองหรือแค่มีตัวเดียว? ฉันจะรู้ได้อย่างไรว่าตัวทำนายแบบใดที่เลือกให้มีความสำคัญน้อยกว่า การรวมเพียงหนึ่งหรือรวมทั้งตัวทำนายทั้งสองเปลี่ยนค่า / ความแปรปรวนของต้นทุนที่คาดการณ์ของฉันได้อย่างไร

6
เหตุใดจึงไม่มีการตรวจสอบความสัมพันธ์หลายระดับในสถิติสมัยใหม่ / การเรียนรู้ของเครื่อง
ในสถิติแบบดั้งเดิมในขณะที่สร้างแบบจำลองเราจะตรวจสอบความหลากหลายทางพินิจพิเคราะห์โดยใช้วิธีการเช่นประมาณการค่าความแปรปรวนของเงินเฟ้อ (VIF) แต่ในการเรียนรู้ของเครื่อง เลย ทำไมเราทำเช่นนั้น?

2
จะไม่มีตัวแปรที่มีความสัมพันธ์สูงในความแม่นยำของการบิดเบือนป่าและการเลือกคุณลักษณะหรือไม่
ในความเข้าใจของฉันตัวแปรที่มีความสัมพันธ์สูงจะไม่ทำให้เกิดปัญหาความหลากหลายในรูปแบบฟอเรสต์แบบสุ่ม (โปรดแก้ไขฉันหากฉันผิด) อย่างไรก็ตามในทางกลับกันถ้าฉันมีตัวแปรมากเกินไปที่มีข้อมูลที่คล้ายกันโมเดลน้ำหนักจะมากเกินไปในเซตนี้หรือไม่ ตัวอย่างเช่นมีชุดข้อมูลสองชุด (A, B) ที่มีพลังการทำนายเท่ากัน ตัวแปร , X 2 , ... X 1000ทั้งหมดมีข้อมูล A และมีเพียง Y เท่านั้นที่มีข้อมูล B เมื่อสุ่มตัวอย่างตัวแปรต้นไม้ส่วนใหญ่จะเติบโตบนข้อมูล A และเป็นผลให้ข้อมูล B ไม่ได้รับการบันทึกอย่างสมบูรณ์หรือไม่X1X1X_1X2X2X_2X1000X1000X_{1000}

3
ฉันควรใช้ปัจจัยเงินเฟ้อแปรปรวนใด:หรือ ?
ฉันพยายามที่จะตีความปัจจัยเงินเฟ้อแปรปรวนโดยใช้ฟังก์ชั่นในแพคเกจการvif R carฟังก์ชั่นการพิมพ์ทั้งทั่วไปและ{DF})} ตามไฟล์ช่วยเหลือค่าหลังนี้VIFVIF\text{VIF}GVIF1/(2⋅df)GVIF1/(2⋅df)\text{GVIF}^{1/(2\cdot\text{df})} หากต้องการปรับสำหรับมิติของความเชื่อมั่นวงรีฟังก์ชันยังพิมพ์ GVIF ^ [1 / (2 * df)] โดยที่ df คือองศาอิสระที่เกี่ยวข้องกับคำนั้น ฉันไม่เข้าใจความหมายของคำอธิบายนี้ในไฟล์ช่วยเหลือดังนั้นฉันไม่แน่ใจว่าควรใช้หรือ . สำหรับโมเดลของฉันค่าทั้งสองนี้แตกต่างกันมาก (สูงสุดคือ ~ ; สูงสุดคือ ~ )GVIFGVIF\text{GVIF}GVIF1/(2⋅df)GVIF1/(2⋅df)\text{GVIF}^{1/(2\cdot\text{df})}GVIFGVIF\text{GVIF}606060GVIF1/(2⋅df)GVIF1/(2⋅df)\text{GVIF}^{1/(2\cdot\text{df})}333 มีคนช่วยอธิบายให้ฉันฟังหน่อยได้ไหมว่าฉันควรใช้อะไรดีและอะไรคือความหมายโดยการปรับมิติความเชื่อมั่นของวงรี?

3
วิธีจัดการกับความหลากสีเมื่อทำการเลือกตัวแปร?
ฉันมีชุดข้อมูลที่มีตัวแปรอิสระต่อเนื่อง 9 ตัว ฉันกำลังพยายามเลือกระหว่างตัวแปรเหล่านี้เพื่อให้พอดีกับแบบจำลองกับตัวแปรเปอร์เซ็นต์ (ขึ้นอยู่) เดียว, Score. น่าเสียดายที่ฉันรู้ว่าจะมีความร่วมมือกันอย่างจริงจังระหว่างตัวแปรหลายตัว ฉันได้ลองใช้stepAIC()ฟังก์ชั่นใน R เพื่อเลือกตัวแปร แต่วิธีการนั้นดูแปลกไปตามลำดับที่ตัวแปรถูกแสดงในสมการ ... นี่คือรหัส R ของฉัน (เนื่องจากเป็นข้อมูลเปอร์เซ็นต์ฉันใช้การแปลง logit สำหรับคะแนน): library(MASS) library(car) data.tst = read.table("data.txt",header=T) data.lm = lm(logit(Score) ~ Var1 + Var2 + Var3 + Var4 + Var5 + Var6 + Var7 + Var8 + Var9, data = data.tst) step = …

3
จะบอกความแตกต่างระหว่างตัวแบบการถดถอยเชิงเส้นและแบบไม่เชิงเส้นได้อย่างไร?
ผมอ่านลิงค์ต่อไปนี้ไม่ใช่การถดถอยเชิงเส้นSAS องค์กรไม่เชิงเส้น ความเข้าใจของฉันจากการอ่านส่วนแรก "การถดถอยเชิงเส้นกับการถดถอยเชิงเส้น" คือว่าสมการด้านล่างนี้เป็นจริงแล้วการถดถอยเชิงเส้นนั้นถูกต้องหรือไม่ ถ้าเป็นเช่นนั้นทำไม y=b1x3+b2x2+b3x+cy=b1x3+b2x2+b3x+cy = b_1x^3 + b_2x^2 + b_3x + c ฉันต้องเข้าใจด้วยหรือไม่ว่าในการถดถอยเชิงเส้นพหุสัมพันธ์ไม่ใช่ปัญหา? ฉันรู้ว่า multicollinearity สามารถเป็นปัญหาในการถดถอยเชิงเส้นได้ดังนั้นหากโมเดลข้างต้นเป็นจริงแล้วการถดถอยเชิงเส้นจะมีความหลากหลายทางชีวภาพหรือไม่

2
การวินิจฉัยความผิดพลาดนั้นเป็นปัญหาเฉพาะเมื่อรวมคำศัพท์ไว้ด้วยกัน
ฉันใช้การถดถอยของเขตปกครองของสหรัฐอเมริกาและกำลังตรวจสอบความเป็นคู่ในตัวแปร 'อิสระ' ของฉัน การวินิจฉัยการถดถอยของ Belsley, Kuh และ Welsch แนะนำให้ดูที่ดัชนีสภาพและสัดส่วนการสลายตัวผลต่าง: library(perturb) ## colldiag(, scale=TRUE) for model with interaction Condition Index Variance Decomposition Proportions (Intercept) inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct elderly09_pct inc09_10k:unins09 1 1.000 0.000 0.000 0.000 0.000 0.001 0.002 0.003 0.002 0.002 0.001 0.000 2 3.130 0.000 0.000 …

5
วิธีการทดสอบและหลีกเลี่ยงความหลากสีในโมเดลเชิงเส้นผสม?
ฉันกำลังใช้โมเดลเชิงเส้นเชิงเส้นผสม ฉันใช้แพ็คเกจ "lme4" ใน R แบบจำลองของฉันอยู่ในรูปแบบ: model &lt;- lmer(response ~ predictor1 + predictor2 + (1 | random effect)) ก่อนใช้แบบจำลองของฉันฉันตรวจสอบความเป็นไปได้หลายทางระหว่างตัวทำนาย ฉันทำสิ่งนี้โดย: ทำดาต้าเฟรมของเครื่องทำนาย dummy_df &lt;- data.frame(predictor1, predictor2) ใช้ฟังก์ชัน "cor" เพื่อคำนวณความสัมพันธ์ของ Pearson ระหว่างตัวทำนาย correl_dummy_df &lt;- round(cor(dummy_df, use = "pair"), 2) หาก "correl_dummy_df" มากกว่า 0.80 แล้วฉันตัดสินใจว่าตัวทำนาย 1 และทำนาย 2 มีความสัมพันธ์สูงเกินไปและไม่รวมอยู่ในแบบจำลองของฉัน ในการอ่านหนังสือบางส่วนจะมีวิธีที่เป็นไปได้มากกว่าในการตรวจสอบความหลากหลายของสี ใครมีคำแนะนำเกี่ยวกับเรื่องนี้หรือไม่? "Variance Inflation …

2
PCA ไม่เสถียรภายใต้ความหลากสีหรือไม่
ฉันรู้ว่าในสถานการณ์การถดถอยหากคุณมีชุดของตัวแปรที่มีความสัมพันธ์สูงซึ่งมักจะเป็น "ไม่ดี" เนื่องจากความไม่แน่นอนของค่าสัมประสิทธิ์โดยประมาณ คำถามของฉันคือว่า "ความเลวร้าย" นี้ยังคงอยู่ในสถานการณ์ PCA หรือไม่ ค่าสัมประสิทธิ์ / การโหลด / น้ำหนัก / eigenvectors สำหรับพีซีใด ๆ โดยเฉพาะกลายเป็นไม่เสถียร / โดยพลการ / ไม่ซ้ำกันเป็นเมทริกซ์ความแปรปรวนร่วมกลายเป็นเอกพจน์? ฉันสนใจเป็นพิเศษในกรณีที่มีเพียงส่วนประกอบหลักแรกเท่านั้นที่ถูกเก็บไว้และอื่น ๆ ทั้งหมดจะถูกไล่ออกเป็น "เสียงรบกวน" หรือ "อย่างอื่น" หรือ "ไม่สำคัญ" ฉันไม่คิดว่ามันจะเป็นเช่นนั้นเพราะคุณจะเหลือองค์ประกอบหลักเพียงไม่กี่ตัวที่มีค่าศูนย์หรือใกล้เคียงกับค่าความแปรปรวนเป็นศูนย์ ดูง่ายกรณีนี้ไม่ได้เป็นในกรณีที่ง่ายมากที่มี 2 ตัวแปร - สมมติว่าพวกเขามีความสัมพันธ์อย่างสมบูรณ์ จากนั้นพีซีเครื่องแรกจะมีความสัมพันธ์เชิงเส้นตรงและพีซีเครื่องที่สองจะตั้งฉากกับพีซีเครื่องแรกโดยมีค่าพีซีทั้งหมดเท่ากับศูนย์สำหรับการสังเกตทั้งหมด (เช่นศูนย์แปรปรวน) สงสัยว่าถ้ามันทั่วไปมากขึ้น

6
การจัดการกับ regressors สัมพันธ์
ในการถดถอยเชิงเส้นแบบหลายครั้งพร้อมตัวถดถอยความสัมพันธ์สูงกลยุทธ์ที่ดีที่สุดที่จะใช้คืออะไร มันเป็นวิธีการที่ถูกต้องตามกฎหมายในการเพิ่มผลิตภัณฑ์ของ regressors สัมพันธ์ทั้งหมดหรือไม่

1
มีเหตุผลที่จะชอบการวัดความหลากหลายแบบโดยเฉพาะหรือไม่?
เมื่อทำงานกับตัวแปรอินพุตจำนวนมากเรามักจะกังวลเกี่ยวกับความสัมพันธ์แบบหลายค่า มีมาตรการหลายอย่างของความหลากสีที่ใช้ในการตรวจจับคิดและ / หรือสื่อสารความหลากหลายทางชีวภาพ คำแนะนำทั่วไปบางประการ ได้แก่ : หลายสำหรับตัวแปรเฉพาะ R2JRJ2R^2_j ความคลาดเคลื่อนสำหรับตัวแปรเฉพาะ 1 - R2J1-RJ21-R^2_j ปัจจัยเงินเฟ้อความแปรปรวนสำหรับตัวแปรเฉพาะ VIF = 1ความอดทนVIF=1ความอดทน\text{VIF}=\frac{1}{\text{tolerance}} หมายเลขเงื่อนไขของเมทริกซ์การออกแบบโดยรวม: max (eigenvalue (X'X))นาที (eigenvalue (X'X))------------------√max (eigenvalue (X'X))นาที (eigenvalue (X'X))\sqrt{\frac{\text{max(eigenvalue(X'X))}}{\text{min(eigenvalue(X'X))}}} (มีตัวเลือกอื่น ๆ ที่กล่าวถึงในบทความ Wikipedia และที่นี่บน SOในบริบทของ R) ความจริงที่ว่าสามข้อแรกเป็นฟังก์ชั่นที่สมบูรณ์แบบของกันและกันแสดงให้เห็นว่าข้อได้เปรียบทางสุทธิที่เป็นไปได้เพียงอย่างเดียวระหว่างพวกเขาจะเป็นเรื่องทางจิตวิทยา ในทางกลับกันสามข้อแรกให้คุณตรวจสอบตัวแปรแต่ละตัวซึ่งอาจเป็นข้อได้เปรียบ แต่ฉันได้ยินมาว่าวิธีหมายเลขเงื่อนไขถือว่าดีที่สุด มันเป็นเรื่องจริงเหรอ? ดีที่สุดสำหรับอะไร หมายเลขเงื่อนไขเป็นฟังก์ชั่นที่สมบูรณ์แบบของหรือไม่? (ฉันคิดว่ามันคงเป็น) R2JRJ2R^2_j ผู้คนพบว่าหนึ่งในนั้นอธิบายได้ง่ายที่สุดหรือไม่ (ฉันไม่เคยพยายามที่จะอธิบายตัวเลขเหล่านี้นอกห้องเรียนฉันแค่ให้คำอธิบายที่หลวมและมีคุณภาพของความหลากสี)

1
วิธีการจัดการกับความสัมพันธ์สูงในหมู่ผู้ทำนายในการถดถอยหลายครั้ง?
ฉันพบข้อมูลอ้างอิงในบทความที่ชอบ: ตาม Tabachnick &amp; Fidell (1996) ตัวแปรอิสระที่มีความสัมพันธ์แบบ bivariate มากกว่า 0.70 ไม่ควรรวมอยู่ในการวิเคราะห์การถดถอยหลายครั้ง ปัญหา:ฉันใช้ในการออกแบบการถดถอยหลายตัวมีความสัมพันธ์กับตัวแปร 3 ตัวแปร&gt; .80, VIF ที่ประมาณ. 2 - .3, ความอดทน ~ 4-5 ฉันไม่สามารถยกเว้นตัวแปรใด ๆ (ตัวพยากรณ์และผลลัพธ์ที่สำคัญ) เมื่อฉันถดถอยผลลัพธ์ของตัวทำนาย 2 ตัวที่มีความสัมพันธ์กับ. 80 พวกเขายังคงมีนัยสำคัญแต่ละตัวทำนายความแปรปรวนที่สำคัญแต่ละตัวและตัวแปรสองตัวเดียวกันนี้มีค่าสัมประสิทธิ์สหสัมพันธ์ส่วนใหญ่และกึ่งกลางระหว่าง 10 ตัวแปรทั้งหมด คำถาม:แบบจำลองของฉันใช้ได้แม้มีสหสัมพันธ์สูงหรือไม่ การอ้างอิงใด ๆ ยินดีอย่างมาก! ขอบคุณสำหรับคำตอบ! ฉันไม่ได้ใช้ Tabachnick และ Fidell เป็นแนวทางฉันพบการอ้างอิงนี้ในบทความที่เกี่ยวข้องกับ collinearity สูงในหมู่ผู้ทำนาย ดังนั้นโดยทั่วไปฉันมีกรณีน้อยเกินไปสำหรับจำนวนของตัวทำนายในโมเดล (ตัวแปรเด็ดขาด, ตัวแปรควบคุมการเข้ารหัสหลอกตา - อายุ, …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.