Multicollinearity เมื่อการถดถอยส่วนบุคคลมีความสำคัญ แต่ VIF ต่ำ


13

ฉันมี 6 ตัวแปร ( ) ที่ผมใช้ในการทำนายYเมื่อทำการวิเคราะห์ข้อมูลของฉันฉันลองการถดถอยเชิงเส้นหลายครั้งก่อน จากนี้มีเพียงสองตัวแปรเท่านั้นที่มีนัยสำคัญ อย่างไรก็ตามเมื่อฉันรันการถดถอยเชิงเส้นเปรียบเทียบตัวแปรแต่ละตัวกับแต่ทั้งหมดนั้นมีนัยสำคัญ (ที่ใดก็ได้จากน้อยกว่า 0.01 ถึงน้อยกว่า 0.001) มันบอกว่านี่เป็นเพราะความหลากสีปีปีหน้าx1...x6yyp

การวิจัยครั้งแรกของฉันเกี่ยวกับเรื่องนี้แสดงให้เห็นการตรวจสอบสำหรับพหุโดยใช้VIFs ฉันดาวน์โหลดแพ็กเกจที่เหมาะสมจาก R และจบลงด้วยผลลัพธ์ VIF: 3.35, 3.59, 2.64, 2.24 และ 5.56 จากแหล่งข้อมูลต่าง ๆ ทางออนไลน์จุดที่คุณควรกังวลเกี่ยวกับความหลากหลายทางชีวภาพกับ VIF ของคุณคือที่ 4 หรือ 5

ตอนนี้ฉันกำลังนิ่งงันเกี่ยวกับความหมายของข้อมูลของฉัน ฉันหรือฉันไม่มีปัญหาเรื่องความสัมพันธ์หลายทาง? ถ้าฉันทำแล้วฉันจะทำอย่างไรต่อ (ฉันไม่สามารถรวบรวมข้อมูลเพิ่มเติมและตัวแปรเป็นส่วนหนึ่งของแบบจำลองที่ไม่เกี่ยวข้องอย่างเห็นได้ชัด) หากฉันไม่มีปัญหานี้สิ่งที่ฉันควรทำจากข้อมูลของฉันโดยเฉพาะอย่างยิ่งความจริงที่ว่าตัวแปรเหล่านี้มีความสำคัญสูง เป็นรายบุคคล แต่ไม่สำคัญเลยเมื่อรวมกัน

แก้ไข:มีการถามคำถามบางอย่างเกี่ยวกับชุดข้อมูลดังนั้นฉันต้องการขยาย ...

ในกรณีพิเศษนี้เรากำลังมองหาที่จะเข้าใจว่าการชี้นำทางสังคมที่เฉพาะเจาะจง (ท่าทางการจ้องมองและอื่น ๆ ) ส่งผลกระทบต่อความน่าจะเป็นของคนที่ผลิตคิวอื่น ๆ เราต้องการให้แบบจำลองของเรามีคุณสมบัติที่สำคัญทั้งหมดดังนั้นฉันจึงไม่สะดวกที่จะลบบางส่วนที่ดูเหมือนซ้ำซ้อน

ไม่มีสมมติฐานใด ๆ ในตอนนี้ ค่อนข้างเป็นปัญหาที่ไม่ได้ดำเนินการและเรากำลังมองหาที่จะเข้าใจถึงคุณลักษณะที่สำคัญ เท่าที่ฉันสามารถบอกได้คุณลักษณะเหล่านี้ควรมีความเป็นอิสระซึ่งกันและกัน (คุณไม่สามารถบอกได้ว่าการจ้องมองและท่าทางนั้นเหมือนกัน มันจะเป็นการดีที่ได้รายงานค่า p สำหรับทุกสิ่งเพราะเราอยากให้นักวิจัยคนอื่นเข้าใจสิ่งที่ถูกมอง

แก้ไข 2:เนื่องจากมีบางรายการด้านล่างของฉันคือ 24n


สมมติว่าคุณไม่ได้มีพหุคุณสามารถขยายเป็น @ rolando2 แนะนำเกี่ยวกับวัตถุประสงค์ของรูปแบบ? เป็นกรณีที่ผู้ทำนายทั้งหมดมีความสำคัญต่อผู้สอบสวนคนอื่น ๆ (ในกรณีที่คุณต้องการรายงานระดับความสำคัญสำหรับแต่ละคน) หรือคุณแค่โยนหนึ่งหรือสองคนออกไป?

@jlovegren ฉันเพิ่มข้อมูลด้านบน - แจ้งให้เราทราบหากคุณต้องการข้อมูลเพิ่มเติม
cryptic_star

ตัวแปรอธิบายถูกวัดอย่างต่อเนื่องหรือไม่? ในกรณีนี้มีวิธีการตกค้างซึ่งไม่ยากเกินไป หากพวกเขาเป็นหมวดหมู่ฉันไม่รู้ แต่ฉันหวังว่าคนอื่นจะ (ฉันได้ถามคำถามที่คล้ายกันในเว็บไซต์นี้)

@ jlovegren ห้าในหกตัวแปรนั้นถูกนับ
cryptic_star

อีกสิ่งหนึ่งเพียงเพื่อให้แน่ใจ การนับมีขีด จำกัด สูงสุดที่ชัดเจนซึ่งสามารถทำได้บ่อยครั้งหรือหากมูลค่าสูงสุดของการนับที่ไม่มีขอบเขตในหลักการ

คำตอบ:


18

เพื่อให้เข้าใจถึงสิ่งที่สามารถดำเนินต่อไปได้มันเป็นคำแนะนำในการสร้าง (และวิเคราะห์) ข้อมูลที่มีพฤติกรรมตามที่อธิบายไว้

เพื่อความง่ายเราจะลืมตัวแปรอิสระตัวที่หก ดังนั้นคำถามอธิบายการถดถอยของตัวแปรตามหนึ่งตัวกับตัวแปรอิสระห้าตัวx 1 , x 2 , x 3 , x 4 , x 5ซึ่งyx1,x2,x3,x4,x5

  • แต่ละถดถอยสามัญมีความสำคัญในระดับจาก0.01น้อยกว่า0.001yxi0.010.001

  • การถดถอยหลายครั้งให้ค่าสัมประสิทธิ์ที่สำคัญสำหรับx 1และx 2เท่านั้นyx1++x5x1x2

  • ปัจจัยเงินเฟ้อความแปรปรวน (VIFs) ทั้งหมดอยู่ในระดับต่ำซึ่งแสดงถึงการปรับสภาพที่ดีในเมทริกซ์การออกแบบ (นั่นคือการขาด collinearity ในหมู่ )xi

มาทำให้สิ่งนี้เกิดขึ้นได้ดังนี้:

  1. สร้างค่าการกระจายตามปกติสำหรับx 1และx 2 (เราจะเลือกnภายหลัง)nx1x2n

  2. Let ที่εข้อผิดพลาดปกติเป็นอิสระจากค่าเฉลี่ย0 จำเป็นต้องมีการทดลองและข้อผิดพลาดบางอย่างเพื่อหาค่าเบี่ยงเบนมาตรฐานที่เหมาะสมสำหรับε ; 1 / 100ทำงานได้ดี (และค่อนข้างน่าทึ่ง: Yเป็นอย่างมากที่มีลักษณะร่วมกันได้ดีกับx 1และx 2แม้ว่ามันจะเป็นเพียงความสัมพันธ์ในระดับปานกลางกับx 1และx 2รายบุคคล)y=x1+x2+εε0ε1/100yx1x2x1x2

  3. ให้ = x 1 / 5 + δ , J = 3 , 4 , 5 , ที่δเป็นอิสระข้อผิดพลาดแบบปกติมาตรฐาน นี้จะทำให้x 3 , x 4 , x 5เพียงเล็กน้อยขึ้นอยู่กับx 1 แต่ผ่านความสัมพันธ์แน่นระหว่างx 1และYเจือจางนี้เล็ก ๆความสัมพันธ์ระหว่างYและสิ่งเหล่านี้xเจxjx1/5+δj=3,4,5δx3,x4,x5x1x1yyxj

นี่คือถู: ถ้าเราทำให้พอขนาดใหญ่เหล่านี้เล็กน้อยสัมพันธ์จะส่งผลให้ค่าสัมประสิทธิ์ที่สำคัญแม้ว่าปีเกือบทั้งหมด "อธิบาย" โดยเฉพาะสองตัวแปรแรกny

ฉันพบว่าทำงานได้ดีสำหรับการทำซ้ำค่า p ที่รายงาน นี่คือเมทริกซ์กระจายของตัวแปรทั้งหก:n=500

SPM

โดยการตรวจสอบคอลัมน์ที่ถูกต้อง (หรือแถวล่าง) คุณจะเห็นว่ามีความสัมพันธ์ที่ดี (บวก) กับx 1และx 2แต่มีความสัมพันธ์ที่ชัดเจนเล็กน้อยกับตัวแปรอื่น ๆ โดยการตรวจสอบเมทริกซ์ที่เหลือคุณจะเห็นว่าตัวแปรอิสระx 1 , , x 5ดูเหมือนจะไม่เกี่ยวข้องกัน (สุ่มδyx1x2x1,,x5δปกปิดการพึ่งพาเล็ก ๆ น้อย ๆ ที่เรารู้ว่ามี) ไม่มีข้อมูลพิเศษ - ไม่มีสิ่งใดที่อยู่ไกลออกไปหรือมีเลเวอเรจสูง ฮิสโทแกรมแสดงให้เห็นว่าตัวแปรทั้งหกนั้นมีการกระจายตัวตามปกติโดยประมาณ: ข้อมูลเหล่านี้เป็นข้อมูลธรรมดาและ "วนิลาธรรมดา" อย่างที่ใคร ๆ ก็ต้องการ

ในการถดถอยของต่อx 1และx 2 , p-value นั้นเป็น 0 ในการถดถอยของyต่อx 3 , จากนั้นyกับx 4 , และyต่อx 5 , p-value คือ 0.0024, 0.0083 และ 0.00064 ตามลำดับ: นั่นคือพวกเขาเป็น "สำคัญมาก" แต่ในการถดถอยหลายครั้งแบบเต็มค่า p ที่สอดคล้องกันจะเพิ่มขึ้นเป็น. 46, .36 และ. 52 ตามลำดับ: ไม่มีนัยสำคัญเลย สาเหตุของเรื่องนี้ก็คือเมื่อyถูกทำให้ถดถอยต่อx 1และxyx1x2yx3yx4yx5yx1 , สิ่งเดียวที่เหลือ "อธิบาย" เป็นจำนวนเล็ก ๆ ของความผิดพลาดในสิ่งตกค้างซึ่งจะใกล้เคียงกับ εและข้อผิดพลาดนี้เกือบสมบูรณ์ไม่เกี่ยวข้องกับส่วนที่เหลืออีก xฉัน ("เกือบ" ถูกต้อง: มีความสัมพันธ์เล็ก ๆ ที่เกิดขึ้นจากข้อเท็จจริงที่ว่าส่วนที่เหลือถูกคำนวณในส่วนหนึ่งจากค่าของ x 1และ x 2และ x i , i = 3 , 4 , 5 , มีบางอย่างที่อ่อนแอ ความสัมพันธ์กับ x 1และ x 2ความสัมพันธ์ที่เหลือนี้ไม่สามารถตรวจจับได้จริงแม้ว่าเราจะเห็น)x2εxix1x2xii=3,4,5x1x2

จำนวนการปรับสภาพของเมทริกซ์การออกแบบมีเพียง 2.17: ต่ำมากโดยไม่แสดงว่ามีความหลากหลายทางสีสูง แต่อย่างใด (การขาดความสมบูรณ์ของความสมบูรณ์แบบจะสะท้อนให้เห็นในการปรับจำนวน 1 แต่ในทางปฏิบัติสิ่งนี้จะเห็นได้เฉพาะกับข้อมูลประดิษฐ์และการทดลองที่ออกแบบมาเท่านั้นจำนวนการปรับสภาพในช่วง 1-6 (หรือสูงกว่าที่มีตัวแปรอื่น ๆ ) การทำแบบจำลองนี้เสร็จสมบูรณ์: สามารถจำลองแบบได้ทุกปัญหา

ข้อมูลเชิงลึกที่สำคัญข้อเสนอการวิเคราะห์นี้รวมถึง

  1. ค่า p ไม่ได้บอกอะไรเราโดยตรงเกี่ยวกับความเป็นคู่กัน ขึ้นอยู่กับปริมาณข้อมูลเป็นอย่างมาก

  2. ความสัมพันธ์ระหว่างค่า p ในการถดถอยหลายครั้งและค่า p ในการถดถอยที่เกี่ยวข้อง (เกี่ยวข้องกับชุดย่อยของตัวแปรอิสระ) มีความซับซ้อนและมักไม่สามารถคาดการณ์ได้

ดังนั้นในขณะที่คนอื่นแย้งค่า p ไม่ควรเป็นแนวทางเดียวของคุณ (หรือแม้แต่คำแนะนำหลักของคุณ) เพื่อเลือกรูปแบบ


แก้ไข

มันไม่ได้เป็นสิ่งที่จำเป็นสำหรับจะมีขนาดใหญ่เป็น500สำหรับปรากฏการณ์เหล่านี้จะปรากฏ n500 แรงบันดาลใจจากข้อมูลเพิ่มเติมในคำถามต่อไปนี้เป็นชุดข้อมูลที่สร้างขึ้นในลักษณะที่คล้ายกับ (ในกรณีนี้x j = 0.4 x 1 + 0.4 x 2 + δสำหรับj = 3 , 4 , 5 ) สิ่งนี้สร้างความสัมพันธ์ระหว่าง 0.38 ถึง 0.73 ระหว่างx 1 - 2และx 3 - 5n=24xj=0.4x1+0.4x2+δj=3,4,5x12x35. หมายเลขเงื่อนไขของเมทริกซ์การออกแบบคือ 9.05: สูงเล็กน้อย แต่ก็ไม่แย่มาก ( กฎบางข้อของหัวแม่มือบอกว่าตัวเลขเงื่อนไขสูงถึง 10 ก็โอเค) ค่า p ของการถดถอยแต่ละตัวเทียบกับคือ 0.002, 0.015 และ 0.008: สำคัญถึงมีนัยสำคัญมาก ดังนั้นความหลากหลายทางพินัยกรรมมีส่วนเกี่ยวข้อง แต่ก็ไม่ใหญ่จนเกินไปที่จะเปลี่ยนมันได้ ความเข้าใจขั้นพื้นฐานยังคงเหมือนเดิมx3,x4,x5: นัยสำคัญและความสัมพันธ์หลายระดับเป็นสิ่งที่แตกต่างกัน มีข้อ จำกัด ทางคณิตศาสตร์เพียงเล็กน้อยเท่านั้น และเป็นไปได้สำหรับการรวมหรือแยกแม้แต่ตัวแปรเดียวที่จะมีผลกระทบอย่างลึกซึ้งต่อค่า p ทั้งหมดแม้ว่าจะไม่มีปัญหาความสัมพันธ์หลายอย่างรุนแรงก็ตาม

x1 x2 x3 x4 x5 y
-1.78256    -0.334959   -1.22672    -1.11643    0.233048    -2.12772
0.796957    -0.282075   1.11182 0.773499    0.954179    0.511363
0.956733    0.925203    1.65832 0.25006 -0.273526   1.89336
0.346049    0.0111112   1.57815 0.767076    1.48114 0.365872
-0.73198    -1.56574    -1.06783    -0.914841   -1.68338    -2.30272
0.221718    -0.175337   -0.0922871  1.25869 -1.05304    0.0268453
1.71033 0.0487565   -0.435238   -0.239226   1.08944 1.76248
0.936259    1.00507 1.56755 0.715845    1.50658 1.93177
-0.664651   0.531793    -0.150516   -0.577719   2.57178 -0.121927
-0.0847412  -1.14022    0.577469    0.694189    -1.02427    -1.2199
-1.30773    1.40016 -1.5949 0.506035    0.539175    0.0955259
-0.55336    1.93245 1.34462 1.15979 2.25317 1.38259
1.6934  0.192212    0.965777    0.283766    3.63855 1.86975
-0.715726   0.259011    -0.674307   0.864498    0.504759    -0.478025
-0.800315   -0.655506   0.0899015   -2.19869    -0.941662   -1.46332
-0.169604   -1.08992    -1.80457    -0.350718   0.818985    -1.2727
0.365721    1.10428 0.33128 -0.0163167  0.295945    1.48115
0.215779    2.233   0.33428 1.07424 0.815481    2.4511
1.07042 0.0490205   -0.195314   0.101451    -0.721812   1.11711
-0.478905   -0.438893   -1.54429    0.798461    -0.774219   -0.90456
1.2487  1.03267 0.958559    1.26925 1.31709 2.26846
-0.124634   -0.616711   0.334179    0.404281    0.531215    -0.747697
-1.82317    1.11467 0.407822    -0.937689   -1.90806    -0.723693
-1.34046    1.16957 0.271146    1.71505 0.910682    -0.176185

เนื่องจากฉันกำลังทำงานเพื่ออธิบายความสัมพันธ์ระหว่างตัวแปรเหล่านี้และความสำคัญของพวกเขาในการทำนาย y การขาด collinearity บอกฉันว่าสิ่งที่การถดถอยเชิงเส้นแบบหลายจุดเริ่มต้นบอกฉันว่าตัวแปรเพียงสองตัวเท่านั้นที่สำคัญ? หากตัวแปรแสดงการ collinearity แสดงว่ามีหลายสิ่งที่สำคัญ แต่ให้ข้อมูลที่คล้ายคลึงกันหรือไม่ โปรดแจ้งให้เราทราบหากฉันไม่มีประเด็น - ฉันไม่ได้เป็นผู้เชี่ยวชาญด้านสถิติ
cryptic_star

โอ้และฉันจะเพิ่มสิ่งนี้ลงในโพสต์ต้นฉบับของฉัน แต่ n ของฉันคือ 24 (วิชามนุษย์ทำงานดังนั้นมันจึงค่อนข้างสูง) จากการโพสต์ของคุณฉันสามารถสันนิษฐานได้ว่านี่คือเหตุผลที่ผู้คนหลายระดับความสัมพันธ์ระหว่างประเทศแนะนำให้รับข้อมูลมากขึ้น - เพื่อเน้นความแตกต่าง
cryptic_star

ผมให้เป็นตัวอย่างที่ใหม่แสดงให้เห็นว่าปรากฏการณ์ของคุณสามารถเกิดขึ้นได้แม้ในขณะที่ 24 สามารถแก้ไขได้อย่างง่ายดายเพื่อให้ตัวเลขที่เกี่ยวข้องทั้งหมดเป็นจำนวนเต็มบวก: นับนั่นคือ n=24
whuber

1
การแสดงความคิดเห็นครั้งแรกของคุณ: collinearity แสดงให้เห็นว่าตัวแปรอธิบาย (IV) บางอย่างอาจซ้ำซ้อน แต่นี่ไม่จำเป็นต้องเป็นกรณี สิ่งที่สำคัญคือความสัมพันธ์ระหว่าง IV และตัวแปรตาม (DV) เป็นไปได้ที่หนึ่งใน IV จะขึ้นอยู่กับ IV อื่น ๆ อย่างมาก แต่ก็มีข้อมูลที่มีประโยชน์เฉพาะที่เกี่ยวข้องกับ DV นี่เป็นแนวคิดที่สำคัญ: ไม่มีการวิเคราะห์ความสัมพันธ์ระหว่าง IV เพียงอย่างเดียวที่จะบอกคุณว่าตัวแปรใดอธิบาย DV ได้ดีที่สุด ขาดความ collinearity - ทรัพย์สินแต่เพียงผู้เดียวของเกลือ - การ doesn't เปิดเผยอะไรเกี่ยวกับท DV
whuber

9

ฉันหรือฉันไม่มีปัญหาเรื่องความสัมพันธ์หลายทาง? ถ้าฉันทำแล้วฉันจะทำอย่างไรต่อ

มันไม่ได้เป็นอย่างใดอย่างหนึ่งหรือสถานการณ์ และฉันสงสัยเกี่ยวกับแนวทาง "4 หรือ 5" สำหรับตัวทำนายแต่ละตัวของคุณค่าคลาดเคลื่อนมาตรฐานของสัมประสิทธิ์อยู่ระหว่าง 2.2 และ 5.6 เท่าใหญ่เท่าที่มันจะเป็นถ้าตัวทำนายนั้นไม่เกี่ยวข้องกับคนอื่น และส่วนของตัวทำนายที่ให้ซึ่งไม่สามารถอธิบายได้โดยคนอื่น ๆ อยู่ในช่วงตั้งแต่ 1 / 2.2 ถึง 1 / 5.6 หรือ 18% ถึง 45% พรึบนั่นดูเหมือนว่าจำนวน collinearity ค่อนข้างสวย

แต่ขอย้อนกลับไปสักครู่ คุณพยายามคาดการณ์ * Y * จริง ๆ ไม่ใช่พยายามอธิบายหรือไม่? ถ้าก่อนหน้านี้ฉันไม่คิดว่าคุณต้องสนใจว่าระดับความสำคัญของตัวแปรที่กำหนดจะเปลี่ยนแปลงไปเมื่อมีคนอื่นอยู่ในแบบจำลองหรือไม่ งานของคุณง่ายกว่าที่เป็นจริงหากต้องการคำอธิบายที่แท้จริง

หากคำอธิบายคือเป้าหมายของคุณคุณจะต้องพิจารณาวิธีที่ตัวแปรเหล่านี้สัมพันธ์กันซึ่งเป็นสิ่งที่ต้องใช้มากกว่าข้อมูลสถิติ เห็นได้ชัดว่าพวกเขาซ้อนทับกันในวิธีที่พวกเขาเกี่ยวข้องกับYและ collinearity นี้จะทำให้มันยากที่จะสร้างตัวอย่างเช่นลำดับความสำคัญในการบัญชีสำหรับY ในสถานการณ์นี้ไม่มีเส้นทางที่ชัดเจนที่ให้คุณติดตาม

ไม่ว่าในกรณีใด ๆ ฉันหวังว่าคุณกำลังพิจารณาวิธีการตรวจสอบไขว้กัน


คำตอบนี้เหมือนของ John ดูเหมือนจะสับสนค่า p ต่ำที่มีความสัมพันธ์สูง ข้อควรจำ: ข้อผิดพลาดมาตรฐานของสัมประสิทธิ์ลดลงตามปริมาณข้อมูลที่เพิ่มขึ้น ( caeteris paribus ) ดังนั้นค่า p ต่ำสามารถเกิดขึ้นได้เมื่อข้อมูลแทบไม่มีสหสัมพันธ์โดยมีข้อสังเกตเพียงพอ
whuber

สับสนค่า p ต่ำที่มีสหสัมพันธ์สูง? Pas du tout!
rolando2

จากนั้นโปรดอธิบายว่าแนวคิด p-value อย่างเคร่งครัด ("ข้อผิดพลาดมาตรฐานของสัมประสิทธิ์อยู่ระหว่าง 2.2 และ 5.6 เท่าใหญ่เท่าที่จะเป็นอย่างไรหากตัวทำนายนั้นไม่เกี่ยวข้องกับคนอื่น ๆ ") ทำให้คุณสรุป " จำนวน collinearity "ซึ่งเกี่ยวข้องอย่างยิ่งกับสหสัมพันธ์ (การวัดค่าความเป็นเส้นตรงเป็นคุณสมบัติของเมทริกซ์สหสัมพันธ์เมื่อตัวแปรเป็นมาตรฐาน)
whuber

ฉันมองมันด้วยวิธีนี้ เมื่อ VIF คือ 5.6, 82% ของความแปรปรวนในตัวทำนายนั้นสามารถคาดการณ์ได้โดยผู้ทำนายรายอื่น ฉันไม่เห็นว่าสิ่งนี้จะขึ้นอยู่กับ N.
rolando2

1
ในฐานะที่เป็นข้อแตกต่างของการประเมินในแง่ร้ายนี้ (ซึ่งมีเหตุผลในกฎของหัวแม่มือเช่นต้องการการสังเกตเป็นตัวแปร 5-10 ครั้ง) มันเป็นเรื่องสำคัญที่เขตข้อมูลทั้งหมดของการสร้างแบบจำลองและการวิเคราะห์ข้อมูลได้เติบโตขึ้นในปัญหาที่มีจำนวนน้อย การสังเกตและตัวทำนายหลายตัวเช่น DACE (การออกแบบและการวิเคราะห์การทดลองทางคอมพิวเตอร์) ดูressources-actuarielles.net/EXT/ISFA/1226.nsf/ …สำหรับกระดาษเชื้อ
whuber

6

คุณมีความหลากหลายทางชีวภาพ การวิเคราะห์เบื้องต้นของคุณแสดงให้เห็นว่า เท่าที่มันเป็นปัญหาก็เป็นอีกคำถามหนึ่งที่ดูเหมือนจะมีคำตอบมากมายในกรณีของคุณ

บางทีถ้าคุณได้รับปัญหาพื้นฐานที่ดีกว่ามันจะชัดเจนกว่าว่าจะทำอย่างไร ...

ด้วยความหลากหลายค่าสัมประสิทธิ์การถดถอยของคุณมีส่วนร่วมที่ไม่ซ้ำกัน (ใกล้เคียงกับที่ไม่ซ้ำกัน) ของแต่ละตัวแปรในรูปแบบของคุณ หากบางคนมีความสัมพันธ์ซึ่งกันและกันการมีส่วนร่วมที่ไม่เหมือนใครของแต่ละคนนั้นน้อยลง นั่นอาจเป็นบางส่วนว่าทำไมไม่มีใครมีความสำคัญเมื่อพวกเขาอยู่ด้วยกัน แต่เมื่อใช้เพียงอย่างเดียวพวกเขาก็สามารถ

สิ่งแรกที่คุณน่าจะต้องทำคือพิจารณาความสัมพันธ์ระหว่างตัวแปรของคุณ ตัวอย่างเช่นคุณมีตัวแปรหลายอย่างที่ยืนหยัดเพื่อสิ่งเดียวกันหรือไม่? คุณเพิ่งวัดค่าตัวทำนายของคุณในระดับที่ไม่ดีและรับความสัมพันธ์แบบบังเอิญหรือไม่? อย่าพยายามแก้ไขการถดถอยลองทำความเข้าใจกับตัวแปรของคุณ

พิจารณา X1 และ X2 ด้วยความสัมพันธ์ที่แข็งแกร่งมากระหว่างพวกเขาพูด r = 0.90 หากคุณวาง X1 ไว้ในโมเดลและเป็นตัวทำนายที่สำคัญดังนั้นโมเดลอื่นที่มี X2 เพียงอย่างเดียวน่าจะมีความสำคัญเช่นกันเพราะมันเกือบจะเหมือนกัน ถ้าคุณทำให้พวกเขาอยู่ในรูปแบบร่วมกันอย่างน้อยหนึ่งคนก็ต้องทนทุกข์ทรมานเพราะการถดถอยหลายครั้งจะแก้ไขเพื่อการมีส่วนร่วมอันเป็นเอกลักษณ์ของพวกเขา พวกเขาทั้งสองอาจไม่สำคัญ แต่นั่นไม่ใช่ประเด็นประเด็นก็คือการตระหนักว่าทำไมพวกเขาจึงทับซ้อนกันมากและถ้าพวกเขาพูดอะไรที่แตกต่างจากกันและกันและไม่ว่าคุณต้องการหรือไม่ บางทีหนึ่งอาจแสดงความคิดที่มีความหมายและเกี่ยวข้องกับตัวแปรตอบกลับของคุณมากกว่าอีกแนวคิดหนึ่ง บางทีคุณอาจสรุปได้ว่ามันเหมือนกันกับระดับความแปรปรวนที่แตกต่างกัน

นอกจากนี้เมื่อดูโมเดลทุกชนิด แต่โดยเฉพาะอย่างยิ่งกับตัวทำนายแบบสัมพันธ์กันค่า p เป็นวิธีที่แย่มากที่จะบอกว่าตัวทำนายใหม่สร้างผลงานที่มีความหมายหรือไม่ (ถ้านั่นคือสิ่งที่คุณกำลังพยายามจะทำ ... กำลังพยายามทำเพราะดูเหมือนว่าคุณกำลังพยายามทำให้การถดถอย A) ง่ายหรือ B) ออกมาในแบบที่คุณต้องการ ... ไม่สามารถทำได้เลย) คุณอาจจะดูดีที่สุดในการเลือก AIC เพื่อช่วยให้คุณทราบว่าคุณควรเก็บรักษาอะไรและไม่สนับสนุนอะไร


ค่า p ต่ำแสดงให้เห็นถึงความหลากหลายทางชีวภาพได้อย่างไร แนวคิดทั้งสองนั้นแตกต่างอย่างสิ้นเชิง ด้วยข้อมูลที่เพียงพอคุณสามารถมีค่า p ต่ำและแทบไม่มีความร่วมมือกันเลย
whuber

นี่คือสิ่งที่ฉันกำลังแข่งขันจอห์น: คุณได้ข้อสรุปในประโยคแรกของคุณว่าสิ่งที่ OP อธิบายหมายถึง "คุณมีความหลากหลายทางเชื้อชาติ" แต่นี่คือสิ่งที่ OP ต้องการรู้: "ฉันหรือฉันไม่มีปัญหาความสัมพันธ์ระหว่างกันหลายอย่าง"? ฉันยืนยันว่าคำตอบที่ถูกต้องคือ "คุณยังไม่ได้ให้ข้อมูลที่เพียงพอ แต่อาจไม่ใช่" เพราะปรากฏการณ์ที่อธิบายในคำถามนั้นสอดคล้องกับปัญหาที่มีเงื่อนไข แน่นอน VIF ต่ำที่รายงานโดย OP แนะนำว่าการยืนยันของคุณเป็นเท็จ
whuber

ฉันไม่ได้พูดอย่างนั้น บางทีคุณอาจหมายถึงสิ่งที่ฉันพูดเกี่ยวกับการวิเคราะห์เบื้องต้น การวิเคราะห์เบื้องต้นคือการที่เอฟเฟกต์เปลี่ยนไปมากขึ้นอยู่กับเอฟเฟกต์อื่น ๆ นั่นเป็นเพราะหลาย collinearity (แม้ว่ามันจะไม่ได้เป็นปริมาณ) แน่นอนความสำคัญเป็นปัญหาที่แตกต่าง ฉันไม่รู้จริงๆว่าคุณกำลังทำอะไรอยู่
John

ขออภัย Whuber สำหรับการอัปเดตความคิดเห็น แต่คุณทำงานได้ดีอยู่แล้ว .... ผู้อ่านสองคนด้านบนนี้กลับด้านและมันเป็นความผิดของฉัน Whuber ฉันแค่จดจ่ออยู่กับคำว่า "ปัญหา" Multicollinearity เป็นสิ่งที่คุณหาจำนวน มีอยู่บ้าง มันแนะนำให้คิดหนักเกี่ยวกับตัวแปรโดยไม่คำนึงถึง นอกจากนี้ยังแสดงให้เห็นว่าเหตุผลที่ตัวทำนายแบบเติมแต่งกำลังเปลี่ยนแปลงเมื่อเพิ่มหรือลบออกเนื่องจากความสัมพันธ์แบบหลายค่านั้น ฉันไม่ได้รับความประทับใจที่ผู้ถามต้องการคำตอบเกี่ยวกับการคำนวณปัญหา
John

เป็นไปได้ที่เราจะตีความคำถามด้วยวิธีที่ต่างกันจอห์น เนื่องจากฉันไม่ต้องการออกจากปัญหาอาจสับสนโดยความเห็นของฉันที่นี่ฉันเพิ่มการตอบกลับเพื่ออธิบายประเด็นของฉัน
whuber

2

โดยส่วนตัวแล้วฉันจะใช้ดัชนีสภาพและตารางอธิบายความแปรปรวนเพื่อวิเคราะห์ collinearity

ฉันจะไม่ใช้ค่า p เป็นเกณฑ์สำหรับการสร้างแบบจำลองและเมื่อเปรียบเทียบแบบจำลองที่มี 6 IV กับแบบจำลองที่มี 1 ฉันจะดูการเปลี่ยนแปลงขนาดผลของพารามิเตอร์สำหรับตัวแปรที่มีทั้งคู่

แต่แน่นอนคุณสามารถมีผลลัพธ์ที่คุณพูดถึงโดยไม่ต้อง collinearity Collinearity เป็นเพียงเกี่ยวกับตัวแปร X และความสัมพันธ์ของพวกเขา แต่ตัวแปรสองตัวสามารถสัมพันธ์กันอย่างรุนแรงกับ Y ในขณะที่ไม่เกี่ยวข้องกันอย่างรุนแรง


1
นี่ดูเหมือนจะไม่ง่ายสำหรับฉันว่าตัวแปรสองตัวสามารถสัมพันธ์กับ Y ได้อย่างมากโดยไม่เกี่ยวข้องกัน มีตัวอย่างที่คุณสามารถชี้ให้ฉันหรือคำอธิบายที่ยาวขึ้นได้หรือไม่?
cryptic_star

@Peter - ด้วย 1- (1 / 5.6) = 82% ของความแปรปรวนในตัวทำนายสุดท้ายที่อธิบายโดยผู้อื่นเหตุใดคุณจึงบอกว่าอาจไม่มีความร่วมมือกัน
rolando2

3
x1x2y=x1+x2yx1x2x1x2

0

เกี่ยวกับ multicollinearity มีเกณฑ์ต่าง ๆ ที่กล่าวถึงมักจะบรรจบกันรอบ VIF 10 สอดคล้องกับค่า R Square พื้นฐาน 0.90 ระหว่างตัวแปรทดสอบเทียบกับตัวแปรอิสระอื่น ๆ VIFs ของตัวแปรของคุณปรากฏขึ้นพอควรและคุณสามารถเก็บไว้ในรูปแบบทางเทคนิคได้

แต่ฉันจะใช้วิธีการถดถอยแบบขั้นตอนเพื่อดูว่าชุดค่าผสมใดที่ดีที่สุดและคำอธิบายเพิ่มเติมเท่าใด (เพิ่มขึ้นใน R Square ที่เพิ่มขึ้น) ที่คุณได้รับโดยการเพิ่มตัวแปร เกณฑ์การตัดสินโดยอนุญาโตตุลาการควรเป็นค่า R Square ที่ปรับซึ่งปรับค่า R Square ลงโดยการลงโทษโมเดลสำหรับการเพิ่มตัวแปร

ตัวแปรของคุณมีความสัมพันธ์กันบ้าง นี่เป็นสิ่งที่หลีกเลี่ยงไม่ได้มันเป็นเพียงเรื่องของการศึกษาระดับปริญญา จาก VIF ที่คุณพูดถึงฉันสงสัยว่าคุณจะได้รับข้อมูล / คำอธิบายส่วนใหญ่จากชุดค่าผสม 2 ตัวแปรที่ดีที่สุด และการเพิ่มตัวแปรนั้นอาจเพิ่มมูลค่าส่วนเพิ่มเพียงเล็กน้อยเท่านั้น

เมื่อดูที่การรวมกันของตัวแปรที่ถูกเลือกโดยกระบวนการถดถอยแบบขั้นตอนฉันก็จะดูว่าตัวแปรใดถูกเลือกและถ้าสัญญาณสัมประสิทธิ์การถดถอยของพวกเขาสอดคล้องกับสหสัมพันธ์กับ y หากไม่เป็นเช่นนั้นอาจเป็นเพราะการมีปฏิสัมพันธ์ที่ถูกต้องระหว่างตัวแปร แต่มันอาจเป็นผลมาจากรูปแบบการ overfitting และสัมประสิทธิ์การถดถอยนั้นเป็นของปลอม มันสะท้อนถึงความเหมาะสมทางคณิตศาสตร์ แต่ไม่มีความหมายในแง่ของความเป็นเหตุเป็นผล

อีกวิธีในการเลือกตัวแปรของคุณคือการตัดสินใจจากจุดยืนเชิงตรรกะซึ่งเป็นตัวแปรหลัก 2 หรือ 3 ตัวที่ควรจะอยู่ในรูปแบบ คุณเริ่มจากสิ่งเหล่านั้นจากนั้นตรวจสอบว่าคุณได้รับข้อมูลมากขึ้นเพียงใดโดยการเพิ่มตัวแปร ตรวจสอบ R Square ที่ได้รับการปรับความสอดคล้องของสัมประสิทธิ์การถดถอยเทียบกับการถดถอยแบบดั้งเดิมและทดสอบอย่างชัดเจนทุกรุ่นด้วยระยะเวลาที่ค้าง ในไม่ช้ามันจะเห็นได้ชัดว่าแบบจำลองที่ดีที่สุดของคุณคืออะไร


4
Radj2

ปัญหาหลายอย่างที่คุณจัดเค้าร่างนั้นเป็นเรื่องปกติของตัวแบบการถดถอยเชิงเส้นโดยทั่วไป ฉันไม่แน่ใจว่าปัญหาทางเทคนิคดังกล่าวเป็นเหตุผลในการละทิ้งวิธีการถดถอยแบบขั้นตอนและการถดถอยเชิงเส้นโดยทั่วไป ฉันไม่ชัดเจนว่าทำไมการถดถอยแบบขั้นตอน "กำลังเลือกตามตัวแปรสุ่มซึ่งทำให้เกิดปัญหามากมาย" Stepwise ค้นหาแบบที่ดีที่สุดเช่นเดียวกับรุ่นใด ๆ สิ่งที่ฉันคิดว่าสำคัญกว่าคือการตรวจสอบให้แน่ใจว่าการคำนวณทางคณิตศาสตร์สอดคล้องกับทฤษฎีพื้นฐานหรือตรรกะของปัญหาที่คุณกำลังแก้ไข
Sympa

3
R2Radj2Fp

gung ฉันไม่แน่ใจว่าเรากำลังพูดถึงสิ่งเดียวกัน ฉันใช้การถดถอยแบบขั้นตอนในสองวิธี หนึ่งคือคู่มือคุณสร้างแบบจำลองโดยใช้ regressor ที่ดีที่สุด และคุณเพิ่มเข้าไปโดยใช้ตัวแปรที่ดีที่สุดอันดับสองที่อธิบายข้อผิดพลาดของรุ่นแรกได้ดีที่สุด และคุณจะดำเนินต่อไปจนกว่าคะแนน AIC ของคุณจะลดลง วิธีที่สองที่ฉันใช้คือการใช้ซอฟต์แวร์ XLStat ซึ่งเป็นกระบวนการอัตโนมัติและได้รับการพัฒนาโดย Thierry Fahmy และทีมของเขา เขามีฉันเข้าใจปริญญาเอกในวิชาคณิตศาสตร์พร้อมกับคนอื่น ๆ ในทีมของเขา และฉันไม่มั่นใจว่าพวกเขาจะตกอยู่ในกับดักทั้งหมดที่คุณพูดถึง
Sympa

2
อีกครั้งฉันคิดว่าสิ่งที่ @ gung พยายามที่จะพูดคือวิธีการแบบขั้นตอนอาจทำให้เกิดความเสียหายอย่างรุนแรงต่อกรอบการถดถอยเชิงสถิติเริ่มต้น (ฟังก์ชั่นการสูญเสียค่า p ฯลฯ ) ดูการตอบสนองของแฟรงก์ฮาร์เรลและความคิดเห็นที่นี่ การถดถอยที่ถูกปรับตามที่กล่าวไว้ในหลายเธรดอาจเป็นทางเลือกที่ดี "(... ) ซอฟต์แวร์ที่ทำให้กระบวนการเป็นอัตโนมัติ" ทำให้ฉันนึกถึง R fortune(224): ไม่มีการหมุนรอบที่นี่เพียงต้องการเน้นว่าคุณไม่จำเป็นต้องเชื่อถือสิ่งที่ซอฟต์แวร์ให้โดยอัตโนมัติ (หรือข้อเสนอ) ให้คุณเป็นตัวเลือก
chl

0

หากตัวแปรอธิบายของคุณเป็นข้อมูลที่นับและไม่มีเหตุผลที่จะถือว่าพวกเขามีการกระจายตามปกติคุณสามารถเปลี่ยนเป็นตัวแปรปกติมาตรฐานโดยใช้scaleคำสั่งR การทำเช่นนี้สามารถลดความเป็นเส้นตรง แต่นั่นอาจจะไม่แก้ปัญหาทั้งหมด

ชุดคำสั่ง R ที่มีประโยชน์สำหรับการวิเคราะห์และการจัดการกับ collinearity สามารถพบได้ในบล็อกของ Florian Jaegerรวมไปถึง:

z. <- function (x) scale(x)
r. <- function (formula, ...) rstandard(lm(formula, ...))

z.ฟังก์ชันแปลงเวกเตอร์เป็นตัวแปรปกติมาตรฐาน r.ผลตอบแทนที่ฟังก์ชั่นมาตรฐานคราบถอยหนึ่งทำนายกับคนอื่น คุณสามารถใช้สิ่งนี้เพื่อแบ่งความเบี่ยงเบนของโมเดลออกเป็นชุดต่าง ๆ ได้อย่างมีประสิทธิภาพเพื่อให้มีเพียงตัวแปรบางตัวเท่านั้นที่สามารถเข้าถึงชุดที่อาวุโสที่สุดจากนั้นชุดถัดไปจะถูกนำเสนอให้กับตัวแปรที่เหลือ (ขออภัยสำหรับคำศัพท์ที่บ้านของฉัน) ดังนั้นหากรูปแบบของแบบฟอร์ม

Y ~ A + B

ทนทุกข์ทรมานจากความหลากหลายจากนั้นคุณสามารถเรียกใช้อย่างใดอย่างหนึ่ง

Y ~ A + r.(B)
Y ~ r.(A) + B

ดังนั้นจึงมีเพียงเศษเหลือของตัวแปร "junior tranche" (เมื่อถดถอยกับตัวแปร "รุ่นอาวุโส") จะได้รับการติดตั้งกับรุ่น ด้วยวิธีนี้คุณจะได้รับการปกป้องจากความหลากหลายทาง แต่มีชุดของพารามิเตอร์ที่ซับซ้อนกว่าที่จะรายงาน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.