การจัดการกับ regressors สัมพันธ์


23

ในการถดถอยเชิงเส้นแบบหลายครั้งพร้อมตัวถดถอยความสัมพันธ์สูงกลยุทธ์ที่ดีที่สุดที่จะใช้คืออะไร มันเป็นวิธีการที่ถูกต้องตามกฎหมายในการเพิ่มผลิตภัณฑ์ของ regressors สัมพันธ์ทั้งหมดหรือไม่


1
ฉันขอโทษที่ลบคำตอบของ @ Suncoolsu มันและความคิดเห็นที่ตามมาชี้แจงความแตกต่างระหว่าง multicollinearity และเงื่อนไขที่ไม่ดี นอกจากนี้ในความคิดเห็น Suncoolsu ชี้ให้เห็นว่ามาตรฐานเบื้องต้นสามารถช่วยในการถดถอยพหุนามได้อย่างไร หากเกิดขึ้นอีกครั้งฉันจะลงคะแนนให้ ;-)
whuber

@ Ηλίας: ผลิตภัณฑ์มีแนวโน้มที่จะไม่เสถียรในหลายแอปพลิเคชัน มันสามารถรบกวนด้วยศูนย์จำนวนมากถ้า regressors แต่ละคนมีศูนย์บางอย่าง; ค่าสัมบูรณ์ของมันมีแนวโน้มที่จะมีความเบ้เชิงบวกที่แข็งแกร่ง มันอาจขยายข้อมูลภายนอกโดยเฉพาะอย่างยิ่งค่าผิดพลาดพร้อมกันเพิ่มการใช้ประโยชน์ของพวกเขา มันอาจจะค่อนข้างยากที่จะตีความเช่นกันโดยเฉพาะอย่างยิ่งถ้า regressors เป็นนิพจน์ของตัวแปรดั้งเดิมอยู่แล้ว (เช่นล็อกหรือรูท)
whuber

คำตอบ:


13

ส่วนประกอบหลักมีเหตุผลมากมาย ... ทางคณิตศาสตร์ อย่างไรก็ตามฉันจะระวังเพียงแค่ใช้เคล็ดลับทางคณิตศาสตร์ในกรณีนี้และหวังว่าฉันไม่จำเป็นต้องคิดถึงปัญหาของฉัน

ฉันขอแนะนำให้ลองคิดดูว่าฉันมีตัวทำนายชนิดใดตัวแปรอิสระคืออะไรทำไมตัวทำนายของฉันถึงมีความสัมพันธ์ไม่ว่าผู้ทำนายของฉันบางคนกำลังวัดความเป็นจริงพื้นฐานเดียวกันหรือไม่ (ถ้าเป็นเช่นนั้นหรือไม่ การวัดเดี่ยวและสิ่งที่นักทำนายของฉันจะดีที่สุดสำหรับเรื่องนี้) สิ่งที่ฉันกำลังวิเคราะห์อยู่ - ถ้าฉันไม่สนใจการอนุมานเพียงแค่การทำนายแล้วฉันก็สามารถทิ้งสิ่งต่าง ๆ ได้ตราบที่อนาคต ค่าของผู้ทำนายคล้ายกับค่าในอดีต


4
ตกลงกันอย่างสมบูรณ์ +1 แต่ลักษณะของ PCA เป็น "เคล็ดลับทางคณิตศาสตร์" ดูหมิ่นอย่างไม่เป็นธรรม IMHO หากคุณเห็นด้วย (ฉันไม่แน่ใจว่าคุณทำ) การรวมกลุ่มหรือการถดถอยของกลุ่มตัวอย่างตามที่ Srikant แนะนำจะเป็นที่ยอมรับได้ PCA ควรเป็นที่ยอมรับและมักจะปรับปรุงให้เหมาะสม ยิ่งไปกว่านั้นส่วนประกอบหลักสามารถให้ข้อมูลเชิงลึกเกี่ยวกับกลุ่มนักทำนายที่มีความสัมพันธ์และความสัมพันธ์: เป็นเครื่องมือที่ยอดเยี่ยมสำหรับการคิดที่คุณกำลังสนับสนุน
whuber

2
@ เมื่อฉันเห็นและเห็นด้วยกับประเด็นของคุณและฉันไม่ต้องการดูถูก PCA ดังนั้น +1 อย่างแน่นอน ฉันแค่อยากจะชี้ให้เห็นว่าการใช้ PCA แบบสุ่มสี่สุ่มห้าโดยไม่ได้มองและคิดเกี่ยวกับปัญหาพื้นฐาน (ซึ่งไม่มีใครสนับสนุน) จะทำให้ฉันด้วยความรู้สึกที่ไม่ดี ...
S. Kolassa - Reinstate Monica

11

คุณสามารถใช้ส่วนประกอบหลักหรือการถดถอยของสันเขาเพื่อจัดการกับปัญหานี้ ในทางกลับกันถ้าคุณมีตัวแปรสองตัวที่มีความสัมพันธ์กันสูงพอที่จะทำให้เกิดปัญหากับการประมาณค่าพารามิเตอร์คุณก็สามารถปล่อยหนึ่งในสองตัวแปรนี้ได้โดยไม่สูญเสียการทำนายมากนักเพราะตัวแปรทั้งสองมีข้อมูลเดียวกัน . แน่นอนว่าใช้ได้เฉพาะเมื่อปัญหาเกิดขึ้นเนื่องจากที่ปรึกษาที่มีความสัมพันธ์สูงสองคน เมื่อปัญหาเกี่ยวข้องกับตัวแปรมากกว่าสองตัวที่รวมกันเกือบเป็นสี (ทั้งสองอย่างนั้นอาจมีความสัมพันธ์ปานกลางเท่านั้น) คุณอาจต้องใช้วิธีอื่นอย่างใดอย่างหนึ่ง


2
(+1) ตอนนี้ปัญหาคือ OP ไม่ได้ระบุว่ามีตัวแปรกี่ตัวที่ป้อนโมเดลเพราะในกรณีที่พวกมันมีจำนวนมากมันจะเป็นการดีที่จะทำการเลือกการหดตัวและการเลือกตัวแปรเช่นผ่านelasticnet criterion (ซึ่งเป็นการรวมกัน บทลงโทษของ Lasso และ Ridge)
chl

3

นี่คือความคิดอื่นที่ได้รับแรงบันดาลใจจากคำตอบของสเตฟาน:

หาก regressors ที่สัมพันธ์กันบางส่วนของคุณมีความสัมพันธ์อย่างมีความหมาย (เช่นมันเป็นหน่วยวัดความฉลาดที่แตกต่างกันเช่นวาจาคณิตศาสตร์ ฯลฯ ) คุณสามารถสร้างตัวแปรเดี่ยวที่วัดตัวแปรเดียวกันโดยใช้หนึ่งในเทคนิคต่อไปนี้:

  • หาผลรวมของ regressors (เหมาะสมถ้า regressors เป็นองค์ประกอบทั้งหมดเช่นวาจา IQ + math IQ = IQ ทั้งหมด)

  • ค่าเฉลี่ยของ regressors (เหมาะสมถ้า regressors กำลังวัดโครงสร้างพื้นฐานเดียวกันเช่นขนาดของรองเท้าซ้ายขนาดของรองเท้าขวาเพื่อวัดความยาวของเท้า)

  • การวิเคราะห์ปัจจัย (เพื่อพิจารณาข้อผิดพลาดในการวัดและเพื่อแยกปัจจัยแฝง)

จากนั้นคุณสามารถปล่อย regressors ที่สัมพันธ์กันทั้งหมดและแทนที่ด้วยตัวแปรเดียวที่เกิดขึ้นจากการวิเคราะห์ข้างต้น


1
เรื่องนี้สมเหตุสมผลถ้า regressors ทุกวัดในระดับเดียวกัน ในทางจิตวิทยา subscales ต่าง ๆ มักจะถูกวัดในระดับที่แตกต่างกัน (และยังคงมีความสัมพันธ์กัน) ดังนั้นผลรวมหรือน้ำหนักเฉลี่ย (ซึ่งจริงๆเหมือนกันที่นี่) จะเหมาะสม และแน่นอนว่าเราสามารถดู PCA ว่าให้น้ำหนักแบบนี้ได้โดยการคำนวณแกนของความแปรปรวนสูงสุด
S. Kolassa - Reinstate Monica

2

ฉันกำลังจะพูดมากเช่นเดียวกับ Stephan Kolassa ด้านบน (ดังนั้นได้ตอบคำถามของเขา upvoted) ฉันแค่เพิ่มว่าบางครั้งความสัมพันธ์หลากหลายอาจเกิดจากการใช้ตัวแปรมากมายซึ่งมีความสัมพันธ์อย่างมากกับการวัดขนาดและสิ่งต่าง ๆ สามารถปรับปรุงได้โดยใช้ตัวแปรแบบเข้มข้นนั่นคือการหารทุกอย่างด้วยการวัดขนาด เช่นหากหน่วยของคุณเป็นประเทศคุณอาจแบ่งตามประชากรพื้นที่หรือ GNP ขึ้นอยู่กับบริบท

โอ้ - และเพื่อตอบคำถามที่สองของคำถามเดิม: ฉันไม่สามารถนึกถึงสถานการณ์ใด ๆเมื่อเพิ่มผลิตภัณฑ์ของผู้ลงทะเบียนที่มีความเกี่ยวข้องทั้งหมดจะเป็นความคิดที่ดี มันจะช่วยได้อย่างไร มันหมายความว่าอะไร?


ความคิดเริ่มต้นของฉันคือการเพิ่มการคำนึงถึงการทำงานร่วมกันแบบคู่ของ regressors
Ηλίας

มันเป็นความคิดที่ดีที่จะคำนึงถึงการมีปฏิสัมพันธ์แบบคู่ แต่ไม่ใช่ทุกสิ่งที่พวกเขาทำ: คุณต้องคิดว่ารางน้ำซึ่งเหมาะสมแล้ว!
kjetil b halvorsen

1

ฉันไม่มีความเชี่ยวชาญในเรื่องนี้ แต่ความคิดแรกของฉันคือการเรียกใช้การวิเคราะห์องค์ประกอบหลักในตัวแปรตัวทำนายจากนั้นใช้องค์ประกอบหลักที่เกิดขึ้นเพื่อทำนายตัวแปรตามของคุณ


kk

p

@chl จุดที่ดี แต่เนื่องจากส่วนประกอบหลักคือผลรวมเชิงเส้นก็ตรงไปตรงมา (แม้ว่าบางครั้งบิตของความเจ็บปวด) ในการเขียนรูปแบบการถดถอยติดตั้ง (= หนึ่งแปลงเชิงเส้น) กับการฉายลงบนส่วนประกอบ (= อีกแปลงเชิงเส้น) ที่จะได้รับ interpretable เชิงเส้นรุ่น เกี่ยวข้องกับตัวแปรดั้งเดิมทั้งหมด นี่ค่อนข้างคล้ายกับเทคนิคการปรับมุมฉาก โปรดทราบเช่นกันว่าข้อเสนอล่าสุดของศรีกันต์ (ผลรวมหรือค่าเฉลี่ยของการถดถอย) นั้นมีความใกล้เคียงกับผู้สร้างหลัก แต่ยังก่อให้เกิดปัญหาที่คล้ายกัน
whuber

@whuber ใช่ฉันเห็นด้วยกับคะแนนของคุณทั้งสอง ฉันใช้การถดถอย PLS และ CCA อย่างกว้างขวางดังนั้นในกรณีนี้เราต้องจัดการกับชุดค่าผสมเชิงเส้นทั้งสองด้าน (st. ความแปรปรวนร่วมสูงสุดหรือเกณฑ์ความสัมพันธ์); ด้วยนักทำนายจำนวนมากการตีความเวกเตอร์แบบบัญญัติเป็นสิ่งที่เจ็บปวดดังนั้นเราแค่ดูตัวแปรที่มีส่วนมากที่สุด ตอนนี้ฉันสามารถจินตนาการได้ว่ามีผู้ทำนายไม่มากนักเพื่อให้ข้อโต้แย้งทั้งหมดของคุณ (@Stephan, @Mike) เข้าท่า
chl

-1

X

xijstandardized=xijx.j¯sj

นี่ไม่ใช่วิธีการรักษา แต่เป็นขั้นตอนในทิศทางที่ถูกต้องแน่นอน


8
การแปลงเชิงเส้น (เช่นนี้) ไม่เคยเปลี่ยนค่าสัมประสิทธิ์สหสัมพันธ์ จุดมาตรฐานคือการปรับปรุงการปรับเมทริกซ์ปกติ
whuber

1
การกำหนดมาตรฐานของตัวแปรจะไม่ส่งผลกระทบต่อความสัมพันธ์ระหว่างตัวแปรอิสระและจะไม่ "ลดผลกระทบของความสัมพันธ์" ไม่ว่าในทางใดก็ตามที่ฉันสามารถนึกถึงด้วยความเคารพต่อปัญหานี้
Brett

2
@Brett เป็นตัวอย่างทั่วไปที่จะช่วยให้มีมาตรฐานเป็นพหุนามถดถอย ขอแนะนำเสมอเพื่อสร้างมาตรฐาน regressors การทำให้เป็นมาตรฐานไม่ได้เปลี่ยนเมทริกซ์สหสัมพันธ์ แต่ทำให้เมทริกซ์ cov (ซึ่งตอนนี้เป็นเมทริกซ์ correl) มีพฤติกรรมดี (เรียกว่าการปรับเงื่อนไขโดย @whuber ชี้ไปที่หมายเลขเงื่อนไขของเมทริกซ์ IMHO)
suncoolsu

ตกลง การจัดกึ่งกลางนั้นมีประโยชน์เมื่อป้อนคำสั่งซื้อที่สูงขึ้นเช่นคำพหุนามหรือการโต้ตอบ ดูเหมือนจะไม่เป็นอย่างนั้นและจะไม่ช่วยปัญหาของตัวพยากรณ์ที่สัมพันธ์กัน
Brett

ฉันลบมันเพราะฉันไม่ต้องการสร้างความสับสนให้ผู้คนด้วยคำตอบที่ผิด อาจเป็นผู้ดูแลนำมันขึ้นมาอีกครั้ง
suncoolsu
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.