จะทำอย่างไรกับตัวแปร collinear


11

คำเตือน: นี่คือสำหรับโครงการการบ้าน

ฉันพยายามหาแบบจำลองที่ดีที่สุดสำหรับราคาเพชรขึ้นอยู่กับตัวแปรหลายอย่างและดูเหมือนว่าฉันจะมีแบบจำลองที่ดีอยู่แล้ว อย่างไรก็ตามฉันทำงานเป็นสองตัวแปรที่ชัดเจน collinear:

>with(diamonds, cor(data.frame(Table, Depth, Carat.Weight)))
                   Table       Depth Carat.Weight
Table         1.00000000 -0.41035485   0.05237998
Depth        -0.41035485  1.00000000   0.01779489
Carat.Weight  0.05237998  0.01779489   1.00000000

ตารางและความลึกขึ้นอยู่กับแต่ละอื่น ๆ แต่ฉันยังต้องการรวมไว้ในแบบจำลองการทำนายของฉัน ฉันทำการวิจัยเกี่ยวกับเพชรและพบว่า Table และ Depth คือความยาวด้านบนและระยะทางจากปลายถึงบนสุดของเพชร เนื่องจากราคาของเพชรเหล่านี้ดูเหมือนจะเกี่ยวข้องกับความงามและความงามที่ดูเหมือนจะเป็นสัดส่วนที่เกี่ยวข้องฉันจึงต้องรวมอัตราส่วนของพวกเขาด้วยพูดเพื่อทำนายราคา นี่เป็นขั้นตอนมาตรฐานสำหรับการจัดการกับตัวแปร collinear หรือไม่ ถ้าไม่เป็นอะไรTaล.อีDอีพีเสื้อชั่วโมง

แก้ไข: นี่คือพล็อตของความลึก ~ ตาราง: ป้อนคำอธิบายรูปภาพที่นี่


1
+1 สำหรับคำถามที่น่าสนใจ แต่ไม่ใช่นี่ไม่ใช่ขั้นตอนมาตรฐานสำหรับการจัดการกับตัวแปรเชิงเส้น หวังว่าบางคนจะให้คำตอบที่ดีกับคุณเกี่ยวกับสาเหตุที่ไม่ มันอาจจะเป็นสิ่งที่ดีที่จะทำในกรณีของคุณ ...
Peter Ellis

3
สิ่งที่แปลกเกี่ยวกับเรื่องนี้น่าจะเป็นที่ความสัมพันธ์ของ -0.4 แสดงให้เห็นว่าเพชรที่ยาวกว่าด้านบนจะสั้นกว่าจากบนลงล่าง ดูเหมือนว่าจะตอบโต้ได้ง่าย - แน่ใจว่าถูกต้องหรือไม่
ปีเตอร์เอลลิส

โดยทั่วไปจะเปิดเผยเชิงเส้นการพึ่งพาอาศัยกันใช่มั้ย? เกิดอะไรขึ้นถ้าและไม่สัมพันธ์กัน? ในกรณีดังกล่าวจะมีความคล้ายคลึงกันของ colliniarity ที่ทำให้เกิดปัญหาหรือไม่? หรือเป็นเพียงปัญหาการพึ่งพาเชิงเส้น T a b l e D e p t hโอRTaล.อีDอีพีเสื้อชั่วโมง
อยากรู้อยากเห็น _ แมว

@PeterEllis ฉันบอกว่านี่เป็นชุดข้อมูลจริงใช่ การดูพล็อต Depth ~ Table อาจเป็นเพราะความแปรปรวนของแฟน ๆ ออกมาเพื่อหาค่า Table ที่สูง
Mike Flynn

คำตอบ:


14

ตัวแปรเหล่านั้นสัมพันธ์กัน

ขอบเขตของการเชื่อมโยงเชิงเส้นโดยนัยโดยเมทริกซ์สหสัมพันธ์นั้นไม่สูงพอจากระยะไกลสำหรับตัวแปรที่ต้องพิจารณา collinear

ในกรณีนี้ฉันยินดีที่จะใช้ตัวแปรทั้งสามสำหรับแอปพลิเคชันการถดถอยทั่วไป

วิธีหนึ่งในการตรวจสอบความหลากสีคือการตรวจสอบการสลายตัวของ Choleski ของเมทริกซ์สหสัมพันธ์ - หากมีความสัมพันธ์หลายทางจะมีองค์ประกอบในแนวทแยงบางส่วนที่ใกล้เคียงกับศูนย์ นี่คือเมทริกซ์สหสัมพันธ์ของคุณ:

> chol(co)
     [,1]       [,2]       [,3]
[1,]    1 -0.4103548 0.05237998
[2,]    0  0.9119259 0.04308384
[3,]    0  0.0000000 0.99769741

(เส้นทแยงมุมควรเป็นค่าบวกเสมอแม้ว่าการใช้งานบางอย่างสามารถลบเล็กน้อยด้วยผลของข้อผิดพลาดการตัดปลายสะสม)

ตามที่คุณเห็นเส้นทแยงมุมเล็กที่สุดคือ 0.91 ซึ่งยังคงอยู่ไกลจากศูนย์

ในทางตรงกันข้ามนี่คือข้อมูล collinear เกือบทั้งหมด:

> x<-data.frame(x1=rnorm(20),x2=rnorm(20),x3=rnorm(20))
> x$x4<-with(x,x1+x2+x3+rnorm(20,0,1e-4))
> chol(cor(x))
   x1         x2         x3           x4
x1  1 0.03243977 -0.3920567 3.295264e-01
x2  0 0.99947369  0.4056161 7.617940e-01
x3  0 0.00000000  0.8256919 5.577474e-01
x4  0 0.00000000  0.0000000 7.590116e-05   <------- close to 0.

ขอบคุณฉันคิดว่าฉันสับสนระหว่าง "สหสัมพันธ์" และ "collinear"
Mike Flynn

@kingledion โปรดอย่าใช้ความคิดเห็นเพื่อพยายามให้บุคคลตอบคำถามของคุณ
Glen_b -Reinstate Monica

6

คิดว่าแผนผังตัดเพชรนี้อาจเพิ่มความเข้าใจในคำถาม ไม่สามารถเพิ่มภาพไปที่ความคิดเห็นเพื่อให้มันเป็นคำตอบ ....

ป้อนคำอธิบายรูปภาพที่นี่

PS @ ความคิดเห็นของ PeterEllis: ความจริงที่ว่า "เพชรที่ยาวกว่าด้านบนนั้นสั้นกว่าจากบนลงล่าง" อาจเข้าท่าเช่นนี้: สมมติว่าเพชรที่เจียระไนทั้งหมดเป็นรูปสี่เหลี่ยมผืนผ้าประมาณ (พูด) ตอนนี้คัตเตอร์จะต้องเลือกการตัดของเขาด้วยสี่เหลี่ยมผืนผ้าที่ล้อมรอบนี้ ที่แนะนำการแลกเปลี่ยน หากทั้งความกว้างและความยาวเพิ่มขึ้นคุณกำลังมองหาเพชรที่มีขนาดใหญ่ขึ้น เป็นไปได้ แต่หายากและมีราคาแพงกว่า ทำให้รู้สึก?


2

ควรหลีกเลี่ยงการใช้อัตราส่วนในการถดถอยเชิงเส้น โดยพื้นฐานแล้วสิ่งที่คุณกำลังพูดคือถ้าการถดถอยเชิงเส้นเกิดขึ้นกับตัวแปรสองตัวนั้นพวกเขาจะมีความสัมพันธ์เชิงเส้นโดยไม่มีการสกัดกั้น เห็นได้ชัดว่าไม่ใช่ในกรณีนี้ ดู: http://cscu.cornell.edu/news/statnews/stnews03.pdf

นอกจากนี้พวกเขากำลังวัดตัวแปรแฝง - ขนาด (ปริมาตรหรือพื้นที่) ของเพชร คุณได้พิจารณาการแปลงข้อมูลของคุณไปยังการวัดพื้นผิว / ปริมาตรแทนที่จะรวมตัวแปรทั้งสองหรือไม่

คุณควรโพสต์เนื้อเรื่องที่เหลือของความลึกและข้อมูลตาราง ความสัมพันธ์ระหว่างคุณทั้งสองอาจไม่ถูกต้อง


1

จากความสัมพันธ์มันเป็นเรื่องยากที่จะสรุปว่าตารางและความกว้างมีความสัมพันธ์จริง ๆ ค่าสัมประสิทธิ์ใกล้กับ + 1 / -1 จะบอกว่าพวกเขาเป็น collinear นอกจากนี้ยังขึ้นอยู่กับขนาดของกลุ่มตัวอย่าง .. หากคุณมีข้อมูลเพิ่มเติมใช้เพื่อยืนยัน

ขั้นตอนมาตรฐานในการจัดการกับตัวแปร collinear คือการกำจัดหนึ่งในนั้น ... เพราะรู้ว่าใครจะเป็นตัวกำหนดอื่น ๆ


1
ฉันไม่แน่ใจว่าฉันเห็นด้วยกับสิ่งนี้ ความสัมพันธ์คือ r = -. 41 ซึ่งเป็นขนาดที่สมเหตุสมผลสำหรับความสัมพันธ์ฉันคิดว่า เมื่อพิจารณาถึงแนวโน้มของ N (อิงจากพล็อตที่พล็อต) ฉันคาดหวังว่า r จะสูงอย่างมีนัยสำคัญ ไม่ว่า Table & Depth จะมีความสัมพันธ์มากพอที่จะเรียกว่า "collinear" จะเป็นเรื่องของการกำหนดหรือไม่ (แม้ว่าฉันจะไม่เรียกมันว่า collinearity ที่มีปัญหาก็ตาม) สุดท้ายผมจะระวังเพียงแค่การกำจัดตัวแปรหนึ่งเว้นแต่ R เป็นมากใกล้กับ | 1 | (เช่น ~ .99) - ฉันไม่สามารถบอกได้ว่านั่นคือสิ่งที่คุณหมายถึง
gung - Reinstate Monica

1

อะไรที่ทำให้คุณคิดว่าโต๊ะและความลึกเป็นสาเหตุทำให้เกิด collinearity ในแบบจำลองของคุณ จากเมทริกซ์สหสัมพันธ์เพียงอย่างเดียวมันยากที่จะบอกว่าตัวแปรสองตัวนี้จะทำให้เกิดปัญหาความไม่ลงรอยกัน ข้อทดสอบ F ร่วมบอกอะไรคุณเกี่ยวกับการมีส่วนร่วมของตัวแปรทั้งสองในแบบจำลองของคุณ ดังที่อยากทราบว่าแมวพูดถึงเพียร์สันอาจไม่ได้เป็นตัวชี้วัดความสัมพันธ์ที่ดีที่สุดเมื่อความสัมพันธ์ไม่ได้เป็นแบบเชิงเส้น VIF และความอดทนอาจช่วยให้คุณทราบถึงระดับความเป็นมืออาชีพของคุณ

ฉันคิดว่าวิธีการใช้อัตราส่วนของคุณเหมาะสม (แม้ว่าจะไม่ใช่วิธีแก้ปัญหา collinearity) เมื่อฉันเห็นรูปฉันทันทีคิดว่ามาตรการทั่วไปในการวิจัยสุขภาพซึ่งอัตราส่วนเอวต่อสะโพก แม้ว่าในกรณีนี้จะคล้ายกับ BMI มากกว่า (น้ำหนัก / ส่วนสูง ^ 2) หากอัตราส่วนสามารถตีความได้ง่ายและเข้าใจได้ง่ายในผู้ชมของคุณฉันไม่เห็นเหตุผลที่จะไม่ใช้ อย่างไรก็ตามคุณสามารถใช้ตัวแปรทั้งสองในโมเดลของคุณได้เว้นแต่จะมีหลักฐานที่ชัดเจนเกี่ยวกับความเป็นคู่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.