จะทำอย่างไรกับตัวแปร collinear

11

คำเตือน: นี่คือสำหรับโครงการการบ้าน

ฉันพยายามหาแบบจำลองที่ดีที่สุดสำหรับราคาเพชรขึ้นอยู่กับตัวแปรหลายอย่างและดูเหมือนว่าฉันจะมีแบบจำลองที่ดีอยู่แล้ว อย่างไรก็ตามฉันทำงานเป็นสองตัวแปรที่ชัดเจน collinear:

>with(diamonds, cor(data.frame(Table, Depth, Carat.Weight)))
                   Table       Depth Carat.Weight
Table         1.00000000 -0.41035485   0.05237998
Depth        -0.41035485  1.00000000   0.01779489
Carat.Weight  0.05237998  0.01779489   1.00000000

ตารางและความลึกขึ้นอยู่กับแต่ละอื่น ๆ แต่ฉันยังต้องการรวมไว้ในแบบจำลองการทำนายของฉัน ฉันทำการวิจัยเกี่ยวกับเพชรและพบว่า Table และ Depth คือความยาวด้านบนและระยะทางจากปลายถึงบนสุดของเพชร เนื่องจากราคาของเพชรเหล่านี้ดูเหมือนจะเกี่ยวข้องกับความงามและความงามที่ดูเหมือนจะเป็นสัดส่วนที่เกี่ยวข้องฉันจึงต้องรวมอัตราส่วนของพวกเขาด้วยพูดเพื่อทำนายราคา นี่เป็นขั้นตอนมาตรฐานสำหรับการจัดการกับตัวแปร collinear หรือไม่ ถ้าไม่เป็นอะไร $\frac{Table}{Depth}$

แก้ไข: นี่คือพล็อตของความลึก ~ ตาราง: ป้อนคำอธิบายรูปภาพที่นี่

— ไมค์ฟลินน์
แหล่งที่มา

1

+1 สำหรับคำถามที่น่าสนใจ แต่ไม่ใช่นี่ไม่ใช่ขั้นตอนมาตรฐานสำหรับการจัดการกับตัวแปรเชิงเส้น หวังว่าบางคนจะให้คำตอบที่ดีกับคุณเกี่ยวกับสาเหตุที่ไม่ มันอาจจะเป็นสิ่งที่ดีที่จะทำในกรณีของคุณ ...

— Peter Ellis

3

สิ่งที่แปลกเกี่ยวกับเรื่องนี้น่าจะเป็นที่ความสัมพันธ์ของ -0.4 แสดงให้เห็นว่าเพชรที่ยาวกว่าด้านบนจะสั้นกว่าจากบนลงล่าง ดูเหมือนว่าจะตอบโต้ได้ง่าย - แน่ใจว่าถูกต้องหรือไม่

— ปีเตอร์เอลลิส

โดยทั่วไปจะเปิดเผยเชิงเส้นการพึ่งพาอาศัยกันใช่มั้ย? เกิดอะไรขึ้นถ้าและไม่สัมพันธ์กัน? ในกรณีดังกล่าวจะมีความคล้ายคลึงกันของ colliniarity ที่ทำให้เกิดปัญหาหรือไม่? หรือเป็นเพียงปัญหาการพึ่งพาเชิงเส้น

c o r

$cor$

T a b l e

$Table$

D e p t h

$Depth$

— อยากรู้อยากเห็น _ แมว

@PeterEllis ฉันบอกว่านี่เป็นชุดข้อมูลจริงใช่ การดูพล็อต Depth ~ Table อาจเป็นเพราะความแปรปรวนของแฟน ๆ ออกมาเพื่อหาค่า Table ที่สูง

— Mike Flynn

14

ตัวแปรเหล่านั้นสัมพันธ์กัน

ขอบเขตของการเชื่อมโยงเชิงเส้นโดยนัยโดยเมทริกซ์สหสัมพันธ์นั้นไม่สูงพอจากระยะไกลสำหรับตัวแปรที่ต้องพิจารณา collinear

ในกรณีนี้ฉันยินดีที่จะใช้ตัวแปรทั้งสามสำหรับแอปพลิเคชันการถดถอยทั่วไป

วิธีหนึ่งในการตรวจสอบความหลากสีคือการตรวจสอบการสลายตัวของ Choleski ของเมทริกซ์สหสัมพันธ์ - หากมีความสัมพันธ์หลายทางจะมีองค์ประกอบในแนวทแยงบางส่วนที่ใกล้เคียงกับศูนย์ นี่คือเมทริกซ์สหสัมพันธ์ของคุณ:

> chol(co)
     [,1]       [,2]       [,3]
[1,]    1 -0.4103548 0.05237998
[2,]    0  0.9119259 0.04308384
[3,]    0  0.0000000 0.99769741

(เส้นทแยงมุมควรเป็นค่าบวกเสมอแม้ว่าการใช้งานบางอย่างสามารถลบเล็กน้อยด้วยผลของข้อผิดพลาดการตัดปลายสะสม)

ตามที่คุณเห็นเส้นทแยงมุมเล็กที่สุดคือ 0.91 ซึ่งยังคงอยู่ไกลจากศูนย์

ในทางตรงกันข้ามนี่คือข้อมูล collinear เกือบทั้งหมด:

> x<-data.frame(x1=rnorm(20),x2=rnorm(20),x3=rnorm(20))
> x$x4<-with(x,x1+x2+x3+rnorm(20,0,1e-4))
> chol(cor(x))
   x1         x2         x3           x4
x1  1 0.03243977 -0.3920567 3.295264e-01
x2  0 0.99947369  0.4056161 7.617940e-01
x3  0 0.00000000  0.8256919 5.577474e-01
x4  0 0.00000000  0.0000000 7.590116e-05   <------- close to 0.

— Glen_b -Reinstate Monica
แหล่งที่มา

ขอบคุณฉันคิดว่าฉันสับสนระหว่าง "สหสัมพันธ์" และ "collinear"

— Mike Flynn

@kingledion โปรดอย่าใช้ความคิดเห็นเพื่อพยายามให้บุคคลตอบคำถามของคุณ

— Glen_b -Reinstate Monica

6

คิดว่าแผนผังตัดเพชรนี้อาจเพิ่มความเข้าใจในคำถาม ไม่สามารถเพิ่มภาพไปที่ความคิดเห็นเพื่อให้มันเป็นคำตอบ ....

ป้อนคำอธิบายรูปภาพที่นี่

PS @ ความคิดเห็นของ PeterEllis: ความจริงที่ว่า "เพชรที่ยาวกว่าด้านบนนั้นสั้นกว่าจากบนลงล่าง" อาจเข้าท่าเช่นนี้: สมมติว่าเพชรที่เจียระไนทั้งหมดเป็นรูปสี่เหลี่ยมผืนผ้าประมาณ (พูด) ตอนนี้คัตเตอร์จะต้องเลือกการตัดของเขาด้วยสี่เหลี่ยมผืนผ้าที่ล้อมรอบนี้ ที่แนะนำการแลกเปลี่ยน หากทั้งความกว้างและความยาวเพิ่มขึ้นคุณกำลังมองหาเพชรที่มีขนาดใหญ่ขึ้น เป็นไปได้ แต่หายากและมีราคาแพงกว่า ทำให้รู้สึก?

— curious_cat
แหล่งที่มา

2

ควรหลีกเลี่ยงการใช้อัตราส่วนในการถดถอยเชิงเส้น โดยพื้นฐานแล้วสิ่งที่คุณกำลังพูดคือถ้าการถดถอยเชิงเส้นเกิดขึ้นกับตัวแปรสองตัวนั้นพวกเขาจะมีความสัมพันธ์เชิงเส้นโดยไม่มีการสกัดกั้น เห็นได้ชัดว่าไม่ใช่ในกรณีนี้ ดู: http://cscu.cornell.edu/news/statnews/stnews03.pdf

นอกจากนี้พวกเขากำลังวัดตัวแปรแฝง - ขนาด (ปริมาตรหรือพื้นที่) ของเพชร คุณได้พิจารณาการแปลงข้อมูลของคุณไปยังการวัดพื้นผิว / ปริมาตรแทนที่จะรวมตัวแปรทั้งสองหรือไม่

คุณควรโพสต์เนื้อเรื่องที่เหลือของความลึกและข้อมูลตาราง ความสัมพันธ์ระหว่างคุณทั้งสองอาจไม่ถูกต้อง

— TLJ
แหล่งที่มา

1

จากความสัมพันธ์มันเป็นเรื่องยากที่จะสรุปว่าตารางและความกว้างมีความสัมพันธ์จริง ๆ ค่าสัมประสิทธิ์ใกล้กับ + 1 / -1 จะบอกว่าพวกเขาเป็น collinear นอกจากนี้ยังขึ้นอยู่กับขนาดของกลุ่มตัวอย่าง .. หากคุณมีข้อมูลเพิ่มเติมใช้เพื่อยืนยัน

ขั้นตอนมาตรฐานในการจัดการกับตัวแปร collinear คือการกำจัดหนึ่งในนั้น ... เพราะรู้ว่าใครจะเป็นตัวกำหนดอื่น ๆ

— Subspacian
แหล่งที่มา

1

ฉันไม่แน่ใจว่าฉันเห็นด้วยกับสิ่งนี้ ความสัมพันธ์คือ r = -. 41 ซึ่งเป็นขนาดที่สมเหตุสมผลสำหรับความสัมพันธ์ฉันคิดว่า เมื่อพิจารณาถึงแนวโน้มของ N (อิงจากพล็อตที่พล็อต) ฉันคาดหวังว่า r จะสูงอย่างมีนัยสำคัญ ไม่ว่า Table & Depth จะมีความสัมพันธ์มากพอที่จะเรียกว่า "collinear" จะเป็นเรื่องของการกำหนดหรือไม่ (แม้ว่าฉันจะไม่เรียกมันว่า collinearity ที่มีปัญหาก็ตาม) สุดท้ายผมจะระวังเพียงแค่การกำจัดตัวแปรหนึ่งเว้นแต่ R เป็นมากใกล้กับ | 1 | (เช่น ~ .99) - ฉันไม่สามารถบอกได้ว่านั่นคือสิ่งที่คุณหมายถึง

— gung - Reinstate Monica

1

อะไรที่ทำให้คุณคิดว่าโต๊ะและความลึกเป็นสาเหตุทำให้เกิด collinearity ในแบบจำลองของคุณ จากเมทริกซ์สหสัมพันธ์เพียงอย่างเดียวมันยากที่จะบอกว่าตัวแปรสองตัวนี้จะทำให้เกิดปัญหาความไม่ลงรอยกัน ข้อทดสอบ F ร่วมบอกอะไรคุณเกี่ยวกับการมีส่วนร่วมของตัวแปรทั้งสองในแบบจำลองของคุณ ดังที่อยากทราบว่าแมวพูดถึงเพียร์สันอาจไม่ได้เป็นตัวชี้วัดความสัมพันธ์ที่ดีที่สุดเมื่อความสัมพันธ์ไม่ได้เป็นแบบเชิงเส้น VIF และความอดทนอาจช่วยให้คุณทราบถึงระดับความเป็นมืออาชีพของคุณ

ฉันคิดว่าวิธีการใช้อัตราส่วนของคุณเหมาะสม (แม้ว่าจะไม่ใช่วิธีแก้ปัญหา collinearity) เมื่อฉันเห็นรูปฉันทันทีคิดว่ามาตรการทั่วไปในการวิจัยสุขภาพซึ่งอัตราส่วนเอวต่อสะโพก แม้ว่าในกรณีนี้จะคล้ายกับ BMI มากกว่า (น้ำหนัก / ส่วนสูง ^ 2) หากอัตราส่วนสามารถตีความได้ง่ายและเข้าใจได้ง่ายในผู้ชมของคุณฉันไม่เห็นเหตุผลที่จะไม่ใช้ อย่างไรก็ตามคุณสามารถใช้ตัวแปรทั้งสองในโมเดลของคุณได้เว้นแต่จะมีหลักฐานที่ชัดเจนเกี่ยวกับความเป็นคู่

— โทมัส Speidel
แหล่งที่มา