เป็นไปได้อย่างไรที่จะได้แบบจำลองการถดถอยเชิงเส้นที่ดีเมื่อไม่มีความสัมพันธ์อย่างมากระหว่างผลลัพธ์กับตัวทำนาย


17

ฉันได้ฝึกแบบจำลองการถดถอยเชิงเส้นโดยใช้ชุดของตัวแปร / คุณสมบัติ และตัวแบบมีประสิทธิภาพที่ดี อย่างไรก็ตามฉันได้ตระหนักว่าไม่มีตัวแปรใดที่มีความสัมพันธ์ที่ดีกับตัวแปรที่ทำนายไว้ มันเป็นไปได้ยังไงกัน?


3
เหล่านี้เป็นคำตอบที่ดี แต่คำถามนั้นไม่มีรายละเอียดมากมายที่คำตอบพยายามอย่างเต็มที่คำถามที่สำคัญที่สุดในใจของฉันคือสิ่งที่คุณหมายถึงโดย "สหสัมพันธ์ที่ดี"
DHW

คำตอบ:


35

คู่ของตัวแปรอาจแสดงความสัมพันธ์บางส่วนที่สูง (การบัญชีความสัมพันธ์สำหรับผลกระทบของตัวแปรอื่น ๆ ) แต่ความสัมพันธ์ต่ำ - หรือแม้กระทั่งศูนย์ - ขอบ (ความสัมพันธ์แบบคู่)

ซึ่งหมายความว่าค่าสหสัมพันธ์ระหว่างการตอบสนอง y และตัวทำนายบางค่า x อาจมีค่าเล็กน้อยในการระบุตัวแปรที่เหมาะสมด้วยค่า "เชิงเส้น" เชิงทำนายในกลุ่มชุดของตัวแปรอื่น ๆ

พิจารณาข้อมูลต่อไปนี้:

   y  x
1  6  6
2 12 12
3 18 18
4 24 24
5  1 42
6  7 48
7 13 54
8 19 60

ความสัมพันธ์ระหว่าง Y และ x เป็น0ถ้าผมวาดเส้นสี่เหลี่ยมอย่างน้อยก็ในแนวนอนได้อย่างสมบูรณ์แบบและเป็นธรรมชาติจะเป็น00R20

แต่เมื่อคุณเพิ่มตัวแปรใหม่ g ซึ่งบ่งชี้ว่าการสังเกตมาจากสองกลุ่มใด x กลายเป็นข้อมูลที่มีประโยชน์อย่างยิ่ง:

   y  x g
1  6  6 0
2 12 12 0
3 18 18 0
4 24 24 0
5  1 42 1
6  7 48 1
7 13 54 1
8 19 60 1

ของรูปแบบการถดถอยเชิงเส้นกับทั้ง x และ g ตัวแปรในนั้นจะเป็น 1R2

พล็อตของ y vs x แสดงการขาดความสัมพันธ์เชิงเส้นแบบคู่ แต่ด้วยสีแสดงถึงกลุ่ม  ภายในแต่ละกลุ่มความสัมพันธ์นั้นสมบูรณ์แบบ

มีความเป็นไปได้ที่สิ่งเหล่านี้จะเกิดขึ้นกับตัวแปรทุกตัวในแบบจำลองซึ่งทุกคนมีความสัมพันธ์แบบคู่กับการตอบกลับ แต่ตัวแบบที่มีทั้งหมดนั้นดีมากในการทำนายการตอบสนอง

อ่านเพิ่มเติม:

https://en.wikipedia.org/wiki/Omitted-variable_bias

https://en.wikipedia.org/wiki/Simpson%27s_paradox


พฤติกรรมนี้สามารถเกิดขึ้นได้ในโมเดลเชิงเส้นจริงหรือไม่? ที่นี่ความสัมพันธ์ระหว่างสี (g = 0/1) และการตอบสนอง y ดูเหมือนจะไม่ใช่เชิงเส้น แต่สิ่งที่สามารถเกิดขึ้นได้ก็คือรูปแบบโดยไม่ต้องสามารถ (พล?) ต่ำกว่าของรุ่นที่มีกรัมR2gR2g
Vimal

Jeez ฉันควรจะได้มองไปที่รูปแบบใกล้ชิด :) กรัม เกาคำถามนั้น! y=x41g
Vimal

นั่นเป็นแบบจำลองที่ตอบสนองได้ถูกสร้างขึ้นจริง ๆ แต่คุณสามารถเห็นได้ทันทีว่ามันเป็นเส้นตรงโดยเพียงแค่จินตนาการให้ยกจุดสีน้ำเงินออกหนึ่งหน่วยตามอำเภอใจ (ไปทางคุณจากพื้นผิวหน้าจอตามแนวแกน "g" ใหม่) และเห็นระนาบพอดีกับจุดทั้งหก
Glen_b -Reinstate Monica

1
ในการถดถอยตัวแปร X มีเงื่อนไขและอาจถูกควบคุมอยู่บ่อยครั้งดังนั้น "ความเป็นอิสระ" จึงไม่ใช่สิ่งที่เรามอง นอกการทดลองที่ออกแบบมานักทำนายอิสระแทบจะไม่เคยเห็นในทุกกรณีและถ้าคุณออกแบบการทดลองผู้ทำนายไม่ได้เป็นตัวแปรสุ่มดังนั้น "อิสระ" (ในแง่ของสถิติ) ไม่ใช่สิ่งที่คุณมอง เหมือน orthogonality ซึ่งกันและกัน ... ctd
Glen_b -Reinstate Monica

1
ctd ... หากคุณหมายถึงความเป็นอิสระทางสถิติ (ร่วมกัน / p-variate) ของผู้ทำนายทั้งหมดคุณจะไม่ได้ค่าสัมประสิทธิ์สัมประสิทธิ์การถดถอยแบบไม่แปรเปลี่ยนเช่นกัน แต่คุณไม่จำเป็นต้องแยกจากกันอย่างสมบูรณ์เช่นตัวอย่างข้างต้น .
Glen_b -Reinstate Monica

2

ฉันคิดว่าคุณกำลังฝึกโมเดลการถดถอยหลายตัวซึ่งคุณมีตัวแปรอิสระหลายตัว , X 2 , ... , ถดถอยบน Y คำตอบง่ายๆที่นี่คือความสัมพันธ์แบบคู่ที่เหมือนการใช้แบบจำลองการถดถอยแบบไม่เน้นด้านล่าง ด้วยเหตุนี้คุณจึงละเว้นตัวแปรสำคัญX1X2

โดยเฉพาะอย่างยิ่งเมื่อคุณระบุว่า "ไม่มีตัวแปรที่มีความสัมพันธ์ที่ดีกับตัวแปรที่คาดการณ์" ดูเหมือนว่าคุณกำลังตรวจสอบความสัมพันธ์แบบคู่ระหว่างแต่ละตัวแปรอิสระกับตัวแปรตาม, Y. สิ่งนี้เป็นไปได้เมื่อนำสิ่งที่สำคัญ ข้อมูลใหม่และช่วยในการขจัดความสับสนระหว่างX 1และ Y ด้วยความสับสนนั้นแม้ว่าเราอาจไม่เห็นความสัมพันธ์เชิงเส้นคู่ที่ชาญฉลาดระหว่างX 1และ Y คุณอาจต้องการตรวจสอบความสัมพันธ์ระหว่างความสัมพันธ์บางส่วนρ x 1 , y | x 2และการถดถอยหลายจุดy = β 1X2X1X1ρx1,y|x2 ε การถดถอยมีความสัมพันธ์ใกล้ชิดมากขึ้นกับความสัมพันธ์บางส่วนกว่าความสัมพันธ์คู่, ρ x 1 , Yy=β1X1+β2X2+ϵρx1,y


0

ในแง่เวกเตอร์ถ้าคุณมีชุดของเวกเตอร์และเวกเตอร์อีกปีแล้วถ้าYเป็นมุมฉาก (ศูนย์ความสัมพันธ์) เวกเตอร์ในทุกXแล้วมันยังจะตั้งฉากกับการรวมกันเชิงเส้นใด ๆ ของเวกเตอร์จากX อย่างไรก็ตามหากเวกเตอร์ในXมีองค์ประกอบที่ไม่เกี่ยวข้องขนาดใหญ่และส่วนประกอบที่มีความสัมพันธ์ขนาดเล็กและส่วนประกอบที่ไม่เกี่ยวข้องก็คือการพึ่งพาเชิงเส้นดังนั้นyสามารถสัมพันธ์กับการรวมกันเชิงเส้นของXได้ นั่นคือถ้าX = x 1 , x 2 . . และเราจะใช้o iXXXXXX=x1,x2...oi= ส่วนประกอบของ x_i ตั้งฉากกับY , = ส่วนประกอบของขนาน x_i ไปปีแล้วถ้ามีฉันเช่นว่าΣ ฉันo ฉัน = 0แล้ว Σ ฉันx ฉันจะขนานไปกับY (เช่นที่สมบูรณ์แบบ ทำนาย) หาก c i o i = 0มีขนาดเล็กดังนั้นc i x iจะเป็นตัวพยากรณ์ที่ดี สมมุติว่าเรามีX 1และXpicicioi=0cixicioi=0cixiX1 ~ N (0,1) และ E ~ N (0,100) ตอนนี้เราสร้างคอลัมน์ใหม่ X ' 1และ X ' 2 สำหรับแต่ละแถวที่เราใช้ตัวอย่างที่สุ่มจาก Eเพิ่มตัวเลขที่จะ X 1จะได้รับ X ' 1และลบได้จาก X 2ที่จะได้รับ X ' 2 เนื่องจากแต่ละแถวมีตัวอย่างของการเพิ่มและลบ Eเดียวกันคอลัมน์ X 1และ X 2จะเป็นตัวทำนายที่สมบูรณ์แบบของ YX2EX1X2EX1X1X2X2EX1X2Yแม้ว่าแต่ละคนจะมีความสัมพันธ์กับเพียงเล็กน้อยเท่านั้นY

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.