อะไรคือ Plotable Variable Plot (Partial Regression Plot) ที่อธิบายในการถดถอยหลายครั้ง?


17

ฉันมีชุดข้อมูลภาพยนตร์และฉันใช้การถดถอย:

model <- lm(imdbVotes ~ imdbRating + tomatoRating + tomatoUserReviews+ I(genre1 ** 3.0) +I(genre2 ** 2.0)+I(genre3 ** 1.0), data = movies)
library(ggplot2)
res <- qplot(fitted(model), resid(model))
res+geom_hline(yintercept=0)

ซึ่งให้ผลลัพธ์:

ป้อนคำอธิบายรูปภาพที่นี่

ตอนนี้ฉันลองทำงานบางอย่างที่เรียกว่า "เพิ่ม Variable Plot" ครั้งแรกและฉันได้ผลลัพธ์ต่อไปนี้:

car::avPlots(model, id.n=2, id.cex=0.7)

เพิ่มพล็อตตัวแปร

ปัญหาคือฉันพยายามที่จะทำความเข้าใจกับตัวแปรที่เพิ่มเข้ามาโดยใช้ google แต่ฉันไม่สามารถเข้าใจความลึกของมันได้เพราะเห็นพล็อตที่ฉันเข้าใจว่ามันเป็นตัวแทนของการบิดเบือนที่ขึ้นอยู่กับตัวแปรอินพุตแต่ละตัวที่เกี่ยวข้องกับผลลัพธ์

ฉันสามารถรับรายละเอียดเพิ่มเติมได้เล็กน้อยเช่นวิธีปรับข้อมูลให้เป็นมาตรฐาน


4
@Silverfish ได้ให้คำตอบที่ดีสำหรับคำถามของคุณ ในรายละเอียดเล็ก ๆ น้อย ๆ ของสิ่งที่ต้องทำกับชุดข้อมูลเฉพาะของคุณโมเดลเชิงเส้นดูเหมือนจะเป็นความคิดที่แย่มาก เห็นได้ชัดว่าการลงคะแนนเป็นตัวแปรที่ไม่ใช่เชิงลบที่มีความเบ้สูงดังนั้นสิ่งที่คล้ายกับแบบจำลองของปัวซองจะถูกระบุ โปรดดูตัวอย่างเช่นblog.stata.com/tag/poisson-regressionโปรดทราบว่าแบบจำลองดังกล่าวไม่ได้ผูกมัดคุณให้สันนิษฐานว่าการกระจายของการตอบสนองนั้นเท่ากับ Poisson แน่นอนกว่าแบบจำลองเชิงเส้นมาตรฐาน
Nick Cox

2
วิธีหนึ่งในการเห็นว่าโมเดลเชิงเส้นทำงานได้ไม่ดีคือให้สังเกตว่ามันทำนายค่าลบสำหรับเศษส่วนจำนวนมาก ดูบริเวณด้านซ้ายของ fitted บนพล็อตแรกที่เหลือ =0
Nick Cox

ขอบคุณ Nick Cox ที่นี่ฉันพบว่ามีลักษณะที่ไม่ใช่เชิงลบเอียงมากฉันต้องพิจารณาโมเดลปัวซองดังนั้นจึงมีลิงก์ใด ๆ ที่ทำให้ฉันมีความคิดที่ถูกต้องเกี่ยวกับรูปแบบที่จะใช้ในสถานการณ์ตามชุดข้อมูลและฉันพยายามใช้ การถดถอยพหุนามสำหรับชุดข้อมูลของฉันที่จะเป็นทางเลือกที่นี่ ...
Abhishek Choudhary

1
ฉันได้รับลิงก์แล้วซึ่งจะให้การอ้างอิงเพิ่มเติม ขออภัยฉันไม่เข้าใจคำถามครึ่งหลังของคุณโดยอ้างอิงถึง "สถานการณ์ตามชุดข้อมูล" และ "การถดถอยพหุนาม" ฉันสงสัยว่าคุณต้องถามคำถามใหม่ด้วยรายละเอียดที่มากขึ้น
Nick Cox

คุณไม่แพคเกจติดตั้งอะไรเพื่อให้ R ตระหนักถึงฟังก์ชั่นavPlots?
Isa

คำตอบ:


36

เพื่อประกอบการอธิบายฉันจะใช้รูปแบบการถดถอยที่ซับซ้อนน้อยกว่าY=β1+β2X2+β3X3+ϵที่ตัวแปรX2และX3อาจจะมีความสัมพันธ์ สมมติว่าเนินเขาβ2และβ3มีทั้งทางบวกเพื่อให้เราสามารถพูดได้ว่า (i) Yเพิ่มขึ้นเป็นX2เพิ่มขึ้นถ้าX3เป็นค่าคงที่จัดขึ้นตั้งแต่β2เป็นบวก; (ii) Yเพิ่มขึ้นเมื่อX3เพิ่มขึ้นหากX2นั้นคงที่เนื่องจากβ3เป็นค่าบวก

โปรดทราบว่าการตีความสัมประสิทธิ์การถดถอยหลายตัวเป็นสิ่งสำคัญโดยการพิจารณาว่าเกิดอะไรขึ้นเมื่อตัวแปรอื่น ๆ มีค่าคงที่ ("ceteris paribus") สมมติว่าผมแค่ถดถอยYกับX2กับรูปแบบY=β1+β2X2+ϵ ' การประมาณค่าสัมประสิทธิ์ความชันของฉันβ2ซึ่งวัดผลกระทบต่อYของการเพิ่มขึ้นหนึ่งหน่วยในX2 โดยไม่ต้องถือX3คงอาจจะแตกต่างจากการประมาณการของฉันβ2จากการถดถอยพหุคูณ - ที่ยังมีขนาดผลกระทบต่อYจากการเพิ่มขึ้นหนึ่งหน่วยในX2แต่ก็ไม่ถือX3อย่างต่อเนื่อง ปัญหาเกี่ยวกับการประมาณการของฉันβ2^คือว่ามันมีความลำเอียงจากตัวแปรที่ละเว้นหากX2และX3มีความสัมพันธ์กัน

เพื่อให้เข้าใจว่าเหตุใดจึงจินตนาการว่าX2และX3มีความสัมพันธ์เชิงลบ ตอนนี้เมื่อฉันเพิ่มX2โดยหน่วยหนึ่งฉันรู้ว่าค่าเฉลี่ยของYควรจะเพิ่มขึ้นตั้งแต่β2>0 0 แต่เป็นX2เพิ่มขึ้นถ้าเราไม่ถือX3คงที่แล้วX3มีแนวโน้มที่จะลดลงและตั้งแต่β3>0นี้จะมีแนวโน้มที่จะลดค่าเฉลี่ยของYYดังนั้นผลกระทบโดยรวมของการเพิ่มขึ้นหนึ่งหน่วยในX2จะลดลงถ้าฉันยอมให้X3จะแตกต่างกันยังจึงβ2<β2 2 สิ่งต่าง ๆ ยิ่งแย่ลงยิ่งรุนแรงยิ่งขึ้นX2และX3มีความสัมพันธ์กันและยิ่งเอฟเฟกต์ของX3ถึงβ3มากขึ้นในกรณีที่รุนแรงมากเราอาจพบβ2<0แม้ว่าเราจะรู้แล้วก็ตาม Ceteris paribus,X2มีอิทธิพลเชิงบวกต่อY !

หวังว่าตอนนี้คุณสามารถเห็นได้ว่าทำไมการวาดกราฟของYต่อX2จะเป็นวิธีที่ไม่ดีในการมองเห็นความสัมพันธ์ระหว่างYและX2ในแบบจำลองของคุณ ในตัวอย่างของฉันดวงตาของคุณจะถูกวาดให้อยู่ในแนวที่เหมาะสมที่สุดกับความชันβ2^ที่ไม่สะท้อนβ2^จากแบบจำลองการถดถอยของคุณ ในกรณีที่เลวร้ายที่สุดแบบจำลองของคุณอาจคาดการณ์ว่าYเพิ่มขึ้นเมื่อX2เพิ่มขึ้น (โดยมีตัวแปรอื่น ๆ คงที่) และยังมีจุดบนกราฟที่แนะนำว่าYลดลงเมื่อX2เพิ่มขึ้น

ปัญหาคือในกราฟอย่างง่ายของYเทียบกับX2ตัวแปรอื่น ๆ จะไม่คงที่ นี่เป็นข้อมูลเชิงลึกที่สำคัญเกี่ยวกับประโยชน์ของพล็อตตัวแปรที่เพิ่มเข้ามา (หรือที่เรียกว่าพล็อตการถดถอยบางส่วน) - มันใช้ทฤษฎีบท Frisch-Waugh-Lovell เพื่อ "แยกบางส่วน" ออกผลของการทำนายอื่น ๆ แกนแนวนอนและแนวตั้งบนพล็อตอาจจะเข้าใจได้ง่ายที่สุด * ในขณะที่ " X2หลังจากตัวทำนายอื่น ๆ ได้รับการพิจารณา" และ " Yหลังจากตัวทำนายอื่น ๆ ได้รับการพิจารณา" ตอนนี้คุณสามารถดูความสัมพันธ์ระหว่างY และX2 เมื่อมีการใช้ตัวทำนายอื่นทั้งหมด. ตัวอย่างเช่นความชันที่คุณเห็นในแต่ละตอนนี้สะท้อนถึงสัมประสิทธิ์การถดถอยบางส่วนจากแบบจำลองการถดถอยหลายแบบดั้งเดิมของคุณ

จำนวนมากของพล็อตตัวแปรที่เพิ่มเข้ามาจะอยู่ในขั้นตอนการวินิจฉัยการถดถอยโดยเฉพาะอย่างยิ่งเนื่องจากค่าคงที่ในพล็อตตัวแปรที่เพิ่มนั้นเป็นค่าที่เหลือจากการถดถอยพหุคูณดั้งเดิมอย่างแม่นยำ ซึ่งหมายความว่าค่าผิดปกติและ heteroskedasticity สามารถระบุได้ในลักษณะที่คล้ายกันเมื่อดูที่พล็อตของแบบง่ายมากกว่าแบบจำลองการถดถอยหลายแบบ นอกจากนี้ยังสามารถเห็นคะแนนที่มีอิทธิพลซึ่งเป็นประโยชน์ในการถดถอยหลายครั้งเนื่องจากจุดที่มีอิทธิพลบางอย่างไม่ชัดเจนในข้อมูลดั้งเดิมก่อนที่คุณจะพิจารณาตัวแปรอื่น ๆ ในตัวอย่างของฉันค่าX2มีขนาดใหญ่พอสมควรอาจไม่ได้ดูนอกสถานที่ในตารางของข้อมูล แต่ถ้าค่าX3นั้นมีขนาดใหญ่เช่นกันแม้จะมีX2และX3มีความสัมพันธ์เชิงลบจากนั้นการรวมกันจะหายาก "การบัญชีสำหรับผู้ทำนายอื่น ๆ "ค่าX2นั้นใหญ่ผิดปกติและจะโดดเด่นกว่าในพล็อตตัวแปรที่เพิ่มเข้ามา

ทางเทคนิคแล้วพวกมันจะเหลือจากการวิ่งอีกสองถดถอย: ส่วนที่เหลือจากการถดถอยYกับตัวทำนายอื่นที่ไม่ใช่X2จะอยู่ในแกนตั้งในขณะที่ส่วนที่เหลือจากการถดถอยX2กับตัวทำนายอื่น ๆ นี่คือสิ่งที่ตำนานของ "Yมอบให้ผู้อื่น" และ "X2มอบให้ผู้อื่น" กำลังบอกคุณ เนื่องจากค่าเฉลี่ยที่เหลือจากการถดถอยทั้งสองนี้เป็นศูนย์จุดเฉลี่ยของ (X2ให้กับคนอื่นYให้คนอื่น ๆ ) จะเป็น (0, 0) ซึ่งจะอธิบายว่าทำไมเส้นถดถอยในพล็อตตัวแปรที่เพิ่มเข้ามามักจะผ่านจุดกำเนิด แต่บ่อยครั้งที่ฉันพบว่าการพูดถึงแกนเป็นแค่เศษเหลือจากการถดถอยอื่น ๆ ทำให้คนสับสน (อาจจะแปลกใจเพราะตอนนี้เรากำลังพูดถึงการถดถอยสี่แบบที่แตกต่างกัน!) ดังนั้นฉันจึงพยายามไม่อยู่กับเรื่องนี้ เข้าใจพวกเขาในฐานะ " X2มอบให้ผู้อื่น" และ " Yมอบให้ผู้อื่น" และคุณควรจะสบายดี


ไม่แน่ใจว่าจะถามสิ่งนี้อย่างไร แต่มีอะไรที่สามารถพูดได้จริงเกี่ยวกับแนวโน้มที่เห็นในแปลงหรือไม่ ตัวอย่างเช่นความดีของความพอดีของแต่ละเทรนด์เกี่ยวข้องกับความเป็นอิสระของตัวทำนายแต่ละตัวหรืออะไรแบบนั้น
naught101

2
มีวิธีสำหรับการแปลหน่วยของส่วนที่เหลือบนแกนนอนและแนวตั้งเป็นหน่วยของตัวแปรพื้นฐานหรือไม่?
Nicholas G

นี่เป็นคำตอบที่ยอดเยี่ยมมาก แต่มีการพิมพ์ผิดในย่อหน้าแรกของคุณ (ตัวแปรทำนาย)? พวกเขาควรเป็น X2 และ X3 หรือไม่
Detly

@detly ขอบคุณเปลี่ยนแปลง!
Silverfish

Silverfish คุณรู้จักคำตอบของ @NicholasG หรือไม่ มีวิธีใดบ้างที่จะทำให้ส่วนที่เหลือสามารถตีความได้ในแง่ของหน่วยของตัวแปร X?
Parseltongue

-1

มีอะไรที่สามารถพูดได้จริงเกี่ยวกับแนวโน้มที่เห็นในแปลง

แน่นอนว่าความลาดชันของพวกเขาคือสัมประสิทธิ์การถดถอยจากแบบจำลองดั้งเดิม (สัมประสิทธิ์การถดถอยบางส่วนคาดการณ์อื่น ๆ ทั้งหมดคงที่)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.