มันเหมาะสมหรือไม่ที่จะศึกษาแปลงของเศษเหลือที่เกี่ยวกับตัวแปรตาม


11

ฉันอยากจะรู้ว่ามันเหมาะสมหรือไม่ที่จะศึกษาพล็อตเรื่องที่เกี่ยวข้องกับตัวแปรตามเมื่อฉันมีการถดถอยแบบไม่แปร ถ้ามันสมเหตุสมผลแล้วความสัมพันธ์เชิงเส้นแรงการเติบโตที่เพิ่มขึ้นระหว่างส่วนที่เหลือ (บนแกน y) และค่าประมาณของตัวแปรตาม (บนแกน x) คืออะไร?

ป้อนคำอธิบายรูปภาพที่นี่


3
ฉันไม่แน่ใจว่าสิ่งที่คุณหมายถึงโดย "ความสัมพันธ์ที่แข็งแกร่งเชิงเส้นการเจริญเติบโต" คุณแสดงโครงเรื่องได้ไหม มันสมเหตุสมผลอย่างสมบูรณ์แบบในการพล็อตที่เหลือกับค่าติดตั้ง โดยทั่วไปคุณต้องการให้ไม่มีความสัมพันธ์ - เส้นแนวนอนแนวราบวิ่งผ่านกลาง นอกจากนี้คุณต้องการให้การกระจายตัวในแนวตั้งของส่วนที่เหลือคงที่จากด้านซ้ายของพล็อตของคุณไปทางขวา
gung - Reinstate Monica

สวัสดี ขอบคุณสำหรับคำตอบ. นี่คือโครงเรื่อง: img100.imageshack.us/img100/7414/bwages.png
Luigi

นั่นเป็นเรื่องที่น่างงงวย ให้ฉันทำให้แน่ใจว่าฉันเข้าใจ: คุณรันโมเดลการถดถอยแล้ววางแผนส่วนที่เหลือเทียบกับค่าติดตั้งและนั่นคือสิ่งที่คุณได้รับถูกต้องหรือไม่ มันไม่ควรเป็นแบบนั้น คุณสามารถแก้ไขคำถามและวางในรหัสที่คุณใช้สำหรับโมเดลและพล็อตได้หรือไม่
gung - Reinstate Monica

คุณเข้าใจถูกต้อง ฉันขอโทษ แต่ฉันไม่รู้วิธีเรียกคืนรหัสฉันใช้การถดถอยแล้วพล็อตส่วนที่เหลือด้วยโปรแกรม Gretl
Luigi

2
ตอนแรกฉันไม่เห็นความคิดเห็นโดย @ mark999 เมื่อฉันเขียนคำตอบของฉันด้านล่าง ฉันคิดว่าความสงสัยของเขานั้นถูกต้องนี่คือส่วนที่เหลือกับค่า y Luigi ทำกราฟของคุณใหม่ - อย่าพยายามตีความเมื่อคุณอาจผิดเกี่ยวกับตัวแปร
Michael Bishop

คำตอบ:


12

สมมติว่าคุณมีการถดถอยที่0 จากนั้น\ ยิ่งค่าสูงเท่าใดก็จะยิ่งตกค้างมากขึ้นเท่านั้น ในทางกลับกันพล็อตของส่วนที่เหลือต่อไม่ควรแสดงความสัมพันธ์อย่างเป็นระบบ นอกจากนี้ค่าที่คาดการณ์ควรจะประมาณ --- เหมือนกันสำหรับทุกการสังเกต หากค่าที่คาดการณ์ทั้งหมดมีค่าเท่ากันค่าเหล่านั้นควรไม่สัมพันธ์กับข้อผิดพลาดβ 10 Y ฉัน - β 0ε ฉัน Y x Yฉันβ 0yi=β0+β1xi+ϵiβ10yiβ0ϵiyxy^iβ^0

สิ่งที่พล็อตกำลังบอกฉันว่าและไม่เกี่ยวข้องกันเป็นหลัก (แน่นอนมีวิธีที่ดีกว่าในการแสดงสิ่งนี้) แจ้งให้เราทราบหากค่าสัมประสิทธิ์ของคุณไม่ใกล้กับ 0Y β 1xyβ^1

ในการวินิจฉัยที่ดีขึ้นให้ใช้พล็อตของส่วนที่เหลือเทียบกับค่าจ้างที่คาดการณ์ไว้หรือเทียบกับค่าคุณไม่ควรสังเกตรูปแบบที่แตกต่างในแปลงเหล่านี้x

หากคุณต้องการการสาธิต R เพียงเล็กน้อยคุณไปที่นี่:

y      <- rnorm(100, 0, 5)
x      <- rnorm(100, 0, 2)
res    <- lm(y ~ x)$residuals
fitted <- lm(y ~ x)$fitted.values
plot(y, res)
plot(x, res)
plot(fitted, res)

สิ่งนี้ไม่ได้หมายความว่าเพราะอาจเป็นไปได้ว่าแบบจำลองต้องการตัวแปรอธิบายเพิ่มเติมเช่นคำพหุนาม β1=0
Biostat

5

สมมติว่าแบบจำลองโดยประมาณถูกระบุอย่างถูกต้อง ...

แสดงว่า Let 'sเมทริกซ์เป็นเมทริกซ์ฉายดังนั้นและP_X'=PX=X(XX)1XPXPX2=PXPX=PX

Cov(Y^,e^)=Cov(PXY,(IPX)Y)=PXCov(Y,Y)(IPX)=σ2PX(IPX)=0 .

ดังนั้นพล็อตเรื่องการกระจายของสารตกค้างกับตัวแปรตามที่คาดการณ์ไว้ไม่ควรมีความสัมพันธ์กัน

แต่!

Cov(Y,e^)=Cov(Y,(IPX)Y)=Cov(Y,Y)(IPX)=σ2(IPX)(I-P_X)

matrixเป็นเมทริกซ์การฉาย, ค่าลักษณะเฉพาะของมันคือ 0 หรือ +1, มันคือ semidefinite เชิงบวก ดังนั้นมันควรมีค่าที่ไม่เป็นลบในแนวทแยง ดังนั้นพล็อตเรื่องการกระจัดกระจายกับตัวแปรตามเดิมควรมีความสัมพันธ์เชิงบวกσ2(IPX)

เท่าที่ฉันรู้ Gretl สร้างตามค่าเริ่มต้นกราฟของเศษเหลือเทียบกับตัวแปรตามเดิม (ไม่ใช่ค่าที่คาดการณ์!)


ฉันขอขอบคุณความเป็นไปได้ที่แตกต่างกัน นี่คือสิ่งที่ความรู้เกี่ยวกับเกรตมีประโยชน์ อย่างไรก็ตามฉันสงสัยว่าเป็นไปได้อย่างไรที่นี่เป็นคำตอบที่แท้จริง ใช้ข้อมูลจำลองของฉันฉันมีความสัมพันธ์และพล็อตที่เหลือเทียบกับ dv ต้นฉบับ r = .22 และพล็อตดูเหมือนล็อตที่ 3 ของฉันไม่ใช่พล็อตคำถาม แน่นอนฉันทำงานข้อมูลเหล่านั้นเพื่อตรวจสอบความน่าเชื่อถือของเรื่องราวของฉัน - พวกเขาอาจไม่เหมาะสมในการตรวจสอบของคุณ
gung - Reinstate Monica

@gung คุณหมายถึงอะไรที่คุณใช้ข้อมูลจำลองของคุณ
Michael Bishop

@MichaelBishop ถ้าคุณดูคำตอบของฉันคุณจะเห็นว่าฉันจำลองข้อมูลเพื่อลองเรื่องราวของฉันเพื่อดูว่ามันจะดูเหมือนกับเนื้อเรื่องที่โพสต์หรือไม่ มีการแสดงรหัสและพล็อตของฉัน เนื่องจากฉันได้ระบุเมล็ดพันธุ์มันก็สามารถทำซ้ำได้โดยทุกคนที่สามารถเข้าถึง R.
gung - Reinstate Monica

4

เป็นไปได้หรือไม่ว่าคุณกำลังสับสนค่าติดตั้ง / คาดการณ์กับค่าจริง?

ดังที่ @ gung และ @biostat ได้กล่าวไว้คุณหวังว่าจะไม่มีความสัมพันธ์ระหว่างค่าติดตั้งและส่วนที่เหลือ ในทางกลับกันการค้นหาความสัมพันธ์เชิงเส้นตรงระหว่างค่าจริงของตัวแปรตาม / ผลลัพธ์และส่วนที่เหลือจะถูกคาดหวังและไม่ได้ให้ข้อมูลโดยเฉพาะ

เพิ่มเพื่ออธิบายประโยคก่อนหน้า: ไม่เพียง แต่คาดว่าจะมีความสัมพันธ์เชิงเส้นระหว่างค่าส่วนที่เหลือกับค่าจริงของการส่งออก ... สำหรับค่าที่วัดได้ต่ำของ Y ค่าคาดการณ์ของ Y จากแบบจำลองที่มีประโยชน์จะมีแนวโน้มสูงกว่า ค่าที่วัดได้จริงและในทางกลับกัน


ความหมายของสิ่งที่คุณกำลังพูดคือถ้าค่าถูกคาดการณ์อย่างต่อเนื่องที่ค่าต่ำของ Y และการคาดการณ์เกินค่าคงที่ที่ค่าสูงของ Y ก็คงไม่เป็นไร นั่นเป็นปัญหาใช่มั้ย
rolando2

@ rolando2 ฉันไม่ได้บอกเป็นนัยถึงสิ่งที่คุณพูดว่าฉันบอกเป็นนัยแม้ว่าบางทีฉันควรจะชี้แจงคำตอบของฉัน อย่างที่คุณพูดการคาดการณ์อย่างต่อเนื่องที่หุบเขาที่ต่ำของ Y และการคาดการณ์ที่ค่า Y สูงเกินไปจะเป็นสัญญาณของโมเดลที่แย่มาก ฉันจินตนาการในทางตรงกันข้ามการคาดคะเนที่ค่าต่ำสุดของ Y และการคาดการณ์ที่ค่าสูงของ Y ปรากฏการณ์นี้เป็นเรื่องปกติและคาดว่าจะแปรผันตามสัดส่วนของความแปรปรวนในตัวแปรตามที่คุณสามารถอธิบายได้ ลองนึกภาพคุณขาดตัวแปรใด ๆ ที่ทำนายว่า Y ดังนั้นคุณมักจะใช้ค่าเฉลี่ยเป็นคำทำนายของคุณเสมอ
Michael Bishop

1
สิ่งที่คุณพูดมีเหตุผลสำหรับฉันยกเว้นสิ่งหนึ่ง ฉันกำลังมีปัญหาในการจินตนาการว่าแนวโน้มที่แข็งแกร่งเช่นเดียวกับที่ลุยกิรุสโซเคยแสดงนั้นจะปรากฏในเสียงหรือวิธีการแก้ปัญหาที่ต้องการแม้ว่าเทรนด์จะเริ่มจากซ้ายไปขวาล่าง
rolando2

1
@ rolando2, สารตกค้างถูกกำหนดโดยทั่วไปตามข้อสังเกต - ติดตั้งแล้ว, ดังนั้นค่าลบที่เหลือจึงเป็นการคาดการณ์ ในรูปแบบที่ระบุไว้อย่างเหมาะสมมีอำนาจอธิบายน้อย - ฉันเป็นนักสังคมศาสตร์ดังนั้นฉันจึงเห็นสิ่งเหล่านี้ตลอดเวลา - จะมีความสัมพันธ์เชิงบวกที่แข็งแกร่งระหว่างส่วนที่เหลือกับค่าผลลัพธ์ที่สังเกตได้ หากนี่คือส่วนที่เหลือเทียบกับพล็อตที่เกิดขึ้นจริงดังนั้นแนวโน้มจากซ้ายบนถึงล่างขวาจะเป็นสัญญาณของโมเดลที่ระบุผิดที่ไม่ดีซึ่งคุณกังวลในตอนแรก
Michael Bishop

ตกลงความผิดของฉัน ในขณะที่ไมเคิลบิชอปและโรอาห์เขียน Gretl วางแผนส่วนที่เหลือด้วยความเคารพy สังเกตไม่ใช่คนทำนาย ฉันขอโทษสำหรับความยุ่งเหยิงทั้งหมดนี้ฉันไม่ได้คาดหวังคำตอบทั้งหมดเหล่านี้ ฉันเป็นผู้เริ่มต้นและฉันทำผิดพลาดนี้ดังนั้นฉันหวังว่าคุณจะ "ให้อภัย" ฉันได้ อย่างไรก็ตามฉันคิดว่าสิ่งนี้ควรบ่งบอกว่าฉันควรใช้ตัวแปรอธิบายเพิ่มเติม ขอบคุณทุกคน!
Luigi

3

คำตอบที่เสนอให้ความคิดกับฉันเกี่ยวกับสิ่งที่เกิดขึ้นที่นี่ ฉันเชื่อว่าอาจมีข้อผิดพลาดเกิดขึ้นจากอุบัติเหตุ ดูว่าเรื่องต่อไปนี้สมเหตุสมผล: ในการเริ่มต้นฉันคิดว่าอาจมีความสัมพันธ์ที่ดีระหว่าง X & Y ในข้อมูล (นี่คือรหัสและพล็อต)

set.seed(5)
wage <- rlnorm(1000, meanlog=2.3, sdlog=.5)
something_else <- .7*wage + rnorm(1000, mean=0, sd=1)
plot(wage, something_else, pch=3, col="red", main="Plot X vs. Y")

ป้อนคำอธิบายรูปภาพที่นี่

แต่โดยความผิดพลาด Y ถูกทำนายจากค่าเฉลี่ย เมื่อรวมสิ่งนี้สิ่งที่เหลืออยู่จากแบบจำลองค่าเฉลี่ยเพียงอย่างเดียวจะถูกพล็อตกับ X แม้ว่าสิ่งที่ตั้งใจไว้คือการพล็อตกับค่าที่พอดี (โค้ดและพล็อต):

meanModel <- lm(something_else~1)
windows()
plot(wage, meanModel$residuals, pch=3, col="red", 
    main="Plot of residuals from Mean only Model against X")
abline(h=0, lty="dotted")

ป้อนคำอธิบายรูปภาพที่นี่

เราสามารถแก้ไขปัญหานี้ได้ด้วยการปรับโมเดลที่เหมาะสมและทำการพล็อตส่วนที่เหลือจากนั้น (รหัส & พล็อต):

appropriateModel <- lm(something_else~wage)
windows()
plot(appropriateModel$fitted.values, appropriateModel$residuals, pch=3, col="red",
main="Plot of residuals from the appropriate\nmodel against fitted values")
lines(lowess(appropriateModel$residuals~appropriateModel$fitted.values))

ป้อนคำอธิบายรูปภาพที่นี่

ดูเหมือนว่าจะเป็นคนโง่ ๆ ที่ฉันทำเมื่อฉันเริ่ม


0

กราฟนี้แสดงว่าโมเดลที่คุณติดตั้งไม่ดี @gung กล่าวในความคิดเห็นแรกเกี่ยวกับคำถามหลักว่าไม่ควรมีความสัมพันธ์ระหว่างการตอบกลับโดยเฉพาะและที่เหลือ

"นักวิเคราะห์ควรคาดหวังว่ารูปแบบการถดถอยจะผิดพลาดในการทำนายการตอบสนองในรูปแบบสุ่ม; โมเดลควรทำนายค่าที่สูงกว่าจริงและต่ำกว่าจริงด้วยความน่าจะเป็นที่เท่าเทียมกันดูสิ่งนี้ "

ฉันจะแนะนำการตอบสนองของพล็อตแรกกับตัวแปรอิสระเพื่อดูความสัมพันธ์ระหว่างพวกเขา อาจมีเหตุผลที่จะเพิ่มคำพหุนามในโมเดล


0

นี่ไม่ใช่สิ่งที่จะเกิดขึ้นหากไม่มีความสัมพันธ์ระหว่างตัวแปร X & Y? จากการดูกราฟนี้ดูเหมือนว่าคุณกำลังทำนายค่า Y ด้วยค่าเฉลี่ย


0

ฉันคิดว่า OP แปลงส่วนที่เหลือเทียบกับตัวแปรตอบกลับดั้งเดิม ฉันเห็นพล็อตแบบนี้ตลอดเวลาด้วยรูปแบบที่แน่นอนเกือบเหมือนกัน ตรวจสอบให้แน่ใจว่าคุณพล็อตค่าที่เหลือเทียบกับค่าติดตั้งเนื่องจากฉันไม่แน่ใจว่าการอนุมานที่มีความหมายที่คุณสามารถรวบรวมได้จากส่วนที่เหลือกับค่าเดิม Y แต่ฉันอาจผิดอย่างแน่นอน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.