พล็อตการตีความของส่วนที่เหลือเทียบกับค่าติดตั้งจากการถดถอยปัวซอง


25

ฉันกำลังพยายามปรับให้พอดีกับข้อมูลด้วย GLM (การถดถอยปัวซอง) ในอาร์เมื่อฉันพล็อตส่วนที่เหลือเทียบกับค่าติดตั้งพล็อตที่สร้างหลาย ๆ (เกือบเป็นเส้นตรง สิ่งนี้หมายความว่า?

library(faraway)
modl <- glm(doctorco ~ sex + age + agesq + income + levyplus + freepoor + 
            freerepa + illness + actdays + hscore + chcond1 + chcond2,
            family=poisson, data=dvisits)
plot(modl)

ป้อนคำอธิบายรูปภาพที่นี่


ฉันไม่ทราบว่าคุณสามารถอัปโหลดพล็อต (บางครั้งผู้มาใหม่ไม่สามารถ) แต่ถ้าไม่คุณสามารถเพิ่มข้อมูล & รหัส R อย่างน้อยในคำถามของคุณเพื่อให้ผู้คนประเมินได้หรือไม่
gung - Reinstate Monica

Jocelyn ฉันได้อัปเดตโพสต์ของคุณด้วยข้อมูลที่คุณใส่ไว้ในความคิดเห็น ฉันยังติดแท็กสิ่งนี้เช่นเดียวกับhomeworkเมื่อคุณพูดคุยเกี่ยวกับการมอบหมาย
chl

ลองพล็อต (jitter (mod1)) เพื่อดูว่ากราฟอ่านง่ายขึ้นหรือไม่ ทำไมคุณไม่ลองกำหนดสิ่งที่เหลืออยู่ให้เราและให้เราเดาอย่างดีที่สุดในการตีความกราฟด้วยตัวคุณเอง
Michael Bishop

1
จากคำถามนี้ฉันจะสมมติว่าคุณเข้าใจการกระจาย Poisson & Pois reg และพล็อตส่วนที่เหลือเทียบกับค่าติดตั้งบอกคุณ (อัปเดตถ้ามันผิด) ดังนั้นคุณแค่สงสัยเกี่ยวกับลักษณะแปลก ๆ ของประเด็น ในพล็อต B / c นี่คือการบ้านเราไม่ได้ตอบเป็นนโยบายทั่วไปของเรา แต่ให้คำแนะนำ ฉันสังเกตเห็นว่าคุณมีโควาเรียต์จำนวนมากฉันสงสัยว่าคุณมีโควาเรียตต่อเนื่อง 1 หรือหลายตัว
gung - Reinstate Monica

1
สองติดตามจากความคิดเห็นของ gung table(dvisits$doctorco)ครั้งแรกลอง เส้นโค้ง 10 เส้นบนพล็อตของคุณตรงกับอะไรในตารางนี้ นอกจากนี้ด้วยการสังเกตมากกว่า 5,000 ครั้งไม่ต้องกังวลมากเกินไปเกี่ยวกับค่าสัมประสิทธิ์การถดถอย 13 ที่เหมาะสม
แขกที่เข้าพัก

คำตอบ:


29

นี่คือลักษณะที่คุณคาดหวังของพล็อตดังกล่าวเมื่อตัวแปรตามไม่ต่อเนื่อง

kYY=kY^k-Y^k-Y^Y^-1เข้าสู่ระบบ(Y^)kY

เราสามารถทำซ้ำพล็อตที่มีปัญหาได้อย่างใกล้ชิดโดยใช้แบบจำลองที่คล้ายกัน แต่โดยพลการ (ใช้สัมประสิทธิ์แบบสุ่มขนาดเล็ก):

# Create random data for a random model.
set.seed(17)
n <- 2^12                       # Number of cases
k <- 12                         # Number of variables
beta = rnorm(k, sd=0.2)         # Model coefficients
x <- matrix(rnorm(n*k), ncol=k) # Independent values
y <- rpois(n, lambda=exp(-0.5 + x %*% beta + 0.1*rnorm(n)))

# Wrap the data into a data frame, create a formula, and run the model.
df <- data.frame(cbind(y,x))    
s.formula <- apply(matrix(1:k, nrow=1), 1, function(i) paste("V", i+1, sep=""))
s.formula <- paste("y ~", paste(s.formula, collapse="+"))
modl <- glm(as.formula(s.formula), family=poisson, data=df)

# Construct a residual vs. prediction plot.
b <- coefficients(modl)
y.hat <- x %*% b[-1] + b[1]     # *Logs* of the predicted values
y.res <- y - exp(y.hat)         # Residuals
colors <- 1:(max(y)+1)          # One color for each possible value of y
plot(y.hat, y.res, col=colors[y+1], main="Residuals v. Fitted")

ส่วนที่เหลือกับการติดตั้ง


6
(+1) สีมีความยาวในการแสดงว่าเกิดอะไรขึ้น
พระคาร์ดินัล

ดังนั้นประเด็นข้างต้นเกี่ยวข้องกับอะไร? ตำรา (การสร้างแบบจำลองทางสถิติสำหรับนักวิจัยด้านชีวการแพทย์: คำแนะนำเบื้องต้นอย่างง่ายสำหรับการวิเคราะห์ข้อมูลที่ซับซ้อน, Dupont, 2002, p. 316, เช่น) ระบุว่าการติดตั้งเทียบกับส่วนที่เหลือควรอยู่กึ่งกลางเกี่ยวกับเส้นศูนย์ที่เหลือ ส่วนที่เหลือ) หรือไม่ (ถ้าเบี่ยงเบนเช่น) ด้วยช่วงของการนับที่ จำกัด ในตัวแปรผลลัพธ์คุณจะได้รับแบนด์เหล่านี้และในพล็อตด้านบนพวกมันไม่ได้อยู่ตรงกลางบรรทัดที่ y = 0 เราจะทราบพล็อตที่เหลือของ OP ได้อย่างไร (หรือพล็อตตัวอย่าง ทำในคำตอบนี้) บ่งชี้ว่ารูปแบบที่เหมาะสมข้อมูลดีหรือไม่
Meg

1
@Meg คำแนะนำนั้นใช้ไม่ได้กับส่วนที่เหลือของ GLM โดยตรง โปรดทราบว่ารูปแบบที่ใช้ในการอธิบายคำตอบนี้ถูกต้องเพราะเป็นรุ่นที่ใช้ในการสร้างข้อมูล
whuber

1/2: ขอบคุณ @whuber ฉันเข้าใจสำหรับคำตอบนี้โมเดลเป็นที่รู้จักว่าถูกต้องเนื่องจากข้อมูลถูกจำลองจากการแจกแจงที่กำหนด แต่ในทางปฏิบัติมันไม่เป็นที่รู้จัก (เช่นเดียวกับในโพสต์ของ OP) นอกจากนี้สิ่งที่ฉันเขียนเกี่ยวกับส่วนที่เหลือจะนำไปใช้กับการถดถอย POI (ไม่ใช่ GLMs ทั้งหมดไม่ใช่ แต่รายการนี้) - ข้อมูลอ้างอิงที่ฉันให้ไว้คือการพูดถึงการถดถอย POI โดยเฉพาะ ฉันเห็นเฉพาะข้อความที่แสดงให้เห็นว่ามีส่วนที่เหลือของจุดที่น่าสนใจที่เป็นมาตรฐาน (Pearson หรือ deviance เช่น) โดยมีศูนย์กลางที่ y = 0 ดังนั้นฉันไม่แน่ใจว่าสิ่งที่ฉันควรจะมองหาเพราะสำหรับรุ่นนี้ (ซึ่งเห็นได้ชัดว่าถูกต้อง) ไม่ใช่อย่างนั้น.
Meg

2/2: คุณมีข้อมูลอ้างอิงที่อ้างอิงถึงสิ่งที่น่าสนใจใน POI มากกว่าโดยบังเอิญหรือไม่?
Meg

8

บางครั้งลายเส้นแบบนี้ในแปลงที่เหลือแสดงถึงจุดที่มีค่าที่สังเกตได้เหมือนกัน (เกือบ) ที่ได้การทำนายที่แตกต่างกัน ดูที่ค่าเป้าหมายของคุณ: มีค่าที่ไม่ซ้ำกันจำนวนเท่าใด หากคำแนะนำของฉันถูกต้องควรมีค่าที่ไม่ซ้ำกัน 9 ค่าในชุดข้อมูลการฝึกอบรมของคุณ


1
0,1,...,9

-3

รูปแบบนี้เป็นลักษณะของการจับคู่ที่ไม่ถูกต้องของตระกูลและ / หรือลิงก์ หากคุณมีข้อมูลมากเกินไปคุณควรพิจารณาการแจกแจงลบทวินาม (นับ) หรือแกมม่า (ต่อเนื่อง) นอกจากนี้คุณควรพล็อตเรื่องที่เหลือของคุณเทียบกับตัวทำนายเชิงเส้นที่ถูกแปลงไม่ใช่ตัวทำนายเมื่อใช้ตัวแบบเชิงเส้นแบบทั่วไป ในการแปลงตัวทำนายปัวซงคุณจะต้องใช้สแควร์รูทของตัวทำนายเชิงเส้น 2 เท่าและพล็อตค่าของคุณที่เหลือ ส่วนที่เหลือมากขึ้นไม่ควรเป็นแบบเพียร์สันตกค้างลองเบี่ยงเบนส่วนที่เหลือและเรซิ่นที่ได้รับการศึกษา


3
ทำไมต้องคูณสองสแควร์รูทเมื่อลิงก์มาตรฐานของตระกูลปัวซองใน glm คือล็อก? มันควรจะเป็น exp () ของตัวทำนายเชิงเส้นหรือไม่? แต่ฉันไม่เห็นว่าปัญหาคืออะไรกับการวางแผนส่วนที่เหลือเทียบกับตัวทำนายเชิงเส้นซึ่งฉันคิดว่าเป็นสิ่งที่กำลังทำอยู่ที่นี่ - บางทีคุณอาจขยายออกไป
ปีเตอร์เอลลิส

คุณจะอธิบายให้ฟังว่า "รูปแบบ" ในแง่มุมใดที่ดึงดูดความสนใจของคุณไปยังโมเดลที่เป็นไปได้ ดูเหมือนจะเป็นเรื่องละเอียดอ่อน แต่อาจเป็นข้อมูลเชิงลึกที่สำคัญ
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.