ปัญหานี้มีความรู้สึกเชิงสำรวจ John Tukey อธิบายขั้นตอนต่าง ๆ สำหรับการสำรวจความแตกต่างในแบบคลาสสิกในการวิเคราะห์ข้อมูลเชิงสำรวจ (Addison-Wesley 1977) แบบดั้งเดิมของเขา อาจจะมากที่สุดมีประโยชน์โดยตรงเป็นตัวแปรของ " หลงพล็อตวงจร ." สิ่งนี้จะแบ่งตัวแปรหนึ่งตัว (เช่นค่าที่คาดการณ์) ลงในถังขยะและใช้ข้อมูลสรุป m-letter (การสรุปทั่วไปของ boxplots) เพื่อแสดงตำแหน่งการแพร่กระจายและรูปร่างของตัวแปรอื่น ๆ สำหรับแต่ละถัง สถิติ m-letter ถูกปรับให้เรียบเพื่อเน้นรูปแบบโดยรวมมากกว่าการเบี่ยงเบนโอกาส
รุ่นอย่างรวดเร็วสามารถปรุงขึ้นโดยการใช้ประโยชน์จากขั้นตอนในboxplot
R
เราแสดงให้เห็นถึงข้อมูลที่แตกต่างกันอย่างมากจำลอง:
set.seed(17)
n <- 500
x <- rgamma(n, shape=6, scale=1/2)
e <- rnorm(length(x), sd=abs(sin(x)))
y <- x + e
มารับค่าทำนายและค่าตกค้างจากการถดถอย OLS:
fit <- lm(y ~ x)
res <- residuals(fit)
pred <- predict(fit)
นี่คือโครงร่างพเนจรพเนจรที่ใช้ถังขยะนับเท่า ๆ กันสำหรับค่าที่ทำนายไว้ ฉันใช้lowess
เพื่อความราบรื่นอย่างรวดเร็วและสกปรก
n.bins <- 17
bins <- cut(pred, quantile(pred, probs = seq(0, 1, 1/n.bins)))
b <- boxplot(res ~ bins, boxwex=1/2, main="Residuals vs. Predicted",
xlab="Predicted", ylab="Residual")
colors <- hsv(seq(2/6, 1, 1/6))
temp <- sapply(1:5, function(i) lines(lowess(1:n.bins, b$stats[i,], f=.25),
col=colors[i], lwd=2))
เส้นโค้งสีน้ำเงินทำให้ค่ามัธยฐานเป็นไปอย่างราบรื่น แนวโน้มในแนวนอนของมันบ่งชี้ว่าการถดถอยโดยทั่วไปจะเป็นแบบที่ดี ส่วนโค้งอื่น ๆ ทำให้กล่องเรียบ (ควอไทล์) และรั้ว (ซึ่งโดยทั่วไปจะมีค่ามาก) การบรรจบกันที่แข็งแกร่งของพวกเขาและการแยกที่ตามมาเป็นพยานถึงความแตกต่างที่แข็งแกร่ง - และช่วยเราจำแนกลักษณะและกำหนดปริมาณ
(สังเกตขนาดที่ไม่เป็นเชิงเส้นบนแกนนอนซึ่งสะท้อนการกระจายของค่าที่ทำนายด้วยการทำงานที่เพิ่มขึ้นเล็กน้อยแกนนี้อาจทำให้เป็นเส้นตรงซึ่งบางครั้งก็มีประโยชน์)