มาตรการต่าง ๆ ของความต่างระดับ


16

ลิงค์วิกิพีเดียนี้แสดงเทคนิคต่าง ๆ ในการตรวจสอบความหลงไหลของ OLS ที่เหลืออยู่ ฉันต้องการเรียนรู้ว่าเทคนิคการลงมือปฏิบัติแบบใดที่มีประสิทธิภาพมากกว่าในการตรวจจับภูมิภาคที่ได้รับผลกระทบจากความแตกต่างทางเพศ

ตัวอย่างเช่นที่นี่พื้นที่ภาคกลางในพล็อตเรื่อง 'Residuals vs vs Fitted' ของ OLS เห็นว่ามีความแปรปรวนสูงกว่าด้านข้างของพล็อต (ฉันไม่แน่ใจในข้อเท็จจริงทั้งหมด เพื่อยืนยันการดูป้ายข้อผิดพลาดในพล็อต QQ เราจะเห็นว่าพวกเขาตรงกับป้ายข้อผิดพลาดในใจกลางของพล็อตที่เหลือ

แต่เราจะหาปริมาณส่วนที่เหลือที่มีความแปรปรวนสูงกว่าอย่างมีนัยสำคัญได้อย่างไร?

heteroscedasticity


2
ฉันไม่แน่ใจว่าคุณพูดถูกหรือเปล่าว่ามีความแปรปรวนสูงกว่าในช่วงกลาง ความจริงที่ว่าค่าผิดปกติอยู่ในภาคกลางดูเหมือนว่าฉันจะเป็นผลมาจากความจริงที่ว่าข้อมูลส่วนใหญ่อยู่ที่ไหน แน่นอนว่านี่ไม่ใช่คำถามของคุณ
ปีเตอร์เอลลิส

1
qqplot มีจุดประสงค์เพื่อระบุความผิดปกติของการแจกแจงและไม่ใช่ความแปรปรวนแบบไม่เป็นเนื้อเดียวกันโดยตรง
Michael R. Chernick

@PeterEllis ใช่ฉันระบุในคำถามที่ฉันไม่แน่ใจว่าความแตกต่างแตกต่างกัน แต่ฉันมีภาพการวินิจฉัยนี้มีประโยชน์และในความเป็นจริงอาจมีบางอย่างที่แตกต่างกันในตัวอย่าง
Robert Kubrick

@MichaelChernick ฉันเพียงกล่าวถึง qqplot เพื่อแสดงให้เห็นว่าข้อผิดพลาดสูงสุดดูเหมือนจะมีสมาธิในกลางของพล็อตที่เหลือจึงอาจบ่งบอกถึงความแปรปรวนที่สูงขึ้นในพื้นที่นั้น
Robert Kubrick

คำตอบ:


15

ปัญหานี้มีความรู้สึกเชิงสำรวจ John Tukey อธิบายขั้นตอนต่าง ๆ สำหรับการสำรวจความแตกต่างในแบบคลาสสิกในการวิเคราะห์ข้อมูลเชิงสำรวจ (Addison-Wesley 1977) แบบดั้งเดิมของเขา อาจจะมากที่สุดมีประโยชน์โดยตรงเป็นตัวแปรของ " หลงพล็อตวงจร ." สิ่งนี้จะแบ่งตัวแปรหนึ่งตัว (เช่นค่าที่คาดการณ์) ลงในถังขยะและใช้ข้อมูลสรุป m-letter (การสรุปทั่วไปของ boxplots) เพื่อแสดงตำแหน่งการแพร่กระจายและรูปร่างของตัวแปรอื่น ๆ สำหรับแต่ละถัง สถิติ m-letter ถูกปรับให้เรียบเพื่อเน้นรูปแบบโดยรวมมากกว่าการเบี่ยงเบนโอกาส

รุ่นอย่างรวดเร็วสามารถปรุงขึ้นโดยการใช้ประโยชน์จากขั้นตอนในboxplot Rเราแสดงให้เห็นถึงข้อมูลที่แตกต่างกันอย่างมากจำลอง:

set.seed(17)
n <- 500
x <- rgamma(n, shape=6, scale=1/2)
e <- rnorm(length(x), sd=abs(sin(x)))
y <- x + e

ข้อมูล

มารับค่าทำนายและค่าตกค้างจากการถดถอย OLS:

fit <- lm(y ~ x)
res <- residuals(fit)
pred <- predict(fit)

นี่คือโครงร่างพเนจรพเนจรที่ใช้ถังขยะนับเท่า ๆ กันสำหรับค่าที่ทำนายไว้ ฉันใช้lowessเพื่อความราบรื่นอย่างรวดเร็วและสกปรก

n.bins <- 17
bins <- cut(pred, quantile(pred, probs = seq(0, 1, 1/n.bins)))
b <- boxplot(res ~ bins, boxwex=1/2, main="Residuals vs. Predicted",
             xlab="Predicted", ylab="Residual")
colors <- hsv(seq(2/6, 1, 1/6))
temp <- sapply(1:5, function(i) lines(lowess(1:n.bins, b$stats[i,], f=.25), 
        col=colors[i], lwd=2))

พล็อตแผนผังพเนจร

เส้นโค้งสีน้ำเงินทำให้ค่ามัธยฐานเป็นไปอย่างราบรื่น แนวโน้มในแนวนอนของมันบ่งชี้ว่าการถดถอยโดยทั่วไปจะเป็นแบบที่ดี ส่วนโค้งอื่น ๆ ทำให้กล่องเรียบ (ควอไทล์) และรั้ว (ซึ่งโดยทั่วไปจะมีค่ามาก) การบรรจบกันที่แข็งแกร่งของพวกเขาและการแยกที่ตามมาเป็นพยานถึงความแตกต่างที่แข็งแกร่ง - และช่วยเราจำแนกลักษณะและกำหนดปริมาณ

(สังเกตขนาดที่ไม่เป็นเชิงเส้นบนแกนนอนซึ่งสะท้อนการกระจายของค่าที่ทำนายด้วยการทำงานที่เพิ่มขึ้นเล็กน้อยแกนนี้อาจทำให้เป็นเส้นตรงซึ่งบางครั้งก็มีประโยชน์)


6
ตัวอย่างที่ดีฉันจะคิดว่าการดำเนินการบางอย่างของการเรียกใช้ quantiles นั้นมีอยู่ใน R (เพื่อหลีกเลี่ยงปัญหาที่เกิดจากช่องเก็บทั้งหมด) ชนิดของการทำให้ผมนึกถึงถุงแปลง ดูการขยายของ Rob Hyndman ในแพ็คเกจสายรุ้งของเขา
Andy W

9

โดยทั่วไปแล้ว heteroskedasticity นั้นใช้วิธี Breusch-Pagan ส่วนที่เหลือจากการถดถอยเชิงเส้นของคุณจะถูกยกกำลังสองและถดถอยไปยังตัวแปรในโมเดลเชิงเส้นดั้งเดิมของคุณ ถดถอยหลังเรียกว่าการถดถอยเสริม

nRa2ที่ไหน n คือจำนวนการสังเกตและ Ra2 คือ R2 จากการถดถอยเสริมทำหน้าที่เป็นสถิติทดสอบสำหรับสมมติฐานว่างของ homoskedasticity

เพื่อจุดประสงค์ของคุณคุณสามารถมุ่งเน้นไปที่สัมประสิทธิ์บุคคลจากแบบจำลองนี้เพื่อดูว่าตัวแปรใดที่ทำนายผลของความแปรปรวนสูงหรือต่ำได้มากที่สุด


1
+1 แต่โปรดสังเกตว่าการทดสอบดังกล่าวมีข้อ จำกัด ในรูปแบบของความแตกต่างที่สำคัญที่สามารถตรวจจับได้ ตัวอย่างเช่นตัวอย่างที่แสดงในคำตอบของฉันสามารถผ่านได้ถึงแม้ว่า heteroscedasticity จะแข็งแกร่งมาก
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.