Heteroskedasticity และภาวะปกติ


12

ฉันมีการถดถอยเชิงเส้นที่ค่อนข้างดีฉันเดา (สำหรับโครงการมหาวิทยาลัยดังนั้นฉันจึงไม่จำเป็นต้องแม่นยำอย่างแท้จริง)

ประเด็นคือถ้าฉันพล็อตส่วนที่เหลือเทียบกับค่าที่คาดการณ์ไว้มี (ตามครูของฉัน) มีคำใบ้ของ heteroskedasticity

แต่ถ้าฉันพล็อต QQ-Plot ของส่วนที่เหลือก็เป็นที่ชัดเจนว่าพวกมันกระจายตามปกติ ยิ่งกว่านั้นการทดสอบชาปิโร่เกี่ยวกับส่วนที่เหลือมีค่าเท่ากับดังนั้นฉันคิดว่าไม่ต้องสงสัยเลยว่าโดยปกติการกระจายตัวของสิ่งที่เหลืออยู่พี0.8

คำถาม:จะมีค่า heteroskedasticity ในการทำนายค่าได้อย่างไรถ้ามีการแจกแจงเศษตกค้างตามปกติ?


1
หนึ่งนอกจากนี้สั้นมากที่จะ @whubers คำตอบที่ดีเยี่ยม: คุณสามารถใช้ncvTestฟังก์ชั่นของแพคเกจรถสำหรับRการดำเนินการทดสอบอย่างเป็นทางการสำหรับ heteroscedasticity ในตัวอย่างของ whuber คำสั่งncvTest(fit)ให้ผลที่เกือบเป็นศูนย์และให้หลักฐานที่ชัดเจนเกี่ยวกับความแปรปรวนผิดพลาดคงที่ (ซึ่งคาดว่าแน่นอน) พี
COOLSerdash

คำตอบ:


16

วิธีหนึ่งในการเข้าถึงคำถามนี้คือมองย้อนกลับไป: เราจะเริ่มต้นด้วยการแจกแจงสิ่งที่เหลือตามปกติและจัดการให้เป็นแบบ heteroscedastic ได้อย่างไร จากมุมมองนี้คำตอบจะชัดเจน: เชื่อมโยงส่วนที่เหลือที่เล็กลงกับค่าที่คาดการณ์ไว้ที่เล็กลง

เพื่อแสดงให้เห็นนี่คือโครงสร้างที่ชัดเจน

รูป

ข้อมูลทางด้านซ้ายนั้นมีความแตกต่างอย่างชัดเจนเมื่อเทียบกับตัวแบบเชิงเส้น (แสดงเป็นสีแดง) นี่คือบ้านขับรถโดยส่วนที่เหลือเทียบกับพล็อตที่คาดการณ์ไว้ทางด้านขวา แต่ด้วยการก่อสร้างชุดเศษซากที่ไม่ได้เรียงลำดับนั้นใกล้เคียงกับการแจกแจงแบบปกติเนื่องจากฮิสโตแกรมที่อยู่ตรงกลางแสดงให้เห็น (ค่า p ในการทดสอบ Shapiro-Wilk ของภาวะปกติคือ 0.60 ซึ่งได้มาพร้อมกับRคำสั่งที่shapiro.test(residuals(fit))ออกให้หลังจากรันโค้ดด้านล่าง)

ข้อมูลจริงสามารถมีลักษณะเช่นนี้ได้เช่นกัน ศีลธรรมคือความแตกต่างของลักษณะนิสัยความสัมพันธ์ระหว่างขนาดที่เหลือและการคาดการณ์ในขณะที่ปกติจะบอกอะไรเราเกี่ยวกับวิธีการตกค้างที่เกี่ยวข้องกับสิ่งอื่น


นี่คือRรหัสสำหรับการก่อสร้างนี้

set.seed(17)
n <- 256
x <- (1:n)/n                       # The set of x values
e <- rnorm(n, sd=1)                # A set of *normally distributed* values
i <- order(runif(n, max=dnorm(e))) # Put the larger ones towards the end on average
y <- 1 + 5 * x + e[rev(i)]         # Generate some y values plus "error" `e`.
fit <- lm(y ~ x)                   # Regress `y` against `x`.
par(mfrow=c(1,3))                  # Set up the plots ...
plot(x,y, main="Data", cex=0.8)
abline(coef(fit), col="Red")
hist(residuals(fit), main="Residuals")
plot(predict(fit), residuals(fit), cex=0.8, main="Residuals vs. Predicted")

2
ตกลงดังนั้นคุณกำลังบอกว่าถ้าฉันเชื่อมโยงส่วนที่เหลือต่ำกับค่าที่คาดการณ์ไว้สูง heteroscedasticity สามารถเกิดขึ้นได้แม้ว่าจะกระจายตามปกติหรือไม่ ฉันคิดว่าฉันเข้าใจแล้วถึงแม้ว่าฉันควรจะคิดถึงมันมากขึ้นจริง ๆ .. ขอบคุณมาก!
Ant

... หรือเศษเหลือน้อยที่มีค่าทำนายต่ำ (ดังตัวอย่างที่นี่) หรือแม้แต่ในรูปแบบที่ซับซ้อนยิ่งขึ้น ยกตัวอย่างเช่น heteroscedasticity เกิดขึ้นเมื่อขนาดเฉลี่ยของสารตกค้างจะแกว่งไปตามค่าที่ทำนายไว้ (การทดสอบแบบเป็นทางการส่วนใหญ่ของ heteroscedasticity จะไม่ตรวจจับสิ่งนี้ แต่แผนการวินิจฉัยตามปกติจะแสดงให้เห็นอย่างชัดเจน)
whuber

0

ในการถ่วงน้ำหนักสี่เหลี่ยมจัตุรัสน้อยที่สุด (WLS) มันเป็นปัจจัยสุ่มของส่วนที่เหลือโดยประมาณที่คุณอาจต้องการที่จะเห็นการกระจายตามปกติแม้ว่ามันจะไม่สำคัญมากนัก ค่าประมาณที่เหลืออยู่อาจเป็นปัจจัยดังที่แสดงในกรณีการถดถอยแบบง่าย (regressor หนึ่งตัวและผ่านจุดกำเนิด) ที่ด้านล่างของหน้า 1 และครึ่งล่างของหน้า 2 และ 7 ในhttps://www.researchgate.net/publication / 263036348_Properties_of_Weighted_Least_Squares_Regression_for_Cutoff_Sampling_in_Establishment_Surveys อย่างไรก็ตามนี่อาจช่วยแสดงให้เห็นว่าภาวะปกติสามารถเข้ามาในภาพได้อย่างไร


ยินดีต้อนรับสู่เว็บไซต์ @JimKnaub เราอยากให้คุณได้รับประสบการณ์ที่ดีจากคำถามที่พบบ่อย ทำไมไม่ลงทะเบียนบัญชีของคุณ? คุณสามารถหาวิธีในบัญชีของฉันส่วนของเราศูนย์ช่วยเหลือ เนื่องจากคุณใหม่ที่นี่คุณอาจต้องการเข้าชมทัวร์ของเราซึ่งมีข้อมูลสำหรับผู้ใช้ใหม่
gung - Reinstate Monica

3
เราพยายามสร้างที่เก็บถาวรของข้อมูลสถิติคุณภาพสูงในรูปแบบของคำถาม & คำตอบ ดังนั้นเราจึงต้องระวังคำตอบที่ขึ้นอยู่กับลิงก์เนื่องจาก linkrot คุณสามารถโพสต์การอ้างอิงแบบเต็ม & การสรุปข้อมูล (เช่นตัวเลข / คำอธิบาย) จากลิงก์เพื่อให้ข้อมูลมีประโยชน์แม้ว่าลิงก์นั้นจะตาย
gung - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.