ยืนยันการกระจายตัวของสารตกค้างในการถดถอยเชิงเส้น


17

สมมติว่าเราใช้การถดถอยเชิงเส้นอย่างง่ายบันทึกเศษเหลือ^ u iและวาดฮิสโตแกรมของการกระจายตัวของเศษซาก หากเราได้สิ่งที่ดูเหมือนการแจกแจงที่คุ้นเคยเราสามารถสันนิษฐานได้ว่าข้อผิดพลาดของเรามีการกระจายตัวนี้หรือไม่? สมมติว่าถ้าเราพบว่าเศษเหลือคล้ายการแจกแจงแบบปกติมันสมเหตุสมผลหรือไม่ที่จะถือว่าความเป็นบรรทัดฐานของคำผิดพลาดในประชากร? ฉันคิดว่ามันสมเหตุสมผล แต่จะเป็นธรรมได้อย่างไรY=β0+β1x+ยูยูผม^


1
โดยส่วนตัวฉันคิดว่ามันค่อนข้างยากที่จะประเมินความเป็นมาตรฐานจากฮิสโตแกรม (หรือพล็อตความหนาแน่นเคอร์เนล) ฉันจะไม่พึ่งพาพวกเขาในฐานะหลักฐาน "ที่สุด" แปลง QQ มีประสิทธิภาพมากขึ้นสำหรับวัตถุประสงค์นี้

คำตอบ:


18

ทุกอย่างขึ้นอยู่กับว่าคุณประเมินพารามิเตอร์อย่างไร โดยปกติตัวประมาณค่าเป็นแบบเส้นตรงซึ่งหมายถึงส่วนที่เหลือเป็นฟังก์ชันเชิงเส้นของข้อมูล เมื่อข้อผิดพลาดที่มีการกระจายปกติแล้วเพื่อทำข้อมูลมาจากไหนเพื่อทำคลาดเคลื่อนUฉัน ( ฉันดัชนีกรณีข้อมูลของหลักสูตร)ยูผมยู^ผมผม

เป็นไปได้ (และเป็นไปได้ทางตรรกะ) ว่าเมื่อส่วนที่เหลือดูเหมือนจะมีการแจกแจงแบบปกติ (univariate) ประมาณนี้เกิดขึ้นจากที่ไม่ปกติกระจายอย่างไรก็ตามด้วยกำลังสองน้อยที่สุด (หรือความน่าจะเป็นสูงสุด) เทคนิคการประมาณค่าการแปลงเชิงเส้นเพื่อคำนวณส่วนที่เหลือคือ "อ่อน" ในแง่ที่ว่าฟังก์ชั่นลักษณะของการแจกแจง (หลายตัวแปร) ของส่วนที่เหลือไม่สามารถแตกต่างกันมาก .

ในทางปฏิบัติเราไม่จำเป็นต้องมีข้อผิดพลาดที่กระจายตามปกติดังนั้นนี่เป็นปัญหาที่ไม่สำคัญ การนำเข้าที่มากขึ้นสำหรับข้อผิดพลาดคือ (1) ความคาดหวังของพวกเขาควรจะใกล้เคียงกับศูนย์; (2) สหสัมพันธ์ของพวกเขาควรจะต่ำ; และ (3) ควรมีค่าจำนวนน้อยที่ยอมรับได้ ในการตรวจสอบสิ่งเหล่านี้เราใช้การทดสอบความดีแบบพอดีการทดสอบสหสัมพันธ์และการทดสอบค่าผิดปกติ (ตามลำดับ) กับส่วนที่เหลือ การสร้างแบบจำลองการถดถอยอย่างระมัดระวังรวมถึงการรันการทดสอบดังกล่าวเสมอ (ซึ่งรวมถึงการสร้างภาพกราฟิกที่หลากหลายของสารตกค้างเช่นจัดทำโดยอัตโนมัติโดยplotวิธีการของ R เมื่อนำไปใช้กับlmชั้นเรียน)

อีกวิธีที่จะได้มาที่คำถามนี้คือการจำลองจากแบบจำลองที่ตั้งสมมติฐาน นี่คือรหัส (ขั้นต่ำสุดหนึ่งครั้ง) Rที่จะทำงาน:

# Simulate y = b0 + b1*x + u and draw a normal probability plot of the residuals.
# (b0=1, b1=2, u ~ Normal(0,1) are hard-coded for this example.)
f<-function(n) { # n is the amount of data to simulate
    x <- 1:n; y <- 1 + 2*x + rnorm(n); 
    model<-lm(y ~ x); 
    lines(qnorm(((1:n) - 1/2)/n), y=sort(model$residuals), col="gray")
}
#
# Apply the simulation repeatedly to see what's happening in the long run.
#
n <- 6    # Specify the number of points to be in each simulated dataset
plot(qnorm(((1:n) - 1/2)/n), seq(from=-3,to=3, length.out=n), 
    type="n", xlab="x", ylab="Residual") # Create an empty plot
out <- replicate(99, f(n))               # Overlay lots of probability plots
abline(a=0, b=1, col="blue")             # Draw the reference line y=x

สำหรับกรณี n = 32 พล็อตความน่าจะเป็นแบบซ้อนนี้ของ 99 ชุดส่วนที่เหลือแสดงว่าพวกเขามีแนวโน้มที่จะใกล้เคียงกับการแจกแจงข้อผิดพลาด (ซึ่งเป็นมาตรฐานปกติ) เพราะพวกเขายึดติดกับสายอ้างอิง :Y=x

รูปที่ n = 32

สำหรับกรณี n = 6 ค่ามัธยฐานความชันที่น้อยกว่าในแปลงความน่าจะเป็นแบบบอกใบ้ว่าส่วนที่เหลือมีความแปรปรวนน้อยกว่าความคลาดเคลื่อนเล็กน้อย แต่โดยรวมแล้วพวกมันมักจะกระจายตัวตามปกติเพราะส่วนใหญ่ติดตามเส้นทางอ้างอิงได้ดีพอ ค่าเล็กน้อยของ ):n

รูปที่ n = 6


สิ่งต่างๆจะน่าสนใจมากขึ้นถ้าคุณเพิ่มพูดrexp(n)แทนrnorm(n)เมื่อสร้างข้อมูลของคุณ การกระจายตัวของสารตกค้างจะทำให้ WAY ใกล้เคียงกับปกติมากกว่าที่คุณคิด
StasK

แต่ถ้าเราไม่ถือว่าส่วนที่เหลือเป็นเรื่องปกติค่า p ของค่าสัมประสิทธิ์โดยประมาณที่คำนวณได้เป็นอย่างไร สถิติการทดสอบคืออะไร?
Ant

5

yi=xiβ+ϵi
Y=Xβ+ε
อี=(ผม-H)Y
H=X(X'X)-1X'
อีผม(1-ชั่วโมงผมผม)εผมชั่วโมงผมJεJ,JผมΣJผมชั่วโมงผมJ2+ชั่วโมงผมผม2=ชั่วโมงผมผมO(1/n) εผมอีผม(1-ชั่วโมงผมผม)εผม

1

หากเราได้สิ่งที่ดูเหมือนการแจกแจงที่คุ้นเคยเราสามารถสันนิษฐานได้ว่าข้อผิดพลาดของเรามีการกระจายตัวนี้หรือไม่?

ฉันจะยืนยันว่าคุณทำไม่ได้เนื่องจากแบบจำลองที่คุณมีอยู่นั้นไม่ถูกต้องหากข้อสันนิษฐานเกี่ยวกับข้อผิดพลาดนั้นไม่มีอยู่ (ในแง่ที่ว่ารูปร่างของการกระจายนั้นไม่ธรรมดาเช่น Cauchy เป็นต้น)

วิธีการปกติแทนที่จะสมมติว่าข้อผิดพลาดการกระจาย fe Poisson คือการดำเนินการแปลงข้อมูลบางรูปแบบเช่น log y หรือ 1 / y เพื่อทำให้ปกติเหลืออยู่ (เช่นรุ่นจริงอาจไม่เป็นเชิงเส้นซึ่งจะทำให้ส่วนที่เหลือพล็อตปรากฏกระจายแปลก ๆ แม้ว่าพวกเขาจะอยู่ในความเป็นจริงปกติ)

สมมติว่าถ้าเราพบว่าเศษเหลือคล้ายการแจกแจงแบบปกติมันสมเหตุสมผลไหมที่จะถือว่าความปกติของข้อผิดพลาดในประชากร?

คุณสมมติว่าข้อผิดพลาดปกติของคุณเมื่อคุณเข้ากับการถดถอยแบบ OLS ไม่ว่าคุณจะต้องระบุอาร์กิวเมนต์สำหรับการอ้างสิทธิ์นั้นขึ้นอยู่กับประเภทและระดับงานของคุณ (มักจะเป็นประโยชน์ในการดูสิ่งที่เป็นที่ยอมรับการปฏิบัติในสาขา)

ทีนี้ถ้าส่วนที่เหลืออยู่ในความเป็นจริงดูเหมือนว่าจะกระจายไปตามปกติคุณสามารถเลี้ยงตัวเองที่ด้านหลังเนื่องจากคุณสามารถใช้มันเป็นหลักฐานเชิงประจักษ์ของสมมติฐานก่อนหน้าของคุณ :)


0

ใช่มันมีเหตุผล ส่วนที่เหลือเป็นข้อผิดพลาด คุณสามารถดูพล็อต QQ ปกติ


ใช่ถูกต้อง "แต่จะเป็นธรรมได้อย่างไร" อะไรทำให้เรามั่นใจได้ว่าการกระจายเชิงประจักษ์ของยู^ผม จะประมาณว่า ยู?
whuber

7
นี่เป็นเรื่องหยาบคาย แต่ส่วนที่เหลือไม่ใช่ข้อผิดพลาด ส่วนที่เหลือเป็นความแตกต่างที่สังเกตได้จากแบบจำลองโดยประมาณYผม-xผมβ^. ข้อผิดพลาดคือความแตกต่างจากโมเดลจริงYผม-xผมβ.
มาโคร

@ โฮเบอร์: ฉันไม่รู้ว่ามันคืออะไร แต่ฉันสมมติว่ามันเป็นสิ่งเดียวกันที่จะพิสูจน์ตัวอย่าง x ประมาณประชากร Xใช่มั้ย
Wayne

1
@ เวย์นฉันเชื่อว่า "มัน" หมายถึงขั้นตอน "ถ้าเราพบว่ามีลักษณะคล้ายกับการแจกแจงแบบปกติ ... จะถือว่าปกติของข้อผิดพลาดในประชากร" ฉันคิดว่าคุณพูดถูก แต่ความละเอียดอ่อนคือส่วนที่เหลือเป็นผลงานของทั้งตัวอย่างและวิธีที่ใช้ในการประมาณค่าพารามิเตอร์ ฉันคิดว่านี่เป็นคำถามที่คิดและน่าสนใจ
whuber

@whuber ฉันจะสนใจในสิ่งที่คุณทำกับนักเรียนเทียบกับมาตรฐานและของเหลือใช้
มิเชล
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.