ทุกอย่างขึ้นอยู่กับว่าคุณประเมินพารามิเตอร์อย่างไร โดยปกติตัวประมาณค่าเป็นแบบเส้นตรงซึ่งหมายถึงส่วนที่เหลือเป็นฟังก์ชันเชิงเส้นของข้อมูล เมื่อข้อผิดพลาดที่มีการกระจายปกติแล้วเพื่อทำข้อมูลมาจากไหนเพื่อทำคลาดเคลื่อนUฉัน ( ฉันดัชนีกรณีข้อมูลของหลักสูตร)ยูผมยู^ผมผม
เป็นไปได้ (และเป็นไปได้ทางตรรกะ) ว่าเมื่อส่วนที่เหลือดูเหมือนจะมีการแจกแจงแบบปกติ (univariate) ประมาณนี้เกิดขึ้นจากที่ไม่ปกติกระจายอย่างไรก็ตามด้วยกำลังสองน้อยที่สุด (หรือความน่าจะเป็นสูงสุด) เทคนิคการประมาณค่าการแปลงเชิงเส้นเพื่อคำนวณส่วนที่เหลือคือ "อ่อน" ในแง่ที่ว่าฟังก์ชั่นลักษณะของการแจกแจง (หลายตัวแปร) ของส่วนที่เหลือไม่สามารถแตกต่างกันมาก .
ในทางปฏิบัติเราไม่จำเป็นต้องมีข้อผิดพลาดที่กระจายตามปกติดังนั้นนี่เป็นปัญหาที่ไม่สำคัญ การนำเข้าที่มากขึ้นสำหรับข้อผิดพลาดคือ (1) ความคาดหวังของพวกเขาควรจะใกล้เคียงกับศูนย์; (2) สหสัมพันธ์ของพวกเขาควรจะต่ำ; และ (3) ควรมีค่าจำนวนน้อยที่ยอมรับได้ ในการตรวจสอบสิ่งเหล่านี้เราใช้การทดสอบความดีแบบพอดีการทดสอบสหสัมพันธ์และการทดสอบค่าผิดปกติ (ตามลำดับ) กับส่วนที่เหลือ การสร้างแบบจำลองการถดถอยอย่างระมัดระวังรวมถึงการรันการทดสอบดังกล่าวเสมอ (ซึ่งรวมถึงการสร้างภาพกราฟิกที่หลากหลายของสารตกค้างเช่นจัดทำโดยอัตโนมัติโดยplot
วิธีการของ R เมื่อนำไปใช้กับlm
ชั้นเรียน)
อีกวิธีที่จะได้มาที่คำถามนี้คือการจำลองจากแบบจำลองที่ตั้งสมมติฐาน นี่คือรหัส (ขั้นต่ำสุดหนึ่งครั้ง) R
ที่จะทำงาน:
# Simulate y = b0 + b1*x + u and draw a normal probability plot of the residuals.
# (b0=1, b1=2, u ~ Normal(0,1) are hard-coded for this example.)
f<-function(n) { # n is the amount of data to simulate
x <- 1:n; y <- 1 + 2*x + rnorm(n);
model<-lm(y ~ x);
lines(qnorm(((1:n) - 1/2)/n), y=sort(model$residuals), col="gray")
}
#
# Apply the simulation repeatedly to see what's happening in the long run.
#
n <- 6 # Specify the number of points to be in each simulated dataset
plot(qnorm(((1:n) - 1/2)/n), seq(from=-3,to=3, length.out=n),
type="n", xlab="x", ylab="Residual") # Create an empty plot
out <- replicate(99, f(n)) # Overlay lots of probability plots
abline(a=0, b=1, col="blue") # Draw the reference line y=x
สำหรับกรณี n = 32 พล็อตความน่าจะเป็นแบบซ้อนนี้ของ 99 ชุดส่วนที่เหลือแสดงว่าพวกเขามีแนวโน้มที่จะใกล้เคียงกับการแจกแจงข้อผิดพลาด (ซึ่งเป็นมาตรฐานปกติ) เพราะพวกเขายึดติดกับสายอ้างอิง :Y= x
สำหรับกรณี n = 6 ค่ามัธยฐานความชันที่น้อยกว่าในแปลงความน่าจะเป็นแบบบอกใบ้ว่าส่วนที่เหลือมีความแปรปรวนน้อยกว่าความคลาดเคลื่อนเล็กน้อย แต่โดยรวมแล้วพวกมันมักจะกระจายตัวตามปกติเพราะส่วนใหญ่ติดตามเส้นทางอ้างอิงได้ดีพอ ค่าเล็กน้อยของ ):n