ข้อสันนิษฐานของข้อผิดพลาดปกติบ่งบอกว่า Y เป็นปกติหรือไม่


12

ในกรณีที่ฉันเข้าใจผิดในรูปแบบเชิงเส้นการกระจายของการตอบสนองจะถือว่ามีองค์ประกอบที่เป็นระบบและเป็นองค์ประกอบแบบสุ่ม คำผิดพลาดจับองค์ประกอบแบบสุ่ม ดังนั้นถ้าเราสมมติว่าคำผิดพลาดมีการแจกแจงแบบปกตินั่นไม่ได้หมายความว่าคำตอบนั้นก็กระจายตามปกติด้วยเช่นกัน? ฉันคิดว่ามันเป็นเช่นนั้น แต่จากนั้นข้อความเช่นข้อความด้านล่างค่อนข้างสับสน:

และคุณสามารถเห็นได้อย่างชัดเจนว่าข้อสันนิษฐานเพียงอย่างเดียวของ "ภาวะปกติ" ในแบบจำลองนี้ก็คือส่วนที่เหลือ (หรือ "ข้อผิดพลาด" ) ควรกระจายตามปกติ มีข้อสันนิษฐานเกี่ยวกับการกระจายของการทำนายไม่เป็นหรือตัวแปรตอบสนอง y_ix ฉันY ฉันϵixiyi

ที่มา: ผู้ทำนายการตอบสนองและสิ่งที่เหลืออยู่: ปกติแล้วจะต้องมีการแจกจ่ายอะไรจริง ๆ


7
หากไม่นิ่งเฉยความเป็นมาตรฐานของหมายถึงความปกติของตัวแปรตาม สำหรับตัวแปรอิสระสุ่มนี้จะไม่ถือโดยทั่วไปก็ขึ้นอยู่กับการกระจายตัวของตัวแปรอิสระ ϵxϵ

คำตอบ:


19

รูปแบบ OLS มาตรฐานคือกับสำหรับการแก้ไขp}ε ~ N ( 0 , σ 2 ฉันn ) X R n × PY=Xβ+εεN(0,σ2In) XRn×p

นี่หมายความว่าจริง ๆ แล้วว่าแม้ว่านี่จะเป็นผลมาจากการสันนิษฐานของเราในการกระจายของแทนที่จะเป็นข้อสันนิษฐานจริง ๆ นอกจากนี้ยังเก็บไว้ในใจว่าฉันกำลังพูดคุยเกี่ยวกับเงื่อนไขการจำหน่ายของไม่กระจายส่วนเพิ่มของYฉันกำลังมุ่งเน้นไปที่การกระจายแบบมีเงื่อนไขเพราะฉันคิดว่านั่นคือสิ่งที่คุณถามจริง ๆε Y YY|{X,β,σ2}N(Xβ,σ2In)εYY

ฉันคิดว่าส่วนที่สับสนคือนี่ไม่ได้หมายความว่าฮิสโตแกรมของจะดูเป็นปกติ เราจะบอกว่าเวกเตอร์ทั้งหมดเป็นวาดเดียวจากการกระจายปกติหลายตัวแปรที่แต่ละองค์ประกอบมีความหมายที่แตกต่างกันอาจx_i สิ่งนี้ไม่เหมือนกับการเป็นตัวอย่างปกติของ iid ข้อผิดพลาดจริง ๆ แล้วเป็นตัวอย่าง iid ดังนั้นฮิสโตแกรมของพวกเขาจะดูเป็นปกติ (และนั่นคือสาเหตุที่เราทำโครงเรื่อง QQ ของส่วนที่เหลือไม่ใช่การตอบสนอง)Y E ( Y ฉัน| X ฉัน ) = X T ฉันบีตาεYYE(Yi|Xi)=XiTβε

นี่คือตัวอย่าง: สมมติว่าเรากำลังวัดความสูงสำหรับตัวอย่างของนักเรียนระดับประถม 6 และ 12 รูปแบบของเราคือกับ2) หากเราดูฮิสโตแกรมของเราอาจเห็นการกระจายแบบ bimodal โดยมีจุดสูงสุดหนึ่งจุดสำหรับนักเรียนระดับประถม 6 และอีกหนึ่งยอดสำหรับนักเรียนระดับ 12 แต่นั่นไม่ได้แสดงถึงการละเมิดสมมติฐานของเราH i = β 0 + β 1 I ( เกรด 12 ) + ε i ε iiid N ( 0 , σ 2 ) H iHHi=β0+β1I(12th grader)+εiεi iid N(0,σ2)Hi


มีคนช่วยอธิบายสัญกรณ์ไหม σ2In
snoram

มันหมายความว่าตัวตนของเมทริกซ์คูณด้วยสเกลา 2 σ 2n×nσ2
jld

ตัวตนของเมทริกซ์ครั้งแปรปรวนบาง n×n
Sycorax พูดว่า Reinstate Monica

11

ดังนั้นถ้าเราสมมติว่าคำผิดพลาดมีการแจกแจงแบบปกตินั่นไม่ได้หมายความว่าคำตอบนั้นก็กระจายตามปกติด้วยเช่นกัน?

ไม่ได้จากระยะไกล วิธีที่ผมจำได้ว่านี้คือการที่คลาดเคลื่อนเป็นเรื่องปกติที่มีเงื่อนไขในส่วนกำหนดรูปแบบ นี่คือตัวอย่างของสิ่งที่ดูเหมือนในทางปฏิบัติ

ฉันเริ่มต้นด้วยการสร้างข้อมูลแบบสุ่ม จากนั้นฉันก็กำหนดผลลัพธ์ซึ่งเป็นฟังก์ชันเชิงเส้นของตัวทำนายและประมาณตัวแบบ

N <- 100

x1 <- rbeta(N, shape1=2, shape2=10)
x2 <- rbeta(N, shape1=10, shape2=2)

x <- c(x1,x2)
plot(density(x, from=0, to=1))

y <- 1+10*x+rnorm(2*N, sd=1)

model<-lm(y~x)

เรามาดูกันดีกว่าว่าสารตกค้างเหล่านี้เป็นอย่างไร ฉันสงสัยว่าพวกเขาควรจะกระจายตามปกติเนื่องจากผลที่yได้มีการเพิ่มสัญญาณรบกวนปกติลงไป และแน่นอนว่าเป็นกรณี

ป้อนคำอธิบายรูปภาพที่นี่

plot(density(model$residuals), main="Model residuals", lwd=2)
s <- seq(-5,20, len=1000)
lines(s, dnorm(s), col="red")

plot(density(y), main="KDE of y", lwd=2)
lines(s, dnorm(s, mean=mean(y), sd=sd(y)), col="red")

อย่างไรก็ตามการตรวจสอบการกระจายตัวของ y เราจะเห็นได้ว่ามันไม่ปกติเลย! ฉันได้ซ้อนฟังก์ชั่นความหนาแน่นด้วยค่าเฉลี่ยและความแปรปรวนเหมือนyกัน แต่เห็นได้ชัดว่ามันพอดีมาก!

ความหนาแน่นของ y

เหตุผลที่สิ่งนี้เกิดขึ้นในกรณีนี้คือข้อมูลอินพุตไม่ได้เป็นปกติจากระยะไกล ไม่มีอะไรเกี่ยวกับตัวแบบการถดถอยนี้ที่ต้องการความเป็นมาตรฐานยกเว้นในส่วนที่เหลือ - ไม่ใช่ในตัวแปรอิสระและไม่ได้อยู่ในตัวแปรตาม

การปฏิเสธของ x


8

ไม่เลย ตัวอย่างเช่นสมมติว่าเรามีแบบจำลองทำนายน้ำหนักของนักกีฬาโอลิมปิก ในขณะที่น้ำหนักสามารถกระจายได้ตามปกติในหมู่นักกีฬาในแต่ละกีฬา แต่จะไม่อยู่ในหมู่นักกีฬาทั้งหมด - มันอาจไม่ได้แม้แต่ unimodal

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.