สมมติฐานการกระจายตัวแบบตกค้าง


12

ทำไมจึงจำเป็นต้องวางสมมุติฐานการกระจายในข้อผิดพลาดเช่น

yi=Xβ+ϵiกับϵiN(0,σ2) )

ทำไมไม่เขียน

yi=Xβ+ϵiกับyiN(Xβ^,σ2) ,

ที่ว่าในกรณีใดϵi=yiy^ Y
ฉันเคยเห็นมันเน้นว่าข้อสันนิษฐานของการกระจายสินค้าถูกวางไว้บนข้อผิดพลาดไม่ใช่ข้อมูล แต่ไม่มีคำอธิบาย

ฉันไม่เข้าใจความแตกต่างระหว่างสูตรทั้งสองนี้จริงๆ บางแห่งที่ฉันเห็นสมมติฐานการกระจายถูกวางไว้บนข้อมูล (Bayesian lit. ดูเหมือนว่าส่วนใหญ่) แต่เวลาส่วนใหญ่ข้อสันนิษฐานที่วางอยู่บนข้อผิดพลาด

เมื่อสร้างแบบจำลองทำไม / ควรเลือกที่จะเริ่มต้นด้วยสมมติฐานหนึ่งหรืออื่น ๆ ?


อันดับแรกไม่ใช่ "จำเป็น" ขึ้นอยู่กับสิ่งที่คุณตั้งใจจะทำ มีคำตอบที่ดี แต่ฉันคิดว่าปมเป็นข้อสันนิษฐานพื้นฐานของความเป็นเหตุเป็นผลในแง่ของ Xs "ทำให้" y และถ้าคุณดูในแบบที่คุณเห็นว่าการกระจายของ y คือ "เกิด" โดย การกระจายตัวของ rhs ซึ่งก็คือการพูด Xs และข้อผิดพลาด (ถ้ามี) คุณสามารถทำเศรษฐมิติได้มากมายด้วยข้อ จำกัด ด้านการกระจายสินค้าที่ จำกัด มากและโดยเฉพาะอย่างยิ่ง ขอบคุณพระเจ้า.
PatrickT

3
ไม่Xβและค่าเฉลี่ยของประชากรY's ไม่ได้เช่นเดียวกับการประมาณการตัวอย่างของมัน ซึ่งก็คือการบอกว่าสิ่งที่สองคือไม่จริงในสิ่งเดียวกันเป็นครั้งแรก แต่ถ้าคุณแทนที่ด้วยความคาดหวัง (E( Y )=E(Y)=Xβ) ทั้งสองจะเทียบเท่า y^XβyE(y^)=E(y)=Xβ
Glen_b -Reinstate Monica

คืออะไรY ? และถ้าY ฉันแตกต่างกันกับฉันทำไมไม่X βแตกต่างกัน? โปรดคิดว่าสัญลักษณ์ที่คุณต้องการใช้คือเวกเตอร์หรือเมทริกซ์ ตอนนี้ถ้าเราคิดว่าY = X βสัญกรณ์ของคุณเป็นมากกว่า Bizzare: Y ฉัน ~ N ( x ' ฉัน ( Σ x J x ' J ) - 1 Σ x เจวายเจ , σ 2 )y^yiiXβy^=Xβ^yiN(xi(xjxj)1xjyj,σ2)คือคุณนิยามการกระจายของในแง่ของตัวมันเองและการสังเกตอื่น ๆ ทั้งหมดy j ! yiyj
mpiktas

1
ฉันลงคะแนนคำถามเพราะฉันคิดว่าสัญกรณ์สับสนและนี่ทำให้คำตอบที่ขัดแย้งกันหลายข้อ
mpiktas

คำตอบ:


9

ในการตั้งค่าการถดถอยเชิงเส้นมันเป็นเรื่องธรรมดาที่จะทำการวิเคราะห์และได้ผลลัพธ์ตามเงื่อนไขบนคือเงื่อนไขบน "ข้อมูล" ดังนั้นสิ่งที่คุณต้องการคือy Xเป็นเรื่องปกตินั่นคือคุณต้องϵเป็นปกติ ดังตัวอย่างของ Peter Flom เราสามารถมีค่าปกติของϵโดยไม่มีค่าปกติของyและดังนั้นเนื่องจากสิ่งที่คุณต้องการคือค่าปกติของϵนั่นคือสมมติฐานที่สมเหตุสมผลXyXϵϵyϵ


9

ฉันจะเขียนคำจำกัดความที่สองเป็น

yiN(Xiβ,σ2)

หรือ (ตามที่ Karl Oskar แนะนำ +1)

yi|XiN(Xiβ,σ2)

σ2yiXi

ϵiy^


3

ความแตกต่างนั้นง่ายที่สุดในการอธิบายด้วยตัวอย่าง นี่คือตัวอย่างง่ายๆ:

สมมติว่า Y เป็น bimodal โดยมีตัวแปรที่คิดขึ้นโดยตัวแปรอิสระ เช่นสมมติว่า Y คือส่วนสูงและตัวอย่างของคุณ (ไม่ว่าจะด้วยเหตุผลใดก็ตาม) ประกอบด้วยผู้จัดรายการและผู้เล่นบาสเก็ตบอล เช่นในR

set.seed(123)
tall <- rnorm(100, 78, 3)
short <- rnorm(100, 60, 3)

height <- c(tall, short)
sport <- c(rep("B", 100), rep("H",100))

plot(density(height))

m1 <- lm(height~sport)
plot(m1)

ความหนาแน่นแรกนั้นไม่ธรรมดามาก แต่ส่วนที่เหลือจากโมเดลนั้นใกล้เคียงกับปกติมาก

ทำไมถึงมีข้อ จำกัด เช่นนี้ - ฉันจะให้คนอื่นตอบคำถามนั้น


1
yiϵi

ในกรณีนั้น heteroscedasticity จะเป็นปัญหาและคุณจะต้องใช้การถดถอยรูปแบบอื่นหรืออาจเป็นการเปลี่ยนแปลงบางอย่างหรือคุณอาจเพิ่มตัวแปรอื่น (ในตัวอย่างที่โง่เขลาตำแหน่งที่เล่นในบาสเก็ตอาจทำได้)
Peter Flom - Reinstate Monica

ฉันไม่แน่ใจว่าสูตรนี้มีวัตถุประสงค์เพื่อแนะนำว่า ys นั้นมีการแจกแจงแบบปกติเพียงแค่พวกเขามีการแจกแจงแบบมีเงื่อนไขปกติ
Dikran Marsupial

2


yiN(y^i,σε2)
y^xi

y^ixiβ^

yiN(xiβ^,σε2)

E[xiβ^]=E[xiβ^+E[N(0,σε2)]]=E[xiβ^+0]=E[xiβ^]
(และเห็นได้ชัดว่าความแปรปรวนเท่ากัน) กล่าวอีกนัยหนึ่งนี่ไม่ใช่ความแตกต่างในข้อสมมติฐาน

ดังนั้นคำถามจะกลายเป็นมีเหตุผลที่จะชอบที่จะนำเสนอความคิดโดยใช้สูตรแรก?

ฉันคิดว่าคำตอบคือใช่ด้วยเหตุผลสองประการ:

  1. ผู้คนมักสับสนว่าข้อมูลดิบควรได้รับการแจกแจงแบบปกติ (เช่น ) หรือถ้าข้อมูลตามเงื่อนไขบน / ข้อผิดพลาดควรถูกแจกจ่ายตามปกติ (เช่น / ) ดู : จะเกิดอะไรขึ้นถ้ามีการแจกแจงปกติ แต่ y ไม่ใช่YXY|Xε
  2. ผู้คนมักสับสนในสิ่งที่ควรจะเป็นอิสระข้อมูลดิบหรือข้อผิดพลาด ยิ่งกว่านั้นเรามักพูดถึงความจริงที่ว่าสิ่งที่ควรจะเป็น iid (อิสระและกระจายเหมือนกัน); หากคุณกำลังคิดในแง่ของนี่อาจเป็นอีกแหล่งที่มาของความสับสนในขณะที่สามารถเป็นอิสระ แต่ไม่สามารถกระจายตัวเหมือนกันเว้นแต่สมมติฐานว่างถือ (เพราะค่าเฉลี่ยจะแตกต่างกัน) Y | XY|XY|X

ฉันเชื่อว่า Confustions เหล่านี้มีแนวโน้มที่จะใช้สูตรที่สองมากกว่าครั้งแรก


1
@Glen_b ฉันไม่ได้ติดตามความคิดเห็นของคุณ การเรียกร้องของฉันไม่ได้ว่าเท่ากับแต่ที่เท่ากับเบต้า} ห้อยตัวดัชนีการสังเกตมีความเกี่ยวข้อง ความคิดคือค่าคาดการณ์สำหรับการสังเกตให้เป็นเบต้า} นี้มีอะไรจะทำอย่างไร w / ค่าเฉลี่ยประชากรY(ดูเหมือนว่าฉันลืมที่จะเพิ่มหมวกให้กับ betas ของฉัน แต่ฉันแก้ไขให้ถูกต้องแล้ว) Xβ Yฉันxฉัน βฉัน Yฉันxฉัน β Yy^Xβy^ixiβ^iy^ixiβ^Y
gung - Reinstate Monica

@Glen_b ว่ามันเป็นตัวอย่างหมายความว่ามันจะเป็นมากกว่า{y} ผมเริ่มพบสัญกรณ์ทำให้เกิดความสับสนเช่นกัน แต่ความจริงที่ว่าดังนี้จากงบที่และ{y} เพื่อให้สิ่งเหล่านี้เป็นจริงสามารถเป็นได้เท่านั้น Y Y =XβYฉัน=Xβ+εฉันεฉัน=Yฉัน - Y Y Xβy¯y^y^=Xβyi=Xβ+ϵiϵi=yiy^y^Xβ
Dikran Marsupial
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.