การแจกแจงของข้อผิดพลาดมีผลต่อการกระจายของการตอบสนองอย่างไร


14

ดังนั้นเมื่อฉันคิดว่าปกติแล้วข้อผิดพลาดจะถูกกระจายในการถดถอยเชิงเส้นมันหมายความว่าอะไรสำหรับตัวแปรตอบสนอง ?y

คำตอบ:


7

บางทีฉันอาจจะปิด แต่ฉันคิดว่าเราควรจะสงสัยเกี่ยวกับซึ่งเป็นวิธีที่ฉันอ่าน OP ในกรณีที่ง่ายที่สุดของการถดถอยเชิงเส้นหากแบบจำลองของคุณคือดังนั้นองค์ประกอบสุ่มเพียงอย่างเดียวในแบบจำลองของคุณคือคำผิดพลาด เป็นเช่นนั้นกำหนดกระจายตัวอย่างของปีหากแล้ว2I) สิ่งที่ @Aniko พูดจริง ๆ แล้วก็คือ (เล็กน้อยเกินX, \ beta ) อย่างไรก็ตาม ดังนั้นเนื่องจากคำถามนี้คลุมเครือเล็กน้อยy = X β + ϵ y ϵ N ( 0 , σ 2 I ) y | X , β N ( X β , σ 2 I ) f ( y ) X , βf(y|β,X)y=Xβ+ϵyϵN(0,σ2I)y|X,βN(Xβ,σ2I)f(y)X,β


ฉันชอบความคิดเห็นทั้งหมด! และพวกเขาทั้งหมดดูเหมือนจะถูกต้อง แต่ฉันแค่ค้นหาคำตอบที่ง่ายที่สุด :) จะเกิดอะไรขึ้นเมื่อคุณคิดว่าคำที่ผิดพลาดนั้นมีการแจกแจงแบบปกติ ว่าสิ่งนี้เกิดขึ้นบ่อยครั้งในความเป็นจริงได้รับความชัดเจนจากคำตอบอื่น ๆ ! ขอบคุณมาก!
MarkDollar

17

คำตอบสั้น ๆ คือคุณไม่สามารถสรุปอะไรก็ได้เกี่ยวกับการกระจายตัวของเพราะมันขึ้นอยู่กับการกระจายตัวของและความแข็งแรงและรูปร่างของความสัมพันธ์ อย่างเป็นทางการแล้วจะมีการแจกแจง "ส่วนผสมของบรรทัดฐาน" ซึ่งในทางปฏิบัติอาจเป็นอะไรก็ได้x yyxy

ต่อไปนี้เป็นสองตัวอย่างสุดขีดที่จะอธิบายสิ่งนี้:

  1. สมมติว่ามีเพียงสองเป็นไปได้ค่า, 0 ที่ 1 และ(0,1) จากนั้นจะมีการแจกแจงแบบ bimodal อย่างมากโดยมีการกระแทกที่ 0 และ 10y = 10 x + N ( 0 , 1 ) yxy=10x+N(0,1)y
  2. ทีนี้สมมติว่ามีความสัมพันธ์แบบเดียวกัน แต่ให้กระจายอย่างสม่ำเสมอในช่วง 0-1 ด้วยค่าจำนวนมาก จากนั้นจะกระจายอย่างสม่ำเสมอเกือบตลอดช่วงเวลา 0-10 (โดยมีก้อยครึ่งปกติที่ขอบ)yxy

ในความเป็นจริงตั้งแต่การจัดจำหน่ายทุกคนสามารถทำได้ใกล้เคียงโดยพลการได้ดีกับส่วนผสมของภาวะปกติจริงๆคุณสามารถได้รับการกระจายใด ๆ สำหรับปีy


8
+1 เป็นข้อความสุดท้าย: ฉันเคยทำผิดที่คิดเช่นกัน ในทางคณิตศาสตร์คุณถูกต้อง แต่ในทางปฏิบัติมันแทบจะเป็นไปไม่ได้ที่จะประมาณเข็มที่ไม่แตกต่างกับแบบมาตรฐาน (เช่นการแจกแจงแบบ J- หรือรูปตัวยู): บรรทัดฐานนั้นแบนเกินไปที่จุดสูงสุดของพวกมัน คุณต้องการส่วนประกอบมากเกินไป เกณฑ์ปกติเป็นสิ่งที่ดีสำหรับการประมาณค่าการแจกแจงซึ่งไฟล์ PDF นั้นราบรื่นมาก
whuber

1
@whuber เห็นด้วย ฉันจะไม่แนะนำให้ใช้การประมาณแบบผสมแบบธรรมดาสำหรับการแจกแจงใด ๆ ในทางปฏิบัติฉันแค่พยายามยกตัวอย่างการนับจำนวนมาก
Aniko

5

เราคิดค้นคำผิดพลาดโดยกำหนดรูปแบบที่สมมติขึ้นบนข้อมูลจริง การกระจายของข้อผิดพลาดไม่มีผลต่อการกระจายของการตอบสนอง

เรามักจะสันนิษฐานว่าข้อผิดพลาดนั้นได้รับการกระจายตามปกติและดังนั้นจึงพยายามที่จะสร้างแบบจำลองดังกล่าวซึ่งโดยทั่วไปแล้วเราจะแจกแจงค่าส่วนที่เหลือ นี้อาจเป็นเรื่องยากสำหรับการกระจายของบางปีในกรณีเหล่านี้ฉันคิดว่าคุณสามารถพูดได้ว่าการกระจายคำตอบมีผลต่อคำผิดพลาดy


2
"เรามักจะพยายามที่จะสร้างรูปแบบดังกล่าวว่าคำว่าข้อผิดพลาดของเราคือการกระจายตามปกติ" - จะแม่นยำฉันคิดว่าคุณจะหมายถึงเหลือ β เหล่านี้มีการประมาณการของข้อตกลงข้อผิดพลาดในทางเดียวกันว่าX βเป็นค่าประมาณของE ( Y ) = X β เราต้องการให้ส่วนที่เหลือดูเป็นปกติเพราะนั่นคือสิ่งที่เราคิดเกี่ยวกับข้อผิดพลาดที่จะเริ่มต้น เรา "ประดิษฐ์" คำผิดพลาดโดยการระบุรูปแบบไม่เหมาะสม yXβ^Xβ^E(y)=Xβ
JMS

ฉันเห็นด้วยกับความแม่นยำของคุณ JMS +1 และฉันจะปรับคำตอบของฉัน
โทมัสเลวีน

2

ถ้าคุณเขียนออกมาตอบสนองเป็น ที่ไหนเมตรเป็น "รูปแบบ" (การคาดการณ์สำหรับปี ) และEคือ "ข้อผิดพลาด" แล้วนี้สามารถจัดอีกครั้งเพื่อระบุปี - ม. =อี ดังนั้นการกำหนดการแจกแจงสำหรับข้อผิดพลาดจึงเป็นสิ่งเดียวกับการระบุวิธีที่โมเดลของคุณไม่สมบูรณ์ อีกวิธีคือการบ่งบอกถึงขอบเขตที่คุณไม่รู้ว่าทำไมการตอบสนองที่สังเกตได้คือคุณค่าที่มันเป็นจริงไม่ใช่แบบจำลองที่ทำนายไว้ หากคุณรู้ว่าแบบจำลองของคุณสมบูรณ์แบบคุณจะต้องแจกแจงความน่าจะเป็นกับข้อผิดพลาดทั้งหมด การกำหนดN (

y=m+e
myeym=eโดยทั่วไปกล่าวว่าข้อผิดพลาดที่มีขนาดเล็กในหน่วยของσ ความคิดคือการคาดการณ์รูปแบบมีแนวโน้มที่จะ "ผิด" โดยจำนวนเงินที่คล้ายกันสำหรับข้อสังเกตที่แตกต่างกันและเป็น "เกี่ยวกับสิทธิ" ในระดับของσ ในทางตรงกันข้ามการมอบหมายทางเลือกคือ C a u c h y ( 0 , γ )ซึ่งบอกว่าข้อผิดพลาดส่วนใหญ่มีขนาดเล็ก แต่ข้อผิดพลาดบางอย่างค่อนข้างใหญ่ - โมเดลมีรูปแบบ "blunder" หรือ "shocker" เป็นครั้งคราว การทำนายการตอบสนองN(0,σ2)σσCauchy(0,γ)

ในแง่หนึ่งการกระจายข้อผิดพลาดนั้นเชื่อมโยงกับตัวแบบมากกว่าการตอบสนอง สิ่งนี้สามารถเห็นได้จากการไม่สามารถระบุตัวตนของสมการข้างต้นได้หากไม่ทราบทั้งและeจากนั้นเพิ่มเวกเตอร์ใดก็ได้ลงในmและลบออกจากeนำไปสู่ค่าเดียวกันของy , y = m + e = ( m + b ) + ( e - b ) = m + e memeyy=m+e=(m+b)+(eb)=m+e. การมอบหมายการแจกแจงความผิดพลาดและสมการของโมเดลนั้นโดยทั่วไปบอกว่าเวกเตอร์ใดที่มีความน่าเชื่อถือมากกว่าคนอื่น


"นี่ดูแปลก ๆ เพราะคุณจะสังเกตเห็น y ครั้งแล้วครั้งเล่า (y เป็นเวกเตอร์ / เมทริกซ์ / ฯลฯ ที่สมบูรณ์ของการตอบสนอง) สิ่งนี้จะ" กระจาย "ได้อย่างไรในมุมมองของฉันมันสามารถกระจายในชุดจินตนาการบางอย่างเท่านั้น ไม่มีอะไรเกี่ยวข้องกับการตอบสนองที่คุณสังเกตเห็นอย่างน้อยที่สุดข้อสันนิษฐานของคำตอบที่ว่า "การกระจาย" นั้นไม่สามารถทดสอบได้ "ฉันสับสน; คุณกำลังบอกว่าเราไม่สามารถทดสอบกับH 1 : y f 1 ได้ไหม? H0:yf0H1:yf1
JMS

ไม่ขอโทษนั่นไม่สามารถเป็นสิ่งที่คุณพูดได้ ฉันยังคงสับสนอยู่ บางทีมันอาจจะเล็กน้อยไม่แน่ชัด แต่วิธีที่ฉันอ่านมันเขามีตัวอย่างY ฉันจากYกับการแก้ไขx ฉัน , รุ่นของเขาคือY = X β + εและเขาก็สงสัยว่าการกระจายของปลอมεหมายถึงเกี่ยวกับการกระจายของY | β , Xภายใต้รูปแบบของเขา นี่มันหมายความว่ามันเป็นเรื่องปกติ เราสามารถทดสอบด้วยตัวอย่างของเราnyiYxiY=Xβ+ϵϵY|β,X
JMS

@JMS - ฉันคิดว่าฉันอาจลบย่อหน้าแรก ฉันไม่คิดว่ามันจะเพิ่มสิ่งใดในคำตอบของฉัน (นอกเหนือจากความสับสน)
ความน่าจะเป็นทางการที่

หนึ่งในสิ่งที่ชื่นชอบการเพิ่มคำตอบของฉัน :)
JMS
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.