การประมาณกำลังสองน้อยสุดสามัญยังคงเป็นตัวประมาณที่เหมาะสมในการเผชิญกับข้อผิดพลาดที่ไม่ปกติ โดยเฉพาะทฤษฎีบทเกาส์ - มาร์คอฟระบุว่าการประมาณกำลังสองน้อยที่สุดธรรมดาคือตัวประมาณค่าแบบไม่เอนเอียงเชิงเส้น (BLUE) ของสัมประสิทธิ์การถดถอย (ความหมายที่ดีที่สุดในแง่ดีที่สุดในแง่ของการลดความคลาดเคลื่อนเฉลี่ยกำลังสอง )
(1)มีค่าเฉลี่ยศูนย์
(2)ไม่เกี่ยวข้องกัน
(3)มีความแปรปรวนคงที่
โปรดสังเกตว่าไม่มีเงื่อนไขของภาวะปกติที่นี่ (หรือแม้แต่เงื่อนไขใด ๆ ที่ข้อผิดพลาดคือIID )
สภาพปกติมาลงเล่นเมื่อคุณกำลังพยายามที่จะได้รับความเชื่อมั่นและ / หรือ -values ในฐานะที่เป็น @MichaelChernick กล่าวถึง (+1, btw) คุณสามารถใช้การอนุมานที่แข็งแกร่งเมื่อข้อผิดพลาดที่ไม่ปกติตราบใดที่วิธีการจัดการปกติออกจากวิธีปกติ - ตัวอย่างเช่น (ที่เรากล่าวถึงในหัวข้อนี้ ) Huber - เครื่องมือประเมินสามารถให้ข้อสรุปที่มีประสิทธิภาพได้เมื่อการแจกแจงข้อผิดพลาดที่แท้จริงคือการผสมผสานระหว่างการแจกแจงแบบปกติและแบบหางยาว (ซึ่งตัวอย่างของคุณดูเหมือน) แต่อาจไม่เป็นประโยชน์สำหรับการออกจากระบบอื่น ๆ หนึ่งเป็นไปได้ที่น่าสนใจที่ไมเคิล alludes จะเป็นbootstrappingที่จะได้รับช่วงความเชื่อมั่นสำหรับประมาณการ OLS และเห็นว่านี้เปรียบเทียบกับฮิวอนุมานตามเอ็มpM
แก้ไข:ฉันมักจะได้ยินมันบอกว่าคุณสามารถพึ่งพาทฤษฎีบทกลาง จำกัด ในการดูแลข้อผิดพลาดที่ไม่ปกติ - มันไม่ได้เป็นจริงเสมอไป (ฉันไม่เพียงแค่พูดถึงเรื่องการตอบโต้ที่ทฤษฎีล้มเหลว) ในตัวอย่างข้อมูลจริงที่ OP อ้างถึงเรามีขนาดตัวอย่างขนาดใหญ่ แต่สามารถเห็นหลักฐานของการกระจายข้อผิดพลาดแบบหางยาว - ในสถานการณ์ที่คุณมีข้อผิดพลาดแบบหางยาวคุณไม่จำเป็นต้องพึ่งพาทฤษฎีขีด จำกัด กลางเพื่อให้ คุณอนุมานอย่างเป็นกลางโดยประมาณสำหรับขนาดตัวอย่างที่ จำกัด จริง ตัวอย่างเช่นหากข้อผิดพลาดเป็นไปตามค่า -distribution กับองศาความเป็นอิสระ (ซึ่งไม่ชัดเจนมากขึ้น2.01t2.01 ยาวกว่าข้อผิดพลาดที่เห็นในข้อมูลของ OP) การประมาณค่าสัมประสิทธิ์จะกระจายแบบปกติแบบ asymptotically แต่ใช้เวลานานกว่าในการ "เตะเข้า" มากกว่าการกระจายระยะสั้นแบบอื่น ๆ
ด้านล่างนี้ฉันสาธิตด้วยการจำลองแบบหยาบR
เมื่อโดยที่ การกระจายตัวอย่างของยังคงเป็นหางค่อนข้างยาวแม้ว่าขนาดตัวอย่างคือ :ε ฉัน ~ T 2.01 β 1 n = 4000yi=1+2xi+εiεi∼t2.01β^1n=4000
set.seed(5678)
B = matrix(0,1000,2)
for(i in 1:1000)
{
x = rnorm(4000)
y = 1 + 2*x + rt(4000,2.01)
g = lm(y~x)
B[i,] = coef(g)
}
qqnorm(B[,2])
qqline(B[,2])