เหตุใดภาวะปกติของสิ่งตกค้างจึงแทบไม่สำคัญเลยสำหรับการประเมินเส้นถดถอย


21

Gelman and Hill (2006) เขียนใน p46 ที่:

ข้อสันนิษฐานการถดถอยที่โดยทั่วไปมีความสำคัญน้อยที่สุดคือข้อผิดพลาดจะกระจายตามปกติ ในความเป็นจริงเพื่อจุดประสงค์ในการประเมินเส้นการถดถอย (เมื่อเทียบกับการทำนายจุดข้อมูลของแต่ละบุคคล) การสันนิษฐานของความเป็นมาตรฐานนั้นแทบไม่มีความสำคัญเลย ดังนั้นในทางตรงกันข้ามกับหนังสือเรียนการถดถอยหลายฉบับเราไม่แนะนำให้ทำการวินิจฉัยภาวะปกติของเศษซากถดถอย

Gelman และ Hill ดูเหมือนจะไม่อธิบายประเด็นนี้อีกต่อไป

Gelman และ Hill ถูกต้องหรือไม่? ถ้าเป็นเช่นนั้น:

  1. ทำไม "แทบไม่มีความสำคัญเลย" ทำไมมันไม่สำคัญหรือไม่เกี่ยวข้องเลย?

  2. เหตุใดจึงเป็นเรื่องปกติของการตกค้างในการทำนายจุดข้อมูลแต่ละจุด?

Gelman, A. , & Hill, J. (2006) การวิเคราะห์ข้อมูลโดยใช้การถดถอยและตัวแบบหลายระดับ / ลำดับชั้น สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์

คำตอบ:


21

สำหรับการประมาณค่าปกติไม่ได้เป็นเพียงข้อสันนิษฐาน แต่การพิจารณาที่สำคัญคือประสิทธิภาพ ในหลายกรณีตัวประมาณแบบเชิงเส้นที่ดีจะทำได้ดีและในกรณีนั้น (โดย Gauss-Markov) การประเมิน LS จะดีที่สุดในสิ่งเหล่านั้น - นั่นจะเป็นไม่เป็นไร (หากหางของคุณค่อนข้างหนักหรือเบามากมันอาจสมเหตุสมผลที่จะต้องพิจารณาอย่างอื่น)

ในกรณีของการทดสอบและซีไอเอในขณะที่สันนิษฐานว่าเป็นเรื่องปกติมันไม่สำคัญเลย (อีกครั้งตราบใดที่หางไม่หนักหรือเบาหรืออาจเป็นหนึ่งในนั้น) อย่างน้อยก็ไม่มาก - ตัวอย่างขนาดเล็กการทดสอบและ CIs ทั่วไปมีแนวโน้มที่จะใกล้เคียงกับคุณสมบัติที่กำหนดของพวกเขา (ไม่ไกลเกินไปจากระดับนัยสำคัญหรือการรายงานข่าวที่มีการอ้างสิทธิ์) และทำงานได้ดี (พลังที่สมเหตุสมผลสำหรับสถานการณ์ทั่วไปหรือ CIs ไม่กว้างกว่าทางเลือก) เพิ่มเติมจากพลังงานกรณีปกติสามารถเป็นปัญหามากขึ้นและในกรณีที่ตัวอย่างขนาดใหญ่โดยทั่วไปจะไม่ปรับปรุงประสิทธิภาพสัมพัทธ์ดังนั้นขนาดของผลกระทบที่เป็นเช่นนั้นพลังงานปานกลางในการทดสอบที่มีพลังงานค่อนข้างดีอาจจะแย่มาก สำหรับการทดสอบที่ถือว่าเป็นเรื่องปกติ

แนวโน้มนี้มีความใกล้เคียงกับคุณสมบัติที่ระบุสำหรับ CIs และระดับความสำคัญในการทดสอบเป็นเพราะปัจจัยหลายอย่างที่ทำงานร่วมกัน (หนึ่งในนั้นคือแนวโน้มของการรวมกันเชิงเส้นของตัวแปรเพื่อให้มีการกระจายใกล้เคียงปกติตราบใดที่มีค่าเกี่ยวข้องมากมาย ไม่มีส่วนใดเลยที่ทำให้เกิดความแปรปรวนทั้งหมด)

อย่างไรก็ตามในกรณีที่มีช่วงเวลาการทำนายตามสมมติฐานปกติความปกติจะค่อนข้างสำคัญเนื่องจากความกว้างของช่วงเวลานั้นขึ้นอยู่กับการกระจายของค่าเดียว อย่างไรก็ตามแม้จะมีขนาดช่วงเวลาที่พบบ่อยที่สุด (ช่วง 95%) ความจริงที่ว่าการแจกแจงแบบ unimodal จำนวนมากมีความใกล้เคียงกับ 95% ของการกระจายของพวกเขาภายในประมาณ 2sds ของค่าเฉลี่ยมีแนวโน้มที่จะส่งผลให้ เมื่อการกระจายไม่ปกติ [สิ่งนี้ไม่ได้ผ่านช่วงเวลาที่แคบหรือกว้างมากนัก - พูดถึงช่วงเวลา 50% หรือช่วง 99.9% -


"แนวโน้มของชุดค่าผสมเชิงเส้นของตัวแปรที่มีการแจกแจงแบบใกล้เคียงกับปกติ" - ฉันคิดว่าสิ่งนี้ไม่ได้เชื่อมต่อกับทฤษฎีขีด จำกัด กลาง ใช่ไหม? ถ้าไม่ใช่ "ทฤษฎีบท" แบบไหนที่เป็นข้อความนี้?
ไฮเซนเบิร์ก

1
@Heisenberg มันมีการเชื่อมต่อกับ CLT รุ่นใดรุ่นหนึ่งใช่ (ดูรุ่น Lyapunov และ Lindeberg ที่นี่ ) หากคุณต้องการทฤษฎีบทที่จะใช้กับกลุ่มตัวอย่าง จำกัด เรากำลังดูทฤษฎีบท Berry-Esseen รุ่นหนึ่ง แต่คำแถลงนั้นตั้งใจสังเกตมากกว่า (ดังนั้นการใช้คำว่า "แนวโน้ม") มากกว่าทฤษฎีบท
Glen_b -Reinstate Monica

7

2: เมื่อทำนายจุดข้อมูลแต่ละจุดช่วงความเชื่อมั่นรอบ ๆ การทำนายนั้นจะถือว่าปกติจะมีการแจกแจงส่วนที่เหลือ

สิ่งนี้ไม่แตกต่างจากสมมติฐานทั่วไปเกี่ยวกับช่วงความเชื่อมั่น - เพื่อความถูกต้องเราจำเป็นต้องเข้าใจการแจกแจงและสมมติฐานที่พบบ่อยที่สุดคือเรื่องปกติ ตัวอย่างเช่นช่วงความมั่นใจมาตรฐานรอบ ๆ งานเฉลี่ยเพราะการแจกตัวอย่างหมายถึงวิธีปกติดังนั้นเราสามารถใช้การแจกแจง az หรือ t

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.