เมื่อใดจึงจะใช้การกระจายของนักเรียนหรือปกติในการถดถอยเชิงเส้น


10

ฉันกำลังดูปัญหาและในการทดสอบสัมประสิทธิ์บางครั้งฉันเห็นคนที่ใช้การแจกแจงของนักเรียนและบางครั้งฉันเห็นการแจกแจงแบบปกติ กฎคืออะไร?


3
นี่ไม่ใช่คำตอบ แต่โปรดทราบว่า -distribution ใกล้กับการแจกแจงแบบปกติเนื่องจากพารามิเตอร์ degrees-freedom- νมีขนาดใหญ่ขึ้น ที่ผ่านมาเข้าพบ30 , ไม่มีความแตกต่างที่เห็นได้โดยเฉพาะอย่างยิ่งในส่วนการทดสอบสมมติฐานกรอบ พฤติกรรมที่ จำกัด คือ "จากด้านบน" ในแง่ที่ว่าถ้าT t νและZ N ( 0 , 1 )จากนั้น| T | มีขนาดใหญ่กว่า| Z | . เสื้อνν30T~เสื้อνZ~ยังไม่มีข้อความ(0,1)|T||Z|
สำคัญ

คำตอบ:


15

การแจกแจงแบบปกติคือการกระจายตัวอย่างขนาดใหญ่ในปัญหาทางสถิติที่มีความหมายหลายอย่างซึ่งเกี่ยวข้องกับทฤษฎีบทขีด จำกัด กลางบางรุ่น: คุณมีข้อมูลที่เป็นอิสระ (โดยประมาณ) ที่ถูกเพิ่มเข้ามาเพื่อให้ได้คำตอบ หากการประมาณค่าพารามิเตอร์เป็นแบบปกติเชิงเส้นกำกับฟังก์ชันของพวกเขาก็จะเป็นแบบปกติแบบเส้นกำกับด้วย (ในกรณีปกติ)

ในทางกลับกันการแจกแจงของนักเรียนนั้นเกิดขึ้นภายใต้เงื่อนไขที่ จำกัด มากขึ้นของข้อผิดพลาดการถดถอยปกติของ iid หากคุณสามารถซื้อสมมติฐานนี้คุณสามารถซื้อt-ดิสทริบิวชันที่ใช้สำหรับทดสอบสมมติฐานในการถดถอยเชิงเส้น การใช้การกระจายนี้ให้ช่วงความมั่นใจที่กว้างกว่าการใช้การแจกแจงแบบปกติ ความหมายที่แท้จริงของว่าที่อยู่ในกลุ่มตัวอย่างขนาดเล็กที่คุณจำเป็นต้องประเมินตัวชี้วัดของคุณของความไม่แน่นอนที่ถดถอยข้อผิดพลาดยกกำลังสองเฉลี่ยหรือค่าเบี่ยงเบนมาตรฐานของเศษ, σ (ในกลุ่มตัวอย่างขนาดใหญ่คุณมีข้อมูลมากพอ ๆ กับที่คุณรู้ดังนั้นt -distribution จะลดลงตามการแจกแจงแบบปกติ)เสื้อเสื้อσเสื้อ

มีบางโอกาสในการถดถอยเชิงเส้นแม้จะมีตัวอย่าง จำกัด ซึ่งการกระจายนักศึกษาไม่สามารถพิสูจน์ได้ พวกเขาเกี่ยวข้องกับการละเมิดเงื่อนไขการสั่งซื้อลำดับที่สองจากข้อผิดพลาดในการถดถอย กล่าวคือพวกเขาเป็น (1) ความแปรปรวนคงที่และ (2) เป็นอิสระ หากสมมติฐานเหล่านี้ถูกละเมิดและคุณแก้ไขข้อผิดพลาดมาตรฐานของคุณโดยใช้Eicker / White estimatorสำหรับ heteroskedastic แต่มีความเป็นอิสระเหลืออยู่ หรือตัวประมาณค่าNewey-Westสำหรับข้อผิดพลาดที่สัมพันธ์กันแบบอนุกรมหรือข้อผิดพลาดมาตรฐานแบบกลุ่มสำหรับข้อมูลที่สัมพันธ์กับคลัสเตอร์ไม่มีวิธีที่คุณสามารถดึงเหตุผลที่สมเหตุสมผลสำหรับการแจกแจงของนักเรียน อย่างไรก็ตามโดยการใช้อาร์กิวเมนต์ที่เหมาะสมเชิงเส้นกำกับ (รุ่นอาร์เรย์ traingular และเช่นนั้น) รุ่นที่เหมาะสมคุณสามารถปรับการประมาณปกติ (แม้ว่าคุณควรทราบว่าช่วงความเชื่อมั่นของคุณนั้นแคบเกินไป)


1
(+1) ฉันชอบความหมายในการเปิดย่อหน้าที่สามการถดถอยเชิงเส้นนั้นทำกับตัวอย่างอนันต์ (ไม่ใช่ - "จำกัด ")!
whuber

@whuber: :) ในหนังสือของฉันถ้ามันเป็นเรื่องปกติมันจะต้องอาศัย CLT หรือสิ่งที่ไม่มีอาการ มิฉะนั้นก็จะทำให้ความรู้สึกมากเท่านี้
StasK

6

ฉันชอบการเป็นตัวแทนของการกระจายตัวของนักเรียนเป็นส่วนผสมของการแจกแจงแบบปกติและการแจกแจงแกมม่า:

Sเสื้อยูdอีnเสื้อ(x|μ,σ2,ν)=0ยังไม่มีข้อความโอRม.aล.(x|μ,σ2ρ)Gaม.ม.a(ρ|ν2,ν2)dρ

โปรดทราบว่าค่าเฉลี่ยของการแจกแจงแกมม่าคือและความแปรปรวนของการแจกแจงนี้คือV [ ρ | ν ] = 2E[ρ|ν]=1ν ดังนั้นเราสามารถดูการแจกแจงแบบ t เป็นการสรุปสมมติฐานความแปรปรวนแบบคงที่กับสมมติฐานความแปรปรวน "ที่คล้ายกัน" νโดยพื้นฐานแล้วควบคุมว่าเราอนุญาตให้มีความแปรปรวนได้อย่างไร นอกจากนี้คุณยังเห็นว่านี่เป็นการถดถอยแบบ "สุ่มถ่วงน้ำหนัก" เพื่อให้เราสามารถใช้อินทิกรัลด้านบนเป็นการแสดง "ตัวแปรที่ซ่อนอยู่" ดังนี้:V[ρ|ν]=2νν

Yผม=μผม+อีผมρผม

โดยที่และρ iG a m m a ( νอีผม~ยังไม่มีข้อความ(0,σ2)ตัวแปรทั้งหมดเป็นอิสระ อันที่จริงนี่เป็นเพียงนิยามของการแจกแจงแบบ t ขณะที่Gamma(νρผม~Gaม.ม.a(ν2,ν2)Gaม.ม.a(ν2,ν2)~1νχν2

Yผม-μผมσ2ρผมσ2ρผมρผมμผม=xผมTβρผมρผม

β^=(ΣผมρผมxผมxผมT)-1(ΣผมρผมxผมYผม)

ρผมρผม

โปรดทราบว่าไม่มี "กฎ" สำหรับการตัดสินใจสิ่งเหล่านี้แม้ว่าการตอบสนองของฉันและผู้อื่นต่อคำถามนี้อาจเป็นประโยชน์สำหรับการค้นหาการทดสอบบางอย่างที่คุณสามารถทำได้ตามเส้นทางการแปรปรวนอัน จำกัด (นักเรียน t คือความแปรปรวนอนันต์สำหรับองศาอิสระน้อยกว่าหรือเท่ากับ ถึงสอง)


+1: สิ่งนี้ดูถูกต้อง แต่ฉันไม่คิดว่าคุณควรพูดว่ามีส่วนผสมของการกระจายตัวแบบปกติกับการกระจายแกมม่า แต่เป็นการกระจายตัวแบบแกมมา - ปกติและกระตุ้นการสร้างนี้โดยบอกว่าการกระจายแกมมาแบบปกติคือ คอนจูเกตก่อนการแจกแจงแบบปกติ (parametrized โดยค่าเฉลี่ยและความแม่นยำ)
Neil G

ใช่ประเด็นเกี่ยวกับส่วนผสม - แม้ว่าฉันไม่สามารถคิดวิธีที่ไม่ซุ่มซ่ามในการแก้ไขได้ในขณะนี้ โปรดทราบว่ารูปแบบนี้ไม่ซ้ำกันเพื่อเชื่อมต่อคอนจูเกต - ตัวอย่างเช่นหากเราแทนที่ gamma pdf ด้วย pdf exponential แบบกลับด้านเราจะได้การแจกแจงแบบ Laplace สิ่งนี้นำไปสู่ ​​"การเบี่ยงเบนสัมบูรณ์อย่างน้อยที่สุด" แทนที่จะเป็นกำลังสองน้อยที่สุดเป็นรูปแบบหนึ่งของการทำให้การแจกแจงปกติมีความแข็งแกร่ง การแจกแจงอื่น ๆ จะนำไปสู่ ​​"การทำให้สมบูรณ์" อื่น ๆ - บางทีอาจจะไม่เชิงวิเคราะห์เท่าที่นักเรียนทำ
ความน่าจะเป็นทางการที่

X(ยู/ν)
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.