ทำไมการแจกแจงแบบ T ใช้สำหรับการทดสอบสมมุติฐานสัมประสิทธิ์การถดถอยเชิงเส้น?


17

ในทางปฏิบัติการใช้ T-test มาตรฐานเพื่อตรวจสอบความสำคัญของสัมประสิทธิ์การถดถอยเชิงเส้นคือการปฏิบัติทั่วไป กลไกของการคำนวณนั้นสมเหตุสมผลสำหรับฉัน

ทำไมการแจกแจงแบบ T สามารถใช้เป็นแบบจำลองสถิติการทดสอบมาตรฐานที่ใช้ในการทดสอบสมมติฐานการถดถอยเชิงเส้น สถิติทดสอบมาตรฐานฉันหมายถึงที่นี่:

T0=β^β0SE(β^)

คำตอบที่สมบูรณ์และสมบูรณ์สำหรับคำถามนี้จะค่อนข้างยาวฉันแน่ใจ ดังนั้นในขณะที่คุณรอสำหรับคนที่จะแก้ไขปัญหานี้คุณจะได้รับความคิดที่ดีงามของเหตุผลเป็นกรณีนี้โดยดูที่บันทึกบางอย่างที่ฉันพบได้ทั่วไปที่นี่: onlinecourses.science.psu.edu/stat501/node/297 หมายเหตุเฉพาะที่n-P)} t(np)2=F(1,np)
StatsStudent

1
ฉันไม่เชื่อว่านี่จะไม่ซ้ำกัน แต่ยัง upvotes ทั้งหมด (ทั้งในคำถามและคำตอบ) ... แล้วเรื่องนี้ล่ะ? หรืออาจจะไม่ซ้ำกันซึ่งหมายความว่ามี (หรือมีมาจนถึงทุกวันนี้) หัวข้อพื้นฐานขั้นพื้นฐานที่ยังไม่ได้ครอบคลุมตลอดเกือบเจ็ดปีของการดำรงอยู่ของการตรวจสอบข้าม ... ว้าว ...
Richard Hardy

@RichardHardy อืมมดูเหมือนว่าซ้ำซ้อน ในขณะที่มันละเอียดมากขึ้นคำถามนี้ก็คือ: "ฉันจะพิสูจน์ได้อย่างไรสำหรับ , " βฉัน-βฉันβ^iβ^iβisβ^itnk
Firebug

คำตอบ:


26

เพื่อให้เข้าใจว่าทำไมเราถึงใช้การแจกแจงแบบ T คุณต้องรู้ว่าอะไรคือการกระจายตัวของและผลรวมที่เหลือของกำลังสอง ( ) เนื่องจากทั้งสองนี้รวมกันจะทำให้คุณกระจายตัว RSSβ^RSS

ส่วนที่ง่ายกว่าคือการกระจายของซึ่งเป็นการกระจายแบบปกติ - เพื่อดูข้อความนี้ที่ =ดังนั้นจึงเป็นฟังก์ชันเชิงเส้นของที่{n}) ดังนั้นมันจึงถูกแจกจ่ายตามปกติ - แจ้งให้เราทราบหากคุณต้องการความช่วยเหลือ อันเกิดการกระจายตัวของเบต้า} β (XTX)-1XTYYY~N(Xβ,σ2ฉันn) β ~N(β,σ2(XTX)-1) ββ^β^(XTX)1XTYYYN(Xβ,σ2In)β^N(β,σ2(XTX)1)β^

นอกจากนี้โดยที่คือจำนวนการสังเกตและคือจำนวนของพารามิเตอร์ที่ใช้ในการถดถอยของคุณ การพิสูจน์เรื่องนี้เกี่ยวข้องกับอีกเล็กน้อย แต่ก็ตรงไปตรงมาที่จะได้รับ (ดูข้อพิสูจน์ที่นี่เหตุใดจึงมีการแจกแจงข้อมูลไคสแควร์ไคสแควร์ np? ) n pRSSσ2χnp2np

จนถึงจุดนี้ฉันได้พิจารณาทุกอย่างในรูปของเมทริกซ์ / เวคเตอร์ แต่เพื่อความง่ายให้ใช้และใช้การกระจายแบบปกติซึ่งจะให้เรา: βฉัน-βฉันβ^i

β^iβiσ(XTX)ii1N(0,1)

นอกจากนี้จากการแจกแจงไคสแควร์ของเรามี: ( n - p ) s 2RSS

(np)s2σ2χnp2

นี้เป็นเพียงการปรับปรุงใหม่ของการแสดงออกไคสแควร์เป็นครั้งแรกและเป็นอิสระจาก(0,1) นอกจากนี้เรากำหนดซึ่งเป็นประมาณการที่เป็นกลางสำหรับ{2} โดยคำจำกัดความของคำจำกัดความที่แบ่งการแจกแจงแบบปกติโดยอิสระไคสแควร์ (เหนือระดับความเป็นอิสระ) ให้การแจกแจงแบบ t (สำหรับหลักฐานดู: ปกติหารด้วยให้การแจกแจงแบบ t กับคุณคุณจะได้รับ:s 2 = R S SN(0,1) σ2tn-ps2=RSSnpσ2tnpχ2(s)/s

β^iβis(XTX)ii1tnp

ที่ไหน{i})s(XTX)ii1=SE(β^i)

แจ้งให้เราทราบหากเหมาะสม


ช่างเป็นคำตอบที่ยอดเยี่ยม! คุณช่วยอธิบายได้ไหมว่าทำไม ?
β^iβiσ(XTX)ii1N(0,1)
KingDingeling

4

คำตอบนั้นง่ายมาก: คุณใช้การแจกแจงแบบ t เพราะมันถูกออกแบบมาโดยเฉพาะสำหรับจุดประสงค์นี้

ตกลงความแตกต่างที่นี่คือมันไม่ได้ออกแบบมาโดยเฉพาะสำหรับการถดถอยเชิงเส้น Gossetเกิดการกระจายตัวอย่างที่ดึงมาจากประชากร ตัวอย่างเช่นคุณวาดตัวอย่างและคำนวณค่าเฉลี่ยของ n การกระจายตัวของตัวอย่างหมายถึงอะไร ?x1,x2,,xnx¯=i=1nxi/nx¯

ถ้าคุณรู้จริง (ประชากร) ส่วนเบี่ยงเบนมาตรฐานแล้วคุณจะบอกว่าตัวแปรจากการกระจายปกติมาตรฐาน1) ปัญหาที่คุณมักจะไม่ทราบว่าและสามารถประเมินมัน\ดังนั้นโกสเซทจึงหาการกระจายเมื่อคุณแทนที่ด้วยในส่วนและตอนนี้การกระจายจะถูกเรียกหลังจาก pseduonym "Student t" ของเขาσξ=(x¯μ)n/σN(0,1)σσ^σσ^

technicalities ของการถดถอยเชิงเส้นนำไปสู่สถานการณ์ที่เราสามารถประเมินข้อผิดพลาดมาตรฐานของการประมาณค่าสัมประสิทธิ์แต่เราไม่ทราบความจริงดังนั้นการแจกแจงของนักเรียน t จึงถูกนำมาใช้ที่นี่ด้วยσ^ββ^σ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.