ทำความเข้าใจเกี่ยวกับการทดสอบ t สำหรับการถดถอยเชิงเส้น


17

ฉันกำลังพยายามหาวิธีการทดสอบสมมติฐานบางอย่างเกี่ยวกับการถดถอยเชิงเส้น (สมมติฐานว่างไม่มีความสัมพันธ์) ทุกคำแนะนำและหน้าในเรื่องที่ฉันพบดูเหมือนจะใช้การทดสอบ t แต่ฉันไม่เข้าใจความหมายของการทดสอบการถดถอยเชิงเส้น การทดสอบแบบทียกเว้นว่าฉันมีความเข้าใจผิดอย่างสมบูรณ์หรือแบบจำลองทางจิตถูกใช้เพื่อเปรียบเทียบประชากรสองคน แต่ regressor และ regressand ไม่ใช่ตัวอย่างของประชากรที่คล้ายกันและอาจไม่ได้เป็นหน่วยเดียวกันดังนั้นจึงไม่มีเหตุผลที่จะเปรียบเทียบมัน

ดังนั้นเมื่อใช้ t-test ในการถดถอยเชิงเส้นสิ่งที่เราทำจริง ๆ ?

คำตอบ:


37

คุณอาจจะกำลังคิดของทั้งสองตัวอย่างtทดสอบเพราะนั่นคือมักจะเป็นสถานที่แรกtกระจายขึ้นมา แต่จริงๆแล้วการทดสอบทั้งหมดtหมายความว่าการกระจายการอ้างอิงสำหรับสถิติการทดสอบเป็นการกระจายตัวtถ้าZN(0,1)และS2χd2กับZและS2เป็นอิสระดังนั้น

ZS2/dtd
โดยคำจำกัดความ ฉันเขียนสิ่งนี้เพื่อเน้นว่าการกระจายตัวtเป็นเพียงชื่อที่กำหนดให้กับการกระจายตัวของอัตราส่วนนี้เพราะมันมีจำนวนมากและสิ่งใด ๆ ของรูปแบบนี้จะมีการแจกแจงแบบtสำหรับการทดสอบทีสองตัวอย่างอัตราส่วนนี้จะปรากฏขึ้นเพราะภายใต้โมฆะความแตกต่างในวิธีการที่เป็นศูนย์เฉลี่ยเกาส์และประมาณการความแปรปรวนอิสระ Gaussians เป็นอิสระχ2(อิสระสามารถแสดงผ่านทฤษฎีบทของซึ ซึ่งใช้ความจริงที่ว่าการประมาณค่าความแปรปรวนมาตรฐานในตัวอย่าง Gaussian นั้นขึ้นอยู่กับค่าเฉลี่ยประชากรในขณะที่ค่าเฉลี่ยตัวอย่างสมบูรณ์และเพียงพอสำหรับปริมาณเดียวกันนั้น)

ด้วยการถดถอยเชิงเส้นโดยทั่วไปแล้วเราได้สิ่งเดียวกัน β ~ N ( β , σ 2 ( X T X ) - 1 ) ให้S 2 j = ( X T X ) - 1 j jและถือว่าตัวทำนายXเป็นแบบไม่สุ่ม ถ้าเรารู้σ 2เราต้องการมี βเจβ^~ยังไม่มีข้อความ(β,σ2(XTX)-1)SJ2=(XTX)JJ-1Xσ2 ภายใต้ nullH0:βJ=0ดังนั้นเราต้องการจริงมีการทดสอบ Z แต่เมื่อเราประเมินσ2เราจบลงด้วยχ2ตัวแปรสุ่มว่าภายใต้สมมติฐานปกติของเราจะออกมาเป็นอิสระจากสถิติของเรา βเจ

β^J-0σSJ~ยังไม่มีข้อความ(0,1)
H0:βJ=0σ2χ2β^Jและจากนั้นเราจะได้รับกระจายเสื้อ

นี่คือรายละเอียดของการที่: สมมติ ) ปล่อยให้H = X ( X T X ) - 1 X Tเป็นเมทริกซ์หมวกที่เรามี อี2 = ( ฉัน- H ) Y 2 = Y T ( ฉัน- H ) Y Hคือ idempotent ดังนั้นเราจึงได้ผลลัพธ์ที่ดีจริงๆ Y~ยังไม่มีข้อความ(Xβ,σ2ผม)H=X(XTX)-1XT

อี2=(ผม-H)Y2=YT(ผม-H)Y.
H พร้อมพารามิเตอร์ที่ไม่ใช่ศูนย์กลาง δ = β T X T ( I - H ) X β = β T ( X T X - X T X ) β = 0ดังนั้นจริง ๆ แล้วนี่คือศูนย์กลาง χ 2 ที่มี n - p
YT(ผม-H)Y/σ2~χn-พี2(δ)
δ=βTXT(ผม-H)Xβ=βT(XTX-XTX)β=0χ2n-พีองศาอิสระ (นี่เป็นกรณีพิเศษของทฤษฎีบทของ Cochran ) ฉันกำลังใช้เพื่อแสดงจำนวนคอลัมน์ของXดังนั้นถ้าคอลัมน์หนึ่งของXให้การสกัดกั้นจากนั้นเราก็จะมีp - 1ทำนายการสกัดกั้นไม่ ผู้เขียนบางคนใช้pเป็นจำนวนผู้ทำนายที่ไม่ถูกดักจับดังนั้นบางครั้งคุณอาจเห็นบางสิ่งเช่นn - p - 1ในระดับความเป็นอิสระที่นั่น แต่มันก็เหมือนกันทั้งหมดพีXXพี-1พีn-พี-1

ผลจากการนี้ก็คือว่าดังนั้นσ 2E(อีTอี/σ2)=n-พีงานได้ดีในฐานะผู้ประมาณσ^2=1n-พีอีTอี 2σ2

ซึ่งหมายความว่า βเจ คืออัตราส่วนของ Gaussian มาตรฐานต่อไคสแควร์หารด้วยองศาอิสระ ในการทำให้เสร็จเราต้องแสดงความเป็นอิสระและเราสามารถใช้ผลลัพธ์ต่อไปนี้:

β^Jσ^SJ=β^JSJอีTอี/(n-พี)=β^JσSJอีTอีσ2(n-พี)

ส่งผลให้เกิด:สำหรับและเมทริกซ์และBในR L × kและR เมตร× kตามลำดับZและB Zมีความเป็นอิสระและถ้าหากΣ B T =Z~ยังไม่มีข้อความk(μ,Σ)ABRล.×kRม.×kAZBZ (นี่คือการออกกำลังกาย 58 (b) ในบทที่ 1 ของสถิติทางคณิตศาสตร์ของJun Shao)AΣBT=0

เรามีβ = ( X T X ) - 1 X T YและE = ( ฉัน- H ) Yที่Y ~ N ( X β , σ 2ฉัน ) วิธีนี้ ( X T X ) - 1 X Tσ 2ผม( ฉัน- H ) T = σ 2β^=(XTX)-1XTYอี=(ผม-H)YY~ยังไม่มีข้อความ(Xβ,σ2ผม) ดังนั้นบีตาอีและดังนั้นจึงบีตาอีทีอี

(XTX)-1XTσ2ผม(ผม-H)T=σ2((XTX)-1XT-(XTX)-1XTX(XTX)-1XT)=0
β^อีβ^อีTอี

ผลที่สุดก็คือตอนนี้เรารู้ βเจ ตามที่ต้องการ (ภายใต้สมมติฐานข้างต้น)

β^Jσ^SJ~เสื้อn-พี

=(AB)(ล.+ม.)×kAB

Z=(AZBZ)~ยังไม่มีข้อความ((AμBμ),ΣT)
ΣT=(AB)Σ(ATBT)=(AΣATAΣBTBΣATBΣBT).
ZAΣBT=0AZBZCZ


3
+1 สนุกกับการอ่านคำตอบของคุณเสมอ
Haitao Du

9

@ คำตอบของ Chaconne เยี่ยมมาก แต่นี่เป็นเวอร์ชันที่ไม่ใช่ทางคณิตศาสตร์ที่สั้นกว่ามาก!

เนื่องจากเป้าหมายคือการคำนวณค่า P คุณต้องกำหนดสมมติฐานว่างก่อน เกือบตลอดเวลานั่นคือความชันเป็นแนวนอนดังนั้นค่าตัวเลขสำหรับความชัน (เบต้า) คือ 0.0

ความชันพอดีจากข้อมูลของคุณไม่ใช่ 0.0 ความแตกต่างนั้นเกิดจากการสุ่มเลือกหรือเนื่องจากสมมติฐานว่างเปล่าผิดหรือเปล่า? คุณไม่สามารถตอบได้อย่างแน่นอน แต่ค่า P เป็นวิธีหนึ่งในการรับคำตอบแบบเรียงลำดับ

โปรแกรมการถดถอยรายงานข้อผิดพลาดมาตรฐานของความชัน คำนวณอัตราส่วน t เป็นความชันหารด้วยข้อผิดพลาดมาตรฐาน ที่จริงแล้วมันคือ (ความชันลบความชันสมมุติฐานว่างโมฆะ) หารด้วยข้อผิดพลาดมาตรฐาน แต่ความชันของสมมติฐานว่าง ๆ นั้นเกือบจะเป็นศูนย์เสมอ

ตอนนี้คุณมีอัตราส่วน จำนวน degree of freedom (df) เท่ากับจำนวนจุดข้อมูลลบด้วยจำนวนของพารามิเตอร์ที่พอดีโดยการถดถอย (สองสำหรับการถดถอยเชิงเส้น)

ด้วยค่าเหล่านั้น (t และ df) คุณสามารถกำหนดค่า P ด้วยเครื่องคิดเลขออนไลน์หรือตาราง

มันเป็นตัวอย่างหนึ่งทดสอบ t- เปรียบเทียบค่าที่คำนวณได้สังเกต (ความลาดชัน) กับค่าสมมุติฐาน (สมมติฐานว่าง)


4
คำถามที่แท้จริงคือเหตุผลที่ว่าทำไม "เป็นตัวอย่างการทดสอบ t-test" และฉันไม่เห็นว่ามันจะชัดเจนจากคำตอบของคุณ ...
อะมีบาพูดว่า Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.