การทดสอบทางสถิติทั่วไปเป็นแบบจำลองเชิงเส้น


22

(อัปเดต: ฉันพุ่งลึกเข้าไปในสิ่งนี้และโพสต์ผลลัพธ์ที่นี่ )

รายการทดสอบทางสถิติที่ตั้งชื่อนั้นมีขนาดใหญ่มาก การทดสอบทั่วไปจำนวนมากอาศัยการอนุมานจากโมเดลเชิงเส้นอย่างง่ายเช่นหนึ่งตัวอย่าง t-test คือy = β + εซึ่งทดสอบกับแบบจำลองโมฆะy = μ + εนั่นคือβ = μโดยที่μเป็นโมฆะบางอย่าง ค่า - โดยทั่วไปแล้วμ = 0

ฉันคิดว่านี่เป็นคำแนะนำเพื่อวัตถุประสงค์ในการสอนมากกว่าการเรียนรู้แบบท่องจำที่มีชื่อเมื่อใช้และสมมติฐานของพวกเขาราวกับว่าพวกเขาไม่มีอะไรเกี่ยวข้องกัน วิธีการส่งเสริมนั้นไม่ส่งเสริมความเข้าใจ อย่างไรก็ตามฉันไม่สามารถหาแหล่งรวบรวมที่ดีได้ ฉันสนใจในการเปรียบเทียบระหว่างโมเดลพื้นฐานมากกว่าวิธีการอนุมานจากพวกเขา แม้ว่าเท่าที่ฉันเห็นการทดสอบอัตราส่วนความน่าจะเป็นในตัวแบบเชิงเส้นทั้งหมดนี้ให้ผลลัพธ์แบบเดียวกับการอนุมานแบบ "คลาสสิค"

ต่อไปนี้เป็นสิ่งที่ฉันได้เรียนรู้มาโดยไม่คำนึงถึงข้อผิดพลาดและสมมติว่าสมมติฐานว่างทั้งหมดไม่มีผล:εN(0,σ2)

หนึ่งตัวอย่าง t-test: 0y=β0H0:β0=0

t-test ตัวอย่างแบบจับคู่: y2y1=β0H0:β0=0

สิ่งนี้เหมือนกับ t-test หนึ่งตัวอย่างในความแตกต่างแบบคู่

t-test สองตัวอย่าง: y=β1xi+β0H0:β1=0

โดยที่ x คือตัวบ่งชี้ (0 หรือ 1)

เพียร์สันสหสัมพันธ์: y=β1x+β0H0:β1=0

สังเกตความคล้ายคลึงกันกับ t-test สองตัวอย่างซึ่งเพิ่งถดถอยบนแกน x-binary

สเปียร์แมน สหพันธ์ : rank(y)=β1rank(x)+β0H0:β1=0

นี่ก็เหมือนกับความสัมพันธ์ของเพียร์สันในการแปรเปลี่ยนอันดับ x และ y

ANOVA แบบทางเดียว: y=β1x1+β2x2+β3x3+...H0:β1,β2,β3,...=β

โดยที่เป็นตัวบ่งชี้การเลือกเกี่ยวข้อง(หนึ่งคือ 1 ส่วนอื่น ๆ เป็น 0) รูปแบบอาจจะเขียนในรูปแบบเมทริกซ์เท่าXxiβxY=βX

ANOVA แบบสองทาง: y=β1X1+β2X2+β3X1X2H0:β3=0

สำหรับสองปัจจัยสองระดับ นี่เป็นพาหะของเบต้าที่หนึ่งจะถูกเลือกโดยตัวบ่งชี้เวกเตอร์x_iแสดงที่นี่เป็นผลการปฏิสัมพันธ์βiXiH0

เราสามารถเพิ่ม "การทดสอบที่กำหนดชื่อ" เพิ่มเติมลงในรายการโมเดลเชิงเส้นนี้ได้หรือไม่ เช่นการถดถอยหลายตัวแปรการทดสอบแบบ "ไม่อิงพารามิเตอร์" การทดสอบแบบทวินามหรือ RM-ANOVAs

อัปเดต: มีการถามคำถามและตอบเกี่ยวกับการวิเคราะห์ความแปรปรวนและการทดสอบ t เป็นโมเดลเชิงเส้นที่นี่ใน SO ดูคำถามนี้และการติดแท็คำถามที่เกี่ยวข้อง


1
ฉันคิดว่าการเปรียบเทียบเหล่านี้มีความเหมาะสม แต่ในบางจุดก็มีความแตกต่างเล็กน้อยเช่นกัน เช่นใช้การวิเคราะห์ความแปรปรวนทางเดียว: การถดถอยเชิงเส้นจะให้ค่าสัมประสิทธิ์กับคุณและในชุดซอฟต์แวร์ส่วนใหญ่จะมีความสำคัญต่อสัมประสิทธิ์กับการทดสอบ Wald (ซึ่งอาจไม่เหมาะสม) ANOVA จะให้ค่า p เดียวที่ระบุว่ามี สัมประสิทธิ์อย่างใดอย่างหนึ่งแตกต่างจากศูนย์อย่างมีนัยสำคัญ การทดสอบอัตราส่วนความน่าจะเป็นระหว่างตัวแบบโมฆะกับตัวแบบการถดถอยที่น่าสนใจอาจเปรียบเทียบกันได้มากกว่า ดังนั้นฉันจะไม่ทำให้การทดสอบ / โมเดลเหล่านี้เท่ากันทั้งหมด
IWS

จุดดี; ฉันอัปเดตคำถามโดยบอกว่า "ฉันสนใจสิ่งที่เปรียบเทียบระหว่างโมเดลพื้นฐานมากกว่าวิธีการอนุมานจากพวกเขา" การทดสอบอัตราส่วนความน่าจะเป็นใน ANOVAs แบบทางเดียวและเงื่อนไขการโต้ตอบให้ค่า p เหมือนกันกับการวิเคราะห์แบบ "คลาสสิค" เท่าที่การทดสอบของฉันดำเนินการ
Jonas Lindeløv

1
ยุติธรรมเพียงพอ แต่อนุมานกันโปรดทราบว่าตัวแบบการถดถอยยังให้ความยืดหยุ่นที่เพิ่มขึ้นเมื่อจัดการแบบไม่เป็นเชิงเส้น (แม้ว่าการเปลี่ยนแปลงอาจถูกทดสอบด้วย 'การทดสอบที่มีชื่อ' เหล่านี้เป็นเรื่องแตกต่างกัน) หรือการจัดการแบบ heteroscedasticity ของโมเดลทั่วไปที่จัดการตัวแปรที่ไม่ต่อเนื่อง อย่างไรก็ตามฉันสามารถดูการอธิบายการทดสอบที่ตั้งชื่อว่ารูปแบบการถดถอยที่ จำกัด สำหรับจุดประสงค์ในการสอนอาจมีข้อดีดังนั้น +1
IWS

1
สเปียร์แมนจัดอันดับความสัมพันธ์เป็นโมเดลเชิงเส้นจริง ๆ หรือไม่
Martin Dietz

1
@MartinDietz: ใช่หลังจากเปลี่ยนอันดับ x และ y มันเป็นเส้นตรง รหัส R:x = rnorm(100); y = rnorm(100); summary(lm(rank(x) ~ rank(y))); cor.test(x, y, method='spearman')
Jonas Lindeløv

คำตอบ:


6

ไม่ใช่รายการที่ครบถ้วน แต่ถ้าคุณรวมโมเดลเชิงเส้นทั่วไปขอบเขตของปัญหานี้จะใหญ่ขึ้นอย่างมาก

ตัวอย่างเช่น

E[logit(พี)|เสื้อ]=β0+β1เสื้อH0:β1=0

พี×k

E[เข้าสู่ระบบ(μ)]=β0+βผม.+β.J+γผมJผม,J>1H0:γผมJ=0,ผม,J>1

นอกจากนี้ยังมีการประมาณค่า t-test สำหรับความแปรปรวนที่ไม่เท่ากันโดยใช้การประมาณข้อผิดพลาดที่มีประสิทธิภาพของ Huber White

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.