จะทดสอบนัยสำคัญทางสถิติสำหรับตัวแปรเด็ดขาดในการถดถอยเชิงเส้นอย่างไร


18

หากในการถดถอยเชิงเส้นฉันมีตัวแปรเด็ดขาด ... ฉันจะทราบความหมาย stastical ของตัวแปรเด็ดขาดได้อย่างไร

สมมุติว่าปัจจัยมี 10 ระดับ ... จะมีค่า t ผลลัพธ์ที่ต่างกัน 10 ค่าภายใต้ตัวแปรปัจจัยเดียว ...X1X1

ดูเหมือนว่าสำหรับฉันแล้วสถิตินัยได้รับการทดสอบสำหรับตัวแปรระดับแต่ละระดับแล้วหรือยัง? ไม่มี?

@Macro: ทำตามคำแนะนำของคุณฉันได้สร้างตัวอย่างต่อไปนี้:

ดูเหมือนว่า x3 มีประโยชน์และต้องรวมอยู่ในโมเดลจากการเปรียบเทียบโมเดลด้านล่าง

แต่จริงๆแล้วมันผิด ...

n=100    
x1=1:n
x2=(1:n)^2 
x3=rnorm(n)
ee=rnorm(n)
y=3*x1-2*x2+x3+3+ee
lm1=lm(y~x1+x2+x3)
summary(lm1)

lm2=lm(y~x1+x2) 
summary(lm2)

anova(lm1, lm2)

> anova(lm1, lm2)
Analysis of Variance Table

Model 1: y ~ x1 + x2 + x3
Model 2: y ~ x1 + x2
  Res.Df     RSS Df Sum of Sq      F    Pr(>F)    
1     96  82.782                                  
2     97 146.773 -1    -63.99 74.207 1.401e-13 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

1
@ Luna ทำไมเป็นเช่นนั้น ดูเหมือนว่าคุณใช้x3ในการสร้างys ดังนั้นมันควรจะรวมอยู่ในรูปแบบและเห็นด้วยกับข้อสรุปที่ p
แมโคร

@ เซท - คุณพูดถูก ฉันแค่ยกตัวอย่างของเล่นของการใช้ anova โดยทั่วไปในการเปรียบเทียบแบบจำลอง ดังนั้นจึงไม่ได้เชื่อมโยงกับคำถามเดิมของฉัน
Luna

@Macro - คุณพูดถูก ตอนนี้ฉันเห็นประเด็น ขอขอบคุณ!
Luna

ฟังก์ชัน 'Anova' จากแพ็คเกจ R 'car' ( pdf ) ให้คุณทดสอบความสำคัญโดยรวมของตัวแปรเด็ดขาด มันทำงานได้กับแพ็คเกจและประเภทของการถดถอยที่แตกต่างกันมากมาย
SK4ndal

คำตอบ:


28

คุณถูกต้องว่าค่าเหล่านั้นจะบอกคุณว่าค่าเฉลี่ยของแต่ละระดับนั้นแตกต่างจากค่าเฉลี่ยของระดับอ้างอิงหรือไม่ ดังนั้นพวกเขาจะบอกคุณเกี่ยวกับคู่ความแตกต่างระหว่างระดับ ในการทดสอบว่าตัวพยากรณ์เชิงหมวดหมู่โดยรวมนั้นมีนัยสำคัญเทียบเท่ากับการทดสอบว่ามีความหลากหลายทางพันธุกรรมในระดับของตัวทำนายหรือไม่ เมื่อไม่มีตัวทำนายอื่น ๆ ในแบบจำลองนี่เป็นปัญหาANOVAแบบดั้งเดิมp

เมื่อมีตัวทำนายอื่น ๆ ในโมเดล คุณมีสองทางเลือกในการทดสอบความสำคัญของตัวพยากรณ์หมวดหมู่:

(1) การทดสอบอัตราส่วน:สมมติว่าคุณมีผลพยากรณ์เชิงปริมาณX ผม1 , . . , X i pและตัวทำนายหมวดหมู่C i ที่มีระดับk ตัวแบบที่ไม่มีตัวทำนายหมวดหมู่คือYiXi1,...,XipCik

Yi=β0+β1Xi1+...+βpXip+εi

ในRคุณสามารถใส่โมเดลนี้ด้วยlm()คำสั่งและแยกโอกาสในการบันทึกด้วยlogLikคำสั่ง เรียกสิ่งนี้เข้าสู่ระบบความน่าจะเป็น 0 ถัดไปคุณสามารถจัดวางโมเดลด้วยเครื่องมือทำนายหมวดหมู่:L0

Yi=β0+β1Xi1+...+βpXip+j=1k1αjBj+εi

โดยที่เป็นตัวแปรจำลองซึ่งเป็น1ถ้าD i = jและ0 เป็นอย่างอื่น ระดับkคือระดับอ้างอิงซึ่งเป็นสาเหตุที่มีเพียงk - 1เทอมในผลรวม จะทำโดยอัตโนมัติหุ่นนี้การเข้ารหัสสำหรับคุณถ้าคุณผ่านตัวแปรเด็ดขาดไป คุณสามารถใส่แบบจำลองนี้ในทำนองเดียวกันและแยกโอกาสในการบันทึกดังกล่าวข้างต้น เรียกสิ่งนี้เข้าสู่ระบบความน่าจะเป็นL 1 จากนั้นภายใต้สมมติฐานว่างที่D ฉันไม่มีผลกระทบBj1Di=j0kk1Rlm()L1Di

λ=2(L1L0)

χ2k1p1-pchisq(2*(L1-L0),df=k-1)R

FRRlm()g1g0anova(g1,g0)

F


ขอบคุณมากครับ ฉันพบว่าข้อมูลของฉันไม่ปกติ พล็อต QQ มีดังนี้: เส้นโค้งอยู่ต่ำกว่าเส้นตรง 45 องศา เส้นโค้งสัมผัสกับเส้นตรงนั้น และเส้นโค้งดูเหมือนกับเส้นโค้งของ f (x) = - x ^ 2 (รูปร่างฉลาด) ฉันกำลังเผชิญกับปัญหาอะไร และฉันจะแก้ไขได้อย่างไร ขอขอบคุณ!
Luna

1
@ Luna ข้อมูลของคุณไม่ปกติหรือมีสารตกค้างสูงหรือไม่ผิดปกติ? นอกจากนี้ฉันไม่คิดว่าเป็นไปได้ที่คะแนนทั้งชุดจะอยู่ภายใต้เส้น 45 องศา
แมโคร

โอ้จริงแล้วคุณพูดถูก ... ฉันเพิ่งดูพล็อต QQ อีกครั้ง ไม่ใช่คะแนนทั้งชุดที่อยู่ใต้เส้น 45 องศา มันคือเส้นโค้งที่มีรูปร่างของ f (x) = - x ^ 2 คือ "แทนเจนต์" ถึงเส้น 45 องศา โดย "แทนเจนต์" ฉันควรหมายความว่าจุดเหล่านั้นรอบจุด "แทนเจนต์" นั้นสูงกว่าเส้น 45 องศาเล็กน้อยมาก ดังนั้นการพูดด้วยสายตาข้อมูลส่วนใหญ่ (~ 98%) อยู่ต่ำกว่าระดับ 45 องศา ... ฉันต้องทำอย่างไรก่อนแก้ไขปัญหานี้ก่อนทำการเปรียบเทียบแบบจำลอง ขอขอบคุณ!
Luna

2
หากขนาดตัวอย่างของคุณค่อนข้างใหญ่ p

1
@ Druss2k ใช่ถูกต้อง
มาโคร
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.