จะตีความคำดักจับใน GLM ได้อย่างไร?


20

ฉันใช้ R และฉันทำการวิเคราะห์ข้อมูลของฉันด้วย GLM ด้วยลิงค์ทวินาม

ฉันต้องการทราบความหมายของการสกัดกั้นในตารางผลลัพธ์ การสกัดกั้นสำหรับแบบจำลองของฉันมีความแตกต่างอย่างมีนัยสำคัญอย่างไรก็ตามตัวแปรไม่ได้ สิ่งนี้หมายความว่า?

การสกัดกั้นคืออะไร ฉันไม่รู้ว่าฉันเพิ่งสับสนตัวเอง แต่เมื่อค้นหาทางอินเทอร์เน็ตไม่มีอะไรที่จะพูดมันคือสิ่งนี้สังเกตมัน ... หรือไม่

กรุณาช่วยนักเรียนที่ผิดหวังมาก


glm(formula = attacked_excluding_app ~ treatment, family = binomial, 
    data = data)
Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.3548   0.3593   0.3593   0.3593   0.3593  
Coefficients:
                         Estimate Std. Error z value Pr(>|z|)   
(Intercept)                 2.708      1.033   2.622  0.00874 **
treatmentshiny_non-shiny    0.000      1.461   0.000  1.00000

(Dispersion parameter for binomial family taken to be 1)
Null deviance: 14.963  on 31  degrees of freedom
Residual deviance: 14.963  on 30  degrees of freedom
(15 observations deleted due to missingness)
AIC: 18.963
Number of Fisher Scoring iterations: 5

1
ฟังก์ชันลิงค์ที่คุณระบุใน glm คืออะไร
โทมัส

5
การสกัดกั้นเป็นค่าที่ทำนายไว้ของตัวแปรตามเมื่อตัวแปรอิสระทั้งหมดคือ 0 หากไม่มีข้อมูลเพิ่มเติมเกี่ยวกับแบบจำลองของคุณฉันไม่สามารถบอกได้ว่าสิ่งนี้มีความหมายในกรณีของคุณหรือไม่
Peter Flom - Reinstate Monica

คำตอบ:


21

คำว่าการดักฟังคือจุดตัดในส่วนเชิงเส้นของสมการ GLM ดังนั้นแบบจำลองของคุณสำหรับค่าเฉลี่ยคือโดยที่คือฟังก์ชันลิงก์ของคุณและเป็นโมเดลเชิงเส้นของคุณ โมเดลเชิงเส้นนี้มีคำว่า "ดักจับ" เช่น:g X βE[Y]=ก.-1(Xβ)ก.Xβ

Xβ=+X1β1+X2β2+

ในกรณีของคุณการสกัดกั้นนั้นไม่ใช่ศูนย์อย่างมีนัยสำคัญ แต่ตัวแปรไม่ได้ดังนั้นมันจึงบอกว่า

Xβ=0

เพราะฟังก์ชั่นลิงค์ของคุณเป็นทวินามแล้ว

ก.(μ)=LN(μ1-μ)

และด้วยเพียงแค่จุดตัดแกนโมเดลที่คุณติดตั้งสำหรับค่าเฉลี่ยคือ:

E[Y]=11+อี-

คุณจะเห็นว่าถ้าสิ่งนี้จะสอดคล้องกับโอกาส 50:50 ที่จะได้ Y = 1 หรือ 0 นั่นคือE [ Y ] = 1=0E[Y]=11+1=0.5

ดังนั้นผลลัพธ์ของคุณจะบอกว่าคุณไม่สามารถทำนายผลลัพธ์ได้ แต่คลาสหนึ่ง (1 หรือ 0) มีแนวโน้มมากกว่าอีกคลาสหนึ่ง


2
คุณทำให้ฉันกลัวที่ E [Y] = .... :) ขอบคุณสำหรับการตอบกลับฉันทำ (ปิด) เข้าใจสิ่งที่คุณพูด คุณบอกว่าการสกัดกั้นเป็นแบบซิก ไม่ใช่ศูนย์ แต่เป็น var ไม่ใช่มันคือ p = 1.00!? ตัวแปร p-value มีผลกระทบอย่างไรต่อสิ่งที่ฉันสามารถพูดเกี่ยวกับ resut
ซามูเอลวอลตรอน

2
หากตัวแปร p-value ไม่เล็กมักจะไม่รวมตัวแปรนั้นในโมเดล ในกรณีของคุณตัวแปรไม่ได้ถูกประเมินว่ามีค่าที่ไม่เป็นศูนย์ดังนั้นค่า p คือ 1.00 โดยทั่วไปจะไม่มีความสัมพันธ์ระหว่าง "การรักษา" และ "Attack_excluding_app" การขาดความสัมพันธ์สมบูรณ์แบบที่นี่จนเกือบจะสงสัยแม้ว่าคุณจะมีชุดข้อมูลขนาดเล็กก็ตาม มันอาจจะคุ้มค่าในการแสดงข้อมูลของคุณและดูว่ามันสมเหตุสมผลหรือไม่
Corone

2
+1 สำหรับคำตอบ (และข้อเสนอแนะในความคิดเห็นว่ามีสิ่งผิดปกติเกิดขึ้นในชุดข้อมูล) แม้ว่าฉันจะไม่เห็นด้วยกับการเปิดความคิดเห็นของคุณ "ถ้าตัวแปร p-value ไม่เล็กมักจะไม่รวมตัวแปรนั้นใน รูปแบบ." สิ่งนี้ไม่จำเป็น - บ่อยครั้งที่คนหนึ่งต้องการรายงานขนาดของความสัมพันธ์แม้ว่ามันจะไม่ "สำคัญ" (และอีกประเด็นถ้าคุณสนใจที่จะสร้างแบบจำลองความสัมพันธ์ที่จะเริ่มด้วยผลลัพธ์ที่เป็นโมฆะคือ ยังคงมีความสำคัญในการรายงาน)
James Stanley

1
@ James - เป็นจุดที่ดีมากคนหนึ่งควรรายงานตัวแปรที่คุณทดสอบ - ฉันควรจะชัดเจนกว่าฉันแค่หมายความว่าโดยทั่วไปแล้วจะไม่มีตัวแปรนั้นเมื่อพยายามใช้ตัวแบบเพื่อคาดการณ์ (เพราะมักจะหมายถึงการมีส่วนเกิน )
Corone

@Corone - ฉันสนใจในความคิดเห็นของคุณที่นี่เกี่ยวกับตัวแปรในการยกเว้น / และความสัมพันธ์กับเธรดที่stats.stackexchange.com/questions/17624/…
rolando2

5

ดูเหมือนว่าฉันจะมีปัญหากับข้อมูล เป็นเรื่องแปลกที่ค่าประมาณพารามิเตอร์ของสัมประสิทธิ์จะเท่ากับ 0.000 ดูเหมือนว่าทั้ง DV และ IV ของคุณมีความแตกต่างกันและสัดส่วนของ DV ของคุณจะไม่แปรผันกับ IV ของคุณ ถูกต้องหรือไม่

การสกัดกั้นตามที่ฉันบันทึกไว้ในความคิดเห็นของฉัน (และตามคำตอบของ @corone หมายถึง) เป็นค่าของ DV เมื่อ IV เป็น 0 คุณได้รับรหัส IV อย่างไร อย่างไรก็ตามความจริงที่ว่าการประมาณค่าสัมประสิทธิ์เท่ากับ 0.000 แสดงว่า IV ไม่มีความแตกต่าง

เข้าสู่ระบบ(พี1-พี)


สวัสดีมีคนอีกครั้งขอบคุณสำหรับความคิดเห็น จุดข้อมูลเกือบเหมือนกัน ฉันกำลังรายงานในรายงานและต้องเน้นมันอย่างไรก็ตาม นี่คือเหตุผลที่ผลลัพธ์ดูแปลก ๆ ด้วยข้อมูลนี้ (GLM) และชุดข้อมูลอื่น ๆ ในรายงานของฉัน (GLMM) ฉันกำลังรันอยู่อย่างผิดเพี้ยน (# TEAM2x2x2x2) ก่อนที่ฉันจะเดินได้ ฉันคิดว่าปัญหาหลักของฉันคือรู้ว่าสิ่งที่ฉันต้องรายงานฉันจะพูดถึงสถิติสำหรับการสกัดกั้นหรือ IV หรือไม่? ด้านล่างคือ GLMM ของฉัน (หวังว่าจะเป็นมาตรฐานที่มากกว่า) อีกครั้งพร้อมลิงค์ทวินาม
ซามูเอลวัลตรอน

โมเดลผสมเชิงเส้นทั่วไปพอดีโดยสูตรการประมาณ Laplace: การโจมตี ~ การรักษา + การทดลอง + การรักษา * การทดลอง + (1 | นก) ข้อมูล: ข้อมูล AIC BIC logLik เบี่ยงเบน 139.6 153.8 -64.78 129.6 เอฟเฟกต์สุ่ม: กลุ่มชื่อ Variance Std.Dev นก (สกัดกั้น) 0.87795 0.93699 จำนวน obs: 128, กลุ่ม: Bird, 32
Samuel Waldron

ผลกระทบคงที่: Estimate Std ข้อผิดพลาดค่า z Pr (> | z |) (สกัดกั้น) 3.19504 0.90446 3.533 .000412 *** การรักษา hiny_non-Shiny 0.02617 1.26964 0.021 .983558 ทดลอง -1.53880 0.36705 -4.192 2.76e-05 *** การรักษา: ทดลอง 0.16909 0.49501 0.342 .732655 --- ลายเซ็น รหัส: 0 ' ' 0.001 ' ' 0.01 ' ' 0.05 '.' 0.1 '' 1 ความสัมพันธ์ของเอฟเฟกต์คงที่: (Intr) Trtm_- การทดลอง Trtmntshn_- -0.712 การทดลอง -0.895 0.638 Trtmnts _-: T 0.664 -0.896 -0.742
ซามูเอล Waldron

3

ในกรณีของคุณตัดเป็นค่าเฉลี่ยของแกรนด์attacked_excluding_app, treatmentการคำนวณสำหรับข้อมูลทั้งหมดโดยไม่คำนึงถึง การทดสอบนัยสำคัญในตารางของค่าสัมประสิทธิ์คือการทดสอบว่ามันแตกต่างจากศูนย์อย่างมีนัยสำคัญหรือไม่ ไม่ว่าจะเกี่ยวข้องหรือไม่นั้นขึ้นอยู่กับว่าคุณมีเหตุผลมาก่อนหรือไม่ที่จะคาดหวังว่าจะเป็นศูนย์หรือไม่

ตัวอย่างเช่นลองจินตนาการว่าคุณได้ทดสอบยาและยาหลอกสำหรับผลที่มีต่อความดันโลหิต สำหรับแต่ละเรื่องคุณบันทึกการเปลี่ยนแปลงของความดันโลหิตของพวกเขาโดยการคำนวณ (ความดันหลังการรักษา - ความดันก่อนการรักษา) และถือเป็นตัวแปรตามในการวิเคราะห์ของคุณ จากนั้นคุณจะพบว่าผลของการรักษา (ยากับยาหลอก) นั้นไม่สำคัญ แต่การสกัดกั้นนั้นมีนัยสำคัญ> 0 - นี่จะบอกคุณว่าโดยเฉลี่ยความดันโลหิตของอาสาสมัครของคุณเพิ่มขึ้นระหว่างการวัดสองครั้ง สิ่งนี้อาจน่าสนใจและต้องการการตรวจสอบเพิ่มเติม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.