ทำไม GLM จึงแตกต่างจาก LM ด้วยตัวแปรที่ถูกแปลง


16

ตามที่อธิบายไว้ในเอกสารประกอบคำบรรยายนี้ (หน้า 1)โมเดลเชิงเส้นสามารถเขียนในรูปแบบ:

y=β1x1++βpxp+εi,

โดยที่คือตัวแปรตอบกลับและ เป็นตัวแปรอธิบายyxiith

บ่อยครั้งที่มีเป้าหมายของการทดสอบสมมติฐานการประชุมหนึ่งสามารถเปลี่ยนตัวแปรการตอบสนอง ตัวอย่างเช่นเราใช้ฟังก์ชั่นบันทึกในแต่ละy_iการแปลงตัวแปรตอบกลับไม่ถือเอาการทำ GLMyi

สามารถเขียน GLM ในแบบฟอร์มต่อไปนี้ (จากเอกสารประกอบการเรียนอีกครั้ง (หน้า 3) )

g(u)=β1x1++βpxp+εi,

โดยที่uเป็นเพียงสัญลักษณ์อื่นสำหรับyดังที่ฉันเข้าใจจากหน้า 2 ในเอกสารประกอบการบรรยาย g()เรียกว่าฟังก์ชั่นลิงค์

ฉันไม่เข้าใจความแตกต่างระหว่าง GLM และ LM กับตัวแปรที่แปลงจากสไลด์ในหลักสูตร คุณช่วยฉันได้ไหม


2
คุณอาจพบว่าการส่องสว่างเพื่อพิจารณาความจริงที่ว่าการแปลงทั้งหมดของผลลัพธ์เลขฐานสองเป็นเลียนแบบซึ่งจะ จำกัด ให้คุณใช้การถดถอยกำลังสองน้อยที่สุดธรรมดา เห็นได้ชัดว่านี่ไม่ใช่สิ่งที่ถดถอยโลจิสติก (มาตรฐาน GLM สำหรับการตอบสนองแบบไบนารี) จะประสบความสำเร็จ (หลักฐาน: ให้ค่าผลลัพธ์ถูกเข้ารหัสเป็นและและให้เป็นการแปลงใด ๆ การเขียนและเราพบเห็นด้วยกับกับ (ซึ่งเป็นการเลียนแบบการแปลงของy ) โดยที่λ = ( zy 1 ϕ z 0 = ϕ ( y 0 ) z 1 = ϕ ( y 1 ) ϕ { y 0 , y 1 } y λ y + μy0y1ϕz0=ϕ(y0)z1=ϕ(y1)ϕ{y0,y1}yλy+μyและ μ = Z 0 - λ Y 0 .)λ=(z1z0)/(y1y0)μ=z0λy0
whuber

คำตอบ:


15

การแปลงการตอบสนองก่อนที่จะทำการถดถอยเชิงเส้นกำลังทำสิ่งนี้:

E(g(Y))β0+β1x1++βpxp

โดยที่คือฟังก์ชั่นที่กำหนดและเราคิดว่าg ( Y )มีการแจกแจงที่กำหนด (โดยปกติเป็นปกติ)gg(Y)

โมเดลเชิงเส้นทั่วไปทำสิ่งนี้:

g(E(Y))β0+β1x1++βpxp

โดยที่เหมือนกับก่อนหน้านี้และเราสมมติว่าYมีการแจกแจงแบบกำหนด (โดยปกติจะไม่ปกติ)gY


E ในสมการของคุณคืออะไร?
user1406647

1
เป็นสัญกรณ์มาตรฐานสำหรับค่าความคาดหวังของX E(X)X
Marcus PS

ฉันพบว่ามีประโยชน์เช่นนี้: christoph-scherber.de/content/PDF%20Files/…
Aditya

22

ฉันไม่แน่ใจว่าสิ่งนี้จะเป็นคำตอบที่สมบูรณ์สำหรับคุณหรือไม่ แต่อาจช่วยให้หลุดแนวคิดของ logjam ได้

ดูเหมือนว่ามีความเข้าใจผิดสองประการในบัญชีของคุณ:

  1. โปรดทราบว่าการถดถอยกำลังสองน้อยที่สุด (OLS - 'linear') เป็นกรณีพิเศษของโมเดลเชิงเส้นทั่วไป ดังนั้นเมื่อคุณพูดว่า "[t] ransforming ตัวแปรการตอบสนองไม่ถือเอาการทำ GLM" สิ่งนี้ไม่ถูกต้อง การปรับโมเดลเชิงเส้นหรือเปลี่ยนตัวแปรการตอบสนองจากนั้นปรับโมเดลเชิงเส้นทั้งสองให้เป็น 'การทำ GLM'

  2. ในการกำหนดมาตรฐานของ GLM สิ่งที่คุณเรียกว่า " " (ซึ่งมักจะถูกแทนด้วยμแต่นี่เป็นเพียงเรื่องของการตั้งค่า) เป็นค่าเฉลี่ยของการแจกแจงการตอบสนองตามเงื่อนไขที่ตำแหน่งเฉพาะในพื้นที่ covariate (เช่นX ) ดังนั้นเมื่อคุณพูดว่า "ที่คุณเป็นเพียงสัญลักษณ์อื่นสำหรับy " นี่ก็ไม่ถูกต้องเช่นกัน ในการกำหนด OLS, Yเป็นตัวแปรสุ่มและ / หรือy ที่ฉันเป็นค่าตระหนักของYสำหรับการสังเกต / การศึกษาหน่วยฉัน นั่นคือY (เพิ่มเติมทั่วไป) หมายถึงข้อมูลที่ไม่ได้เป็นพารามิเตอร์ uμXuyYyiYiy

    (ฉันไม่ได้ตั้งใจจะพิชิตข้อผิดพลาดฉันแค่สงสัยว่าสิ่งเหล่านี้อาจทำให้คุณสับสน)

  3. นอกจากนี้ยังมีแง่มุมอื่นของโมเดลเชิงเส้นทั่วไปที่ฉันไม่เห็นคุณพูดถึง นั่นคือเราระบุการกระจายการตอบสนอง ในกรณีของการถดถอย OLS การกระจายการตอบสนองคือเกาส์เซียน (ปกติ) และฟังก์ชั่นการเชื่อมโยงเป็นฟังก์ชั่นตัวตน ในกรณีของการพูดการถดถอยโลจิสติกส์ (ซึ่งอาจเป็นสิ่งที่คนแรกคิดว่าเมื่อพวกเขาคิดว่าของ GLMs) การกระจายการตอบสนองคือ Bernoulli (/ binomial) และฟังก์ชั่นการเชื่อมโยงเป็น logit เมื่อใช้การแปลงเพื่อให้มั่นใจว่าสมมติฐานของ OLS นั้นเป็นไปตามที่เรามักจะพยายามทำให้การแจกแจงการตอบสนองตามเงื่อนไขเป็นปกติที่ยอมรับได้ อย่างไรก็ตามการเปลี่ยนแปลงดังกล่าวจะไม่ทำให้การแจกแจงของเบอร์นูลลีปกติเป็นที่ยอมรับ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.