ตระกูล GLM แสดงถึงการกระจายตัวของตัวแปรตอบสนองหรือส่วนที่เหลือ?


13

ฉันได้คุยกับสมาชิกแล็บหลายคนเกี่ยวกับอันนี้และเราได้ไปหลายแหล่ง แต่ก็ยังไม่มีคำตอบ:

เมื่อเราบอกว่า GLM มีตระกูลปัวซองเรากำลังพูดถึงการกระจายตัวของเศษซากหรือตัวแปรการตอบสนองหรือไม่?

จุดของการต่อสู้

  1. อ่านหนังสือนี้บทความมันกล่าวว่าสมมติฐานของ GLM ที่มีความเป็นอิสระทางสถิติของการสังเกตเปคที่ถูกต้องของการเชื่อมโยงและความแปรปรวนของฟังก์ชั่น (ซึ่งทำให้ฉันคิดเกี่ยวกับสิ่งตกค้างที่ไม่ตัวแปรตอบสนอง) ขนาดที่ถูกต้องของการวัดตัวแปรการตอบสนอง และขาดอิทธิพลเกินควรจากจุดเดียว

  2. คำถามนี้มีสองคำตอบโดยมีสองคะแนนแต่ละข้อที่ปรากฏครั้งแรกพูดถึงเศษซากและคำตอบที่สองเกี่ยวกับตัวแปรการตอบสนองคืออะไร?

  3. ในบล็อกนี้เมื่อพูดถึงสมมติฐานพวกเขาระบุว่า " การกระจายตัวของสารตกค้างอาจเป็นอย่างอื่นเช่นทวินาม "

  4. ในตอนต้นของบทนี้พวกเขากล่าวว่าโครงสร้างของข้อผิดพลาดจะต้องเป็นปัวซอง แต่ส่วนที่เหลือจะมีค่าบวกและลบแน่นอนว่าปัวซองจะเป็นอย่างไร

  5. คำถามนี้ซึ่งมักถูกอ้างถึงในคำถามเช่นคำถามนี้เพื่อให้ซ้ำกันไม่มีคำตอบที่ยอมรับได้

  6. คำถามนี้คำตอบพูดคุยเกี่ยวกับการตอบสนองและไม่เหลือ

  7. ในรายละเอียดหลักสูตรนี้จากมหาวิทยาลัยเพนซิลวาเนียพวกเขาพูดคุยเกี่ยวกับตัวแปรตอบสนองในสมมติฐานไม่ใช่ส่วนที่เหลือ

คำตอบ:


18

ครอบครัวอาร์กิวเมนต์สำหรับรุ่น GLM กำหนดครอบครัวกระจายสำหรับเงื่อนไขการกระจายของการตอบสนองซึ่งไม่ใช่ของเหลือ (ยกเว้นสำหรับกึ่ง -models)

ดูวิธีนี้: สำหรับการถดถอยเชิงเส้นปกติเราสามารถเขียนแบบจำลองเป็น ซึ่งหมายความว่าการตอบสนองมีการแจกแจงแบบปกติ (ที่มีความแปรปรวนคงที่) แต่ความคาดหวังที่แตกต่างกันสำหรับแต่ละฉันดังนั้นการแจกแจงแบบมีเงื่อนไขของการตอบสนองจึงเป็นการแจกแจงแบบปกติ (แต่จะแตกต่างกันสำหรับแต่ละตัว ) วิธีการเขียนแบบนี้ก็คือ ที่แต่ละคือการกระจาย2)

YiNormal(β0+xiTβ,σ2).
Yiii
Yi=β0+xiTβ+ϵi
ϵiNormal(0,σ2)

ดังนั้นสำหรับตระกูลการแจกแจงแบบปกติคำอธิบายทั้งคู่จึงถูกต้อง (เมื่อตีความอย่างถูกต้อง) นี่เป็นเพราะสำหรับโมเดลเชิงเส้นปกติเรามีการแยกอย่างชัดเจนในรูปแบบของส่วนที่เป็นระบบ ( ) และส่วนรบกวน ( ) ซึ่งถูกเพิ่มเข้ามาอย่างง่ายๆ แต่สำหรับฟังก์ชั่นครอบครัวอื่น ๆ การแยกนี้เป็นไปไม่ได้ ! ไม่มีคำจำกัดความที่ชัดเจนว่าสิ่งที่เหลือหมายถึงอะไร (และด้วยเหตุผลนั้นจึงมีคำจำกัดความที่แตกต่างกันหลายอย่างของ "ที่เหลือ")β0+xiTβϵi

ดังนั้นสำหรับตระกูลอื่น ๆ ทั้งหมดเราใช้คำจำกัดความในรูปแบบของสมการที่แสดงครั้งแรกข้างต้น นั่นคือการกระจายการตอบสนองตามเงื่อนไข ดังนั้นไม่มีเศษเหลือ (สิ่งที่กำหนด) ในการถดถอยปัวซองไม่มีการกระจายปัวซอง


13

นอกเหนือจากคำตอบที่ยอดเยี่ยมของ Kjetil ฉันต้องการเพิ่มตัวอย่างเฉพาะบางอย่างเพื่อช่วยอธิบายความหมายของการแจกแจงแบบมีเงื่อนไขซึ่งอาจเป็นแนวคิดที่เข้าใจยาก

สมมติว่าคุณสุ่มตัวอย่างปลา 100 ตัวจากทะเลสาบและคุณสนใจที่จะดูว่าอายุของปลามีผลต่อตัวแปรผลลัพธ์อย่างไรบ้าง:

  1. น้ำหนักปลา (น้ำหนัก);
  2. ไม่ว่าปลาจะยาวกว่า 30 ซม.
  3. จำนวนเกล็ดปลา

ตัวแปรผลลัพธ์แรกนั้นต่อเนื่องที่สองคือไบนารี (0 = ปลาไม่เกิน 30 ซม. 1 = ปลายาวกว่า 30 ซม.) และที่สามคือตัวแปรนับ

การถดถอยเชิงเส้นอย่างง่าย

อายุมีผลต่อน้ำหนักอย่างไร คุณจะกำหนดรูปแบบการถดถอยเชิงเส้นอย่างง่ายของแบบฟอร์ม:

Weight=β0+β1Age+ϵ

ที่ 's เป็นอิสระกันกระจายตามการแจกแจงแบบปกติที่มีค่าเฉลี่ย 0 และส่วนเบี่ยงเบนมาตรฐาน\ในแบบจำลองนี้ค่าเฉลี่ยของตัวแปรน้ำหนักสำหรับปลาทั้งหมดในทะเลสาบที่มีอายุเท่ากันนั้นถือว่าแตกต่างกันตามอายุ หมายถึงเงื่อนไขเป็นตัวแทนจาก{} มันถูกเรียกว่าเงื่อนไขเพราะมันเป็นน้ำหนักเฉลี่ยสำหรับทุกปลาในทะเลสาบกับอายุเดียวกัน (น้ำหนักเฉลี่ยที่ไม่มีเงื่อนไขจะเป็นน้ำหนักเฉลี่ยของปลาทุกตัวในทะเลสาบโดยไม่คำนึงถึงอายุ) ϵσβ0+β1Age

การถดถอยโลจิสติกไบนารีแบบง่าย

อายุมีผลต่อหรือไม่ว่าปลามีความยาวมากกว่า 30 ซม. คุณกำลังจะกำหนดรูปแบบการถดถอยแบบไบนารีโลจิสติกอย่างง่ายของแบบฟอร์ม:

log(p1p)=β0+β1Age

โดยที่หมายถึงความน่าจะเป็นแบบมีเงื่อนไขว่าปลาในยุคที่กำหนดนั้นมีความยาวมากกว่า 30 ซม. ในโมเดลนี้ความหมายตามเงื่อนไขของตัวแปร "หรือไม่ว่าปลาจะยาวกว่า 30 ซม." ซึ่งสอดคล้องกับปลาทุกตัวในทะเลสาบที่มีอายุเท่ากันนั้นจะถือว่าแปรผันเป็นเส้นตรงตามอายุหลังจากได้รับอาหารเข้าสู่การเปลี่ยนแปลงโลจิท logit-เปลี่ยนหมายถึงเงื่อนไขเป็นตัวแทนจาก{} แบบจำลองนี้ใช้งานได้เพราะเราสันนิษฐานว่าการแจกแจงค่าของตัวแปร "ไม่ว่าปลานั้นจะมีความยาวมากกว่า 30 ซม." สำหรับอายุที่กำหนดหรือไม่นั้นคือการแจกแจงเบอร์นูลลี โปรดจำไว้ว่าสำหรับการแจกแจงนี้ความแปรปรวนเป็นฟังก์ชันของค่าเฉลี่ยดังนั้นหากเราสามารถประเมินค่าเฉลี่ยได้เราก็สามารถประเมินความแปรปรวนได้pβ0+β1Agepและความแปรปรวนเป็น .) ดูเพิ่มเติมhttps://www.theanalysisfactor.com/link-functions-and-errors-in-logistic-regression/p(1p)

การถดถอยปัวซองแบบง่าย

อายุมีผลต่อจำนวนเกล็ดปลาอย่างไร คุณกำลังจะกำหนดรูปแบบการถดถอยแบบปัวซองอย่างง่ายของแบบฟอร์ม:

log(μ)=β0+β1Age

โดยที่หมายถึงค่าเฉลี่ยตามเงื่อนไขของตัวแปรผลลัพธ์ "จำนวนเกล็ดปลา" สำหรับปลาอายุที่กำหนด (นั่นคือจำนวนเกล็ดปลาที่คาดไว้สำหรับปลาทุกตัวในทะเลสาบในช่วงอายุที่กำหนด) ในโมเดลนี้ค่าเฉลี่ยตามเงื่อนไขของตัวแปรผลลัพธ์จะถือว่าแปรผันเป็นเส้นตรงตามอายุหลังจากป้อนเข้าสู่การแปลงบันทึก เข้าสู่ระบบเปลี่ยนหมายถึงเงื่อนไขเป็นตัวแทนจาก{} แบบจำลองนี้ใช้งานได้เพราะเราสันนิษฐานว่าการกระจายของค่าตัวแปร "จำนวนเกล็ดปลา" สำหรับปลาทั้งหมดในทะเลสาบที่มีอายุเท่ากันนั้นคือการแจกแจงปัวซอง จำได้ว่าสำหรับการแจกแจงนี้ค่าเฉลี่ยและความแปรปรวนเท่ากันดังนั้นมันก็เพียงพอที่จะทำแบบจำลองค่าเฉลี่ยของมันμβ0+β1Age

เพื่อสรุปผลการกระจายเงื่อนไขหมายถึงการกระจายของค่าผลสำหรับค่าเฉพาะของตัวแปรทำนาย (s) รวมอยู่ในรูปแบบ แบบจำลองการถดถอยแต่ละประเภทที่แสดงไว้ด้านบนกำหนดสมมติฐานการกระจายบางอย่างเกี่ยวกับการแจกแจงแบบมีเงื่อนไขของตัวแปรผลลัพธ์ที่กำหนดอายุ จากสมมติฐานการกระจายเหล่านี้แบบจำลองดำเนินการเพื่อกำหนดว่า (1) ค่าเฉลี่ยของการแจกแจงแบบมีเงื่อนไขแตกต่างกันอย่างไรเมื่อฟังก์ชันของอายุ (การถดถอยเชิงเส้นอย่างง่าย), (2) ค่าเฉลี่ย logit-transformed ของการแจกแจงแบบมีเงื่อนไข อายุ (การถดถอยโลจิสติกแบบไบนารีอย่างง่าย) หรือ (3) ค่าเฉลี่ยการแปลงล็อกของการแจกแจงแบบมีเงื่อนไขจะแตกต่างกันไปตามหน้าที่ของอายุ

สำหรับแต่ละประเภทของรูปแบบหนึ่งสามารถกำหนดสารตกค้างที่สอดคล้องกันเพื่อวัตถุประสงค์ในการตรวจสอบรูปแบบ โดยเฉพาะอย่างยิ่งเพียร์สันและส่วนเบี่ยงเบนสามารถกำหนดสำหรับโมเดลการถดถอยโลจิสติกและปัวซอง


2
คำตอบที่ยอดเยี่ยม ขอบคุณทั้งคู่ ฉันไม่เคยรู้เลยว่าส่วนที่เหลือ "ที่เกิดขึ้นจริง" นั้นไม่เคยมีความชัดเจนในกรอบการทำงานทั่วไปของ GLM เหมือนกับที่อยู่ในกรณีการแจกแจงแบบปกติ
mlofton

1
@mlofton: ขอบคุณสำหรับคำพูดของคุณ คำถามที่ยอดเยี่ยมเชิญคำตอบที่ยอดเยี่ยม เราทุกคนได้รับประโยชน์จากการแลกเปลี่ยนความรู้นี้
Isabella Ghement

4
ฉันใช้ GLM มานาน (หนึ่งหรือสองปีเหมือนเมื่อ 10 ปีก่อน) และนั่นเป็นความสับสนของฉันเสมอ แต่ฉันไม่เคยรู้ว่าเป็นความสับสนของฉันจนกว่าจะมีการถามอย่างชัดเจนและอธิบายอย่างชัดเจน ดังนั้นบางครั้งความสับสนหมายถึงไม่สามารถถามคำถามที่ถูกต้องได้ ขอบคุณอีกครั้ง.
mlofton

1
คุณพูดถูก! ความสับสนเป็นส่วนหนึ่งของการเรียนรู้ - เมื่อเราต้องดิ้นรนกับบางสิ่งบางอย่างในขณะนี้เราต้องทำความเข้าใจให้ดีขึ้นเมื่อเราพบคำอธิบายที่ชัดเจน
Isabella Ghement

1
ความสุขของฉันและขอขอบคุณสำหรับคำตอบที่ยอดเยี่ยมของคุณ @IsabellaGhement
Patrick
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.