การกระจายแบบกึ่งทวินามคืออะไร (ในบริบทของ GLM)


30

ฉันหวังว่าบางคนสามารถให้ภาพรวมที่เข้าใจง่ายเกี่ยวกับการกระจายตัวของ quasibinomial คืออะไรและมันทำอะไร ฉันสนใจในประเด็นเหล่านี้เป็นพิเศษ:

  1. วิธี quasibinomial แตกต่างกับการกระจายทวินาม

  2. เมื่อตัวแปรตอบสนองเป็นสัดส่วน (ค่าตัวอย่าง ได้แก่ 0.23, 0.11, 0.78, 0.98) โมเดล quasibinomial จะทำงานใน R แต่โมเดลทวินามจะไม่

  3. ทำไมรูปแบบ quasibinomial ควรใช้เมื่อตัวแปรการตอบสนอง TRUE / FALSE เกินกำหนด

คำตอบ:


20
  1. ความแตกต่างระหว่างการแจกแจงทวินามและกึ่งเสมือนสามารถมองเห็นได้ในฟังก์ชั่นความหนาแน่นของความน่าจะเป็น (pdf) ซึ่งเป็นลักษณะการแจกแจงเหล่านี้

    ทวินามแบบ pdf:

    P(X=k)=(nk)pk(1p)nk

    รูปแบบ pdf แบบกึ่งทวินาม:

    P(X=k)=(nk)p(p+kϕ)k1(1pkϕ)nk

    การกระจายแบบกึ่งทวินามในขณะที่คล้ายคลึงกับการแจกแจงแบบทวินามมีพารามิเตอร์พิเศษϕ (จำกัด ที่|ϕ|min{p/n,(1p)/n} ) ที่พยายามจะอธิบาย ความแปรปรวนเพิ่มเติมในข้อมูลที่ไม่สามารถอธิบายได้โดยการแจกแจงแบบทวินามเพียงอย่างเดียว

    (โปรดสังเกตว่าค่าเฉลี่ยของการกระจายแบบกึ่ง - ทวินามคือมากกว่าตัวเอง)pi=0nn!ϕi(nk)!p

  2. ฉันไม่แน่ใจเกี่ยวกับสิ่งนี้บางทีฟังก์ชัน glm ใน R เพิ่มน้ำหนักในโหมด quasibinomial เพื่ออธิบายสิ่งนี้

  3. วัตถุประสงค์ของพารามิเตอร์พิเศษคือการประเมินความแปรปรวนพิเศษในข้อมูล โมเดลเชิงเส้นทั่วไป (GLM) ทำให้สมมติฐานการกระจายสำหรับผลลัพธ์ / การตอบสนองและเพิ่มโอกาสสูงสุดของข้อมูลตามการกระจายนี้ มันเป็นตัวเลือกที่นักวิเคราะห์ทำและถ้าคุณคิดว่าคุณต้องการบัญชีสำหรับความแปรปรวนมากขึ้นในข้อมูลของคุณจากนั้นคุณสามารถเลือกการกระจายสัญญาณแบบกึ่งทวินามเพื่อสร้างแบบจำลองการตอบสนองสำหรับ glm ของคุณ วิธีที่ดีในการทดสอบว่าเราจำเป็นต้องพอดีกับแบบจำลองเสมือน - ทวินามแทนที่เป็นทวินามคือเพื่อให้พอดีกับตัวแบบกึ่งเสมือน - คู่และทดสอบเพื่อดูว่าพารามิเตอร์เป็น 0ϕϕ


2
สุดยอด Alejandro ตอนนี้ฉันจะทดสอบว่าพารามิเตอร์ is เป็น 0 ได้อย่างไร
Juanchi

2
ทราบว่าในRที่มีglm.fit, binomialและquasibinomialจะตรงเดียวกันยกเว้นว่าquasibinomial(1) ตรวจสอบเอาจำนวนเต็มและ (2) ผลตอบแทนของ AIC NA ดูคำตอบนี้สำหรับรายละเอียดเพิ่มเติม
miguelmorin

-1 การแจกแจงแบบ "กึ่งทวินาม" แบบนี้ดูเหมือนจะไม่เกี่ยวข้องกับความเป็นไปได้อย่างสิ้นเชิงแบบกึ่ง binomial ในบริบทของ glms ดังนั้นจึงยากที่จะเห็นว่าทำไมจึงมีแรงผลักดันมากมาย
Jarle Tufto

14

ควอซีกึ่งทวินามไม่ได้เป็นการกระจายตัวแบบเฉพาะเจาะจง มันอธิบายแบบจำลองสำหรับความสัมพันธ์ระหว่างความแปรปรวนและค่าเฉลี่ยในแบบจำลองเชิงเส้นทั่วไปซึ่งคือคูณความแปรปรวนของทวินามในแง่ของค่าเฉลี่ยสำหรับทวินามϕ

มีการกระจายที่เหมาะกับสเปคดังกล่าว (อันที่เห็นได้ชัด - สเกลทวินาม) แต่ไม่จำเป็นต้องมีจุดมุ่งหมายเมื่อมีการติดตั้งโมเดลกึ่งทวินาม หากคุณเหมาะสมกับข้อมูลที่ยังคงเป็น 0-1 มันจะไม่สามารถปรับขนาดแบบทวินามได้

ดังนั้นรูปแบบความแปรปรวนแบบกึ่งทวินามผ่านพารามิเตอร์สามารถจัดการกับข้อมูลที่ความแปรปรวนมีขนาดใหญ่กว่า (หรือบางทีเล็กกว่า) ได้ดีกว่าที่คุณได้รับจากข้อมูลทวินามในขณะที่ไม่จำเป็นต้องเป็นการกระจายตัวจริงเลย .ϕ

เมื่อตัวแปรตอบสนองเป็นสัดส่วน (ค่าตัวอย่าง ได้แก่ 0.23, 0.11, 078, 0.98) โมเดล quasibinomial จะทำงานใน R แต่โมเดลแบบทวินามจะไม่

สำหรับความทรงจำของฉันแบบจำลองทวินามสามารถทำงานใน R ด้วยสัดส่วน * แต่คุณต้องตั้งค่าให้ถูกต้อง

* มีสามวิธีในการให้ข้อมูลทวินามแก่ R ที่ฉันทราบ ฉันค่อนข้างมั่นใจว่าเป็นหนึ่งในนั้น


สิ่งนี้เกี่ยวข้องกับการประเมิน quasilikelihood อย่างไร
tim.farkas

2
+1 (แต่ฉันชอบที่จะเห็นคำตอบที่ครอบคลุมมากขึ้น!) สามวิธีในการตั้งค่า GLM ทวินามด้วยสัดส่วนอาจเป็นดังนี้: stats.stackexchange.com/a/26779/28666 ? ลิงค์อาจมีประโยชน์ นอกจากนี้สิ่งที่คุณพูดเกี่ยวกับ "quasibinomial" ไม่ได้เป็นการกระจายที่เกี่ยวข้องกับคำตอบที่สองในหัวข้อนี้
อะมีบาพูดว่า Reinstate Monica

1
@ amoeba คุณสามารถเขียนการแจกแจงได้ตามที่ระบุไว้ในคำตอบของฉัน (สเกลทวินาม) แต่ไม่สามารถทำการแจกแจงสำหรับข้อมูลนับได้ (quasibinomial ไม่ได้อยู่ในจำนวนเต็มทั้งหมดยกเว้นพารามิเตอร์การกระจายคือ 1) หรือสำหรับข้อมูลแบบต่อเนื่อง ( มันไม่ต่อเนื่อง!) โดยทั่วไปผู้คนจะใช้เพื่อนับข้อมูลเนื่องจากโครงสร้างความแปรปรวน (แต่ในกรณีที่ไม่มีการแจกแจงแบบนี้ในตระกูลเลขชี้กำลัง)
Glen_b
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.