มีการแจกแจงจำนวนเท่าไรใน GLM


11

ฉันได้ระบุสถานที่หลายแห่งในตำราเรียนที่อธิบาย GLM ด้วยการแจกแจง 5 แบบ ได้แก่ (, Gamma, Gaussian, Binomial, Inverse Gaussian, & Poisson) นี่คือสุดขั้วในหน้าที่ของครอบครัวในอาร์

บางครั้งฉันเจอการอ้างอิงถึง GLM ที่มีการแจกแจงเพิ่มเติม ( ตัวอย่าง ) บางคนสามารถอธิบายได้ว่าทำไม 5 เหล่านี้จึงพิเศษหรืออยู่ใน GLM เสมอ แต่บางครั้งคนอื่นก็เป็นเช่นนั้น?

จากสิ่งที่ฉันได้เรียนรู้จนถึงตอนนี้การแจกแจง GLM ในตระกูลเอ็กซ์โปเนนเชียลนั้นอยู่ในรูปแบบ: โดยที่คือพารามิเตอร์การกระจายและเป็นพารามิเตอร์ที่ยอมรับ

f(y;θ,ϕ)=exp{yθb(θ)ϕ+c(y,ϕ)}
ϕθ

ไม่สามารถแปลงการกระจายใด ๆ ให้พอดีกับ GLM ได้หรือไม่


5
เห็นได้ชัดว่าการกระจายอย่างสม่ำเสมอไม่ได้เป็นของตระกูลเอ็กซ์โพเนนเชียล
Zhanxiong

เป็นคำถามที่ดี เช่นสิ่งที่เกี่ยวกับ lognormal
Michael M

1
@Zhanxiong ไม่ได้เป็นกรณีพิเศษของการแจกแจงเบต้าและการกระจายเบต้าอยู่ในตระกูลเลขชี้กำลัง?
shf8888

@ shf8888 AFAIK เป็นเพียงการแจกแจงแบบเอ็กซ์โพเนนเชียลในขีด จำกัด เมื่อมันมาถึงการกระจายแกมม่า
shadowtalker

@Zhanxiong ขอบคุณสำหรับการชี้แจง! ขออภัยคุณไม่ถูกต้องด้วยขอบเขตที่ไม่รู้จักไม่ใช่การแจกแจงแบบครอบครัวแทน
shf8888

คำตอบ:


4

ตามที่คุณระบุคุณสมบัติสำหรับการใช้การแจกแจงใน GLM นั้นเป็นของตระกูลเอ็กซ์โปเนนเชียล (หมายเหตุ: นี่ไม่ใช่สิ่งเดียวกับการแจกแจงแบบเอ็กซ์โปเนนเชียล! แม้ว่าการแจกแจงแบบเอ็กซ์โปเนนตัลเป็นการกระจายแกมม่า ตระกูลเลขชี้กำลัง) การแจกแจงห้ารายการที่คุณมีอยู่ในตระกูลนี้ทั้งหมดและที่สำคัญกว่านั้นคือการแจกแจงทั่วไปมากดังนั้นจึงถูกใช้เป็นตัวอย่างและคำอธิบาย

ในฐานะที่เป็น Zhanxiong บันทึกการกระจายเครื่องแบบ (ที่มีขอบเขตที่ไม่รู้จัก) เป็นตัวอย่างคลาสสิกของการกระจายครอบครัวที่ไม่ชี้แจง shf8888 สร้างความสับสนให้กับการแจกชุดทั่วไปในทุกช่วงเวลาด้วยชุด (0, 1) การกระจาย Uniform (0,1) เป็นกรณีพิเศษของการแจกแจงแบบเบต้าซึ่งเป็นตระกูลแบบเลขชี้กำลัง การแจกแจงแบบครอบครัวที่ไม่ใช่แบบเอ็กซ์โพเนนเชียลอื่น ๆ คือแบบจำลองการผสมและการแจกแจงแบบ t

คุณมีคำจำกัดความของตระกูลเลขชี้กำลังถูกต้องและพารามิเตอร์ canonical นั้นสำคัญมากสำหรับการใช้ GLM ถึงกระนั้นฉันก็พบว่ามันค่อนข้างง่ายกว่าที่จะเข้าใจครอบครัวชี้แจงโดยเขียนมันเป็น:

f(x;θ)=a(θ)g(x)exp[b(θ)R(x)]

มีวิธีทั่วไปมากขึ้นในการเขียนนี้ด้วย vectorแทน scalar ; แต่กรณีหนึ่งมิติอธิบายได้มากมาย โดยเฉพาะคุณต้องสามารถแยกส่วนที่ไม่ได้เป็นความหนาแน่นของคุณออกเป็นสองฟังก์ชั่นซึ่งเป็นหนึ่งในพารามิเตอร์ที่ไม่รู้จักแต่ไม่ได้สังเกตข้อมูลและหนึ่งในและไม่ใช่ ; และเหมือนกันสำหรับชิ้นส่วนยกกำลัง มันอาจจะยากที่จะดูว่าเช่นการแจกแจงทวินามสามารถเขียนด้วยวิธีนี้; แต่ด้วยการเล่นกลพีชคณิตบางอย่างมันก็ชัดเจนในที่สุดθθθxxθ

เราใช้ตระกูลเลขชี้กำลังเพราะมันทำให้หลายอย่างง่ายขึ้นมากเช่นการหาสถิติที่เพียงพอและการทดสอบสมมติฐาน ใน GLM พารามิเตอร์ canonical มักใช้สำหรับค้นหาฟังก์ชันลิงก์ ในที่สุดภาพประกอบที่เกี่ยวข้องว่าเพราะเหตุใดนักสถิติจึงต้องการใช้ครอบครัวเอ็กซ์โพเนนเชียลในทุกกรณีพยายามที่จะอนุมานทางสถิติแบบดั้งเดิมในการพูดการกระจายเครื่องแบบ ( , ) โดยที่ไม่ทราบทั้งและ . มันเป็นไปไม่ได้ แต่มีความซับซ้อนและเกี่ยวข้องมากกว่าทำแบบเดียวกันกับการแจกแจงแบบครอบครัวแทนθ1θ2θ1θ2


การแจกแจงเบต้าพร้อมทั้งพารามิเตอร์ที่ไม่รู้จักนั้นยังคงเป็นตระกูลแบบเอ็กซ์โพเนนเชียล (แต่เป็นรุ่นเอ็กซ์โพเนนเชียลแบบ 2 พารามิเตอร์) อะไรทำให้คุณคิดว่ามันไม่ใช่ www2.stat.duke.edu/courses/Spring11/sta114/lec/ …หรือวิกิพีเดีย
DavidR

ขอบคุณที่ชี้ให้เห็นว่าฉันได้เปลี่ยนความคิดเห็นของฉัน ... คุณพูดถูก! ผมไม่ทราบว่าสิ่งที่ฉันหมายถึง
เฮนรี่
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.