ทำไม Beta / Dirichlet Regression ไม่ถือว่าเป็นแบบจำลองเชิงเส้นทั่วไป


26

หลักฐานเป็นคำพูดนี้จากบทความของแพคเกจ R 1betareg

ยิ่งไปกว่านั้นโมเดลยังมีคุณสมบัติบางอย่าง (เช่นตัวทำนายเชิงเส้นฟังก์ชันลิงก์พารามิเตอร์การกระจาย) กับโมเดลเชิงเส้นทั่วไป (GLMs; McCullagh และ Nelder 1989) แต่มันไม่ใช่กรณีพิเศษของกรอบนี้ )

คำตอบนี้ยังพูดพาดพิงถึงความจริง:

[... ] นี่คือรูปแบบการถดถอยที่เหมาะสมเมื่อตัวแปรการตอบสนองถูกแจกจ่ายเป็นเบต้า คุณสามารถคิดว่ามัน คล้ายกับโมเดลเชิงเส้นทั่วไป มันคือสิ่งที่คุณกำลังมองหา [... ] (เน้นที่เหมือง)

ชื่อคำถามบอกว่ามันทั้งหมด: ทำไม Beta / Dirichlet Regression ไม่ถือเป็นแบบจำลองเชิงเส้นแบบทั่วไป (ไม่ใช่แบบ)


เท่าที่ฉันรู้เจนเนอรัลลิสโมเดลเชิงเส้นกำหนดโมเดลที่สร้างขึ้นจากความคาดหวังของตัวแปรตามที่พวกเขามีเงื่อนไขในแบบอิสระ

fคือฟังก์ชันลิงก์ที่จับคู่ความคาดหวัง,คือการแจกแจงความน่าจะเป็น,ผลลัพธ์และการทำนาย,คือพารามิเตอร์เชิงเส้นและความแปรปรวนY X บีตาσ 2gYXβσ2

f(E(YX))g(βX,Iσ2)

GLM ที่แตกต่างกันกำหนด (หรือผ่อนคลาย) ความสัมพันธ์ระหว่างค่าเฉลี่ยและความแปรปรวน แต่ต้องเป็นการกระจายความน่าจะเป็นในตระกูลเลขชี้กำลังซึ่งเป็นสมบัติที่พึงประสงค์ซึ่งควรปรับปรุงความทนทานของการประมาณค่าหากฉันจำได้ถูกต้อง การแจกแจงรุ่นเบต้าและดิริชเล็ตเป็นส่วนหนึ่งของตระกูลเอ็กซ์โพเนนเชียลg


[1] Cribari-Neto, F. , & Zeileis, A. (2009) การถดถอยเบต้าใน R


2
(+1) ที่เกี่ยวข้อง: stats.stackexchange.com/a/189196
อะมีบาพูดว่า Reinstate Monica

@ amoeba ขอบคุณสำหรับลิงค์ที่ไม่เคยเห็นคำถามนั้นมาก่อน
Firebug

2
ผมคิดว่าปัญหาคือว่าในขณะที่ถ้าคุณเขียนการกระจายเบต้ากับมาตรฐาน,พารามิเตอร์ (เช่นหมายถึงเครื่องแบบ (0,1)) แล้วกระจายเบต้าอยู่ในครอบครัวชี้แจงถ้าคุณเขียนมัน ในแง่ของ (หมายถึง) และ (การกระจาย) มันไม่ใช่ แต่ฉันไม่เคยใส่ใจเรื่องนั้นมากนักว่าการกระจายนั้นอยู่ในตระกูลเลขชี้กำลังหรือไม่ b a = b = 1 μ ϕaa==1μφ
หน้าผา AB

@CliffAB หลังจากอ่านความคิดเห็นภายใต้คำตอบของทิมด้านล่างดูเหมือนว่าการรวมตัวกันของเบต้าจะนำไปสู่การไม่ตั้งฉากของพารามิเตอร์ซึ่งดูเหมือนจะเป็นข้อกำหนดสำหรับ McCullagh-Nelder GLMs
Firebug

1
ฉันคิดว่าคำตอบสั้น ๆ นี้: stats.stackexchange.com/a/18812/28666มีความเกี่ยวข้องและเพิ่มคำตอบที่นี่ (บอกเป็นนัยว่าทำไม GLM จึงถูกกำหนดด้วยตระกูลการกระจายแบบดั้งเดิม)
อะมีบาพูดว่า Reinstate Monica

คำตอบ:


20

ตรวจสอบข้อมูลอ้างอิงดั้งเดิม:

Ferrari, S. , & Cribari-Neto, F. (2004) การถดถอยเบต้าสำหรับอัตราการสร้างแบบจำลองและสัดส่วน วารสารสถิติประยุกต์, 31 (7), 799-815

ดังที่ผู้เขียนระบุไว้พารามิเตอร์ของการแจกแจงเบต้าแบบ parametrized นั้นมีความสัมพันธ์กันดังนั้น

โปรดทราบว่าพารามิเตอร์และไม่ใช่ orthogonal ตรงกันข้ามกับสิ่งที่ตรวจสอบในชั้นเรียนของโมเดลการถดถอยเชิงเส้นแบบทั่วไป (McCullagh และ Nelder, 1989)ϕβφ

ดังนั้นในขณะที่โมเดลดูเหมือน GLM และ quacks เช่น GLM แต่ก็ไม่เหมาะกับเฟรมเวิร์ก


7
+1 แต่มันจะดีถ้ามีคำตอบที่ละเอียดกว่านี้ โดยส่วนตัวฉันไม่เข้าใจคำพูด (แม้หลังจากเปิดกระดาษที่เชื่อมโยง) เหตุใดพารามิเตอร์เหล่านี้จึงไม่เป็นมุมฉากในการถดถอยเบต้า .. ทำไมจึงจำเป็นต้องใช้ GLMs .. .. อื่น ๆ
อะมีบาพูดว่า Reinstate Monica

3
@ amoeba อย่างสุจริตฉันไม่ได้เป็นคนที่สามารถให้คำตอบอย่างละเอียดกับคุณได้ ฉันไม่เคยให้ความสนใจในทฤษฎีเบื้องหลัง GLM มากนักเพื่อที่จะมีความเข้าใจลึกซึ้งเกี่ยวกับรายละเอียดปลีกย่อยดังกล่าว McCullagh และ Nelder พูดถึงข้อกำหนดนี้ แต่ฉันต้องการตรวจสอบหนังสือของพวกเขาเพื่อดูว่าทำไมมันถึงมีความสำคัญ หากใครบางคนจะให้คำอธิบายโดยละเอียดว่าทำไมเรื่องนี้ถึงเป็นปัญหาฉันจะพิจารณาให้รางวัลสำหรับคำตอบนั้น
ทิม

9
ความต้องการ orthogonality ใน GLM นั้นสำคัญ: หมายความว่าคุณสามารถประมาณสมการโดยไม่ต้องกังวลเกี่ยวกับการพลาดโอกาสที่เหลือ การประมาณพารามิเตอร์มีความสอดคล้องกันหากระบุสมการเฉลี่ยข้างต้นอย่างถูกต้อง การอนุมานนั้นถูกต้องถ้ามีการระบุความแปรปรวนเพิ่มเติมอย่างถูกต้อง อย่างไรก็ตามในการถดถอยเบต้าคุณไม่สามารถแยกสมการสองโมเดลด้วยวิธีนี้แม้ว่าจะเป็นค่าคงที่ เพื่อผลลัพธ์ที่สอดคล้องกันทุกอย่างจะต้องมีการระบุอย่างถูกต้อง ไวก.(μ)=xβφ
Achim Zeileis

3
@AchimZeileis ฉันจำได้ว่าฉันเห็นชื่อของคุณใน CV สิ่งที่คุณพูดมีเหตุผลสมบูรณ์แบบ คุณอาจต้องการแปลงความคิดเห็นของคุณเพื่อตอบโดยเพิ่มเหตุผลเพิ่มเติม ดังที่ฉันพูดฉันมีความสุขที่ได้รับรางวัลสำหรับผู้ที่ให้คำตอบอย่างละเอียดสำหรับคำถาม
ทิม

2
@Tim จะพยายามทำเมื่อฉันมีเวลามากขึ้น นั่นเป็นเหตุผลที่ผมคิดว่าแสดงความคิดเห็นอย่างรวดเร็วเป็นดีกว่าไม่มีอะไร ...
Achim Zeileis

8

คำตอบโดย @probabilityislogic อยู่ในเส้นทางที่ถูกต้อง

การกระจายเบต้าอยู่ในสองพารามิเตอร์ครอบครัวชี้แจง โมเดล GLM แบบง่ายที่อธิบายโดยNelder และ Wedderburn (1972)ไม่รวมการแจกแจงทั้งหมดในตระกูลเลขชี้กำลังสองพารามิเตอร์

ในแง่ของบทความโดย N&W GLM นำไปใช้กับฟังก์ชันความหนาแน่นของประเภทต่อไปนี้ (ซึ่งต่อมาถูกตั้งชื่อตระกูลการกระจายแบบเอ็กซ์โพเนนเชียลใน Jørgensen 1987 ):

π(z;θ,ϕ)=exp[α(ϕ){zθg(θ)+h(z)}+β(ϕ,z)]

ด้วยการเชื่อมโยงเพิ่มเติมฟังก์ชั่นและรูปแบบเชิงเส้นสำหรับพารามิเตอร์ธรรมชาติเบต้า)θ = f ( μ ) = f ( X β )f()θ=f(μ)=f(Xβ)


ดังนั้นเราสามารถเขียนการกระจายตัวข้างต้นได้อีกด้วย:

π(z;μ,ϕ)=exp[z(f(μ)α(ϕ))+h(z)α(ϕ)g(f(μ))α(ϕ)+β(ϕ,z)]

ตระกูลชี้แจงสองพารามิเตอร์คือ:

f(z;θ1,θ2)=exp[T1(z)η1(θ1,θ2)+T2(z)η2(θ1,θ2)g(θ1,θ2)+h(z)]

ซึ่งมีลักษณะคล้ายกัน แต่กว้างกว่า (ถ้าเป็นหนึ่งในคงที่)θ


ความแตกต่างนั้นชัดเจนและทำให้การแจกแจงเบต้าในรูปแบบเป็นไปไม่ได้

อย่างไรก็ตามฉันไม่มีความเข้าใจเพียงพอในการสร้างคำตอบที่เข้าใจง่ายและมีข้อมูลมากขึ้น (ฉันมีความรู้สึกว่าสามารถมีความสัมพันธ์ที่ลึกซึ้งและสง่างามมากขึ้นกับหลักการพื้นฐานที่หลากหลาย) GLM จะกระจายการแจกแจงข้อผิดพลาดโดยใช้แบบจำลองการแจกแจงเอ็กซ์โพเนนเชียลแบบแปรผันเดี่ยวแทนที่แบบจำลองกำลังสองน้อยที่สุดและวางความสัมพันธ์เชิงเส้นในค่าเฉลี่ยโดยใช้ฟังก์ชันลิงก์

ที่ดีที่สุดและง่ายที่สุดสัญชาตญาณน่าจะเป็น dispersion-ระยะยาวในการชี้แจงซึ่งได้รับการคูณกับทุกสิ่งและทำให้การกระจายตัวไม่แตกต่างกันกับ\ในขณะที่หลาย ๆ ครอบครัวที่อธิบายพารามิเตอร์สองและวิธีการกึ่งโอกาสช่วยให้พารามิเตอร์การกระจายเป็นหน้าที่ของเช่นกันθ θα(ϕ)θθ


พารามิเตอร์ที่สองใน N&W ที่กำหนดไว้ df คือการกระจายตัว มันเป็นการขยายครอบครัวหนึ่งพารามิเตอร์แบบเอกสิทธิ์ธรรมชาติπ ( z ; θ )φπ(z;θ)
Sextus Empiricus

@amoeba เบต้าเป็นการแจกแจงแบบกระจายสองเท่าของครอบครัวเช่นwww2.stat.duke.edu/courses/Spring11/sta114/lec/expofam.pdf
Tim

2
ฉันไม่แน่ใจว่ามันเป็นไปไม่ได้ทั้งหมดแม้จะมีการกระจายตัวที่แน่นอน อย่างน้อยก็ไม่เป็นไปตาม glm ตามที่ระบุไว้โดย N&W (สิ่งที่ฉันรู้คือคนจำนวนมากทำสิ่งที่ยากขึ้นเพื่อแก้ปัญหาการถดถอยเบต้า) ฉันจะแก้ไขคำตอบเพื่อแสดงว่าเกิดอะไรขึ้นและมันจะผิดพลาดที่ไหนถ้าเราพยายามทำตามเส้นทางเดียวกันของการวนซ้ำซ้ำอย่างน้อยกำลังสองกำลังสอง
Sextus Empiricus

2
ฉันได้แก้ไขคำตอบบ้างแล้ว 1) คำอธิบายเบื้องต้นของฉันเกี่ยวกับตระกูลและโมเดลการกระจายไม่ถูกต้อง GLM นั้นรวมการแจกแจงทั้งหมดของตระกูลเลขชี้กำลังเชิงเอกภาพเพราะมันไม่ได้เป็นเพียงแค่ฟังก์ชันความหนาแน่นนั้น แต่ยังเป็นฟังก์ชันลิงก์ 2) ในแง่ของมุมมองที่ใช้งานง่ายกว่าฉันไม่สามารถไปได้ไกลและไม่คาดหวังว่าจะได้ไกล โมเดล GLM เกี่ยวข้องกับโมเดลคลาสสิกในรูปแบบต่าง ๆ เพิ่มน้ำหนักให้กับสูตรเมทริกซ์ของขั้นตอนการติดตั้งอนุพันธ์ของฟังก์ชันบันทึกความน่าจะเป็นรวมถึงเงื่อนไขด้วยฟังก์ชันลิงก์และความแปรปรวน .....
Sextus Empiricus

2
ฉันใช้เสรีภาพในการแก้ไขคำตอบของคุณเล็กน้อยหวังว่าคุณจะสบายดีกับการแก้ไข ดูเหมือนว่าคำตอบนี้stats.stackexchange.com/a/18812/28666บอกว่าทำไม N&W จึงใช้ตระกูลการแจกจ่ายนี้โดยเฉพาะ
อะมีบาพูดว่า Reinstate Monica

2

ผมไม่คิดว่าการกระจายเบต้าเป็นส่วนหนึ่งของครอบครัวกระจายชี้แจง เพื่อให้ได้สิ่งนี้คุณต้องมีความหนาแน่น

f(y;θ,τ)=exp(yθc(θ)τ+d(y,τ))

c()d()c(θ) ) พารามิเตอร์เรียกว่าพารามิเตอร์ canonicalτc(θ)θ

การแจกแจงเบต้าไม่สามารถเขียนด้วยวิธีนี้ - วิธีหนึ่งในการดูสิ่งนี้คือการสังเกตว่าไม่มีคำศัพท์ในความน่าจะเป็นบันทึก - มันมีและแทนlog [ y ] บันทึก[ 1 - y ]ylog[y]log[1y]

fbeta(y;μ,ϕ)=exp(ϕμlog[y1y]+ϕlog[1y]log[B(ϕμ,ϕ(1μ)]log[y1y])

อีกวิธีหนึ่งที่จะเห็นว่าเบต้าไม่ได้เป็นตระกูลการกระจายตัวแบบเอ็กซ์โพเนนเชียลคือมันสามารถเขียนเป็นโดยที่และเป็นอิสระและทั้งคู่ติดตามการแจกแจงแกมม่าด้วยพารามิเตอร์ระดับเดียวกัน คือตระกูลเอ็กซ์โพเนนเชียล)y=xx+zxz


1
คำตอบนี้ไม่ถูกต้องตามที่เขียนไว้ วิธีหนึ่งที่จะเห็นสิ่งนี้คือตามการแจกแจงแบบตรรกะการแจกแจงเบอร์นูลลีและทวินามก็ไม่ได้อยู่ในชั้นของตระกูลเอ็กซ์โปเนนเชียลเช่นกัน
พระคาร์ดินัล

2
ขออภัยคุณถูกต้องว่าตัวอย่างที่ฉันให้นั้นผิดพลาด (คำเตือน: การคำนวณทางจิตและการใช้ CrossValidated ในมือถืออาจเป็นอันตรายได้!) อย่างไรก็ตามประเด็นของฉันยังคงอยู่ คำตอบนี้ไม่ถูกต้องเนื่องจากมันเลือกแนวคิด "กำหนด" ที่แคบมากของ "ตระกูลเอ็กซ์โพเนนเชียล" --- แคบกว่าแหล่งที่มาทั่วไปหรือการใช้งานจริง
พระคาร์ดินัล

2
อืมมม Wikipedia ทำรายการเบต้าในรายการการแจกแจงแบบครอบครัวเอ็กซ์โพเนนเชียล
อะมีบาพูดว่า Reinstate Monica


1
พารามิเตอร์ในฟังก์ชั่นยังอธิบายด้วยฟังก์ชั่นลิงก์จากนั้นฟังก์ชั่นการแจกแจงที่ จำกัด นี้จะกลายเป็นความกว้างมากขึ้นรวมถึงการแจกแจงทั้งหมดของตระกูลเลขยกกำลังพารามิเตอร์เดียว θ
Sextus Empiricus
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.