ทำไมการถดถอยเบต้าไม่สามารถจัดการกับ 0 และ 1 ในตัวแปรตอบกลับได้


17

การถดถอยแบบเบต้า (เช่น GLM ที่มีการแจกแจงแบบเบต้าและมักจะมีฟังก์ชั่นการเชื่อมโยงแบบ logit) มักจะแนะนำให้จัดการกับการตอบสนองหรือที่เรียกว่าตัวแปรตามค่าระหว่าง 0 และ 1 เช่นเศษส่วนอัตราส่วนหรือความน่าจะเป็น: การถดถอยสำหรับผลลัพธ์ ระหว่าง 0 และ 1

อย่างไรก็ตามมีการอ้างเสมอว่าการถดถอยเบต้าไม่สามารถใช้ได้ทันทีที่ตัวแปรตอบสนองเท่ากับ 0 หรือ 1 อย่างน้อยหนึ่งครั้ง ถ้าไม่จำเป็นต้องใช้ทั้งศูนย์ / รุ่นหนึ่งที่สูงเกินจริงเบต้าหรือทำให้การเปลี่ยนแปลงของการตอบสนองบาง ฯลฯ .: ถดถอยเบต้าของข้อมูลสัดส่วนรวมทั้งที่ 1 และ 0

คำถามของฉันคือคุณสมบัติของการกระจายเบต้าป้องกันการถดถอยเบต้าจากการจัดการกับ 0s และ 1s ที่แน่นอนและเพราะเหตุใด

ฉันเดาว่ามันคือและไม่ได้อยู่ในการสนับสนุนของการกระจายเบต้า แต่สำหรับพารามิเตอร์รูปร่างทั้งหมดและทั้งศูนย์และอีกอันหนึ่งอยู่ในการสนับสนุนการแจกแจงแบบเบต้ามันเป็นเพียงพารามิเตอร์รูปร่างขนาดเล็กที่การกระจายไปที่อนันต์ที่หนึ่งหรือทั้งสองด้าน และบางทีข้อมูลตัวอย่างเป็นเช่นที่และให้เหมาะสมที่สุดทั้งคู่ก็จะเปิดออกเพื่อจะเหนือ101α>1β>1αβ1

มันหมายความว่าในบางกรณีเราสามารถใช้การถดถอยแบบเบต้าแม้ว่าจะเป็นศูนย์ / คนก็ตาม

แน่นอนว่าแม้ว่า 0 และ 1 จะอยู่ในการสนับสนุนการแจกแจงเบต้าความน่าจะเป็นที่สังเกต 0 หรือ 1 เป็นศูนย์ แต่ความน่าจะเป็นที่จะสังเกตชุดของค่าที่นับได้อื่น ๆ จึงไม่น่าเป็นปัญหาใช่ไหม (เปรียบเทียบความคิดเห็นนี้โดย @Glen_b)

การกระจายเบต้า

ในบริบทของการถดถอยเบต้าการแจกแจงแบบเบต้าจะแปรตามพารามิเตอร์ที่แตกต่างกัน แต่ด้วยมันควรจะยังคงมีการกำหนดชัดเจนในสำหรับทั้งหมดϕ=α+β>2[0,1]μ

ป้อนคำอธิบายรูปภาพที่นี่


2
คำถามที่น่าสนใจ! ฉันไม่มีคำตอบใด ๆ นอกเหนือจากคะแนนที่ทำโดย Kevin Wright ฉันเดาว่าเลขศูนย์และคนที่มีความน่าจะเป็นกรณีทางพยาธิวิทยา (เช่นในการถดถอยโลจิสติก) ดังนั้นจึงไม่น่าสนใจเพราะพวกเขาไม่ควรเกิดขึ้น
ทิม

1
@Tim ดีฉันไม่ทราบว่าพวกเขาควรหรือไม่ควรเกิดขึ้น แต่พวกเขาจะเกิดขึ้นบ่อยครั้งมิฉะนั้นคนจะไม่ถามคำถามเกี่ยวกับวิธีการจัดการกับ 0 และ 1 ในการถดถอยเบต้าจะไม่เขียนบทความเกี่ยวกับ 0- และ -1 รุ่นเบต้าที่สูงเกินจริง ฯลฯ อย่างไรก็ตามฉันยังคงหวังคำตอบที่ละเอียดกว่าของเควิน อย่างน้อยก็ควรอธิบายว่าข้อกำหนดเหล่านี้ในบันทึกความเป็นไปได้เกิดขึ้นได้อย่างไร
อะมีบาพูดว่า Reinstate Monica

1
อัปเดต: อาจเป็นเพราะถ้า 0 และ 1 อยู่ในการสนับสนุน PDF ที่จุดเหล่านี้เท่ากับศูนย์หมายความว่าโอกาสในการสังเกตค่าเหล่านี้เป็นศูนย์ ฉันยังต้องการดูคำตอบอธิบายอย่างละเอียด
อะมีบาพูดว่า Reinstate Monica

ดังนั้นการแจกแจงแบบใดที่ควรใช้เมื่อตัวแปรตอบกลับถือว่าค่าเป็น, พูดว่า, ? [0,)
สับสนใน

คำตอบ:


16

เพราะ loglikelihood มีทั้งและเข้าสู่ระบบ( 1 - x )ซึ่งมีมากมายเมื่อx = 0หรือx = 1 ดูสมการ (4) ของ Smithson & Verkuilen, " Squeezer มะนาวที่ดีกว่า - การถดถอยความน่าจะเป็นสูงสุดด้วยตัวแปรพึ่งพาเบต้าแบบกระจาย " (ลิงก์โดยตรงไปยังPDF )log(x)log(1x)x=0x=1


3
ขอบคุณ นี่คือการเชื่อมโยงรูปแบบไฟล์ PDF โดยตรงไปยังกระดาษ ฉันเห็นได้ว่าสมการ (4) จะพังทันทีที่หรือy i = 1แต่ฉันยังไม่เข้าใจว่าทำไมสิ่งนี้เกิดขึ้นในรูปแบบทั่วไปของสิ่งต่าง ๆ yi=0yi=1
อะมีบาพูดว่า Reinstate Monica

3
(+1) อะมีบาเพียงแค่มองไปที่รูปแบบไฟล์ PDF สำหรับทุกการกระจายเบต้าความหนาแน่นที่และ1มีทั้ง0หรือ+ ไม่ว่าในกรณีใดโอกาสในการบันทึกจะไม่ถูกกำหนด ทันทีที่มีการตอบสนอง0หรือ1เพียงครั้งเดียวค่าทั้งหมดของความน่าจะเป็นเพียงศูนย์อนันต์หรือไม่แน่นอนและจะมีชุดพารามิเตอร์พารามิเตอร์ที่ไม่น่าสนใจซึ่งค่าต่ำสุดของความน่าจะเป็นจะถูกรับรู้ ดังนั้นการคำนวณเชิงปฏิบัติจึงถูก จำกัด และไม่สามารถระบุตัวแบบได้ (ในแง่ที่รุนแรง) 010+01
whuber

1
ร่วมกับความคิดเห็นของ @ whuber (ที่ฉันไม่ได้สังเกตจนกระทั่งตอนนี้) นี่เป็นการตอบคำถาม ประเด็นหลักคือสำหรับค่าพารามิเตอร์ที่ฉันถามเกี่ยวกับและ1มีโอกาสเป็นศูนย์ 01
อะมีบาพูดว่า Reinstate Monica

1
@ เหตุผลที่ฉันสับสนนั่นคือมีความน่าจะเป็นเป็นศูนย์ที่จะสังเกตแต่ก็มีความน่าจะเป็นศูนย์ที่จะสังเกตว่า0.5 (ลองใช้เบต้ากับα = β = 2เพื่อความเป็นรูปธรรม) อย่างไรก็ตาม0.5สอดคล้องกับโมเดล แต่ไม่ใช่0และเป็นเพราะโอกาสในการสังเกต0.5ไม่เป็นศูนย์ แต่โอกาสในการสังเกต0คือ ...00.5α=β=20.500.50
อะมีบาพูดว่า Reinstate Monica

3
@amoeba โอกาสขึ้นอยู่กับความหนาแน่นของความน่าจะเป็นไม่ใช่ความน่าจะเป็นของตัวเอง บางครั้งเราสามารถหลีกเลี่ยงปัญหานี้ได้โดยพิจารณาจากการสังเกตแต่ละครั้งเพื่อรวมความน่าจะเป็นของช่วงเวลาเล็ก ๆ แต่ไม่ จำกัด (ไม่แน่นอน) (กำหนดเช่นโดยความแม่นยำของการวัด) หรือโดยการกระจายเบต้าด้วย Gaussian ที่แคบมาก ซึ่งกำจัดความหนาแน่นเป็นศูนย์และไม่มีที่สิ้นสุด)
whuber

2

log(x)log(1x)

pN

ด้วยเหตุนี้ในความเข้าใจของฉันเกี่ยวกับการถดถอยเบต้า 0s และ 1s จะสอดคล้องกับผลลัพธ์ที่แน่นอน (ไม่มีที่สิ้นสุด) อย่างแน่นอน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.