การถดถอยเบต้าของข้อมูลสัดส่วนรวมถึง 1 และ 0


19

ฉันพยายามสร้างแบบจำลองที่ฉันมีตัวแปรตอบกลับซึ่งเป็นสัดส่วนระหว่าง 0 และ 1 ซึ่งรวมถึง 0 และ 1 ไม่กี่ แต่ยังมีค่าอีกมาก ฉันกำลังคิดเกี่ยวกับการพยายามถดถอยเบต้า แพ็คเกจที่ฉันพบสำหรับ R (betareg) อนุญาตเฉพาะค่าระหว่าง 0 ถึง 1 แต่ไม่รวม 0 หรือ 1 ตัวพวกเขา ฉันได้อ่านที่อื่นแล้วว่าตามหลักการแล้วการกระจายเบต้าควรจะสามารถจัดการค่า 0 หรือ 1 ได้ แต่ฉันไม่รู้วิธีจัดการกับสิ่งนี้ใน RI ได้เห็นบางคนเพิ่ม 0.001 ลงในศูนย์และรับ 0.001 จากอันที่จริง แต่ฉันไม่ แน่ใจว่านี่เป็นความคิดที่ดีหรือไม่?

อีกทางหนึ่งฉันสามารถ logit แปลงตัวแปรการตอบสนองและใช้การถดถอยเชิงเส้น ในกรณีนี้ฉันมีปัญหาเดียวกันกับ 0 และ 1 ซึ่งไม่สามารถแปลงการบันทึกได้


การรู้จำนวน - ไม่เพียง แต่สัดส่วน - มีความสำคัญไม่ว่าคุณจะทำอะไร แต่เมื่อคุณมีการนับรุ่นแรกที่ต้องพิจารณาแม้ว่าจะเป็นเพียงจุดเริ่มต้นก็คือการถดถอยโลจิสติก
whuber

เบต้าอยู่ระหว่าง 0 ถึง 1 ( เกือบแน่นอน ) หากคุณสังเกตพวกเขาคุณควรใช้แบบจำลองที่ให้โอกาสในการสังเกตตัวอย่างของคุณ คำตอบสองข้อดูเหมือนจะครอบคลุมวิธีการแบบนั้น ฉันจะเริ่มกับพวกเขา
Glen_b -Reinstate Monica

คำตอบ:


19

คุณสามารถใช้รูปแบบการถดถอยเบต้า - และ / หรือรูปแบบการถดถอยเบต้าที่สูงเกินจริงซึ่งรวมการแจกแจงเบต้ากับการแจกแจงที่ลดลงเพื่อกำหนดความน่าจะเป็นที่ 0 และ 1 ตามลำดับ สำหรับรายละเอียดดูการอ้างอิงต่อไปนี้:

Ospina, R. , & Ferrari, SLP (2010) การแจกแจงเบต้าที่สูงขึ้น เอกสารสถิติ, 51 (1), 111-126 Ospina, R. , & Ferrari, SLP (2012) คลาสทั่วไปของโมเดลการถดถอยเบต้าที่สูงเกินจริงหรือเป็นศูนย์ สถิติการคำนวณและการวิเคราะห์ข้อมูล 56 (6), 1609 - 1623

โมเดลเหล่านี้ใช้งานง่ายด้วยแพ็คเกจ gamlss สำหรับ R


คุณมีตัวอย่างของวิธีการใช้พวกเขาใน R หรือไม่?
Ouistiti

2
@Oistist zoibแพคเกจทำได้ง่าย
Mark White

12

เอกสารประกอบสำหรับbetaregแพ็คเกจR ระบุว่า

ถ้าyถือว่าสุดขั้ว 0 และ 1 การแปลงที่เป็นประโยชน์ในทางปฏิบัติก็คือ (y * (n − 1) + 0.5) / n โดยที่nคือขนาดตัวอย่าง

http://cran.r-project.org/web/packages/betareg/vignettes/betareg.pdf

พวกเขาให้การอ้างอิงSmithson M, Verkuilen J (2006) "เครื่องคั้นมะนาวที่ดีกว่า - การถดถอยโอกาสสูงสุดด้วยตัวแปรที่ขึ้นอยู่กับการกระจายเบต้า" วิธีการทางจิตวิทยา, 11 (1), 54–71


1

คุณไม่ทำการแปลง logit เพื่อทำให้ตัวแปรมีค่าตั้งแต่ลบอนันต์จนถึงบวกอนันต์ใช่หรือไม่ ฉันไม่แน่ใจว่าข้อมูลที่มี 0 และ 1 ควรเป็นปัญหาหรือไม่ นั่นแสดงข้อความข้อผิดพลาดหรือไม่? โดยวิธีการถ้าคุณมีเพียงสัดส่วนการวิเคราะห์ของคุณจะออกมาผิดเสมอ คุณจำเป็นต้องใช้weight=argumentไปglmกับจำนวนผู้ป่วย

หากไม่มีอะไรทำงานคุณสามารถใช้แบ่งแบ่งหรือแยกควอไทล์หรือจุดตัดใด ๆ ที่คุณคิดว่าเหมาะสมที่จะแบ่ง DV ออกเป็นหลายประเภทแล้วเรียกใช้การถดถอยโลจิสติกปกติ ที่อาจใช้งานได้ ลองสิ่งเหล่านี้

ฉันไม่คิดเป็นการส่วนตัวว่าการเพิ่ม 0.001 ลงในศูนย์และการ 0.001 จากสิ่งนั้นเป็นความคิดที่แย่เกินไป แต่ก็มีปัญหาบางอย่างที่จะกล่าวถึงในภายหลัง แค่คิดว่าทำไมคุณไม่เพิ่มและลบ 0.000000001 (หรือมากกว่าทศนิยม) นั่นจะเป็นตัวแทนของ 0 และ 1 !! อาจดูเหมือนว่าคุณไม่ได้สร้างความแตกต่างมากนัก แต่จริงๆแล้วมันทำ

เรามาดูสิ่งต่อไปนี้:

> #odds when 0 is replaced by 0.00000001

> 0.00000001/(1-0.00000001)
[1] 1e-08
> log(0.00000001/(1-0.00000001))
[1] -18.42068

> #odds when 1 is replaced by (1-0.00000001):

> (1-0.00000001)/(1-(1-0.00000001))
[1] 1e+08
> log((1-0.00000001)/(1-(1-0.00000001)))
[1] 18.42068

> #odds when 0 is replaced by 0.001

> 0.001/(1-0.001)
[1] 0.001001001
> log(0.001/(1-0.001))
[1] -6.906755

> #odds when 1 is replaced by (1-0.001):

> (1-0.001)/(1-(1-0.001))
[1] 999
> log((1-0.001)/(1-(1-0.001)))
[1] 6.906755

ดังนั้นคุณจะเห็นว่าคุณจะต้องรักษาอัตราเดิมพันให้ใกล้เคียงกับ (0/1) และ (1/0) คุณคาดว่าอัตราต่อรองของบันทึกจะอยู่ในช่วงลบอนันต์ถึงบวกอนันต์ ดังนั้นในการเพิ่มหรือลบคุณต้องเลือกทศนิยมที่ยาวมากจริง ๆ เพื่อที่อัตราการบันทึกจะใกล้เคียงกับอนันต์ (หรือใหญ่มาก) !! ขอบเขตที่คุณจะพิจารณามีขนาดใหญ่พอนั้นขึ้นอยู่กับคุณเท่านั้น


1

ตรวจสอบสิ่งต่อไปนี้ที่มีการกล่าวถึงการเปลี่ยนแปลงแบบเฉพาะกิจโดยmaartenbuis.nl/presentations/berlin10.pdfบนสไลด์ 17 นอกจากนี้คุณสามารถสร้างแบบจำลอง 0 และ 1 ด้วยการถดถอยโลจิสติกสองแบบแยกกันแล้วใช้การถดถอยแบบเบต้าสำหรับผู้ที่ไม่อยู่ในขอบเขต


1
(y(n1)+0.5)/nn

1

มาในชิ้นรีวิวออนไลน์ในหัวข้อ 'Zero-One Inflated Beta Models' โดย Karen Grace-Martin ใน "The Analysis Factor" โดยสรุปการแก้ปัญหาที่เสนอ (ระบุไว้ข้างต้นโดย Matze O ​​ในปี 2013) เพื่อแก้ไขปัญหาการเกิด 0/1 . ในการอ้างชิ้นส่วนจากการตรวจสอบที่ไม่ใช่ด้านเทคนิค:

ดังนั้นหากลูกค้าใช้ยา 30 วันจาก 30 วันการถดถอยแบบเบต้าจะไม่ทำงาน คุณไม่มี 0s หรือ 1s ในชุดข้อมูล

รุ่นเบต้าที่สูงขึ้นเป็นศูนย์

อย่างไรก็ตามมีรุ่นของตัวแบบการถดถอยเบต้าที่สามารถทำงานได้ในสถานการณ์นี้ มันเป็นหนึ่งในโมเดลที่ได้รับการยอมรับทางทฤษฎีมาระยะหนึ่งแล้ว แต่ในช่วงไม่กี่ปีที่ผ่านมามีให้บริการในซอฟท์แวร์ทางสถิติหลัก ๆ (บางรุ่น)

มันเรียกว่า Zero-One-Inflated Beta และใช้งานได้ดีมากเหมือนรุ่น Zero-Inflated Poisson

มันเป็นรูปแบบผสมที่บอกว่ามีสามกระบวนการที่เกิดขึ้นจริง

หนึ่งคือกระบวนการที่แยกความแตกต่างระหว่างศูนย์และไม่ใช่ศูนย์ ความคิดคือมีบางสิ่งบางอย่างในเชิงคุณภาพเกี่ยวกับคนที่ไม่เคยใช้ยาของพวกเขามากกว่าคนที่ทำ

ในทำนองเดียวกันมีกระบวนการที่แยกความแตกต่างระหว่างคนและไม่ใช่คน อีกครั้งมีบางสิ่งบางอย่างในเชิงคุณภาพเกี่ยวกับคนที่มักจะใช้ยาของพวกเขากว่าผู้ที่ทำบางครั้งหรือไม่เคย

แล้วมีกระบวนการที่สามที่กำหนดจำนวนคนที่ใช้ยาหากพวกเขาทำบางครั้ง

กระบวนการแรกและครั้งที่สองจะดำเนินการผ่านการถดถอยโลจิสติกและกระบวนการที่สามผ่านการถดถอยเบต้า

สามรุ่นนี้ทำงานพร้อมกัน พวกเขาแต่ละคนสามารถมีชุดทำนายและชุดค่าสัมประสิทธิ์ของตัวเอง ...

ขึ้นอยู่กับรูปร่างของการกระจายคุณอาจไม่จำเป็นต้องใช้ทั้งสามกระบวนการ หากไม่มีศูนย์ในชุดข้อมูลคุณอาจต้องรองรับเงินเฟ้อที่ 1 เท่านั้น

มีความยืดหยุ่นสูงและเพิ่มตัวเลือกที่สำคัญให้กับกล่องเครื่องมือวิเคราะห์ข้อมูลของคุณ "

ที่นี่ยังเป็นแหล่งข้อมูลทางเทคนิคสำหรับเดือนธันวาคม 2558 สำหรับ 'zoib: แพ็คเกจ R สำหรับการอนุมานแบบเบย์สำหรับการถดถอยเบต้าและการถดถอยเบต้าที่ศูนย์ / หนึ่งที่สูงขึ้น' ผู้เขียนทราบว่าตัวแปร y ในรูปแบบการถดถอยของศูนย์ / หนึ่งที่สูงเกินจริง (ZOIB) สามารถนำมาใช้ได้เมื่อ y รับค่าจากช่วงเวลาปิดของหน่วย [0, 1] เห็นได้ชัดว่าแบบจำลอง zoib สมมติว่า Yij ติดตามการแจกแจงเป็นชิ้น ๆ (ดูระบบที่อธิบายไว้ใน (1) ในหน้า 38)


0

pp

a,. รูปแบบที่คุณต้องการคือคอนจูเกตก่อนการกระจายเบต้าซึ่งจะคำนวณโอกาสที่จะเกิดขึ้นa,.

ฉันจะต้องได้รับแบบจำลองอีกครั้ง แต่ถ้าฉันจำได้อย่างถูกต้องสำหรับสัดส่วน x1,...,xn คุณส่งคืนพารามิเตอร์การคาดการณ์สามรายการ: nจำนวนคะแนนและถ้าความจำของฉันถูกต้อง ΣJ[ψ(Σผมxผม)-ψ(xJ)] และ ΣJ[ψ(Σผม1-xผม)-ψ(1-xJ)]. นี่คือพารามิเตอร์ของการแจกแจงเหนือพารามิเตอร์ของการแจกแจงเบต้าของคุณซึ่งเป็นตัวแบบสัดส่วนของคุณ


1
คุณอาจต้องการมีส่วนร่วมใน Meta หัวข้อนี้ stats.meta.stackexchange.com/questions/5814/…
Sycorax พูดว่า Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.