ศูนย์การแจกแจงที่สูงเกินจริงมันคืออะไรกันแน่?

15

ฉันกำลังดิ้นรนเพื่อที่จะเข้าใจการแจกแจงที่สูงเกินจริง พวกเขาคืออะไร ประเด็นคืออะไร?

ถ้าฉันมีข้อมูลที่มีศูนย์เป็นจำนวนมากจากนั้นฉันสามารถใส่การถดถอยแบบโลจิสติกก่อนคำนวณความน่าจะเป็นที่เป็นศูนย์จากนั้นฉันสามารถลบศูนย์ทั้งหมดแล้วจึงใส่การถดถอยแบบปกติโดยใช้ตัวเลือกการกระจายของฉัน

จากนั้นมีใครบางคนบอกฉันว่า "เฮ้ใช้การกระจายตัวที่สูงเกินจริงเป็นศูนย์" แต่เมื่อมองดูแล้วดูเหมือนจะไม่ทำอะไรที่แตกต่างไปจากที่ฉันแนะนำไว้ข้างต้น? มันมีพารามิเตอร์ปกติและจากนั้นพารามิเตอร์อื่นเพื่อสร้างแบบจำลองความน่าจะเป็นที่เป็นศูนย์? มันทำทั้งสองอย่างพร้อมกันหรือเปล่า? $\mu$ $p$

zero-inflation

— Calro
แหล่งที่มา

3

ทำไมคุณลบศูนย์ทั้งหมด? คุณสามารถทำมันด้วยกันก่อนอื่นคุณคำนวณความน่าจะเป็นที่ 0 และ 1 แล้วใช้มันเป็นน้ำหนักสำหรับการแจกแจงปัวซองของคุณซึ่งเป็นแบบจำลองที่มีค่าศูนย์ (การกระจาย) อ่านนี่มันค่อนข้างชัดเจนen.wikipedia.org/wiki/Zero-inflated_model

— Deep North

13

พอดีกับการถดถอยโลจิสติกก่อนคำนวณความน่าจะเป็นของศูนย์แล้วฉันสามารถลบศูนย์ทั้งหมดแล้วพอดีกับการถดถอยปกติโดยใช้ตัวเลือกการกระจายของฉัน (ปัวซองเช่น)

คุณพูดถูก นี่เป็นวิธีหนึ่งในการปรับให้เข้ากับโมเดลที่มีค่าเป็นศูนย์ (หรือที่ Achim Zeileis ชี้ให้เห็นในความคิดเห็นนี่เป็น "แบบจำลองอุปสรรค์" อย่างเคร่งครัด

ความแตกต่างระหว่างโพรซีเดอร์ที่คุณอธิบายและโมเดล "zero-in-one" ที่ขยายเกินจริงคือการเผยแพร่ข้อผิดพลาด เช่นเดียวกับขั้นตอนสองขั้นตอนอื่น ๆ ในสถิติความไม่แน่นอนโดยรวมของการคาดการณ์ของคุณในขั้นตอนที่ 2 จะไม่คำนึงถึงความไม่แน่นอนว่าการคาดการณ์ควรเป็น 0 หรือไม่

บางครั้งนี่เป็นความชั่วร้ายที่จำเป็น โชคดีที่มันไม่จำเป็นในกรณีนี้ ในการวิจัยคุณสามารถใช้หรือpscl::hurdle()fitdistrplus::fitdist()

— shadowtalker
แหล่งที่มา

คุณสามารถอธิบายสิ่งนี้ได้หรือไม่ "ความไม่แน่นอนโดยรวมของการคาดการณ์ของคุณในขั้นตอนที่ 2 จะไม่คำนึงถึงความไม่แน่นอนว่าการทำนายนั้นควรเป็น 0 หรือไม่" เมื่อคุณทำ Zip Poisson คุณจะได้ความน่าจะเป็นในส่วนแรกของฟังก์ชันความน่าจะเป็นของโมเดล Poisson ดังนั้นขั้นตอนที่ 2 จะคำนึงถึงความไม่แน่นอนของ 0 หรือ 1

— Deep North

1

@DeepNorth หากโดย "ความไม่แน่นอนของ 0 หรือ 1" คุณหมายถึงบางสิ่งบางอย่างเช่นดังนั้นคำสั่งนั้นจึงเป็นการประมาณ การประมาณมีความไม่แน่นอนอยู่รอบตัว ช่วงของค่าที่เป็นไปได้คืออะไร? เรามั่นใจแค่ไหนที่นั้นถูกต้อง? นั่นคือความไม่แน่นอนซึ่งไม่ได้เผยแพร่ในสองขั้นตอนง่ายๆ

P (Y = 1 | X = x) = 0.51

$P(Y=1|X=x) = 0.51$

0.51

$0.51$

— shadowtalker

3

@ssdecontrol โดยปกติแล้วสิ่งนี้จะไม่เรียกว่าแบบจำลองที่มีค่าเป็นศูนย์ แต่เป็นรูปแบบของสิ่งกีดขวาง (เช่นpscl::hurdle()) และเพื่อให้ได้การกระจายที่เหมาะสมสำหรับข้อมูลที่ไม่มีเลขศูนย์ควรตัดให้เป็นศูนย์ (หรือไม่นำไปสู่ศูนย์ใด ๆ ในตอนแรก) ดูคำตอบของฉันสำหรับรายละเอียดเพิ่มเติม

— Achim Zeileis

9

ความคิดพื้นฐานที่คุณอธิบายเป็นวิธีการที่ถูกต้องและมันก็มักจะเรียกว่ารุ่นกีดขวาง (หรือสองส่วนรุ่น) แทนที่จะเป็นรูปแบบศูนย์ที่สูงเกินจริง

อย่างไรก็ตามมันเป็นสิ่งสำคัญที่โมเดลสำหรับบัญชีข้อมูลที่ไม่เป็นศูนย์สำหรับการลบค่าศูนย์ ถ้าคุณใส่โมเดลปัวซงเข้ากับข้อมูลที่ไม่มีศูนย์นี่จะทำให้เกิดความพอดีเพราะการกระจายปัวซองนั้นมีความเป็นไปได้ที่จะเป็นศูนย์เสมอ ทางเลือกที่เป็นธรรมชาติคือการใช้การกระจายปัวซองแบบไม่มีการตัดทอนซึ่งเป็นวิธีแบบดั้งเดิมในการถดถอยแบบกีดขวางสำหรับการนับข้อมูล

ความแตกต่างที่สำคัญระหว่างตัวแบบ zero-inflated และตัวแบบ hurdle คือความน่าจะเป็นที่จำลองในส่วนไบนารีของการถดถอย สำหรับรุ่นอุปสรรค์มันเป็นความน่าจะเป็นที่ศูนย์และไม่เป็นศูนย์ ในรุ่นที่มีค่าศูนย์สูงเกินจริงมันเป็นความน่าจะเป็นที่จะมีค่าศูนย์เกินเช่นความน่าจะเป็นของศูนย์ที่ไม่ได้เกิดจากการกระจายตัวที่ไม่พอง (เช่นปัวซอง)

สำหรับการอภิปรายทั้งโมเดลกีดขวางและศูนย์เงินเฟ้อสำหรับข้อมูลนับใน R ดูต้นฉบับของเราที่ตีพิมพ์ใน JSS และจัดส่งเป็นบทความสั้นไปยังpsclแพ็คเกจ: http://dx.doi.org/10.18637/jss.v027.i08

— Achim Zeileis
แหล่งที่มา

7

สิ่งที่ ssdecontrol พูดนั้นถูกต้องมาก แต่ฉันต้องการเพิ่มไม่กี่เซ็นต์ในการสนทนา

ฉันเพิ่งดูการบรรยายในรุ่น Zero Inflated สำหรับข้อมูลนับโดย Richard McElreath บน YouTube

มันสมเหตุสมผลที่จะประมาณค่า p ในขณะที่ควบคุมตัวแปรที่อธิบายอัตราของโมเดลปัวซองบริสุทธิ์โดยเฉพาะถ้าคุณพิจารณาว่าโอกาสที่ศูนย์ที่ถูกสังเกตนั้นเกิดขึ้นจากการแจกแจงปัวซองนั้นไม่ใช่ 100%

นอกจากนี้ยังสมเหตุสมผลเมื่อคุณพิจารณาพารามิเตอร์ของแบบจำลองเนื่องจากคุณจบลงด้วยตัวแปรสองตัวเพื่อประมาณค่า p และอัตราของโมเดลปัวซงและสมการสองตัวกรณีที่นับเป็นศูนย์และกรณีที่จำนวนแตกต่างจาก ศูนย์.

แหล่งรูปภาพ: การทบทวนสถิติ - หลักสูตร Bayesian พร้อมตัวอย่างใน R และ Stan โดย Richard McElreath

แก้ไข : พิมพ์ผิด

— Guilherme Marthe
แหล่งที่มา

อ้างอิงถึงสื่อการเรียนรู้ได้รับการชื่นชม ... แต่วิธีนี้จะตอบคำถามในมือ? ดูเหมือน

— ว่าความ