อะไรคือความแตกต่างระหว่างรุ่นที่มีค่าศูนย์สูงเกินจริงและสิ่งกีดขวาง


81

ฉันสงสัยว่ามีความแตกต่างที่ชัดเจนระหว่างการแจกแจงแบบ zero-inflated (โมเดล) และการแจกแจงแบบกีดขวางที่ศูนย์ (รุ่น) หรือไม่? คำศัพท์เกิดขึ้นบ่อยครั้งในวรรณกรรมและฉันสงสัยว่ามันไม่เหมือนกัน แต่คุณช่วยอธิบายความแตกต่างในแง่ง่าย ๆ หน่อยได้ไหม?

คำตอบ:


80

ขอบคุณสำหรับคำถามที่น่าสนใจ!

ความแตกต่าง:ข้อ จำกัด หนึ่งของแบบจำลองการนับมาตรฐานคือค่าศูนย์และไม่ใช่ศูนย์ (บวก) ถือว่ามาจากกระบวนการสร้างข้อมูลเดียวกัน ด้วยโมเดลที่มีอุปสรรค์สองกระบวนการนี้จะไม่ถูกบังคับให้เหมือนกัน แนวคิดพื้นฐานคือความน่าจะเป็นของเบอร์นูลลีควบคุมผลเลขฐานสองว่าการนับแบบแปรผันมีความเป็นศูนย์หรือการรับรู้เชิงบวก หากการรับรู้เป็นบวกอุปสรรค์จะถูกข้ามและการแจกแจงแบบมีเงื่อนไขของผลบวกจะถูกควบคุมโดยแบบจำลองข้อมูลนับจำนวนที่ถูกตัดทอนที่ศูนย์ ด้วยรุ่นที่สูงเกินจริงตัวแปรการตอบสนองถูกจำลองเป็นส่วนผสมของการแจกแจงเบอร์นูลลี (หรือเรียกว่ามวลจุดที่ศูนย์) และการแจกแจงปัวซง สำหรับรายละเอียดเพิ่มเติมและสูตรดูตัวอย่างเช่น Gurmu และ Trivedi (2011) และ Dalrymple, Hudson และ Ford (2003)

ตัวอย่าง:แบบจำลองอุปสรรค์สามารถได้รับแรงบันดาลใจจากกระบวนการตัดสินใจตามลำดับที่เผชิญหน้าโดยบุคคล คุณตัดสินใจก่อนว่าคุณต้องการซื้ออะไรหรือไม่จากนั้นคุณจะตัดสินใจเกี่ยวกับปริมาณของสิ่งนั้น (ซึ่งจะต้องเป็นค่าบวก) เมื่อคุณได้รับอนุญาตให้ซื้อ (หรืออาจเป็นไปได้) ไม่ได้ซื้ออะไรหลังจากตัดสินใจซื้ออะไรบางอย่างเป็นตัวอย่างของสถานการณ์ที่โมเดลที่มีค่าศูนย์สูงเกินจริง ศูนย์อาจมาจากสองแหล่ง: ก) ไม่มีการตัดสินใจซื้อ b) ต้องการซื้อ แต่สุดท้ายก็ไม่ได้ซื้ออะไรเลย (เช่นหมดสต๊อก)

เบต้า:รุ่นอุปสรรค์เป็นกรณีพิเศษของรุ่นสองส่วนที่อธิบายไว้ในบทที่ 16 ของ Frees (2011) ที่นั่นเราจะเห็นว่าสำหรับแบบจำลองสองส่วนจำนวนของการดูแลสุขภาพที่ใช้อาจจะเป็นแบบต่อเนื่องและตัวแปรนับ ดังนั้นสิ่งที่เรียกว่า "การกระจายเบต้าที่ไม่ทำให้เกิดศูนย์" ในความเป็นจริงสับสนในความเป็นจริงนั้นอยู่ในชั้นเรียนของการแจกแจงแบบสองส่วนและแบบจำลอง (พบได้ทั่วไปในวิทยาศาสตร์คณิตศาสตร์ประกันภัย) ซึ่งสอดคล้องกับคำจำกัดความข้างต้น . หนังสือยอดเยี่ยมเล่มนี้กล่าวถึงแบบจำลองที่ไม่มีการพองในส่วนที่ 12.4.1 และแบบจำลองที่มีอุปสรรคในข้อ 12.4.2 โดยมีสูตรและตัวอย่างจากการใช้งานตามหลักคณิตศาสตร์ประกันภัย

ประวัติความเป็นมา:โมเดลปัวซอง (ZIP) ที่ไม่มีการพองตัวที่ไม่มีโควาเรียตมีประวัติอันยาวนาน (ดูเช่น Johnson และ Kotz, 1969) รูปแบบทั่วไปของแบบจำลองการถดถอย ZIP ที่รวม covariates นั้นเกิดจาก Lambert (1992) อุปสรรค์รูปแบบเป็นครั้งแรกที่เสนอโดยนักสถิติชาวแคนาดา Cragg (2514) และต่อมาพัฒนาเพิ่มเติมโดย Mullahy (2529) คุณอาจพิจารณา Croston (1972) ซึ่งใช้การนับเชิงเรขาคณิตเชิงบวกพร้อมกับกระบวนการ Bernoulli เพื่ออธิบายกระบวนการที่มีค่าเป็นจำนวนเต็มซึ่งมีศูนย์เป็นศูนย์

R:ในที่สุดหากคุณใช้ R จะมีแพ็คเกจ pscl สำหรับ "คลาสและวิธีการสำหรับ R ที่พัฒนาในห้องปฏิบัติการคำนวณทางรัฐศาสตร์"โดย Simon Jackman ซึ่งมีฟังก์ชัน hurdle () และ zeroinfl () โดย Achim Zeileis

การอ้างอิงต่อไปนี้ได้รับการพิจารณาเพื่อผลิตดังกล่าว:

  • Gurmu, S. & Trivedi, ศูนย์ส่วนเกิน PK ในแบบนับสำหรับการเดินทางท่องเที่ยววารสารธุรกิจและสถิติเศรษฐกิจ, 1996, 14, 469-477
  • Johnson, N. , Kotz, S. , ดิสทริบิวชันในสถิติ: การแจกแจงแบบไม่ต่อเนื่อง 2512 ฮัฟตั้น MiZin บอสตัน
  • แลมเบิร์ต, D. , การถดถอยปัวส์ซองที่ไม่มีการพองตัวด้วยการประยุกต์ใช้กับข้อบกพร่องในการผลิต Technometrics, 1992, 34 (1), 1–14
  • Cragg, JG แบบจำลองทางสถิติสำหรับตัวแปรที่ขึ้นกับการ จำกัด ด้วยการประยุกต์ใช้กับความต้องการสำหรับเศรษฐมิติสินค้าคงทน, 1971, 39, 829-844
  • Mullahy, J. ข้อมูลจำเพาะและการทดสอบของตัวแบบข้อมูลนับจำนวนที่ผ่านการดัดแปลง Journal of Econometrics, 1986, 33, 341-365
  • ปลดปล่อย, การสร้างแบบจำลองการถดถอย EW พร้อมสถิติประกันภัยและใบสมัครทางการเงิน Cambridge University Press, 2011
  • Dalrymple, ML; ฮัดสัน, อิลลินอยส์และฟอร์ด, RPK Finite Mixture, ปัวซองแบบไม่ปรกติและโมเดล Hurdle พร้อมแอพพลิเคชั่นสำหรับ SIDS การคำนวณทางสถิติและการวิเคราะห์ข้อมูล, 2003, 41, 491-504
  • Croston, JD พยากรณ์และควบคุมสต็อกสำหรับความต้องการการวิจัยเชิงปฏิบัติการเป็นระยะ ๆ ทุกไตรมาส, 1972, 23, 28, 289-303

2
แบบจำลองอุปสรรค์นั้นเป็น "แบบจำลอง" จริงๆหรือไม่? หรือมันใช้สองแบบเรียงตามลำดับและแยกกันประมาณ? ลองนึกภาพการสร้างแบบจำลองความสามารถในการแข่งขันของเผ่าพันธุ์เลือกโดยดูจากคะแนนการแข่งขัน (1 - กำไรแห่งชัยชนะ) สิ่งนี้ถูกล้อมรอบ [0, 1) เนื่องจากไม่มีความสัมพันธ์ (เช่น 1) ดังนั้นก่อนอื่นเราทำการถดถอยโลจิสติกเพื่อวิเคราะห์ 0 เทียบกับ (0, 1) จากนั้นเราทำการถดถอยเบต้าเพื่อวิเคราะห์กรณี (0, 1) ดูเหมือนว่าทั้งสองนี้เป็นแบบจำลองที่แตกต่างกันอย่างสิ้นเชิงพร้อมกับสัมประสิทธิ์ของตัวเองและการประมาณแยกต่างหาก? หรือว่าฉันขาดอะไรไป?
ทำเครื่องหมายสีขาว

ตัวอย่างเช่นคุณพูดถึงคำตอบของคุณว่าค่าศูนย์อาจเป็นเพราะ (a) ตัดสินใจไม่ซื้อรถยนต์หรือ (b) ต้องการ แต่มันหมดสต็อก ดูเหมือนว่าแบบจำลองอุปสรรค์จะไม่สามารถแยกความแตกต่างระหว่างทั้งสองเพราะพวกเขาทำตามลำดับ ... ?
ทำเครื่องหมายสีขาว

ลองพิจารณาอีกตัวอย่างหนึ่ง: การตอบสนองคือ [1, 7] เช่นเดียวกับมาตราส่วน Likert แบบดั้งเดิมโดยมีเอฟเฟกต์เพดานสูงที่ 7 เราสามารถทำแบบจำลองอุปสรรค์ที่การถดถอยโลจิสติกของ [1, 7) กับ 7 และจากนั้นก็ถดถอย Tobit สำหรับทุกกรณีที่การตอบสนองที่สังเกตได้คือ <7 อีกครั้งเราได้รับค่าสัมประสิทธิ์การถดถอยสองชุด ดูเหมือนว่าเราไม่ได้ทำแบบจำลองกระบวนการเหล่านี้ร่วมกัน แต่ในสองรูปแบบที่แตกต่างกันโดยสิ้นเชิง? ดังนั้นอุปสรรค์จริงๆแล้วเป็นแบบจำลองหรือเพียงแค่กระบวนการในการทำแบบจำลองเชิงเส้นสองแบบที่แตกต่างกันในแถว?
Mark White

ฉันขยายคำถามนี้ในโพสต์ของฉันเองที่นี่: stats.stackexchange.com/questions/320924/…
ทำเครื่องหมายสีขาว

47

แบบจำลองอุปสรรค์สมมติว่ามีเพียงกระบวนการเดียวเท่านั้นที่สามารถสร้างศูนย์ได้ในขณะที่รุ่นที่มีค่าศูนย์สูงเกินสมมติว่ามีกระบวนการที่แตกต่างกัน 2 แบบที่สามารถสร้างศูนย์ได้

แบบจำลองอุปสรรค์ถือว่า 2 ประเภทวิชา: (1) ผู้ที่ไม่เคยพบผลลัพธ์และ (2) ผู้ที่เคยประสบผลลัพธ์อย่างน้อยหนึ่งครั้ง ตัวแบบที่ไม่มีการพองตัวทำให้แนวคิดของอาสาสมัครเป็น (1) คนที่ไม่เคยได้สัมผัสผลลัพธ์และ (2) คนที่สามารถสัมผัสผลลัพธ์ แต่ไม่เสมอไป

ในคำง่าย ๆ : ทั้งสองแบบศูนย์ - พองและอุปสรรค์อธิบายไว้ในสองส่วน

π1ππ

ส่วนที่สองคือส่วนการนับซึ่งเกิดขึ้นเมื่อระบบ "เปิด" นี่คือสิ่งที่รุ่นที่สูงเกินจริงและกีดขวางแตกต่างกัน ในรุ่นที่มีค่าเป็นศูนย์เกินจำนวนจะยังคงเป็นศูนย์ ในรุ่นอุปสรรค์พวกเขาจะต้องไม่ใช่ศูนย์ สำหรับส่วนนี้โมเดลที่มีค่าศูนย์สูงเกินไปใช้การแจกแจงความน่าจะเป็นแบบ "ปกติ" ในขณะที่แบบจำลองอุปสรรค์จะใช้ฟังก์ชันการแจกแจงความน่าจะเป็นแบบไม่ต่อเนื่องแบบไม่มีศูนย์

ตัวอย่างรุ่นอุปสรรค์: ผู้ผลิตรถยนต์ต้องการเปรียบเทียบสองโปรแกรมควบคุมคุณภาพสำหรับรถยนต์ของตน มันจะเปรียบเทียบพวกเขาตามจำนวนของการเรียกร้องการรับประกันที่ยื่น สำหรับแต่ละโปรแกรมจะมีการติดตามลูกค้าที่เลือกแบบสุ่มเป็นเวลา 1 ปีและจะมีการนับจำนวนการเรียกร้องการรับประกันที่พวกเขามี จากนั้นจึงเปรียบเทียบความน่าจะเป็นของอัตราเงินเฟ้อสำหรับแต่ละโปรแกรมทั้งสอง สถานะ“ ปิด” คือ“ อ้างสิทธิ์เป็นศูนย์” ในขณะที่สถานะ“ เปิด” คือ“ ยื่นอย่างน้อยหนึ่งข้อเรียกร้อง”

ตัวอย่างของโมเดลที่ไม่มีการพองลม: ในการศึกษาเดียวกันข้างต้นนักวิจัยพบว่าการซ่อมแซมรถยนต์บางส่วนได้รับการแก้ไขโดยไม่ต้องยื่นเรื่องการรับประกัน ด้วยวิธีนี้ศูนย์เป็นส่วนผสมของการไม่มีปัญหาในการควบคุมคุณภาพเช่นเดียวกับการปรากฏตัวของปัญหาการควบคุมคุณภาพที่ไม่เกี่ยวข้องกับการเรียกร้องการรับประกัน สถานะ“ ปิด” หมายถึง“ ยื่นคำร้องเป็นศูนย์” ในขณะที่สถานะ“ เปิด” หมายถึง“ ยื่นคำร้องอย่างน้อยหนึ่งข้อหรือได้รับการแก้ไขโดยไม่ต้องยื่นเรื่องร้องเรียน”

ดูที่นี่สำหรับการศึกษาที่ใช้โมเดลทั้งสองแบบกับชุดข้อมูลเดียวกัน


ขอบคุณสำหรับคำตอบโดยละเอียด คุณมีความเห็นเกี่ยวกับคำศัพท์ที่เหมาะสมสำหรับการกระจายเบต้าแบบมาตรฐานที่มีศูนย์เพิ่มหรือไม่ การใช้ความหมายของศูนย์ที่สูงรุ่นที่มีเป็นอย่างหนึ่งแหล่งที่มาของศูนย์ดังนั้นจึงไม่สามารถเรียกได้ว่าเป็นศูนย์ที่สูงเกินจริง ... ดูการสนทนานี้stats.stackexchange.com/questions/81343/...
skulker

2
ฉันชอบ "การกระจายเบต้าแบบไม่ต้องเพิ่มศูนย์" ตามคำแนะนำของ @Hibernating
Darren James

10

yiπyiλ1π

Pr(yj=0)=π+(1π)eλ
Pr(yj=xi)=(1π)λxieλxi!,xi1

และในแบบจำลองอุปสรรค์ ~ 0 ด้วยความน่าจะเป็นและ ~ การตัดทอน Poisson ( ) การกระจายด้วยความน่าจะเป็นและ: yiπyiλ1π

Pr(yj=0)=π
Pr(yj=xi)=(1π)1eλ(λxieλxi!),xi1

4

เกี่ยวกับแบบจำลองอุปสรรค์นี่คือข้อความจากความก้าวหน้าในการสร้างแบบจำลองทางคณิตศาสตร์และสถิติ (Arnold, Balakrishnan, Sarabia, & Mínguez, 2008):

แบบจำลองอุปสรรค์นั้นมีลักษณะโดยกระบวนการด้านล่างอุปสรรค์และแบบข้างบน เห็นได้ชัดว่ารุ่นอุปสรรค์ที่ใช้กันอย่างแพร่หลายที่สุดคือรุ่นที่ตั้งกีดขวางที่ศูนย์ รูปแบบของอุปสรรค์ที่ศูนย์แสดงเป็น:สำหรับสำหรับP(Ni=ni)=f1(0)ni=0 P(Ni=ni)=1f1(0)1f2(0)f2(ni)=ϕf2(ni)ni=1,2,...

ตัวแปรสามารถตีความได้ว่าเป็นความน่าจะเป็นที่จะข้ามอุปสรรค์หรือแม่นยำกว่าในกรณีของการประกันภัยความน่าจะเป็นที่จะรายงานอย่างน้อยหนึ่งข้อเรียกร้องϕ

สำหรับโมเดลที่มีค่าศูนย์สูงเกินจริงWikipedia พูดว่า :

แบบจำลองที่มีค่าศูนย์สูงเกินจริงเป็นแบบจำลองทางสถิติโดยพิจารณาจากการแจกแจงความน่าจะเป็นศูนย์ที่สูงเกินจริงเช่นการแจกแจงที่ช่วยให้การสังเกตค่าศูนย์เป็นศูนย์บ่อยครั้ง

โมเดลปัวซอง zero-พองตัวเกี่ยวข้องกับเหตุการณ์สุ่มที่มีข้อมูลนับศูนย์เกินในเวลาหน่วย ตัวอย่างเช่นจำนวนการเรียกร้องให้ บริษัท ประกันภัยโดยบุคคลที่ได้รับความคุ้มครองนั้นเกือบจะเป็นศูนย์เสมอมิฉะนั้นความสูญเสียจำนวนมากจะทำให้ บริษัท ประกันภัยล้มละลาย โมเดลปัวซอง (ZIP) zero-inflated ใช้องค์ประกอบสองอย่างที่สอดคล้องกับกระบวนการสร้างศูนย์สองศูนย์ กระบวนการแรกถูกควบคุมโดยการกระจายแบบไบนารีที่สร้างศูนย์โครงสร้าง กระบวนการที่สองถูกควบคุมโดยการแจกแจงปัวซองที่สร้างการนับซึ่งบางกระบวนการอาจเป็นศูนย์ ส่วนประกอบของแบบจำลองทั้งสองอธิบายไว้ดังนี้: Pr( y j =0)=π+(1-π) e - λ Pr( y j = h i )=(1-π) λ h i e - λ[1]

Pr(yj=0)=π+(1π)eλ
y j λ ฉันฉันπ
Pr(yj=hi)=(1π)λhieλhi!,hi1
เมื่อตัวแปรผลลัพธ์มีค่าจำนวนเต็มไม่เป็นลบคือจำนวนปัวซองที่คาดไว้สำหรับบุคคลที่คือความน่าจะเป็นของเลขศูนย์พิเศษyjλiiπ

จากอาร์โนลด์และเพื่อนร่วมงาน (2008) ฉันเห็นว่าแบบจำลองอุปสรรค์ที่ศูนย์เป็นกรณีพิเศษของรุ่นอุปสรรค์ทั่วไปมากขึ้น แต่จากการอ้างอิงใน Wikipedia ( Hall, 2004 ) ฉันก็เห็นด้วยเช่นกันว่าศูนย์ - รุ่นที่สูงเกินจริงสามารถมีขอบเขตบน ฉันไม่เข้าใจความแตกต่างของสูตร แต่พวกเขาดูเหมือนจะคล้ายกันมาก (ทั้งคู่ใช้ตัวอย่างที่คล้ายกันมากเรียกร้องประกัน) ฉันหวังว่าคำตอบอื่น ๆ สามารถช่วยอธิบายความแตกต่างที่สำคัญและคำตอบนี้จะช่วยกำหนดเวทีสำหรับสิ่งเหล่านั้น

การอ้างอิงของ Wikipedia:

  1. Lambert, D. (1992) การถดถอยปัวซองที่ไม่ทำให้เป็นศูนย์โดยมีการประยุกต์ใช้กับข้อบกพร่องในการผลิต เทคนิค, 34 (1), 1–14
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.