ฉันสงสัยว่ามีความแตกต่างที่ชัดเจนระหว่างการแจกแจงแบบ zero-inflated (โมเดล) และการแจกแจงแบบกีดขวางที่ศูนย์ (รุ่น) หรือไม่? คำศัพท์เกิดขึ้นบ่อยครั้งในวรรณกรรมและฉันสงสัยว่ามันไม่เหมือนกัน แต่คุณช่วยอธิบายความแตกต่างในแง่ง่าย ๆ หน่อยได้ไหม?
ฉันสงสัยว่ามีความแตกต่างที่ชัดเจนระหว่างการแจกแจงแบบ zero-inflated (โมเดล) และการแจกแจงแบบกีดขวางที่ศูนย์ (รุ่น) หรือไม่? คำศัพท์เกิดขึ้นบ่อยครั้งในวรรณกรรมและฉันสงสัยว่ามันไม่เหมือนกัน แต่คุณช่วยอธิบายความแตกต่างในแง่ง่าย ๆ หน่อยได้ไหม?
คำตอบ:
ขอบคุณสำหรับคำถามที่น่าสนใจ!
ความแตกต่าง:ข้อ จำกัด หนึ่งของแบบจำลองการนับมาตรฐานคือค่าศูนย์และไม่ใช่ศูนย์ (บวก) ถือว่ามาจากกระบวนการสร้างข้อมูลเดียวกัน ด้วยโมเดลที่มีอุปสรรค์สองกระบวนการนี้จะไม่ถูกบังคับให้เหมือนกัน แนวคิดพื้นฐานคือความน่าจะเป็นของเบอร์นูลลีควบคุมผลเลขฐานสองว่าการนับแบบแปรผันมีความเป็นศูนย์หรือการรับรู้เชิงบวก หากการรับรู้เป็นบวกอุปสรรค์จะถูกข้ามและการแจกแจงแบบมีเงื่อนไขของผลบวกจะถูกควบคุมโดยแบบจำลองข้อมูลนับจำนวนที่ถูกตัดทอนที่ศูนย์ ด้วยรุ่นที่สูงเกินจริงตัวแปรการตอบสนองถูกจำลองเป็นส่วนผสมของการแจกแจงเบอร์นูลลี (หรือเรียกว่ามวลจุดที่ศูนย์) และการแจกแจงปัวซง สำหรับรายละเอียดเพิ่มเติมและสูตรดูตัวอย่างเช่น Gurmu และ Trivedi (2011) และ Dalrymple, Hudson และ Ford (2003)
ตัวอย่าง:แบบจำลองอุปสรรค์สามารถได้รับแรงบันดาลใจจากกระบวนการตัดสินใจตามลำดับที่เผชิญหน้าโดยบุคคล คุณตัดสินใจก่อนว่าคุณต้องการซื้ออะไรหรือไม่จากนั้นคุณจะตัดสินใจเกี่ยวกับปริมาณของสิ่งนั้น (ซึ่งจะต้องเป็นค่าบวก) เมื่อคุณได้รับอนุญาตให้ซื้อ (หรืออาจเป็นไปได้) ไม่ได้ซื้ออะไรหลังจากตัดสินใจซื้ออะไรบางอย่างเป็นตัวอย่างของสถานการณ์ที่โมเดลที่มีค่าศูนย์สูงเกินจริง ศูนย์อาจมาจากสองแหล่ง: ก) ไม่มีการตัดสินใจซื้อ b) ต้องการซื้อ แต่สุดท้ายก็ไม่ได้ซื้ออะไรเลย (เช่นหมดสต๊อก)
เบต้า:รุ่นอุปสรรค์เป็นกรณีพิเศษของรุ่นสองส่วนที่อธิบายไว้ในบทที่ 16 ของ Frees (2011) ที่นั่นเราจะเห็นว่าสำหรับแบบจำลองสองส่วนจำนวนของการดูแลสุขภาพที่ใช้อาจจะเป็นแบบต่อเนื่องและตัวแปรนับ ดังนั้นสิ่งที่เรียกว่า "การกระจายเบต้าที่ไม่ทำให้เกิดศูนย์" ในความเป็นจริงสับสนในความเป็นจริงนั้นอยู่ในชั้นเรียนของการแจกแจงแบบสองส่วนและแบบจำลอง (พบได้ทั่วไปในวิทยาศาสตร์คณิตศาสตร์ประกันภัย) ซึ่งสอดคล้องกับคำจำกัดความข้างต้น . หนังสือยอดเยี่ยมเล่มนี้กล่าวถึงแบบจำลองที่ไม่มีการพองในส่วนที่ 12.4.1 และแบบจำลองที่มีอุปสรรคในข้อ 12.4.2 โดยมีสูตรและตัวอย่างจากการใช้งานตามหลักคณิตศาสตร์ประกันภัย
ประวัติความเป็นมา:โมเดลปัวซอง (ZIP) ที่ไม่มีการพองตัวที่ไม่มีโควาเรียตมีประวัติอันยาวนาน (ดูเช่น Johnson และ Kotz, 1969) รูปแบบทั่วไปของแบบจำลองการถดถอย ZIP ที่รวม covariates นั้นเกิดจาก Lambert (1992) อุปสรรค์รูปแบบเป็นครั้งแรกที่เสนอโดยนักสถิติชาวแคนาดา Cragg (2514) และต่อมาพัฒนาเพิ่มเติมโดย Mullahy (2529) คุณอาจพิจารณา Croston (1972) ซึ่งใช้การนับเชิงเรขาคณิตเชิงบวกพร้อมกับกระบวนการ Bernoulli เพื่ออธิบายกระบวนการที่มีค่าเป็นจำนวนเต็มซึ่งมีศูนย์เป็นศูนย์
R:ในที่สุดหากคุณใช้ R จะมีแพ็คเกจ pscl สำหรับ "คลาสและวิธีการสำหรับ R ที่พัฒนาในห้องปฏิบัติการคำนวณทางรัฐศาสตร์"โดย Simon Jackman ซึ่งมีฟังก์ชัน hurdle () และ zeroinfl () โดย Achim Zeileis
การอ้างอิงต่อไปนี้ได้รับการพิจารณาเพื่อผลิตดังกล่าว:
แบบจำลองอุปสรรค์สมมติว่ามีเพียงกระบวนการเดียวเท่านั้นที่สามารถสร้างศูนย์ได้ในขณะที่รุ่นที่มีค่าศูนย์สูงเกินสมมติว่ามีกระบวนการที่แตกต่างกัน 2 แบบที่สามารถสร้างศูนย์ได้
แบบจำลองอุปสรรค์ถือว่า 2 ประเภทวิชา: (1) ผู้ที่ไม่เคยพบผลลัพธ์และ (2) ผู้ที่เคยประสบผลลัพธ์อย่างน้อยหนึ่งครั้ง ตัวแบบที่ไม่มีการพองตัวทำให้แนวคิดของอาสาสมัครเป็น (1) คนที่ไม่เคยได้สัมผัสผลลัพธ์และ (2) คนที่สามารถสัมผัสผลลัพธ์ แต่ไม่เสมอไป
ในคำง่าย ๆ : ทั้งสองแบบศูนย์ - พองและอุปสรรค์อธิบายไว้ในสองส่วน
ส่วนที่สองคือส่วนการนับซึ่งเกิดขึ้นเมื่อระบบ "เปิด" นี่คือสิ่งที่รุ่นที่สูงเกินจริงและกีดขวางแตกต่างกัน ในรุ่นที่มีค่าเป็นศูนย์เกินจำนวนจะยังคงเป็นศูนย์ ในรุ่นอุปสรรค์พวกเขาจะต้องไม่ใช่ศูนย์ สำหรับส่วนนี้โมเดลที่มีค่าศูนย์สูงเกินไปใช้การแจกแจงความน่าจะเป็นแบบ "ปกติ" ในขณะที่แบบจำลองอุปสรรค์จะใช้ฟังก์ชันการแจกแจงความน่าจะเป็นแบบไม่ต่อเนื่องแบบไม่มีศูนย์
ตัวอย่างรุ่นอุปสรรค์: ผู้ผลิตรถยนต์ต้องการเปรียบเทียบสองโปรแกรมควบคุมคุณภาพสำหรับรถยนต์ของตน มันจะเปรียบเทียบพวกเขาตามจำนวนของการเรียกร้องการรับประกันที่ยื่น สำหรับแต่ละโปรแกรมจะมีการติดตามลูกค้าที่เลือกแบบสุ่มเป็นเวลา 1 ปีและจะมีการนับจำนวนการเรียกร้องการรับประกันที่พวกเขามี จากนั้นจึงเปรียบเทียบความน่าจะเป็นของอัตราเงินเฟ้อสำหรับแต่ละโปรแกรมทั้งสอง สถานะ“ ปิด” คือ“ อ้างสิทธิ์เป็นศูนย์” ในขณะที่สถานะ“ เปิด” คือ“ ยื่นอย่างน้อยหนึ่งข้อเรียกร้อง”
ตัวอย่างของโมเดลที่ไม่มีการพองลม: ในการศึกษาเดียวกันข้างต้นนักวิจัยพบว่าการซ่อมแซมรถยนต์บางส่วนได้รับการแก้ไขโดยไม่ต้องยื่นเรื่องการรับประกัน ด้วยวิธีนี้ศูนย์เป็นส่วนผสมของการไม่มีปัญหาในการควบคุมคุณภาพเช่นเดียวกับการปรากฏตัวของปัญหาการควบคุมคุณภาพที่ไม่เกี่ยวข้องกับการเรียกร้องการรับประกัน สถานะ“ ปิด” หมายถึง“ ยื่นคำร้องเป็นศูนย์” ในขณะที่สถานะ“ เปิด” หมายถึง“ ยื่นคำร้องอย่างน้อยหนึ่งข้อหรือได้รับการแก้ไขโดยไม่ต้องยื่นเรื่องร้องเรียน”
ดูที่นี่สำหรับการศึกษาที่ใช้โมเดลทั้งสองแบบกับชุดข้อมูลเดียวกัน
และในแบบจำลองอุปสรรค์ ~ 0 ด้วยความน่าจะเป็นและ ~ การตัดทอน Poisson ( ) การกระจายด้วยความน่าจะเป็นและ:
เกี่ยวกับแบบจำลองอุปสรรค์นี่คือข้อความจากความก้าวหน้าในการสร้างแบบจำลองทางคณิตศาสตร์และสถิติ (Arnold, Balakrishnan, Sarabia, & Mínguez, 2008):
แบบจำลองอุปสรรค์นั้นมีลักษณะโดยกระบวนการด้านล่างอุปสรรค์และแบบข้างบน เห็นได้ชัดว่ารุ่นอุปสรรค์ที่ใช้กันอย่างแพร่หลายที่สุดคือรุ่นที่ตั้งกีดขวางที่ศูนย์ รูปแบบของอุปสรรค์ที่ศูนย์แสดงเป็น:สำหรับสำหรับ
ตัวแปรสามารถตีความได้ว่าเป็นความน่าจะเป็นที่จะข้ามอุปสรรค์หรือแม่นยำกว่าในกรณีของการประกันภัยความน่าจะเป็นที่จะรายงานอย่างน้อยหนึ่งข้อเรียกร้อง
สำหรับโมเดลที่มีค่าศูนย์สูงเกินจริงWikipedia พูดว่า :
แบบจำลองที่มีค่าศูนย์สูงเกินจริงเป็นแบบจำลองทางสถิติโดยพิจารณาจากการแจกแจงความน่าจะเป็นศูนย์ที่สูงเกินจริงเช่นการแจกแจงที่ช่วยให้การสังเกตค่าศูนย์เป็นศูนย์บ่อยครั้ง
โมเดลปัวซอง zero-พองตัวเกี่ยวข้องกับเหตุการณ์สุ่มที่มีข้อมูลนับศูนย์เกินในเวลาหน่วย ตัวอย่างเช่นจำนวนการเรียกร้องให้ บริษัท ประกันภัยโดยบุคคลที่ได้รับความคุ้มครองนั้นเกือบจะเป็นศูนย์เสมอมิฉะนั้นความสูญเสียจำนวนมากจะทำให้ บริษัท ประกันภัยล้มละลาย โมเดลปัวซอง (ZIP) zero-inflated ใช้องค์ประกอบสองอย่างที่สอดคล้องกับกระบวนการสร้างศูนย์สองศูนย์ กระบวนการแรกถูกควบคุมโดยการกระจายแบบไบนารีที่สร้างศูนย์โครงสร้าง กระบวนการที่สองถูกควบคุมโดยการแจกแจงปัวซองที่สร้างการนับซึ่งบางกระบวนการอาจเป็นศูนย์ ส่วนประกอบของแบบจำลองทั้งสองอธิบายไว้ดังนี้: Pr( y j =0)=π+(1-π) e - λ Pr( y j = h i )=(1-π) λ h i e - λ
y j λ ฉันฉันπเมื่อตัวแปรผลลัพธ์มีค่าจำนวนเต็มไม่เป็นลบคือจำนวนปัวซองที่คาดไว้สำหรับบุคคลที่คือความน่าจะเป็นของเลขศูนย์พิเศษ
จากอาร์โนลด์และเพื่อนร่วมงาน (2008) ฉันเห็นว่าแบบจำลองอุปสรรค์ที่ศูนย์เป็นกรณีพิเศษของรุ่นอุปสรรค์ทั่วไปมากขึ้น แต่จากการอ้างอิงใน Wikipedia ( Hall, 2004 ) ฉันก็เห็นด้วยเช่นกันว่าศูนย์ - รุ่นที่สูงเกินจริงสามารถมีขอบเขตบน ฉันไม่เข้าใจความแตกต่างของสูตร แต่พวกเขาดูเหมือนจะคล้ายกันมาก (ทั้งคู่ใช้ตัวอย่างที่คล้ายกันมากเรียกร้องประกัน) ฉันหวังว่าคำตอบอื่น ๆ สามารถช่วยอธิบายความแตกต่างที่สำคัญและคำตอบนี้จะช่วยกำหนดเวทีสำหรับสิ่งเหล่านั้น
การอ้างอิงของ Wikipedia: