ฉันต้องการที่จะศึกษาเหตุการณ์ที่หายากในประชากรที่ จำกัด เนื่องจากฉันไม่แน่ใจว่ากลยุทธ์ใดเหมาะสมที่สุดฉันจะขอขอบคุณเคล็ดลับและข้อมูลอ้างอิงที่เกี่ยวข้องกับเรื่องนี้แม้ว่าฉันจะทราบดีว่ามันได้รับการครอบคลุมเป็นส่วนใหญ่ ฉันแค่ไม่รู้จริงๆว่าจะเริ่มจากตรงไหน
ปัญหาของฉันคือวิทยาศาสตร์การเมืองหนึ่งและฉันมีประชากรที่ จำกัด ประกอบด้วย 515,843 บันทึก พวกเขาจะเชื่อมโยงกับตัวแปรไบนารีขึ้นอยู่กับ 513,334 "0" s และ 2,509 "1" s ฉันสามารถใส่เหรียญ "1" เป็นกิจกรรมที่หายากได้เพราะพวกเขาคิดเป็นเพียง 0.49% ของประชากรทั้งหมด
ฉันมีชุดตัวแปรอิสระประมาณ 10 ตัวที่ฉันต้องการสร้างแบบจำลองเพื่ออธิบายสถานะของ "1" เช่นเดียวกับพวกเราหลายคนฉันอ่านบทความ 2001 ของ King & Zengเกี่ยวกับการแก้ไขเหตุการณ์ที่ไม่ค่อยเกิดขึ้น วิธีการของพวกเขาคือใช้การออกแบบตัวควบคุมเคสเพื่อลดจำนวน "0" จากนั้นใช้การแก้ไขกับดัก
อย่างไรก็ตามโพสต์นี้บอกว่าการโต้แย้งของ King & Zeng นั้นไม่จำเป็นถ้าฉันรวบรวมข้อมูลของฉันครอบคลุมประชากรทั้งหมดซึ่งเป็นกรณีของฉัน ดังนั้นฉันต้องใช้แบบจำลอง logit แบบคลาสสิก น่าเสียดายสำหรับฉันแม้ว่าฉันจะได้รับค่าสัมประสิทธิ์ที่ดีมากแบบจำลองของฉันไร้ประโยชน์อย่างสมบูรณ์ในแง่ของการทำนาย (ล้มเหลวในการทำนาย 99.48% ของ "1" ของฉัน)
หลังจากอ่านบทความของ King & Zeng ฉันต้องการลองการออกแบบเคสและเลือกเพียง 10% ของ "0" กับ "1" ทั้งหมด ด้วยค่าสัมประสิทธิ์เกือบเท่ากันโมเดลสามารถทำนายได้เกือบหนึ่งในสามของ "1" เมื่อใช้กับประชากรทั้งหมด แน่นอนว่ามีการบวกเท็จมากมาย
ฉันมีสามคำถามที่ฉันอยากจะถามคุณ:
1) หากวิธีการของ King & Zeng มีอคติเมื่อคุณมีความรู้เต็มรูปแบบเกี่ยวกับประชากรทำไมพวกเขาถึงใช้สถานการณ์ที่พวกเขารู้จักประชากรในบทความเพื่อพิสูจน์ประเด็นของพวกเขา
2) ถ้าฉันมีสัมประสิทธิ์ที่ดีและเป็นนัยสำคัญในการถดถอยแบบ logit แต่อำนาจการทำนายต่ำมากนั่นหมายความว่ารูปแบบที่อธิบายโดยตัวแปรเหล่านี้ไม่มีความหมาย?
3) วิธีใดที่ดีที่สุดในการจัดการกับเหตุการณ์ที่หายาก ฉันอ่านเกี่ยวกับแบบจำลอง relogit ของ King, แนวทางของ Firth, logit ที่ถูกต้องและอื่น ๆ ฉันต้องยอมรับว่าฉันหลงทางในบรรดาวิธีแก้ปัญหาทั้งหมดนี้