ฉันมีชุดข้อมูลที่อัตรากิจกรรมต่ำมาก (40,000 จาก ) ฉันกำลังใช้การถดถอยโลจิสติกกับสิ่งนี้ ฉันได้มีการพูดคุยกับใครบางคนที่ปรากฏว่าการถดถอยโลจิสติกจะไม่ให้เมทริกซ์ความสับสนที่ดีกับข้อมูลอัตราการเกิดเหตุการณ์ต่ำ แต่เนื่องจากปัญหาทางธุรกิจและวิธีการที่กำหนดไว้ฉันไม่สามารถเพิ่มจำนวนกิจกรรมจาก 40,000 เป็นจำนวนที่มากกว่านี้ได้แม้ว่าฉันจะยอมรับว่าฉันสามารถลบจำนวนประชากรที่ไม่ใช่กิจกรรมได้
โปรดบอกมุมมองของคุณเกี่ยวกับเรื่องนี้โดยเฉพาะ:
- ความแม่นยำของการถดถอยโลจิสติกขึ้นอยู่กับอัตราเหตุการณ์หรือมีอัตราเหตุการณ์ขั้นต่ำที่แนะนำหรือไม่
- มีเทคนิคพิเศษสำหรับข้อมูลอัตราการเกิดเหตุการณ์ต่ำหรือไม่?
- การลบประชากรที่ไม่ได้ใช้งานของฉันจะเป็นการดีสำหรับความแม่นยำของแบบจำลองของฉันหรือไม่
ฉันยังใหม่กับการสร้างแบบจำลองทางสถิติดังนั้นให้อภัยความไม่รู้ของฉันและโปรดแก้ไขปัญหาที่เกี่ยวข้องใด ๆ ที่ฉันคิดได้
ขอบคุณ