ใช้การถดถอยโลจิสติกกับอัตราเหตุการณ์ต่ำ

15

ฉันมีชุดข้อมูลที่อัตรากิจกรรมต่ำมาก (40,000 จาก ) ฉันกำลังใช้การถดถอยโลจิสติกกับสิ่งนี้ ฉันได้มีการพูดคุยกับใครบางคนที่ปรากฏว่าการถดถอยโลจิสติกจะไม่ให้เมทริกซ์ความสับสนที่ดีกับข้อมูลอัตราการเกิดเหตุการณ์ต่ำ แต่เนื่องจากปัญหาทางธุรกิจและวิธีการที่กำหนดไว้ฉันไม่สามารถเพิ่มจำนวนกิจกรรมจาก 40,000 เป็นจำนวนที่มากกว่านี้ได้แม้ว่าฉันจะยอมรับว่าฉันสามารถลบจำนวนประชากรที่ไม่ใช่กิจกรรมได้ $12\cdot10^5$

โปรดบอกมุมมองของคุณเกี่ยวกับเรื่องนี้โดยเฉพาะ:

ความแม่นยำของการถดถอยโลจิสติกขึ้นอยู่กับอัตราเหตุการณ์หรือมีอัตราเหตุการณ์ขั้นต่ำที่แนะนำหรือไม่
มีเทคนิคพิเศษสำหรับข้อมูลอัตราการเกิดเหตุการณ์ต่ำหรือไม่?
การลบประชากรที่ไม่ได้ใช้งานของฉันจะเป็นการดีสำหรับความแม่นยำของแบบจำลองของฉันหรือไม่

ฉันยังใหม่กับการสร้างแบบจำลองทางสถิติดังนั้นให้อภัยความไม่รู้ของฉันและโปรดแก้ไขปัญหาที่เกี่ยวข้องใด ๆ ที่ฉันคิดได้

ขอบคุณ

logistic

— ayush biyani
แหล่งที่มา

3

40000 / 12e5 = 3.3% นี่ไม่ได้ดูอัตราที่ต่ำมากสำหรับฉัน

— GaBorgulya

1

ขอบคุณ ga.. ในกรณีที่ผู้คนต้องการบริบทมากขึ้นสำหรับการตัดสินใจอัตราเหตุการณ์ต่ำและสูงข้อมูลนี้เป็นภาคการประกันภัย

— ayush biyani

3

คุณอาจจะสนใจในการถดถอยโลจิสติในเหตุการณ์ที่หายากข้อมูล

— Bernd Weiss

11

ฉันจะตอบคำถามของคุณไม่เรียบร้อย:

3 การลบประชากรที่ไม่ได้ใช้งานของฉันจะเป็นการดีสำหรับความแม่นยำของแบบจำลองของฉันหรือไม่

การสังเกตแต่ละครั้งจะให้ข้อมูลเพิ่มเติมเกี่ยวกับพารามิเตอร์ (ผ่านฟังก์ชันความน่าจะเป็น) ดังนั้นจึงไม่มีประเด็นในการลบข้อมูลตามที่คุณเพิ่งจะสูญเสียข้อมูล

1 ความแม่นยำของการถดถอยโลจิสติกขึ้นอยู่กับอัตราเหตุการณ์หรือมีอัตราเหตุการณ์ขั้นต่ำที่แนะนำหรือไม่

ในทางเทคนิคแล้วใช่: การสังเกตที่หายากนั้นให้ความรู้มากกว่านั้น (นั่นคือฟังก์ชันความน่าจะเป็นจะชัน) หากอัตราการงานของคุณคือ 50:50 แล้วคุณจะได้รับวงดนตรีที่เข้มงวดมากขึ้นมากความเชื่อมั่น (หรือช่วงเวลาที่มีความน่าเชื่อถือถ้าคุณเป็นแบบเบย์) สำหรับจำนวนเงินเดียวกันของข้อมูล อย่างไรก็ตามคุณจะไม่ได้เลือกอัตรากิจกรรมของคุณ (เว้นแต่ว่าคุณกำลังศึกษากรณีศึกษา) ดังนั้นคุณจะต้องทำสิ่งที่คุณมี

2 มีเทคนิคพิเศษสำหรับข้อมูลอัตราการเกิดเหตุการณ์ต่ำหรือไม่?

ปัญหาที่ใหญ่ที่สุดที่อาจเกิดขึ้นคือการแยกที่สมบูรณ์แบบ : สิ่งนี้เกิดขึ้นเมื่อการรวมกันของตัวแปรบางอย่างทำให้เกิดเหตุการณ์ที่ไม่ใช่ทั้งหมด (หรือเหตุการณ์ทั้งหมด): ในกรณีนี้การประมาณค่าพารามิเตอร์ความน่าจะเป็นสูงสุด (และข้อผิดพลาดมาตรฐาน) อัลกอริทึมจะหยุดก่อน) มีวิธีแก้ปัญหาสองวิธีที่เป็นไปได้:

ก) การลบตัวทำนายออกจากโมเดล: แม้ว่าสิ่งนี้จะทำให้อัลกอริทึมของคุณมาบรรจบกัน แต่คุณจะต้องลบตัวแปรที่มีกำลังไฟฟ้าที่อธิบายได้มากที่สุดดังนั้นนี่จะสมเหตุสมผลถ้าโมเดลของคุณ overfitting เริ่มต้นด้วย (เช่นการโต้ตอบที่ซับซ้อนมากเกินไป) .

b) ใช้บทลงโทษบางประเภทเช่นการกระจายก่อนหน้านี้ซึ่งจะทำให้การประมาณกลับไปเป็นค่าที่สมเหตุสมผลมากขึ้น

— Simon Byrne
แหล่งที่มา

+1 ฉันแค่เพิ่มว่าฉันได้เห็นบริบทที่ผู้คนได้ชั่งน้ำหนักข้อมูลของพวกเขาใหม่เป็น 50:50 การแลกเปลี่ยนดูเหมือนจะเป็นการปรับปรุงความสามารถของแบบจำลองในการจำแนก (สมมติว่ามีการเลือกเกณฑ์ที่ดี) เทียบกับการสูญเสียข้อมูลบางอย่างเกี่ยวกับความชุกโดยรวมและความยากลำบากเพิ่มเติมในการตีความค่าสัมประสิทธิ์

— David J. Harris

1

@David: ฉันเคยได้ยินเกี่ยวกับคนที่ทำให้น้ำหนักซ้ำอีกครั้งและใช้รูปแบบเทียมหลอก bootstrap ที่พวกเขาเพียงแค่ resample คลาสความถี่สูงเท่านั้น สำหรับเทคนิคทั้งหมดนี้คุณจะทิ้งข้อมูล (หรือสร้าง) ในที่สุด ฉันขอยืนยันว่าหากนี่เป็นการปรับปรุงโมเดลของคุณคุณอาจเหมาะสมกับโมเดลที่ไม่ถูกต้อง ดูความคิดเห็นของฉันได้ที่นี่: stats.stackexchange.com/questions/10356/…

— Simon Byrne

1) ขออภัยถ้าฉันยังไม่ชัดเจน: ฉันกำลังพูดถึงการเปลี่ยนแปลงอิทธิพลสัมพัทธ์ของเหตุการณ์และเหตุการณ์ต่างๆเช่นเดียวกับอาร์กิวเมนต์ "น้ำหนัก" ในglmฟังก์ชันของ R ที่แย่ที่สุดมันก็เหมือนกับการขว้างปาส่วนของข้อมูลที่มีน้ำหนักต่ำลงแต่ละจุดฉันคิดว่า แต่มันไม่เหมือนกันจริงๆ 2) อย่างที่ฉันพูดมีการแลกเปลี่ยนที่เกี่ยวข้องกับการตัดสินใจครั้งนี้ มันอาจเหมาะสมที่สุดในบริบทที่จำนวนประชากรที่ถูกสุ่มตัวอย่างจากนั้นไม่ได้กำหนดไว้อย่างดีและอัตราเหตุการณ์ที่แท้จริงนั้นไม่มีความหมายในการเริ่มต้น แน่นอนว่าฉันจะไม่แนะนำทั่วกระดาน

— David J. Harris

2

มีทางเลือกที่ดีกว่าในการลบข้อมูลที่ไม่ใช่ข้อมูลชั่วคราวหรือเชิงพื้นที่: คุณสามารถรวมข้อมูลของคุณข้ามเวลา / พื้นที่และสร้างแบบจำลองการนับเป็นปัวซอง ตัวอย่างเช่นหากเหตุการณ์ของคุณคือ "การปะทุของภูเขาไฟเกิดขึ้นในวันที่ X" ดังนั้นไม่กี่วันที่ภูเขาไฟจะปะทุ อย่างไรก็ตามหากคุณจัดกลุ่มวันเป็นสัปดาห์หรือเป็นเดือนเช่น "จำนวนการปะทุของภูเขาไฟในเดือน X" คุณจะลดจำนวนเหตุการณ์ลงและกิจกรรมอื่น ๆ จะมีค่าที่ไม่ใช่ศูนย์

— charles.y.zheng
แหล่งที่มา

6

ฉันต้องบอกว่าคำแนะนำนี้ไม่ตอบคำถามเลย 1) ไม่มีอะไรในคำถามที่แสดงให้เห็นว่า OP มีการจัดการกับข้อมูลเชิงพื้นที่หรือข้อมูลชั่วคราว 2) การรวมข้อมูลจะช่วยระบุความสัมพันธ์ที่มีความหมายอย่างไร (ใช้ข้อมูลน้อยกว่าหน่วยเดิม!)

— Andy W

2

เช่นเดียวกับบันทึกสำหรับความสัมพันธ์ที่สังเกตได้ใด ๆ ที่จะเกิดขึ้นในระดับรวมจะต้องมีอยู่ในระดับของหน่วยดั้งเดิมแม้ว่าความสัมพันธ์ในระดับรวมนั้นไม่จำเป็นต้องสะท้อนความสัมพันธ์ระหว่างตัวแปรทั้งสองที่แยกจากกัน ชั้น ดูqmrg.org.uk/files/2008/11/38-maup-openshaw.pdf

— Andy W

เห็นด้วยกับแอนดี้

— ayush biyani