กลยุทธ์ในการจัดการกับการถดถอยโลจิสติกเหตุการณ์ที่หายาก


27

ฉันต้องการที่จะศึกษาเหตุการณ์ที่หายากในประชากรที่ จำกัด เนื่องจากฉันไม่แน่ใจว่ากลยุทธ์ใดเหมาะสมที่สุดฉันจะขอขอบคุณเคล็ดลับและข้อมูลอ้างอิงที่เกี่ยวข้องกับเรื่องนี้แม้ว่าฉันจะทราบดีว่ามันได้รับการครอบคลุมเป็นส่วนใหญ่ ฉันแค่ไม่รู้จริงๆว่าจะเริ่มจากตรงไหน

ปัญหาของฉันคือวิทยาศาสตร์การเมืองหนึ่งและฉันมีประชากรที่ จำกัด ประกอบด้วย 515,843 บันทึก พวกเขาจะเชื่อมโยงกับตัวแปรไบนารีขึ้นอยู่กับ 513,334 "0" s และ 2,509 "1" s ฉันสามารถใส่เหรียญ "1" เป็นกิจกรรมที่หายากได้เพราะพวกเขาคิดเป็นเพียง 0.49% ของประชากรทั้งหมด

ฉันมีชุดตัวแปรอิสระประมาณ 10 ตัวที่ฉันต้องการสร้างแบบจำลองเพื่ออธิบายสถานะของ "1" เช่นเดียวกับพวกเราหลายคนฉันอ่านบทความ 2001 ของ King & Zengเกี่ยวกับการแก้ไขเหตุการณ์ที่ไม่ค่อยเกิดขึ้น วิธีการของพวกเขาคือใช้การออกแบบตัวควบคุมเคสเพื่อลดจำนวน "0" จากนั้นใช้การแก้ไขกับดัก

อย่างไรก็ตามโพสต์นี้บอกว่าการโต้แย้งของ King & Zeng นั้นไม่จำเป็นถ้าฉันรวบรวมข้อมูลของฉันครอบคลุมประชากรทั้งหมดซึ่งเป็นกรณีของฉัน ดังนั้นฉันต้องใช้แบบจำลอง logit แบบคลาสสิก น่าเสียดายสำหรับฉันแม้ว่าฉันจะได้รับค่าสัมประสิทธิ์ที่ดีมากแบบจำลองของฉันไร้ประโยชน์อย่างสมบูรณ์ในแง่ของการทำนาย (ล้มเหลวในการทำนาย 99.48% ของ "1" ของฉัน)

หลังจากอ่านบทความของ King & Zeng ฉันต้องการลองการออกแบบเคสและเลือกเพียง 10% ของ "0" กับ "1" ทั้งหมด ด้วยค่าสัมประสิทธิ์เกือบเท่ากันโมเดลสามารถทำนายได้เกือบหนึ่งในสามของ "1" เมื่อใช้กับประชากรทั้งหมด แน่นอนว่ามีการบวกเท็จมากมาย

ฉันมีสามคำถามที่ฉันอยากจะถามคุณ:

1) หากวิธีการของ King & Zeng มีอคติเมื่อคุณมีความรู้เต็มรูปแบบเกี่ยวกับประชากรทำไมพวกเขาถึงใช้สถานการณ์ที่พวกเขารู้จักประชากรในบทความเพื่อพิสูจน์ประเด็นของพวกเขา

2) ถ้าฉันมีสัมประสิทธิ์ที่ดีและเป็นนัยสำคัญในการถดถอยแบบ logit แต่อำนาจการทำนายต่ำมากนั่นหมายความว่ารูปแบบที่อธิบายโดยตัวแปรเหล่านี้ไม่มีความหมาย?

3) วิธีใดที่ดีที่สุดในการจัดการกับเหตุการณ์ที่หายาก ฉันอ่านเกี่ยวกับแบบจำลอง relogit ของ King, แนวทางของ Firth, logit ที่ถูกต้องและอื่น ๆ ฉันต้องยอมรับว่าฉันหลงทางในบรรดาวิธีแก้ปัญหาทั้งหมดนี้


จำนวนฟังดูคุ้นเคย ... เมื่อมีโอกาสชุดข้อมูลเกี่ยวกับความขัดแย้งทางชาติพันธุ์? ถ้าคุณเป็นชุดเวลา - ฉันใช้โมเดลการเอาตัวรอดเพื่อความสำเร็จที่ยิ่งใหญ่ในการศึกษาความขัดแย้งทางชาติพันธุ์ ...
Christian Sauer

ใกล้พอ มันเป็นชุดข้อมูลเกี่ยวกับที่ตั้งของเหตุการณ์ความขัดแย้งในแอฟริกา อย่างไรก็ตามฉันศึกษาที่ตั้งของกิจกรรมเหล่านี้โดยไม่ต้องคำนึงถึงเวลา
ดาเมียน

1
อาหลายกรณีของฉันมาจากแอฟริกาเนื่องจากความขัดแย้งทางชาติพันธุ์อาละวาดอยู่ที่นั่น คุณทำการศึกษาทางภูมิศาสตร์หรือไม่? มันจะเป็นปัญหาใหญ่สำหรับบัญชีเวลาหรือไม่ ฉันพบว่ามันมีประโยชน์จริง ๆ โดยเฉพาะอย่างยิ่งเนื่องจากความจริงที่ว่าตัวแปรบางอย่างเปลี่ยนแปลงไปตามกาลเวลา (ระบบการเมืองสงครามเย็น ฯลฯ )
Christian Sauer

ฉันใช้ชุดข้อมูล GED ของ UCDP ซึ่งครอบคลุมช่วงเวลา 2532-2553 ฉันสนใจปัจจัยทางภูมิศาสตร์ที่สามารถมีบทบาทในที่ตั้งของเหตุการณ์ความขัดแย้ง การแปรผันของเวลานั้นมีอะไรมากมายที่จะพูด แต่คำถามที่ตอบมานั้นต่างกัน นอกจากนี้ตัวแปรอิสระจำนวนมากของฉันไม่สามารถใช้ได้ในช่วงเวลาที่แตกต่างกัน (ครอบคลุมที่ดิน) หรือไม่เปลี่ยนแปลงเลย (ภูมิประเทศ)
ดาเมียน

1
"(ล้มเหลวในการทำนาย 99.48% ของ" 1 "s ของฉัน" เสียงนี้เหมือนที่คุณกำลังใช้บางกฎตัดโดยพลการที่จะจัดในขณะที่ความคิดทั้งหมดของการถดถอยโลจิสติกคือว่าการส่งออกเป็นความน่าจะเป็น [เช่น 0.5] - มันขึ้นอยู่กับคุณที่จะตัดสินใจเกณฑ์เพื่อความสมดุลบวกเท็จ / เนกาทีฟ
seanv507

คำตอบ:


17

(1) หากคุณ "รู้เรื่องประชากรอย่างเต็มที่" ทำไมคุณถึงต้องมีแบบจำลองในการทำนาย? ฉันสงสัยว่าคุณกำลังพิจารณาโดยปริยายพวกเขาเป็นตัวอย่างจากสมมุติซุปเปอร์ประชากรได้เห็นที่นี่และที่นี่ ดังนั้นคุณควรทิ้งข้อสังเกตจากตัวอย่างของคุณ? ไม่ King & Zeng ไม่สนับสนุนสิ่งนี้:

[... ] ในสาขาเช่นความสัมพันธ์ระหว่างประเทศจำนวนของสิ่งที่สังเกตได้ (เช่นสงคราม) มี จำกัด อย่างเคร่งครัดดังนั้นในการใช้งานส่วนใหญ่จะเป็นการดีที่สุดที่จะรวบรวม 1 หรือตัวอย่างที่มีขนาดใหญ่ทั้งหมด การตัดสินใจที่แท้จริงเพียงอย่างเดียวคือจำนวนของ 0 ที่จะรวบรวมเช่นกัน หากการรวบรวม 0 ไม่มีค่าใช้จ่ายเราควรรวบรวมให้มากที่สุดเท่าที่จะทำได้เนื่องจากมีข้อมูลมากขึ้นเสมอ

Y

(2) ปัญหาหลักที่นี่คือการใช้กฎการให้คะแนนที่ไม่เหมาะสมเพื่อประเมินประสิทธิภาพการทำนายของแบบจำลองของคุณ สมมติว่าแบบจำลองของคุณเป็นจริงดังนั้นสำหรับบุคคลใด ๆ ที่คุณรู้ว่าความน่าจะเป็นของเหตุการณ์ที่หายาก - พูดว่าถูกงูกัดในเดือนหน้า คุณเรียนรู้อะไรมากขึ้นโดยการกำหนดความน่าจะเป็นโดยพลการและคาดการณ์ว่าผู้ที่อยู่ด้านบนจะถูกกัดและผู้ที่อยู่ด้านล่างจะไม่เป็นเช่นนั้น? หากคุณทำการตัด 50% คุณอาจคาดการณ์ว่าจะไม่มีใครถูกกัด หากคุณทำให้มันต่ำพอที่คุณสามารถทำนายได้ว่าทุกคนจะถูกกัด แล้วอะไรล่ะ การประยุกต์ใช้แบบจำลองที่สมเหตุสมผลต้องมีการเลือกปฏิบัติ - ใครควรได้รับขวดป้องกันการพิษเพียงอย่างเดียว? - หรือการสอบเทียบ - สำหรับใครที่ควรซื้อรองเท้าบู๊ตราคาคุ้มค่าเมื่อเทียบกับงูกัด?


ขอบคุณสำหรับคำตอบ เกี่ยวกับ (1) จะเหมาะสมกว่าหรือไม่ที่จะพูดเกี่ยวกับตัวอย่างของการสังเกตการณ์ที่เรารู้จนถึงตอนนี้เพื่ออธิบายความเป็นไปได้ของเหตุการณ์ในอนาคต เกี่ยวกับ (2) ฉันใช้เวลาสักครู่เพื่อค้นหาว่ากฎการให้คะแนนคืออะไร หากฉันเข้าใจบทความ Wikipedia อย่างถูกต้องฉันควรปรับเปลี่ยนฟังก์ชันการให้คะแนนในค่าความน่าจะเป็นต่าง ๆ ที่เหตุการณ์คาดว่าจะเกิดขึ้นจากนั้นเลือกค่า cutoff ตามความน่าจะเป็นซึ่งมีคะแนนสูงสุด หากฉันเลือกกฎการให้คะแนนแบบลอการิทึมฉันควรจะใช้ค่าที่คาดหวังได้อย่างไร
ดาเมียน

1
R2

@Scortchi ดังนั้นคุณจะสนับสนุนโดยใช้การถดถอยโลจิสติกหรือไม่สำหรับจำนวนการสังเกต / กรณีเช่นเดียวกับใน op ของ (พูดกับตัวทำนายต่อเนื่อง ~ 10) ถ้าจำเป็นต้องมีความน่าจะเป็นของคดี ขอบคุณ
user2957945

3

ในระดับหนึ่งฉันสงสัยว่าความไม่ถูกต้องของแบบจำลองของคุณนั้นมากแค่ไหนที่กระบวนการของคุณนั้นยากที่จะทำนายและตัวแปรของคุณก็ไม่เพียงพอที่จะทำเช่นนั้น มีตัวแปรอื่น ๆ ที่อาจอธิบายเพิ่มเติมหรือไม่

ในทางกลับกันหากคุณสามารถแปลงตัวแปรตามเป็นปัญหาการนับ / ลำดับ (เช่นการบาดเจ็บล้มตายจากความขัดแย้งหรือระยะเวลาของความขัดแย้ง) คุณอาจลองการนับถอยหลังที่สูงเกินจริงหรือแบบจำลองอุปสรรค์ สิ่งเหล่านี้อาจมีปัญหาเดียวกันกับคำจำกัดความไม่ดีระหว่าง 0 ถึง 1 แต่ความขัดแย้งบางอย่างที่ตัวแปรของคุณมีความสัมพันธ์กับสามารถดึงออกจากศูนย์ได้


4
(+1) คำแนะนำที่ดี ฉันต้องการที่จะพิถีพิถันในเรื่องที่ว่า "ความไม่ถูกต้อง" ของแบบจำลองเป็นเพียงความล้มเหลวในการทำนายความน่าจะเป็นมากกว่า 50% หาก "1" โดยทั่วไปคาดการณ์ความน่าจะเป็น 10% ถึง 40% เทียบกับน้อยกว่า 0.5% สำหรับ "0" - ซึ่งจะถือว่าเป็นประสิทธิภาพการทำนายที่แข็งแกร่งในหลาย ๆ แอปพลิเคชัน
Scortchi - Reinstate Monica

2

นอกเหนือจากการลดตัวอย่างประชากรส่วนใหญ่แล้วคุณยังสามารถดูตัวอย่างเหตุการณ์ที่หายากได้เช่นกัน แต่โปรดทราบว่าการสุ่มตัวอย่างมากเกินไปของชนชั้นน้อยอาจนำไปสู่การ overfitting ดังนั้นตรวจสอบอย่างระมัดระวัง

บทความนี้สามารถให้ข้อมูลเพิ่มเติมเกี่ยวกับเรื่องนี้: แยป, บีวาวา, และคณะ "แอปพลิเคชันของการ oversampling, undersampling, bagging และ boosting ในการจัดการชุดข้อมูลที่ไม่สมดุล" รูปแบบไฟล์ PDF

นอกจากนี้ฉันต้องการเชื่อมโยงคำถามนี้เนื่องจากมันพูดถึงปัญหาเดียวกันเช่นกัน


0

คำถามของคุณจะค่อยๆลดลงฉันจะเกลี้ยกล่อมให้ logit ถดถอยเพื่อหาทางออกที่ดีกว่าได้อย่างไร แต่คุณแน่ใจหรือไม่ว่ามีโซลูชันที่ดีกว่าเดิม? ด้วยพารามิเตอร์เพียงสิบตัวคุณสามารถหาทางออกที่ดีกว่าได้หรือไม่

ฉันจะลองแบบจำลองที่มีความซับซ้อนมากขึ้นโดยการเพิ่มคำศัพท์ผลิตภัณฑ์ที่อินพุตหรือเพิ่มเลเยอร์สูงสุดออกทางด้านเป้าหมาย (เพื่อให้คุณมีรีจิสเตอร์แบบโลจิสติกหลายตัว


ขอบคุณสำหรับคำตอบ. แน่นอนฉันจะพยายามรวมตัวแปรของฉันในรูปแบบที่แตกต่างกัน แต่ก่อนที่ผมต้องการที่จะทราบว่าแสดงที่น่าสงสารของรูปแบบของฉันมาจากปัญหาทางเทคนิคหรือจากที่อื่น
ดาเมียน

-1

เป็นคำถามที่ดีมาก

ในใจของฉันปัญหาคือว่าคุณกำลังพยายามอนุมาน (คุณสนใจในสิ่งที่สัมประสิทธิ์ของคุณกำลังบอกคุณหรือไม่) หรือการทำนาย ถ้าอย่างหลังคุณสามารถยืมแบบจำลองจากการเรียนรู้ของเครื่องจักร (BART, RandomForest, ต้นไม้ที่ได้รับการปรับปรุงเป็นต้น) ซึ่งจะทำให้การทำนายผลได้ดีกว่า Logit หากคุณกำลังทำการอนุมานและคุณมีดาต้าพอยท์จำนวนมากให้ลองรวมถึงเงื่อนไขการโต้ตอบที่สมเหตุสมผลเงื่อนไขพหุนาม ฯลฯ หรืออีกวิธีหนึ่งคุณสามารถอนุมานจาก BART ดังในเอกสารนี้:

http://artsandsciences.sc.edu/people/kernh/publications/Green%20and%20Kern%20BART.pdf

เมื่อไม่นานมานี้ฉันได้ทำงานบางอย่างเกี่ยวกับเหตุการณ์ที่หายากและไม่เคยมีความคิดมาก่อนว่ามีกรณีที่หายากเพียงใดที่มีผลต่อการวิเคราะห์ ต้องมีการสุ่มตัวอย่าง 0 กรณี กลยุทธ์หนึ่งในการค้นหาสัดส่วนตัวอย่างที่เหมาะสมที่สุดคือ

  1. เอา 1s ทั้งหมดของคุณสมมติว่าคุณมี n1 อยู่
  2. ตั้งค่าบางค่า z = ทวีคูณของ n1 ที่คุณจะวาด อาจเริ่มต้นที่ 5 และลดลงถึง 1
  3. วาด z * n1 0 ข้อสังเกต
  4. ประเมินโมเดลของคุณในตัวอย่างของข้อมูลชุดย่อยของคุณตรวจสอบให้แน่ใจว่าคุณได้ตรวจสอบความถูกต้องของชุดข้อมูลทั้งหมด
  5. บันทึกมาตรการฟิตที่เกี่ยวข้องที่คุณสนใจ: ค่าสัมประสิทธิ์ความสนใจ AUC ของเส้นโค้ง ROC ค่าที่เกี่ยวข้องในเมทริกซ์ความสับสน ฯลฯ
  6. ทำซ้ำขั้นตอนที่ 2: 5 เพื่อให้มีขนาดเล็กลงอย่างต่อเนื่อง คุณอาจจะพบว่าในขณะที่คุณสุ่มตัวอย่างอัตราส่วนลบบวกเป็นเท็จเท็จ (ในชุดทดสอบของคุณ) จะลดลง นั่นคือคุณจะเริ่มทำนาย 1s มากขึ้นหวังว่ามันจะเป็น 1s จริง ๆ แต่ก็มีหลายอย่างที่เป็น 0s หากมีจุดอานในการจำแนกประเภทนี้แล้วนั่นจะเป็นอัตราส่วนตัวอย่างที่ดี

หวังว่านี่จะช่วยได้ JS


1
(-1) ไม่จำเป็นเลยสำหรับการดาวน์โลจิสติกส์ ดูที่นี่ ; การเลือกการตอบสนองจะเปลี่ยนเฉพาะการสกัดกั้นที่คาดไว้ดังนั้นการลดการสุ่มตัวอย่างเพียงแค่ลดความแม่นยำของอัตราส่วนอัตราต่อรอง การถดถอยแบบลอจิสติกจะช่วยให้คุณคาดการณ์ความน่าจะเป็นซึ่งคุณอาจใช้ในการจำแนกประเภทโดยใช้การคำนวณแบบตัดเพื่อคำนวณค่าใช้จ่ายในการจำแนกผิดประเภทหรือใช้เพื่อจัดอันดับบุคคลหรือสนใจในสิทธิของตนเอง
Scortchi - Reinstate Monica

คุณจะสังเกตเห็นว่าฉันไม่ได้พูดถึงการใช้การถดถอยแบบโลจิสติกส์และแนะนำว่ามีวิธีการ (เช่น BART ตัวอย่างที่ลดขนาดลง) ที่น่าจะเหมาะสมกว่าสำหรับกรณีที่หายาก
จิม

คำถามเกี่ยวกับการถดถอยโลจิสติก & ไม่ว่าจะเป็นตัวอย่างเมื่อทำมัน & คุณดูเหมือนจะพูดคุยเกี่ยวกับการถดถอยโลจิสติกเมื่อคุณเขียนเกี่ยวกับ "รวมถึงเงื่อนไขการมีปฏิสัมพันธ์ที่เหมาะสมเงื่อนไขพหุนาม"; ดังนั้นจึงไม่ชัดเจนว่าคำแนะนำของคุณเกี่ยวกับการสุ่มตัวอย่างมีไว้สำหรับใช้กับวิธีการอื่น: บางทีคุณอาจพิจารณาแก้ไขคำตอบเพื่อให้ชัดเจน
Scortchi - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.