วิธีที่ดีที่สุดในการรวมการตอบสนองแบบไบนารีและแบบต่อเนื่อง


10

ฉันกำลังพยายามหาวิธีที่ดีที่สุดในการทำนายจำนวนเงินที่ชำระสำหรับ บริษัท ตัวแทนเรียกเก็บเงิน ตัวแปรตามไม่ได้เป็นศูนย์เฉพาะเมื่อมีการชำระเงินแล้ว เป็นที่เข้าใจกันดีว่ามีจำนวนศูนย์เป็นจำนวนมากเพราะคนส่วนใหญ่ไม่สามารถเข้าถึงหรือไม่สามารถชำระหนี้คืนได้

นอกจากนี้ยังมีความสัมพันธ์เชิงลบที่แข็งแกร่งมากระหว่างจำนวนหนี้และความน่าจะเป็นในการชำระเงิน โดยปกติแล้วฉันจะสร้างแบบจำลองโลจิสติกส์เพื่อทำนายความน่าจะเป็นของการจ่าย / ไม่จ่ายเงิน แต่สิ่งนี้มีผลลัพธ์ที่โชคร้ายในการค้นหาคนที่มียอดคงเหลือต่ำสุด

มีวิธีรวมรูปแบบการจ่าย / การจ่ายที่ไม่ใช่โลจิสติกเข้ากับแบบจำลองแยกที่ทำนายจำนวนเงินที่ชำระหรือไม่


5
มีการถดถอยปกติแบบล็อก - ศูนย์ซึ่งดูเหมือนว่าจะเหมาะสมกับความต้องการของคุณ ดูกระดาษนี้
Peter Flom

@PeterFlom คุณคิดว่านี่เป็นอย่างไรเมื่อเปรียบเทียบกับการสนทนาของ gui11aume และ steffen เกี่ยวกับแบบจำลองสองขั้นตอนและการเลือกตัวอย่างอคติ
As3adTintin

1
ฉันคิดว่าทั้งสองมีประโยชน์ มีการพูดคุยกันสองเรื่อง แต่ฉันลืมที่ฉันอ่าน
Peter Flom

สิ่งที่ฉันทำคือการสร้างเครือข่ายประสาทด้วยการเปิดใช้งาน relu สำหรับผลลัพธ์และค่าเฉลี่ยกำลังสองสูญเสียลอการิทึม
Zelazny7

โอเคขอบคุณ. การเปิดใช้งานเครือข่ายประสาท / relu ฟังดูผ่านความรู้ปัจจุบันของฉัน แต่ฉันจะคอยดูสิ่งเหล่านี้ ขอบคุณสำหรับการถามคำถามเดิมและความคิดเห็น!
As3adTintin

คำตอบ:


6

แนวคิดของ gui11aume ในการสร้างแบบจำลองสองขั้นตอนเป็นวิธีที่ถูกต้องอย่างไรก็ตามเราจำเป็นต้องพิจารณาความยากลำบากเป็นพิเศษของการตั้งค่าของคุณซึ่งมีความสัมพันธ์เชิงลบที่แข็งแกร่งมากระหว่างจำนวนหนี้และความน่าจะเป็นในการชำระเงิน

ปัญหาหลักของการสร้างแบบจำลองสองขั้นตอนที่นี่คือแบบจำลองที่สอง (สำหรับการคาดการณ์หนี้) เมื่อสร้างขึ้นบน "ไม่ใช่ศูนย์" เท่านั้นถูกสร้างขึ้นบนตัวอย่างที่ไม่สุ่มของประชากร ( เช่นชุดข้อมูลทั้งหมด) แต่ต้องใช้โมเดลรวมกับประชากรทั้งหมดอีกครั้ง ซึ่งหมายความว่ารุ่นที่สองจะต้องทำการทำนายส่วนของข้อมูลที่ไม่เคยเห็นมาก่อนทำให้สูญเสียความแม่นยำ สิ่งนี้เรียกว่าการเลือกตัวอย่างอคติ (สำหรับภาพรวมจากมุมมอง ML ฉันขอแนะนำโครงร่างเครือข่ายแบบเบย์สำหรับการปฏิเสธการอนุมานโดย Smith และ Elkan)

KDD ถ้วย-98การจัดการกับปัญหาที่คล้ายกันที่หนึ่งควรคาดการณ์ว่าจะเป็นผู้บริจาคให้กับองค์กรทหารผ่านศึกมีแนวโน้มที่จะบริจาคอีกครั้งและเท่าใดก็มีแนวโน้มที่จะบริจาค ในชุดข้อมูลนี้ความน่าจะเป็นของการบริจาคอีกครั้งนั้นมีความสัมพันธ์เชิงลบกับจำนวนเงินที่คาดหวังเช่นกัน อคติการเลือกตัวอย่างก็ปรากฏขึ้นเช่นกัน

วิธีแก้ปัญหาที่ทำให้ฉันประทับใจมากที่สุดสามารถพบได้ในการเรียนรู้และการตัดสินใจเมื่อต้นทุนและความน่าจะเป็นไม่ทราบโดย Bianca Zadrozny และ Charles Elkan พวกเขาได้สร้างโซลูชันที่มีความอ่อนไหวด้านค่าใช้จ่ายตามการแก้ไขของ Heckmanซึ่งเป็นความรู้ของฉันเป็นวิธีแรกที่เป็นระบบในการแก้ไขอคติการเลือก (ตัวอย่าง)


+1 ย่อหน้าที่สองของคุณเน้นสิ่งที่ขาดหายไปในคำตอบของฉัน
gui11aume

สิ่งนี้เปรียบเทียบกับข้อเสนอแนะของ Peter Flom อย่างไรกับการถดถอยแบบล็อกปกติ
As3adTintin

3

เป็นคำถามที่ดีมาก (+1)

ทำไมไม่ปฏิบัติต่อ 0 เหมือนกับว่าเป็น NA

คุณสามารถเพิ่มการตอบสนองหลอกตาที่ระบุว่าเงินใด ๆ ที่ได้รับการกู้คืน ( เช่นเท่ากับ 0 เมื่อค่าเป็น 0 และ 1 เมื่อค่าเป็นบวก) และพอดีกับโมเดลโลจิสติกในการตอบสนองแบบไบนารีนี้ด้วยตัวทำนายเดียวกัน คุณจะพอดีกับแบบจำลอง 2 แบบ: การตอบสนองแบบไบนารี่โดยใช้จุดข้อมูลทั้งหมดและการตอบสนองแบบต่อเนื่องโดยใช้เฉพาะจุดข้อมูลแบบไม่ใช่ศูนย์ (สอดคล้องกับแนวคิดของการรักษา 0 เป็นแบบ NA)

คุณยังสามารถทดสอบความไม่แน่นอนของพารามิเตอร์ในแต่ละรุ่นและคำนวณกำไรที่คาดหวังโดยใช้พารามิเตอร์ทั้งสองชุด


ขอบคุณสำหรับคำแนะนำ ก่อนหน้าคำถามของฉันฉันได้สร้างตัวแปรและชุดข้อมูลสองชุดที่คล้ายกับสิ่งที่คุณอธิบาย คุณสามารถอธิบายอย่างละเอียดเกี่ยวกับสิ่งที่คุณหมายถึงโดย "ยังคงเป็นโมฆะของ paramenters"? ขอบคุณ!
Zelazny7

"ยังเป็นโมฆะของพารามิเตอร์" เป็นตัวพิมพ์ที่ฉันแก้ไขในข้อความ ขออภัยด้วย :-)
gui11aume
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.