ข้อมูลเอนเอียงในการเรียนรู้ของเครื่อง
ฉันกำลังทำงานในโครงการการเรียนรู้ของเครื่องด้วยข้อมูลที่มีอคติอยู่แล้ว (มาก) โดยการเลือกข้อมูล สมมติว่าคุณมีกฎฮาร์ดโค้ด คุณจะสร้างรูปแบบการเรียนรู้ของเครื่องเพื่อแทนที่ได้อย่างไรเมื่อข้อมูลทั้งหมดที่สามารถใช้ได้คือข้อมูลที่ถูกกรองโดยกฎเหล่านั้นแล้วหรือไม่ เพื่อให้สิ่งต่าง ๆ ชัดเจนฉันเดาว่าตัวอย่างที่ดีที่สุดคือการประเมินความเสี่ยงสินเชื่อ : งานคือการกรองลูกค้าทั้งหมดที่มีแนวโน้มที่จะล้มเหลวในการชำระเงิน ทีนี้ข้อมูลเดียว (ที่มีป้ายกำกับ) ที่คุณมีมาจากไคลเอนต์ที่ได้รับการยอมรับโดยชุดของกฎเพราะหลังจากยอมรับคุณจะเห็นว่ามีคนจ่ายหรือไม่ (เห็นได้ชัด) คุณไม่รู้ว่าชุดของกฎนั้นดีแค่ไหนและจะมีผลต่อการกระจายจ่ายที่จ่ายไปยังไม่จ่าย นอกจากนี้คุณมีข้อมูลที่ไม่มีป้ายกำกับจากลูกค้าที่ถูกปฏิเสธอีกครั้งเนื่องจากชุดของกฎ ดังนั้นคุณจึงไม่ทราบว่าจะเกิดอะไรขึ้นกับลูกค้าเหล่านั้นหากได้รับการยอมรับ เช่นหนึ่งในกฎอาจเป็น: "ถ้าอายุของลูกค้า <18 ปีแล้วไม่ยอมรับ" ตัวจําแนกไม่มีวิธีเรียนรู้วิธีจัดการกับไคลเอ็นต์ที่ถูกกรองโดยกฎเหล่านี้ ลักษณนามควรจะเรียนรู้รูปแบบที่นี่ได้อย่างไร การเพิกเฉยปัญหานี้จะนำไปสู่รูปแบบการเปิดเผยข้อมูลที่ไม่เคยพบมาก่อน โดยพื้นฐานแล้วฉันต้องการประมาณค่าของ f (x) เมื่อ x อยู่นอก [a, b] ที่นี่