ข้อมูลเอนเอียงในการเรียนรู้ของเครื่อง


18

ฉันกำลังทำงานในโครงการการเรียนรู้ของเครื่องด้วยข้อมูลที่มีอคติอยู่แล้ว (มาก) โดยการเลือกข้อมูล

สมมติว่าคุณมีกฎฮาร์ดโค้ด คุณจะสร้างรูปแบบการเรียนรู้ของเครื่องเพื่อแทนที่ได้อย่างไรเมื่อข้อมูลทั้งหมดที่สามารถใช้ได้คือข้อมูลที่ถูกกรองโดยกฎเหล่านั้นแล้วหรือไม่

เพื่อให้สิ่งต่าง ๆ ชัดเจนฉันเดาว่าตัวอย่างที่ดีที่สุดคือการประเมินความเสี่ยงสินเชื่อ : งานคือการกรองลูกค้าทั้งหมดที่มีแนวโน้มที่จะล้มเหลวในการชำระเงิน

  • ทีนี้ข้อมูลเดียว (ที่มีป้ายกำกับ) ที่คุณมีมาจากไคลเอนต์ที่ได้รับการยอมรับโดยชุดของกฎเพราะหลังจากยอมรับคุณจะเห็นว่ามีคนจ่ายหรือไม่ (เห็นได้ชัด) คุณไม่รู้ว่าชุดของกฎนั้นดีแค่ไหนและจะมีผลต่อการกระจายจ่ายที่จ่ายไปยังไม่จ่าย นอกจากนี้คุณมีข้อมูลที่ไม่มีป้ายกำกับจากลูกค้าที่ถูกปฏิเสธอีกครั้งเนื่องจากชุดของกฎ ดังนั้นคุณจึงไม่ทราบว่าจะเกิดอะไรขึ้นกับลูกค้าเหล่านั้นหากได้รับการยอมรับ

เช่นหนึ่งในกฎอาจเป็น: "ถ้าอายุของลูกค้า <18 ปีแล้วไม่ยอมรับ"

ตัวจําแนกไม่มีวิธีเรียนรู้วิธีจัดการกับไคลเอ็นต์ที่ถูกกรองโดยกฎเหล่านี้ ลักษณนามควรจะเรียนรู้รูปแบบที่นี่ได้อย่างไร

การเพิกเฉยปัญหานี้จะนำไปสู่รูปแบบการเปิดเผยข้อมูลที่ไม่เคยพบมาก่อน โดยพื้นฐานแล้วฉันต้องการประมาณค่าของ f (x) เมื่อ x อยู่นอก [a, b] ที่นี่


8
วิธีนี้จัดการโดยทั่วไปในการประเมินความเสี่ยงด้านเครดิตโดยไม่กรองสัดส่วนที่แน่นอนของผู้สมัครตามกฎ มีผู้สมัครจำนวนน้อยที่ได้รับการสุ่มและถูกจับเช่นนี้
Matthew Drury

นี่เป็นเรื่องดีที่จะรู้ บางทีฉันอาจตั้งค่าให้ทำสิ่งเดียวกันได้
Laksan Nathan

1
เมื่อฉันอธิบายปัญหานี้ให้กับผู้ที่ไม่ใช่ผู้เชี่ยวชาญฉันวาดคลาวด์ (ความจริง) และรูปหลายเหลี่ยมที่ประมาณคลาวด์ (ตัวแบบ) ฉันแสดงข้อผิดพลาดเชิงบวกที่เป็นเท็จและข้อผิดพลาดเชิงลบที่เป็นเท็จ เห็นได้ชัดว่าฉันต้องการข้อผิดพลาดทั้งสองอย่างเพื่อปรับปรุงแบบจำลองดังนั้นเพื่อประมาณคลาวด์ให้ดีขึ้น
MSalters

เตรียมการนำเสนอของฉันทันที การเปรียบเทียบนี้มีประโยชน์จริงๆขอบคุณ!
Laksan Nathan

สิ่งนี้เรียกว่าภาวะที่กลืนไม่เข้าคายไม่ออกแสวงหาผลประโยชน์สำรวจ
seanv507

คำตอบ:


12

คุณมีสิทธิ์ที่จะกังวล - แม้ตัวแบบที่ดีที่สุดอาจล้มเหลวอย่างงดงามหากการกระจายของข้อมูลตัวอย่างแตกต่างจากการกระจายตัวของข้อมูลที่แบบจำลองนั้นถูกฝึกอบรม / ทดสอบ

ฉันคิดว่าสิ่งที่ดีที่สุดที่คุณสามารถทำได้คือการฝึกอบรมแบบจำลองในข้อมูลที่มีป้ายกำกับที่คุณมี แต่พยายามทำให้แบบจำลองตีความได้ นั่นอาจหมายถึงการ จำกัด เฉพาะรุ่นที่เรียบง่าย จากนั้นคุณสามารถลองเหตุผลว่ากฎที่โมเดลของคุณเรียนรู้อาจโต้ตอบกับกฎก่อนหน้านี้อย่างไรเพื่อประเมินว่าโมเดลของคุณทำงานได้ดีเพียงใดในประชากรที่ไม่มีการกรอง

ตัวอย่างเช่นสมมติว่าแบบจำลองของคุณพบว่าในชุดข้อมูลที่มีป้ายกำกับของคุณยิ่งลูกค้ายิ่งมีอายุน้อยก็ยิ่งมีแนวโน้มที่จะเป็นค่าเริ่มต้น ถ้าอย่างนั้นก็มีเหตุผลที่จะสมมติว่าแบบจำลองของคุณจะทำงานได้ดีถ้าคุณลบตัวกรองก่อนหน้าของ "ถ้าอายุของลูกค้า <18 ปีแล้วไม่ยอมรับ"


4

ฉันไม่แน่ใจว่าฉันเข้าใจคำถามนั้นทั้งหมด แต่เท่าที่ฉันเข้าใจคุณกำลังถามถึงวิธีการฝึกอบรมลักษณนามเพื่อทำนายตัวอย่างที่อยู่นอกขอบเขตของตัวอย่างที่ได้เห็นมาแล้ว นี่คือการพูดโดยทั่วไปและเท่าที่ฉันรู้ว่าเป็นไปไม่ได้ ทฤษฎีการเรียนรู้ของเครื่องนั้นตั้งอยู่บนแนวคิดของ "การลดความเสี่ยงเชิงประจักษ์" ซึ่งจะทำให้คุณคิดว่าชุดการฝึกอบรมของคุณนั้นเป็นการประมาณค่าที่ดีของการกระจายตัวจริงของคุณผ่านตัวอย่างและฉลาก หากข้อสันนิษฐานนั้นถูกละเมิดจะไม่มีการรับประกันใด ๆ

คุณพูดถึงข้อมูลที่ไม่มีป้ายกำกับ - ฉันไม่รู้ว่านี่จะช่วยแก้ปัญหาของคุณได้หรือไม่ แต่การเรียนแบบกึ่งกำกับดูแลมีวิธีการมากมายในการพยายามเรียนรู้ตัวแยกประเภทที่ได้รับข้อมูลทั้งที่ติดป้ายกำกับและไม่มีป้ายกำกับและคุณอาจต้องการพิจารณา (SVMs)


ฉันเห็นด้วยไม่มี "ทางออก" สำหรับปัญหาของฉัน แต่อาจมีคำแนะนำที่เป็นประโยชน์เกี่ยวกับวิธีการทำงานกับปัญหาประเภทนี้
Laksan Nathan

2

กฎของคุณอาจทำให้คุณวิธีการที่จะดำเนินการเสริมข้อมูล คัดลอกตัวอย่างที่เป็นบวกเปลี่ยนอายุเป็น 17 จากนั้นทำเครื่องหมายว่าเป็นตัวอย่างเชิงลบ

ขั้นตอนนี้ไม่จำเป็นต้องเป็นเรื่องเล็กน้อยหรือมีประโยชน์สำหรับชุดข้อมูลทั้งหมด ฉันทำงานกับข้อมูล NLP และมันก็ยากที่จะทำได้ดีในโดเมนนั้น ตัวอย่างเช่นหากคุณมีคุณสมบัติอื่น ๆ ที่มีความสัมพันธ์กับอายุคุณอาจพบกับตัวอย่างที่ไม่สมจริง อย่างไรก็ตามมันมี avenue ที่จะทำให้ระบบมีบางอย่างเช่นตัวอย่างที่ไม่ได้ทำให้มันเป็นชุดข้อมูล


การเพิ่มจุดรบกวนให้กับข้อมูลเป็นวิธีการจัดการกับปัญหานี้ แต่ในบางกรณีเท่านั้นที่สามารถจำแนกข้อมูลลูกค้าได้อย่างง่ายดาย ฉันจะไม่ทำมันในระดับที่มันจะส่งผลให้ความรู้โดเมน "ลำเอียง" เอาท์พุท - การรับรู้ที่หลากหลาย / อัตนัยที่นำไปสู่การชนกันของความรู้ที่ถูกกล่าวหาย้อนหลัง
Laksan Nathan

2

สิ่งหนึ่งที่ทำงานให้กับเราในสถานการณ์ที่คล้ายกันคือการเรียนรู้เสริม (สำรวจและใช้ประโยชน์) ด้านบนของโมเดลอิงกฏเรารัน explorer ซึ่งมีโอกาสเล็กน้อยที่จะเปลี่ยนการตอบสนองของโมเดลดังนั้นในบางกรณีที่โมเดลไม่แนะนำการ์ดให้แก่อายุ 17 ปีนักสำรวจจะคว่ำแบบจำลอง การตัดสินใจและออกบัตร จากกรณีเหล่านี้เป็นครั้งคราวคุณจะสร้างข้อมูลการเรียนรู้สำหรับรูปแบบการเรียนรู้ในอนาคตซึ่งสามารถใช้ในการตัดสินใจที่จะแนะนำการ์ดสำหรับเด็กอายุ 17 ปีขึ้นอยู่กับว่าข้อมูลที่ออกให้แก่เด็กอายุ 17 ปีโดย Explorer ไม่ได้เป็นค่าเริ่มต้น สร้างระบบที่สามารถทำงานนอกอคติของโมเดลที่คุณมีอยู่


เนื่องจากกรณีเหล่านี้บางครั้งมีการเชื่อมโยงกับความเสี่ยงทางการเงินบางอย่างมันจะเป็นวิธีการทีละขั้นตอนอาจเปิดเผยรูปแบบใหม่ในระยะยาว โดยทั่วไปจะเป็นการแสวงหาผลประโยชน์จากการสำรวจเมื่อคุณพูดถึงมัน สิ่งนี้จะได้รับการพิจารณาในโครงการอย่างแน่นอน
Laksan Nathan

2

จากมุมมองของภาคปฏิบัติมันเป็นเรื่องยาก / ไม่มีเหตุผลที่จะขอแบบจำลองในการทำนายบางสิ่งบางอย่างในกรณีที่ไม่สามารถทำได้ในระบบปัจจุบัน (ไม่มีอาหารกลางวันฟรี)

วิธีหนึ่งในการหลีกเลี่ยงปัญหานั้นคือการเพิ่มการสุ่มไปยังระบบปัจจุบัน (นำไปใช้) เช่นเพื่อเพิ่มความเป็นไปได้ที่จะเลี่ยงกฎ (บางส่วน) ที่มีความน่าจะเป็นที่ควบคุมได้น้อย

เมื่อคุณพยายามโน้มน้าวให้คนที่รับผิดชอบระบบทำเช่นนั้นคุณสามารถใช้วิธีการประเมินนอกนโยบายเช่นการสุ่มตัวอย่างที่สำคัญเพื่อถามคำถาม "what-if" เช่นอะไรคือความเสี่ยงด้านเครดิตที่คาดว่าจะเกิดขึ้นหากเราอนุญาตให้คนที่ตกอยู่ภายใต้กฎเกณฑ์ในการรับเครดิต เราสามารถจำลองผลกระทบของแบบจำลองการทำนายของคุณที่มีต่อประชากรนั้น การอ้างอิงที่ดีสำหรับวิธีการแบบนั้นคือบทความของบอททูเรื่องการเรียนรู้และการใช้เหตุผล


การอ้างอิงที่ดีขอบคุณ ฉันจะใช้เวลาในการผ่านมันไป
Laksan Nathan

1

คำตอบเชิงสถิติแบบคลาสสิกคือถ้ากระบวนการคัดเลือกอยู่ในข้อมูลและอธิบายโดยตัวแบบหรือการเลือกนั้นเป็นการสุ่มดังนั้นโมเดลพาราเมตริกจะพิจารณาอย่างถูกต้อง ดูการอนุมานและข้อมูลที่ขาดหายไปของกระดาษของ Donald Rubin (1976) คุณต้องรวมกลไกการเลือกข้อมูลไว้ในแบบจำลองของคุณ นี่เป็นเขตข้อมูลที่การอนุมานพารามิเตอร์ควรทำได้ดีกว่าการเรียนรู้ด้วยเครื่องบริสุทธิ์


1

นี่คล้ายกับภาวะที่กลืนไม่เข้าคายไม่ออกหลังจากชีวิต: อัตราส่วนของการกระทำที่ดีและไม่ดี (ข้อมูล) เพียงพอที่จะไปสวรรค์แทนนรก (ชั้น) หลังจากที่หนึ่งตาย (ตัวกรอง!) ในที่นี้ความตายทำหน้าที่เป็นตัวกรองซึ่งนำไปสู่ค่าที่หายไปต่อแผนการเรียนรู้แบบมีผู้สอน

ฉันต้องการแยกแยะระหว่างปัญหาค่าขาดหายไปและปัญหา 'ข้อมูลเอนเอียง' ไม่มีสิ่งเช่นข้อมูลลำเอียงมีสิ่งเช่น 'แบบจำลองลำเอียง' อธิบายข้อมูลดังกล่าว แต่ข้อมูลตัวเองไม่ลำเอียงมันหายไปเพียง หากข้อมูลที่ขาดหายไปนั้นมีความสัมพันธ์อย่างมีนัยสำคัญกับข้อมูลที่สังเกตได้ก็เป็นไปได้ทั้งหมดในการฝึกแบบจำลองที่เป็นกลางและบรรลุผลการทำนายที่ดี

หากข้อมูลที่ขาดหายไปนั้นไม่เกี่ยวข้องกับข้อมูลที่สังเกตได้อย่างสมบูรณ์แสดงว่า 'คุณไม่รู้ว่าคุณไม่รู้อะไร' คุณสามารถใช้วิธีการเรียนรู้แบบไม่มีผู้ควบคุมหรือไม่เรียนรู้ ปัญหาอยู่นอกขอบเขตของวิทยาศาสตร์ข้อมูล

ดังนั้นเพื่อแก้ปัญหาที่มีความหมายให้สมมติว่าข้อมูลที่ขาดหายไปนั้นมีความสัมพันธ์กับข้อมูลที่สังเกตได้ เราจะใช้ประโยชน์จากความสัมพันธ์ดังกล่าว

มีอัลกอริทึมการทำเหมืองข้อมูลหลายอย่างที่พยายามแก้ไขปัญหาดังกล่าว คุณสามารถลองใช้ 'วิธีทั้งมวล' เช่น Bagging-n-Boosting หรืออัลกอริทึม 'การทำเหมืองรูปแบบบ่อย' เช่น Apriori และ FP-growth นอกจากนี้คุณยังสามารถสำรวจวิธีการในสถิติที่แข็งแกร่ง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.