ความหมายของการฝึกอบรมชุดทรีด้วยชุดข้อมูลที่มีอคติสูงคืออะไร


14

ฉันมีชุดข้อมูลไบนารีที่มีอคติอย่างมาก - ฉันมีตัวอย่างของคลาสลบมากกว่าคลาสเชิงบวกจำนวน 1000 เท่า ฉันต้องการฝึกอบรมชุดทรี (เช่นต้นไม้สุ่มพิเศษหรือป่าสุ่ม) จากข้อมูลนี้ แต่มันยากที่จะสร้างชุดข้อมูลการฝึกอบรมที่มีตัวอย่างของชั้นเรียนที่ดีพอ

อะไรคือความหมายของการทำวิธีการสุ่มตัวอย่างแบบแบ่งชั้นเพื่อทำให้จำนวนตัวอย่างที่เป็นบวกและลบเป็นปกติ? กล่าวอีกนัยหนึ่งมันเป็นความคิดที่ดีหรือไม่ที่จะพองตัวอย่างของจำนวนบวกในชั้นเรียนในชุดฝึกอบรม?

คำตอบ:


10

ใช่มันเป็นปัญหา หากคุณใช้ส่วนน้อยไปคุณจะเสี่ยงเกินไป หากคุณขีดเส้นใต้เสียงส่วนใหญ่คุณมีความเสี่ยงด้านที่ขาดหายไปของคนส่วนใหญ่ การสุ่มตัวอย่างแบบแบ่งชั้น (btw) นั้นเทียบเท่ากับการกำหนดค่าการแบ่งประเภทที่ไม่สม่ำเสมอ

ทางเลือก:

(1) การสุ่มตัวอย่างอิสระย่อยจากหลายชั้นส่วนใหญ่และทำให้ลักษณนามหลายคนโดยรวมในแต่ละเซตด้วยข้อมูลทุกชั้นชนกลุ่มน้อยตามที่แนะนำในคำตอบจาก @Debasis และอธิบายไว้ในกระดาษ EasyEnsemble ,

(2) SMOTE (เทคนิคการสังเคราะห์เสียงส่วนน้อยของผู้ถือหุ้นส่วนน้อย)หรือSMOTEBoost (รวม SMOTE กับการเพิ่มประสิทธิภาพ)เพื่อสร้างอินสแตนซ์สังเคราะห์ของคลาสของชนกลุ่มน้อยโดยการสร้างเพื่อนบ้านที่ใกล้ที่สุดในพื้นที่คุณลักษณะ ประหารจะดำเนินการในการวิจัยในแพคเกจ DMwR


11

ฉันอยากจะแนะนำการฝึกอบรมเกี่ยวกับชุดย่อยของข้อมูลของคุณที่สมดุลมากขึ้น ฝึกฟอเรสต์แบบสุ่มในชุดของตัวอย่างเชิงบวกแบบสุ่มที่เลือกพร้อมกับจำนวนตัวอย่างเชิงลบที่คล้ายกัน โดยเฉพาะอย่างยิ่งหากคุณสมบัติการเลือกปฏิบัติมีความแปรปรวนจำนวนมากสิ่งนี้จะมีประสิทธิภาพพอสมควรและหลีกเลี่ยงการปรับตัวที่มากเกินไป อย่างไรก็ตามในการแบ่งชั้นเป็นสิ่งสำคัญในการค้นหาความสมดุลเนื่องจาก over-fitting จะกลายเป็นปัญหาโดยไม่คำนึงถึง ฉันขอแนะนำให้ดูว่าแบบจำลองทำอย่างไรกับชุดข้อมูลทั้งหมดจากนั้นเพิ่มอัตราส่วนของตัวอย่างบวกกับลบอย่างต่อเนื่องใกล้ถึงอัตราส่วนเท่ากันและเลือกแบบจำลองที่เพิ่มประสิทธิภาพการวัดของคุณในตัวแทนบางคนเก็บข้อมูลไว้

บทความนี้ดูเหมือนว่าจะมีความเกี่ยวข้องอย่างเป็นธรรมhttp://statistics.berkeley.edu/sites/default/files/tech-reports/666.pdfมันพูดถึงการweighted Random Forestลงโทษที่ผิดประเภทของชนกลุ่มน้อย


4

วิธีที่รวดเร็วและง่ายดายที่มีประสิทธิภาพในการเข้าถึงความไม่สมดุลนี้คือการสุ่มคลาสที่ใหญ่กว่า (ซึ่งในกรณีของคุณคือคลาสที่เป็นลบ) ให้ใช้การจำแนกประเภท N จำนวนครั้งที่มีสมาชิกจากทั้งสองคลาส ตัวอย่างย่อย) และรายงานค่าตัวชี้วัดเฉลี่ยค่าเฉลี่ยที่คำนวณได้มากกว่าการทำซ้ำ N (พูด 1,000)

วิธีการที่เป็นระเบียบมากขึ้นคือการดำเนินการอัลกอริทึม Mapping Convergence (MC) ซึ่งเกี่ยวข้องกับการระบุเซตย่อยของกลุ่มตัวอย่างเชิงลบที่แข็งแกร่งด้วยความช่วยเหลือของตัวจําแนกคลาสหนึ่งเช่น OSVM หรือ SVDD กลุ่มตัวอย่างที่เป็นลบและบวกที่แข็งแกร่ง รายละเอียดเพิ่มเติมของอัลกอริทึม MC สามารถพบได้ในบทความนี้


0

วิธีที่ดีที่สุดคือการสุ่มตัวอย่างคลาส N ส่วนใหญ่ซ้ำ ๆ (การสุ่มตัวอย่างโดยไม่มีการแทนที่) และในแต่ละครั้งขนาดของคลาสเนกาทีฟควรเท่ากับขนาดของคลาสบวก ตอนนี้สามารถจำแนกตัวแยกประเภทที่แตกต่างกันได้ N และสามารถใช้ค่าเฉลี่ยเพื่อประเมินได้

อีกวิธีหนึ่งคือการใช้เทคนิคการ bootstrapping สิ่งนี้อาจทำให้เกิดการ overfitting แต่ควรลองและถ้า neeeded สามารถทำให้โมเดลเป็นปกติเพื่อหลีกเลี่ยงการ overfitting

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.