ฉันพยายามไล่ระดับสีบนชุดข้อมูลที่มีอัตราเหตุการณ์ประมาณ 1% โดยใช้ Enterprise miner แต่ล้มเหลวในการสร้างเอาต์พุตใด ๆ คำถามของฉันคือเนื่องจากเป็นแนวทางการตัดสินใจโดยใช้ต้นไม้มันเป็นสิทธิที่จะใช้การไล่ระดับสีด้วยเหตุการณ์ระดับต่ำเช่นนี้หรือไม่?
ฉันพยายามไล่ระดับสีบนชุดข้อมูลที่มีอัตราเหตุการณ์ประมาณ 1% โดยใช้ Enterprise miner แต่ล้มเหลวในการสร้างเอาต์พุตใด ๆ คำถามของฉันคือเนื่องจากเป็นแนวทางการตัดสินใจโดยใช้ต้นไม้มันเป็นสิทธิที่จะใช้การไล่ระดับสีด้วยเหตุการณ์ระดับต่ำเช่นนี้หรือไม่?
คำตอบ:
(เพื่อให้คำตอบสั้น ๆ นี้ :)
มันเป็นเรื่องดีที่จะใช้อัลกอริทึมการไล่ระดับสีเครื่องเพิ่มเมื่อจัดการกับชุดข้อมูลที่ไม่สมดุล เมื่อต้องรับมือกับชุดข้อมูลที่มีความไม่สมดุลอย่างยิ่งมันจะเกี่ยวข้องกับคำถามที่เหมาะสมของตัวชี้วัดที่ใช้ เราควรหลีกเลี่ยงตัวชี้วัดเช่นความแม่นยำหรือการเรียกคืนที่ขึ้นอยู่กับเกณฑ์ตามอำเภอใจและเลือกใช้ตัวชี้วัดเช่นการให้คะแนน AUCPR หรือ Brier ที่ให้ภาพที่แม่นยำยิ่งขึ้น - ดู CV.SE ที่ยอดเยี่ยมเมื่อ: ทำไมความแม่นยำไม่ใช่ วัดที่ดีที่สุดสำหรับการประเมินรูปแบบการจำแนกประเภท? เพื่อเพิ่มเติม) ในทำนองเดียวกันเราอาจใช้วิธีการลดต้นทุนด้วยการกำหนดค่าการแบ่งประเภทที่แตกต่างกัน (เช่นดู Masnadi-Shirazi & Vasconcelos (2011) การเพิ่มต้นทุนที่อ่อนไหวสำหรับมุมมองทั่วไปและการเปลี่ยนแปลงที่เสนอไปยังอัลกอริธึมการเพิ่มประสิทธิภาพที่รู้จักหรือสำหรับแอพพลิเคชั่นที่น่าสนใจด้วยวิธีการที่ง่ายกว่าตรวจสอบรายงานการท้าทาย Higgs Boson สำหรับอัลกอริทึม XGBoost Chen & He (2015) Higgs Boson Discovery พร้อมต้นไม้กระตุ้นให้รายละเอียดเพิ่มเติม)
นอกจากนี้ยังเป็นที่น่าสังเกตว่าถ้าเราใช้ลักษณนามความน่าจะเป็น (เช่น GBMs) เราสามารถ / ควรแข็งขันมองเข้าไปในการสอบเทียบความน่าจะกลับมา (เช่นดู Zadrozny & Elkan (2002) Transforming คะแนนลักษณนามเข้าไปในประมาณการ multiclass น่าจะถูกต้องหรือคัลล์ et al. ( 2017) การสอบเทียบเบต้า: การปรับปรุงที่ได้รับการก่อตั้งและนำมาใช้อย่างง่ายดายในการสอบเทียบโลจิสติกสำหรับตัวแยกประเภทไบนารี ) เพื่อเพิ่มประสิทธิภาพของผู้เรียนของเรา โดยเฉพาะอย่างยิ่งเมื่อทำงานกับข้อมูลที่ไม่สมดุลเพียงพอในการบันทึกการเปลี่ยนแปลงแนวโน้มอาจให้ข้อมูลมากกว่าเพียงการติดฉลากข้อมูล ในระดับนั้นบางคนอาจโต้แย้งว่าวิธีการที่มีความอ่อนไหวด้านราคานั้นไม่เป็นประโยชน์ในตอนท้าย (เช่นดู Nikolaou et al. (2016)อัลกอริธึมการเพิ่มราคาที่มีความอ่อนไหว: เราต้องการหรือไม่ ) เพื่อย้ำจุดเดิมแม้ว่าการเพิ่มอัลกอริทึมจะไม่เลวสำหรับข้อมูลที่ไม่สมดุลและในบางกรณีพวกเขาสามารถเสนอตัวเลือกการแข่งขันสูงมาก