การไล่ระดับสีเป็นการส่งเสริมที่เหมาะสมสำหรับข้อมูลที่มีอัตราเหตุการณ์ต่ำเช่น 1% หรือไม่


14

ฉันพยายามไล่ระดับสีบนชุดข้อมูลที่มีอัตราเหตุการณ์ประมาณ 1% โดยใช้ Enterprise miner แต่ล้มเหลวในการสร้างเอาต์พุตใด ๆ คำถามของฉันคือเนื่องจากเป็นแนวทางการตัดสินใจโดยใช้ต้นไม้มันเป็นสิทธิที่จะใช้การไล่ระดับสีด้วยเหตุการณ์ระดับต่ำเช่นนี้หรือไม่?


3
คุณกำลังจัดการกับชุดข้อมูลที่ไม่สมดุล การส่งเสริมเป็นวิธีที่ดีในการรับมือกับมัน สำหรับรายละเอียดดูstats.stackexchange.com/questions/157940/…
DaL

แต่สำหรับฉันแล้วการถดถอยโลจิสติกกำลังให้ผลลัพธ์ที่ดีกว่าการเพิ่มแบบสุ่มหรือการไล่ระดับสี ฉันต้องการปรับปรุงประสิทธิภาพของแบบจำลองของฉันโดยทดลองใช้ต้นไม้ที่ได้รับการปรับปรุง
user2542275

การเพิ่มจะขึ้นอยู่กับตัวแยกประเภทที่อ่อนแอ ในทางทฤษฎีลักษณนามที่อ่อนแอใด ๆ ที่ดีกว่าการสุ่มเล็กน้อยจะทำ ในทางปฏิบัติอัลกอริทึมที่แตกต่างกันนั้นเหมาะสมกับชุดข้อมูลบางชุดดังนั้นตัวแยกประเภทอ่อนที่คุณเลือกจึงมีความสำคัญ คุณสามารถระบุเพิ่มเติมเกี่ยวกับอัลกอริทึมที่คุณใช้ผลลัพธ์และชุดข้อมูลได้หรือไม่
DaL

ตกลง. เกี่ยวกับชุดข้อมูล: ขนาดตัวอย่าง> 4m, อัตราเหตุการณ์ = 1.2% จำนวนผู้ทำนายที่มีค่า p-value <0.05 อย่างมีนัยสำคัญคือ 150 การถดถอยโลจิสติกที่มีตัวแปรที่สำคัญที่สุดยก 3 ที่ประชากร 20% โครงข่ายประสาทเทียมนั้นยกขึ้นประมาณ 2.8 การเพิ่มระดับการไล่ระดับสีไม่ได้สร้างผลลัพธ์ใด ๆ จนกว่าฉันจะใช้การสุ่มตัวอย่างแบบแบ่งชั้นด้วยน้ำหนักก่อนหน้าแบบผกผัน แต่ประสิทธิภาพไม่ดี
user2542275

เนื่องจากชุดข้อมูลของคุณมีขนาดค่อนข้างใหญ่คุณควรมีกลุ่มตัวอย่างของชนกลุ่มน้อยเพียงพอดังนั้นปัญหาเกิดจากความไม่สมดุลของญาติ คุณมีคุณสมบัติค่อนข้างน้อย แต่ไม่มากเกินไป แต่ที่จริงแล้วต้นไม้ตัดสินใจไม่เหมาะสำหรับชุดข้อมูลดังกล่าว ฉันขอแนะนำให้คุณสร้างชุดข้อมูลที่สมดุลและดูว่าอัลกอริทึมของคุณทำงานได้ดีเพียงใด คุณจะสามารถใช้อัลกอริทึมกับชุดข้อมูลดั้งเดิมตามที่ฉันอธิบายไว้ในความคิดเห็นแรก
DaL

คำตอบ:


7

(เพื่อให้คำตอบสั้น ๆ นี้ :)

มันเป็นเรื่องดีที่จะใช้อัลกอริทึมการไล่ระดับสีเครื่องเพิ่มเมื่อจัดการกับชุดข้อมูลที่ไม่สมดุล เมื่อต้องรับมือกับชุดข้อมูลที่มีความไม่สมดุลอย่างยิ่งมันจะเกี่ยวข้องกับคำถามที่เหมาะสมของตัวชี้วัดที่ใช้ เราควรหลีกเลี่ยงตัวชี้วัดเช่นความแม่นยำหรือการเรียกคืนที่ขึ้นอยู่กับเกณฑ์ตามอำเภอใจและเลือกใช้ตัวชี้วัดเช่นการให้คะแนน AUCPR หรือ Brier ที่ให้ภาพที่แม่นยำยิ่งขึ้น - ดู CV.SE ที่ยอดเยี่ยมเมื่อ: ทำไมความแม่นยำไม่ใช่ วัดที่ดีที่สุดสำหรับการประเมินรูปแบบการจำแนกประเภท? เพื่อเพิ่มเติม) ในทำนองเดียวกันเราอาจใช้วิธีการลดต้นทุนด้วยการกำหนดค่าการแบ่งประเภทที่แตกต่างกัน (เช่นดู Masnadi-Shirazi & Vasconcelos (2011) การเพิ่มต้นทุนที่อ่อนไหวสำหรับมุมมองทั่วไปและการเปลี่ยนแปลงที่เสนอไปยังอัลกอริธึมการเพิ่มประสิทธิภาพที่รู้จักหรือสำหรับแอพพลิเคชั่นที่น่าสนใจด้วยวิธีการที่ง่ายกว่าตรวจสอบรายงานการท้าทาย Higgs Boson สำหรับอัลกอริทึม XGBoost Chen & He (2015) Higgs Boson Discovery พร้อมต้นไม้กระตุ้นให้รายละเอียดเพิ่มเติม)

นอกจากนี้ยังเป็นที่น่าสังเกตว่าถ้าเราใช้ลักษณนามความน่าจะเป็น (เช่น GBMs) เราสามารถ / ควรแข็งขันมองเข้าไปในการสอบเทียบความน่าจะกลับมา (เช่นดู Zadrozny & Elkan (2002) Transforming คะแนนลักษณนามเข้าไปในประมาณการ multiclass น่าจะถูกต้องหรือคัลล์ et al. ( 2017) การสอบเทียบเบต้า: การปรับปรุงที่ได้รับการก่อตั้งและนำมาใช้อย่างง่ายดายในการสอบเทียบโลจิสติกสำหรับตัวแยกประเภทไบนารี ) เพื่อเพิ่มประสิทธิภาพของผู้เรียนของเรา โดยเฉพาะอย่างยิ่งเมื่อทำงานกับข้อมูลที่ไม่สมดุลเพียงพอในการบันทึกการเปลี่ยนแปลงแนวโน้มอาจให้ข้อมูลมากกว่าเพียงการติดฉลากข้อมูล ในระดับนั้นบางคนอาจโต้แย้งว่าวิธีการที่มีความอ่อนไหวด้านราคานั้นไม่เป็นประโยชน์ในตอนท้าย (เช่นดู Nikolaou et al. (2016)อัลกอริธึมการเพิ่มราคาที่มีความอ่อนไหว: เราต้องการหรือไม่ ) เพื่อย้ำจุดเดิมแม้ว่าการเพิ่มอัลกอริทึมจะไม่เลวสำหรับข้อมูลที่ไม่สมดุลและในบางกรณีพวกเขาสามารถเสนอตัวเลือกการแข่งขันสูงมาก


ฉันเชื่อว่าการให้คะแนน Brier นั้นเทียบเท่ากับการวัดความแม่นยำดังนั้นจะมีข้อ จำกัด เช่นเดียวกับความแม่นยำเมื่อประเมินโมเดลเหตุการณ์ที่หายาก
RobertF

คะแนน Brier ไม่เท่ากับความแม่นยำ โปรดทราบว่าเราใช้ความน่าจะเป็นที่คาดการณ์ไว้สำหรับการคำนวณคะแนน Brier ในขณะที่การคำนวณความแม่นยำนั้นเราใช้ฉลากตามการจัดระดับความน่าจะเป็นที่คาดคะเนอย่างหนัก
usεr11852

ขอขอบคุณที่อธิบายให้ชัดเจน - การใช้ความน่าจะเป็นโดยประมาณมากกว่า 0/1 สำหรับคลาสที่คาดการณ์ไว้นั้นเหมาะสมกว่า
RobertF

เย็น. ฉันดีใจที่เราแยกออก! :)
usεr11852
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.