การจัดหมวดหมู่ของวิธีการที่จะจัดการกับคลาสที่ไม่สมดุล


8

เป็นวิธีที่ดีที่สุดในการจัดหมวดหมู่วิธีการที่ได้รับการพัฒนาเพื่อจัดการกับปัญหาระดับความไม่สมดุลคืออะไร?

นี้บทความแบ่งพวกเขาออกเป็น:

  1. การประมวลผลล่วงหน้า: รวมถึงการ oversampling, undersampling และ hybrid
  2. การเรียนรู้ที่มีความอ่อนไหวด้านต้นทุน: รวมถึงวิธีการโดยตรงและการเรียนรู้แบบ meta-learning
  3. เทคนิคของ Ensemble: ประกอบด้วยตระการตาที่ไวต่อราคาและการประมวลผลข้อมูลล่วงหน้าร่วมกับการเรียนรู้ทั้งมวล

การจำแนกประเภทที่สอง :

  1. การประมวลผลข้อมูลล่วงหน้า: รวมถึงการเปลี่ยนแปลงการกระจายและการถ่วงน้ำหนักพื้นที่ข้อมูล การเรียนรู้แบบชั้นเดียวถือเป็นการเปลี่ยนการกระจาย
  2. วิธีการเรียนรู้จุดประสงค์พิเศษ
  3. การคาดการณ์หลังการประมวลผล: รวมถึงวิธีการตามเกณฑ์และการประมวลผลภายหลังที่มีความอ่อนไหวด้านต้นทุน
  4. วิธีไฮบริด:

บทความที่สาม:

  1. วิธีการระดับข้อมูล
  2. วิธีการระดับอัลกอริทึม
  3. วิธีไฮบริด

การจำแนกประเภทสุดท้ายยังพิจารณาการปรับปรุงผลลัพธ์เป็นแนวทางอิสระ

ขอบคุณล่วงหน้า.


4
คำตอบสั้น ๆ : พวกเขาทั้งหมดนั้นดีที่สุดและทั้งหมดนั้นแย่ที่สุด! การจำแนกและการทำเหมืองข้อมูลโดยทั่วไปมีความอ่อนไหวต่อบริบทมาก ไม่มีขนาดที่เหมาะกับโซลูชันทั้งหมดในโดเมนนี้ โดยวิธีการที่ดีที่สุดในแง่ทั่วไปมักจะเป็นการรวมกันของการตัดสินใจที่ดีที่สุดในระดับที่แตกต่างจากการแยกคุณลักษณะเพื่อรูปแบบการประเมินผล
mok

@ โมกขอบคุณ คุณช่วยบอกให้ฉันทราบน้ำหนักชั้นเรียนในตัวจำแนกประเภทของ sklearn ได้เช่นการถดถอยโลจิสติกส์ถูกจัดเป็นหมวดหมู่ใด
ebrahimi

@ebrahimi ควรอยู่ในระดับอัลกอริธึมเนื่องจากมีการปรับเฉพาะน้ำหนักตามพจนานุกรมที่ส่งผ่านหรือคำนวณ (อนุมาน) ตามค่าของ y (คลาส) และข้อมูลยังคงไม่ถูกแตะต้อง
Sanjay Krishna

@SanjayKrishna ขอบคุณมาก ในกรณีของการจัดหมวดหมู่แรกมันตกอยู่ในการเรียนรู้ที่คุ้มค่าใช่มั้ย นอกจากนี้ในกรณีของอนุกรมวิธานที่สองก็จะแบ่งออกเป็นประเภทที่สามคือโพสต์การประมวลผลที่ไวต่อต้นทุน จริงป้ะ? คำตอบที่สองสำหรับเรื่องนี้: stackoverflow.com/questions/32492550/…ก็มีประโยชน์เช่นกัน
ebrahimi

คำตอบ:


5

วิธีที่ฉันเห็นมันทั้งสามหมวดหมู่เห็นด้วยในหลายสิ่ง ตัวอย่างเช่นทั้งสามมีหมวดหมู่สำหรับขั้นตอนการประมวลผลล่วงหน้า

ฉันมักจะเห็นด้วยกับการจัดหมวดหมู่ที่สามเป็นส่วนใหญ่ทั่วไปและครอบคลุมสิ่งเพิ่มเติม

  • ข้อมูลระดับหมวดหมู่รวมถึงขั้นตอนก่อนการประมวลผลใด ๆ จัดการกับความไม่สมดุลของระดับ (เช่นโอเวอร์ / อันเดอร์สุ่มตัวอย่าง)
  • ระดับขั้นตอนวิธีการอาจจะพิจารณารวมถึงประเภทที่สองของบทความสองคนแรก การเปลี่ยนแปลงอัลกอริธึมที่เกี่ยวข้องกับความไม่สมดุลของคลาสจะไปที่นี่ (เช่นการกำหนดน้ำหนักคลาส)
  • ในที่สุดหมวดหมู่ไฮบริดสำหรับการรวมสองรายการ

สิ่งเดียวที่ขาดหายไปจากบทความสองบทความแรกคือขั้นตอนหลังการประมวลผลซึ่งตรงไปตรงมาไม่ได้ใช้ในทางปฏิบัติบ่อยเท่าที่อื่น ๆ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.