การจำแนกประเภท GBM ประสบกับขนาดคลาสที่ไม่สมดุลหรือไม่?


16

ฉันกำลังจัดการกับปัญหาการจำแนกประเภทไบนารีภายใต้การดูแล ฉันต้องการใช้แพคเกจ GBM เพื่อจัดประเภทบุคคลเป็นไม่ติดเชื้อ / ติดเชื้อ ฉันติดเชื้อมากกว่าคนที่ติดเชื้อ 15 เท่า

ฉันสงสัยว่ารุ่น GBM ประสบปัญหาในกรณีที่ขนาดไม่สมดุลหรือไม่? ฉันไม่พบการอ้างอิงใด ๆ ที่ตอบคำถามนี้

ฉันพยายามปรับน้ำหนักโดยการกำหนดน้ำหนัก 1 ให้กับบุคคลที่ไม่ได้รับเชื้อและน้ำหนัก 15 ถึงผู้ติดเชื้อ แต่ฉันได้รับผลลัพธ์ที่ไม่ดี


1
(หมายเหตุด้านข้าง) จะเป็นประโยชน์หากคุณระบุสิ่งที่ GBM หมายถึงและลิงก์ไปยังแพ็คเกจ
Memming

1
คุณใช้ฟังก์ชั่นการสูญเสียแบบใดสำหรับโมเดลการไล่ระดับสีไล่สี เมื่อพูดถึงคลาสที่ไม่สมดุลฉันได้เห็นประสิทธิภาพที่ไม่ดีเมื่อฉันใช้หมายถึงข้อผิดพลาดที่แน่นอนเพราะดูเหมือนว่าจะสนับสนุนคลาสที่พบบ่อยที่สุด เมื่อฉันใช้ข้อผิดพลาดกำลังสองเฉลี่ยประสิทธิภาพจะดีขึ้นอย่างมาก
Ryan Zotti

สำหรับการอ้างอิงในอนาคตฉันพบว่าฟังก์ชั่นการสูญเสียเริ่มต้นที่ใช้โดยการสูญเสียลอการิทึมคาเร็ต (cross-deviance) ก็มีประโยชน์เช่นกัน (มันลงโทษหนักในกรณีที่ผิดในระดับลอการิทึมเชิงลบ)
Lily Long

คำตอบ:


4

จากประสบการณ์ของฉัน GBM ประสบกับขนาดคลาสที่ไม่สมดุล ฉันประสบความสำเร็จเป็นอย่างดีในการใช้การสุ่มตัวอย่าง SMOTE ซึ่งสร้างข้อมูลสังเคราะห์ในขณะที่ทำการสุ่มตัวอย่างชนชั้นน้อย คุณสามารถค้นหาได้ในDMwRแพ็คเกจ


ฉันสับสนเล็กน้อย GBM ควรจะเป็นวิธีจัดการความไม่สมดุลของข้อมูลหรือไม่ ลองดูanalyticsvidhya.com/blog/2017/03/
Lamothy

5

ฉันคิดว่าข้อมูลของคุณคล้ายกับข้อมูล Secomที่ฉันเคยทำงานในอดีตและประสบปัญหามากมาย ต่อไปนี้คือสิ่งที่ฉันได้ลอง:

  • เทคนิคการสุ่มตัวอย่างที่แตกต่างกัน
  • ตัวแยกประเภทที่แตกต่างกันเช่น Random Forest, ANN, GBM, Ensemble method ฯลฯ

ฉันยังลองSVM ระดับ 1ซึ่งให้ผลลัพธ์ที่ดีกว่าเมื่อเปรียบเทียบกับคนอื่น ๆ เช่น adaboost, Random Forest คุณสามารถลองเช่นกัน

และฉันสามารถเห็นคุณได้ถามคำถามนี้ 1 ปีย้อนกลับดังนั้นถ้าคุณพบวิธีที่ดีที่สุดแล้วกรุณาโพสต์ที่นี่เพื่อที่ฉันจะได้รับความช่วยเหลือจากมันเพื่อความแม่นยำที่ดีขึ้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.