คำถามติดแท็ก class-imbalance

2
ทำไมเราต้องจัดการกับความไม่สมดุลของข้อมูล?
ฉันต้องรู้ว่าทำไมเราต้องจัดการกับความไม่สมดุลของข้อมูล ฉันรู้วิธีจัดการกับมันและวิธีการที่แตกต่างกันในการแก้ปัญหาซึ่งคือการสุ่มตัวอย่างขึ้นหรือการสุ่มตัวอย่างหรือโดยใช้ Smote ตัวอย่างเช่นถ้าฉันมีโรคหายาก 1 เปอร์เซ็นต์จาก 100 และให้บอกว่าฉันตัดสินใจที่จะมีชุดข้อมูลที่สมดุลสำหรับชุดฝึกอบรมของฉันซึ่งก็คือ: ตัวอย่าง 50/50 จะไม่ทำให้เครื่องคิดว่า 50% ของผู้ป่วยจะมี โรค? แม้ว่าอัตราส่วนคือ 1 จาก 100 ดังนั้น ทำไมเราต้องจัดการกับความไม่สมดุลของข้อมูล? อัตราส่วนที่แนะนำให้มีการตั้งค่าสมดุลคืออะไร

2
เมื่อไหร่ที่เราจะบอกว่าชุดข้อมูลนั้นไม่สามารถจำแนกได้?
ฉันมีการวิเคราะห์ชุดข้อมูลหลายครั้งซึ่งฉันไม่สามารถจำแนกประเภทได้ เพื่อดูว่าฉันจะได้ลักษณนามฉันมักจะใช้ขั้นตอนต่อไปนี้: สร้างพล็อตกล่องฉลากกับค่าตัวเลข ลดมิติเป็น 2 หรือ 3 เพื่อดูว่าคลาสแยกออกจากกันได้หรือไม่ลอง LDA ในบางครั้ง พยายามปรับให้เหมาะสมกับ SVM และป่าสุ่มและดูความสำคัญของฟีเจอร์เพื่อดูว่าคุณสมบัตินั้นเหมาะสมหรือไม่ ลองเปลี่ยนความสมดุลของคลาสและเทคนิคต่าง ๆ เช่นการสุ่มตัวอย่างต่ำเกินไปและการสุ่มตัวอย่างมากเกินไปเพื่อตรวจสอบว่าความไม่สมดุลของคลาสอาจเป็นปัญหาหรือไม่ มีวิธีอื่นอีกมากมายที่ฉันนึกได้ แต่ยังไม่ได้ลอง บางครั้งฉันรู้ว่าคุณสมบัติเหล่านี้ไม่ดีและไม่เกี่ยวข้องกับป้ายกำกับที่เราพยายามคาดการณ์ จากนั้นฉันก็ใช้สัญชาตญาณทางธุรกิจนั้นเพื่อยุติการฝึกโดยสรุปว่าเราต้องการคุณสมบัติที่ดีกว่าหรือป้ายกำกับที่ต่างออกไปโดยสิ้นเชิง คำถามของฉันคือนักวิทยาศาสตร์ข้อมูลรายงานว่าการจำแนกประเภทไม่สามารถทำได้ด้วยคุณสมบัติเหล่านี้ มีวิธีทางสถิติในการรายงานหรือปรับข้อมูลในอัลกอริทึมที่แตกต่างกันก่อนและการดูการตรวจสอบความถูกต้องเป็นตัวเลือกที่ดีที่สุดหรือไม่?

3
เมื่อใดที่เราควรพิจารณาชุดข้อมูลว่าไม่สมดุล
ฉันกำลังเผชิญสถานการณ์ที่จำนวนตัวอย่างบวกและลบในชุดข้อมูลนั้นไม่สมดุลกัน คำถามของฉันคือมีกฎของหัวแม่มือที่บอกเราเมื่อเราควร subsample หมวดหมู่ขนาดใหญ่เพื่อบังคับสมดุลบางประเภทในชุดข้อมูล ตัวอย่าง: หากจำนวนตัวอย่างที่เป็นบวกคือ 1,000 และจำนวนตัวอย่างเชิงลบคือ 10,000 ฉันควรไปฝึกลักษณนามลักษณนามของฉันในชุดข้อมูลแบบเต็มหรือฉันควรตัวอย่างตัวอย่างเชิงลบหรือไม่ คำถามเดียวกันสำหรับตัวอย่างบวก 1,000 ข้อและลบ 100,000 ข้อ คำถามเดียวกันสำหรับ 10,000 บวกและ 1,000 ลบ ฯลฯ ...

1
การจัดหมวดหมู่ของวิธีการที่จะจัดการกับคลาสที่ไม่สมดุล
เป็นวิธีที่ดีที่สุดในการจัดหมวดหมู่วิธีการที่ได้รับการพัฒนาเพื่อจัดการกับปัญหาระดับความไม่สมดุลคืออะไร? นี้บทความแบ่งพวกเขาออกเป็น: การประมวลผลล่วงหน้า: รวมถึงการ oversampling, undersampling และ hybrid การเรียนรู้ที่มีความอ่อนไหวด้านต้นทุน: รวมถึงวิธีการโดยตรงและการเรียนรู้แบบ meta-learning เทคนิคของ Ensemble: ประกอบด้วยตระการตาที่ไวต่อราคาและการประมวลผลข้อมูลล่วงหน้าร่วมกับการเรียนรู้ทั้งมวล การจำแนกประเภทที่สอง : การประมวลผลข้อมูลล่วงหน้า: รวมถึงการเปลี่ยนแปลงการกระจายและการถ่วงน้ำหนักพื้นที่ข้อมูล การเรียนรู้แบบชั้นเดียวถือเป็นการเปลี่ยนการกระจาย วิธีการเรียนรู้จุดประสงค์พิเศษ การคาดการณ์หลังการประมวลผล: รวมถึงวิธีการตามเกณฑ์และการประมวลผลภายหลังที่มีความอ่อนไหวด้านต้นทุน วิธีไฮบริด: บทความที่สาม: วิธีการระดับข้อมูล วิธีการระดับอัลกอริทึม วิธีไฮบริด การจำแนกประเภทสุดท้ายยังพิจารณาการปรับปรุงผลลัพธ์เป็นแนวทางอิสระ ขอบคุณล่วงหน้า.
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.