ปัญหาความไม่สมดุลของคลาสสามารถแก้ไขได้ด้วยการเรียนรู้ที่คุ้มค่าหรือการสุ่มใหม่ ดูข้อดีและข้อเสียของการเรียนรู้ที่คำนึงถึงต้นทุนและการสุ่มตัวอย่างคัดลอกด้านล่าง:
{1} ให้รายการข้อดีและข้อเสียของการเรียนรู้ที่คำนึงถึงต้นทุนและการสุ่มตัวอย่าง:
2.2 การสุ่มตัวอย่าง
สามารถใช้ oversampling และ undersampling เพื่อปรับเปลี่ยนการกระจายคลาสของข้อมูลการฝึกอบรมและใช้วิธีทั้งสองเพื่อจัดการกับความไม่สมดุลของคลาส [1, 2, 3, 6, 10, 11] เหตุผลที่เปลี่ยนการกระจายคลาสของข้อมูลการฝึกอบรมช่วยการเรียนรู้ด้วยชุดข้อมูลที่มีความเบ้สูงนั่นคือมันมีผลในการกำหนดค่าการแบ่งประเภทที่ไม่เหมือนกันอย่างมีประสิทธิภาพ ตัวอย่างเช่นหากมีการเปลี่ยนแปลงการกระจายชั้นเรียนของชุดการฝึกอบรมเพื่อให้อัตราส่วนของตัวอย่างบวกกับลบเป็นไปจาก 1: 1 ถึง 2: 1 จากนั้นจะมีการกำหนดอัตราส่วนต้นทุนที่ผิดพลาดได้อย่างมีประสิทธิภาพ 2: 1 ความเท่าเทียมกันระหว่างการเปลี่ยนแปลงการกระจายคลาสของข้อมูลการฝึกอบรมและการเปลี่ยนแปลงอัตราส่วนค่าใช้จ่ายการจำแนกประเภทเป็นที่รู้จักกันดีและได้รับการอธิบายอย่างเป็นทางการโดย Elkan [9]
มีข้อเสียที่รู้จักกันที่เกี่ยวข้องกับการใช้การสุ่มตัวอย่างเพื่อใช้การเรียนรู้ที่มีความอ่อนไหวด้านราคา
เสียเปรียบกับ undersampling ก็คือว่ามันทิ้งข้อมูลที่เป็นประโยชน์ที่อาจเกิดขึ้น ข้อเสียเปรียบหลักกับการ oversamplingจากมุมมองของเราคือการทำสำเนาตัวอย่างที่มีอยู่อย่างถูกต้องจะทำให้มีโอกาสมากเกินไป ในความเป็นจริงแล้วการมีการสุ่มตัวอย่างมากเกินไปเป็นเรื่องปกติสำหรับผู้เรียนในการสร้างกฎการจัดหมวดหมู่เพื่อให้ครอบคลุมตัวอย่างเดียวที่ทำซ้ำ ข้อเสียที่สองของ oversampling คือมันจะเพิ่มจำนวนตัวอย่างการฝึกอบรมจึง i ncreasing เวลาการเรียนรู้
2.3 ทำไมต้องใช้การสุ่มตัวอย่าง
เมื่อพิจารณาข้อเสียด้วยการสุ่มตัวอย่างมันก็คุ้มค่าที่จะถามว่าทำไมทุกคนจะใช้มันแทนที่จะเป็นอัลกอริธึมการเรียนรู้ที่คำนึงถึงต้นทุนสำหรับการจัดการกับข้อมูลด้วยการกระจายคลาสที่เบ้และค่าใช้จ่ายที่ไม่สม่ำเสมอ มีหลายสาเหตุนี้. เหตุผลที่ชัดเจนที่สุดคือไม่มีการใช้งานที่มีความอ่อนไหวด้านต้นทุนของอัลกอริทึมการเรียนรู้ทั้งหมดและดังนั้นวิธีการที่ใช้การห่อหุ้มโดยใช้การสุ่มตัวอย่างเป็นเพียงตัวเลือกเดียว แม้ว่าสิ่งนี้จะเป็นจริงในปัจจุบันน้อยกว่าในอดีต แต่อัลกอริทึมการเรียนรู้หลายอย่าง (เช่น C4.5) ยังไม่ได้จัดการค่าใช้จ่ายโดยตรงในกระบวนการเรียนรู้
เหตุผลที่สองสำหรับการใช้การสุ่มตัวอย่างคือชุดข้อมูลที่บิดเบือนสูงจำนวนมากนั้นมีขนาดใหญ่และขนาดของชุดการฝึกอบรมจะต้องลดลงเพื่อให้การเรียนรู้เป็นไปได้ ในกรณีนี้การ Undersampling น่าจะเป็นกลยุทธ์ที่สมเหตุสมผลและถูกต้อง ในบทความนี้เราไม่พิจารณาถึงความจำเป็นในการลดขนาดชุดฝึกอบรม อย่างไรก็ตามเราจะชี้ให้เห็นว่าหากเราต้องการทิ้งข้อมูลการฝึกอบรมบางอย่างมันอาจจะเป็นประโยชน์ในการทิ้งตัวอย่างส่วนใหญ่ของชั้นเรียนบางส่วนเพื่อลดขนาดชุดฝึกอบรมเป็นขนาดที่ต้องการและจากนั้นก็ใช้ต้นทุน - ขั้นตอนวิธีการเรียนรู้ที่ละเอียดอ่อนเพื่อลดปริมาณข้อมูลการฝึกอบรมที่ถูกทิ้งให้น้อยที่สุด
เหตุผลสุดท้ายที่อาจมีส่วนในการใช้การสุ่มตัวอย่างมากกว่าอัลกอริทึมการเรียนรู้ที่มีความอ่อนไหวด้านต้นทุนคือค่าใช้จ่ายในการจำแนกประเภทมักไม่เป็นที่รู้จัก อย่างไรก็ตามนี่ไม่ใช่เหตุผลที่ถูกต้องสำหรับการใช้การสุ่มตัวอย่างผ่านอัลกอริทึมการเรียนรู้ที่มีค่าใช้จ่ายเนื่องจากปัญหาที่คล้ายคลึงกันเกิดขึ้นกับการสุ่มตัวอย่าง - การกระจายคลาสของข้อมูลการฝึกอบรมขั้นสุดท้ายควรเป็นอย่างไร หากไม่ทราบข้อมูลต้นทุนนี้การวัดเช่นพื้นที่ใต้เส้นโค้ง ROC สามารถใช้เพื่อวัดประสิทธิภาพของตัวจําแนกและทั้งสองวิธีจะสามารถกําหนดอัตราส่วนต้นทุน / การกระจายชั้นที่เหมาะสม
พวกเขายังทำการทดลองหลายชุดซึ่งสรุปไม่ได้:
จากผลลัพธ์ของชุดข้อมูลทั้งหมดไม่มีผู้ชนะที่แน่นอนระหว่างการเรียนรู้ที่คำนึงถึงต้นทุนการ oversampling และ undersampling
จากนั้นพวกเขาพยายามที่จะเข้าใจว่าเกณฑ์ใดในชุดข้อมูลอาจบอกใบ้ว่าเทคนิคใดเหมาะสมที่สุด
พวกเขายังตั้งข้อสังเกตว่า SMOTE อาจนำมาปรับปรุงบางอย่าง:
มีการปรับปรุงหลายอย่างที่ผู้คนทำเพื่อปรับปรุงประสิทธิภาพของการสุ่มตัวอย่าง บางส่วนของการปรับปรุงเหล่านี้รวมถึงการแนะนำตัวอย่าง "สังเคราะห์" ใหม่เมื่อ oversampling [5 -> SMOTE] การลบตัวอย่างส่วนใหญ่ที่มีประโยชน์น้อยกว่าเมื่อ Undersampling [11] และใช้ตัวอย่างย่อยหลายตัวอย่างเมื่อใช้การ Undersampling อย่างน้อยหนึ่งตัวอย่าง ตัวอย่างย่อย [3] ในขณะที่เทคนิคเหล่านี้ถูกนำมาเปรียบเทียบกับการสุ่มตัวอย่างมากเกินไปและการสุ่มตัวอย่างต่ำ นี่จะเป็นสิ่งที่ควรค่าแก่การศึกษาในอนาคต
{1} ไวส์แกรี่เอ็มเคทแม็กคาร์ธีและบิบิซาบาร์ "การเรียนรู้ที่มีความอ่อนไหวด้านต้นทุนเทียบกับการสุ่มตัวอย่าง: วิธีใดดีที่สุดสำหรับการจัดการคลาสที่ไม่สมดุลกับค่าความผิดพลาดที่ไม่เท่ากัน" DMIN 7 (2007): 35-41 https://scholar.google.com/scholar?cluster=10779872536070567255&hl=en&as_sdt=0,22 ; https://pdfs.semanticscholar.org/9908/404807bf6b63e05e5345f02bcb23cc739ebd.pdf