ครั้งแรกของทั้งหมดผมอยากจะอธิบายรูปแบบบางอย่างร่วมกันว่าหนังสือการทำเหมืองข้อมูลที่ใช้อธิบายวิธีการจัดการกับสมดุลชุดข้อมูล โดยทั่วไปส่วนหลักจะมีชื่อว่าชุดข้อมูลที่ไม่สมดุลและครอบคลุมส่วนย่อยทั้งสองนี้: การจำแนกประเภทที่คำนึงถึงต้นทุนและการสุ่มตัวอย่าง
ดูเหมือนว่าการเผชิญหน้ากับปัญหาในชั้นเรียนที่หายากคุณสามารถทำการจำแนกและการสุ่มตัวอย่างที่มีความอ่อนไหวด้านราคา ฉันคิดว่าควรใช้เทคนิคที่มีความอ่อนไหวด้านต้นทุนหากคลาสที่หายากนั้นเป็นเป้าหมายของการจัดหมวดหมู่และการจัดประเภทที่ไม่ถูกต้องของบันทึกของคลาสนั้นนั้นมีค่าใช้จ่ายสูง
ในทางกลับกันเทคนิคการสุ่มตัวอย่างเช่นการสุ่มตัวอย่างมากเกินไปและการสุ่มตัวอย่างต่ำกว่าจะมีประโยชน์หากเป้าหมายของการจัดหมวดหมู่นั้นมีความแม่นยำโดยรวมที่ดี
ความเชื่อนี้มาจากเหตุผลของMetaCostซึ่งเป็นวิธีทั่วไปในการทำให้ลักษณนามมีความอ่อนไหวต่อต้นทุน: หากใครต้องการทำให้ลักษณนามมีความอ่อนไหวต่อราคาเพื่อที่จะลงโทษข้อผิดพลาดของคลาสที่หายาก . ลักษณนามพูดอย่างลวก ๆ พยายามที่จะปรับให้เข้ากับชั้นเรียนอื่นและมันจะกลายเป็นเฉพาะกับชั้นเรียนที่หายาก
นี่คือสิ่งที่ตรงกันข้ามกับการสุ่มตัวอย่างของคลาสที่หายากซึ่งเป็นวิธีที่มักจะแนะนำเพื่อจัดการกับปัญหานี้ การสุ่มตัวอย่างของคลาสที่หายากหรือการสุ่มตัวอย่างต่ำกว่าคลาสอื่นนั้นมีประโยชน์ในการปรับปรุงความแม่นยำโดยรวม
ได้โปรดจะดีถ้าคุณยืนยันความคิดของฉัน
ระบุสิ่งนี้คำถามทั่วไปที่เผชิญกับชุดข้อมูลที่ไม่สมดุลคือ:
ฉันควรจะลองชุดข้อมูลที่นับว่าเป็นระเบียนที่หายากมากที่สุด
คำตอบของฉันคือในกรณีที่คุณกำลังมองหาความแม่นยำ: ตกลง คุณสามารถทำได้ทั้งค้นหาตัวอย่างคลาสที่หายากมากขึ้นหรือลบบางระเบียนของคลาสอื่น
ในกรณีที่คุณกำลังมุ่งเน้นไปที่คลาสที่หายากด้วยเทคนิคที่มีความอ่อนไหวด้านต้นทุนฉันจะตอบว่า: คุณสามารถหาตัวอย่างคลาสที่หายากได้มากขึ้นเท่านั้น แต่คุณไม่ควรลบระเบียนของคลาสอื่น ในกรณีหลังคุณจะไม่สามารถปล่อยให้ตัวจําแนกปรับให้เข้ากับชั้นเรียนอื่นและข้อผิดพลาดการจำแนกคลาสที่หายากอาจเพิ่มขึ้น
คุณจะตอบอย่างไร