คุณต้องจัดการกับคลาสที่ไม่สมดุลถ้า / เพราะมันทำให้โมเดลของคุณดีขึ้น (ในข้อมูลที่มองไม่เห็น) "ดีกว่า" เป็นสิ่งที่คุณต้องนิยามตนเอง มันอาจเป็นความแม่นยำอาจเป็นต้นทุนมันอาจเป็นอัตราบวกที่แท้จริงเป็นต้น
มีความแตกต่างกันเล็กน้อยที่เป็นสิ่งสำคัญที่จะเข้าใจเมื่อพูดถึงความไม่สมดุลของชั้นเรียน ข้อมูลของคุณไม่สมดุลเนื่องจาก:
- การกระจายตัวของข้อมูลนั้นไม่สมดุลกัน
ในบางกรณีชั้นหนึ่งเกิดขึ้นมากกว่าอีกชั้นหนึ่ง และมันก็โอเค ในกรณีนี้คุณต้องดูว่าข้อผิดพลาดบางอย่างมีค่าใช้จ่ายมากกว่าคนอื่นหรือไม่ นี่เป็นตัวอย่างโดยทั่วไปของการตรวจหาโรคที่ร้ายแรงในผู้ป่วยโดยพิจารณาว่ามีคนเป็นผู้ก่อการร้ายหรือไม่และกลับไปที่คำตอบสั้น ๆ หากความผิดพลาดบางอย่างมีค่าใช้จ่ายสูงกว่าคนอื่นคุณจะต้อง "ลงโทษ" พวกเขาด้วยการให้ค่าใช้จ่ายที่สูงกว่า ดังนั้นโมเดลที่ดีกว่าจะมีราคาต่ำกว่า หากความผิดพลาดทั้งหมดไม่ดีแล้วก็ไม่มีเหตุผลที่แท้จริงว่าทำไมคุณควรใช้แบบจำลองที่มีความอ่อนไหวด้านราคา
สิ่งสำคัญคือต้องทราบว่าการใช้รุ่นที่มีความอ่อนไหวต่อต้นทุนนั้นไม่ได้เฉพาะเจาะจงกับชุดข้อมูลที่ไม่สมดุล คุณสามารถใช้โมเดลดังกล่าวได้หากข้อมูลของคุณมีความสมดุลเช่นกัน
- มันไม่ได้เป็นตัวแทนของการกระจายข้อมูลที่แท้จริง
บางครั้งข้อมูลของคุณ "ไม่สมดุล" เพราะไม่ได้แสดงถึงการกระจายข้อมูลที่แท้จริง ในกรณีนี้คุณต้องระวังเพราะคุณมีตัวอย่าง "มากเกินไป" ของคลาสหนึ่งและ "น้อยเกินไป" ของคลาสอื่นดังนั้นคุณต้องตรวจสอบให้แน่ใจว่าแบบจำลองของคุณไม่เกิน ของชั้นเรียนเหล่านี้
สิ่งนี้แตกต่างจากการใช้ต้นทุนเนื่องจากอาจไม่ใช่กรณีที่ความผิดพลาดหนึ่งอย่างนั้นแย่กว่าอีก สิ่งที่จะเกิดขึ้นคือคุณจะลำเอียงและมันจะไม่เป็นประโยชน์ต่อแบบจำลองของคุณถ้าข้อมูลที่มองไม่เห็นไม่มีการกระจายแบบเดียวกับข้อมูลที่คุณฝึกอบรม
สมมติว่าฉันให้ข้อมูลการฝึกอบรมแก่คุณและเป้าหมายของคุณคือการเดาว่ามีอะไรสีแดงหรือน้ำเงิน ไม่ว่าคุณจะผิดพลาดสีน้ำเงินสำหรับสีแดงหรือสีแดงสำหรับสีน้ำเงินไม่ได้สร้างความแตกต่างมากนัก ข้อมูลการฝึกอบรมของคุณมีอินสแตนซ์สีแดง 90% ซึ่งในชีวิตจริงจะเกิดขึ้นเพียง 10% เท่านั้น คุณจะต้องจัดการกับสิ่งนั้นเพื่อทำให้แบบจำลองของคุณดีขึ้น