ในคำถามล่าสุดที่ได้รับอย่างดีทิมถามว่าเมื่อใดที่ข้อมูลไม่สมดุลจริง ๆ เป็นปัญหาในการเรียนรู้ของเครื่อง ? สถานที่ตั้งของคำถามคือว่ามีเป็นจำนวนมากของการเรียนรู้วรรณคดีเครื่องถกสมดุลระดับและปัญหาของการเรียนการขาดดุล แนวคิดคือชุดข้อมูลที่มีความไม่สมดุลระหว่างคลาสบวกและลบทำให้เกิดปัญหาสำหรับการจัดหมวดหมู่การเรียนรู้ของเครื่องบางอย่าง (ฉันรวมถึงแบบจำลองความน่าจะเป็นที่นี่) อัลกอริทึมและควรหาวิธี "สมดุล" ชุดข้อมูล แยกระหว่างคลาสบวกและลบ
ความรู้สึกทั่วไปของคำตอบที่ได้รับการโหวตขึ้นมาก็คือ "ไม่ใช่อย่างน้อยถ้าคุณมีความคิดในการสร้างแบบจำลอง" ม. เฮนรี่แอล. ในความเห็นที่โหวตแล้วว่าเป็นคำตอบที่ยอมรับแล้ว
[... ] ไม่มีปัญหาในระดับต่ำเมื่อใช้ข้อมูลที่ไม่สมดุล จากประสบการณ์ของฉันคำแนะนำในการ "หลีกเลี่ยงข้อมูลที่ไม่สมดุล" เป็นข้อมูลเฉพาะของอัลกอริทึมหรือภูมิปัญญาที่สืบทอดมา ฉันเห็นด้วยกับ AdamO ว่าโดยทั่วไปแล้วข้อมูลที่ไม่สมดุลทำให้เกิดปัญหาทางแนวคิดกับโมเดลที่ระบุไว้อย่างดี
AdamO ให้เหตุผลว่า "ปัญหา" กับความสมดุลของชั้นเรียนเป็นหนึ่งในความหายากของชั้นเรียน
ดังนั้นอย่างน้อยในการถดถอย (แต่ฉันสงสัยว่าในทุกสถานการณ์) ปัญหาเดียวของข้อมูลที่ไม่สมดุลคือคุณมีขนาดตัวอย่างเล็ก หากวิธีการใดเหมาะสมกับจำนวนคนในคลาส rarer ไม่ควรมีปัญหาหากสมาชิกสัดส่วนของพวกเขาไม่สมดุล
หากนี่เป็นปัญหาจริงในมือคำถามนี้จะเปิดทิ้งไว้: จุดประสงค์ของวิธีการ resampling ทั้งหมดที่มีวัตถุประสงค์เพื่อสร้างความสมดุลให้กับชุดข้อมูลคือ: เห็นได้ชัดว่าพวกเขาไม่ได้แก้ไขปัญหาของการมีตัวอย่างขนาดเล็กโดยปริยายคุณไม่สามารถสร้างข้อมูลจากอะไร!