เหตุผลที่เข้าใจง่ายได้รับการอธิบายใน blogpost:
หากเป้าหมายของเราคือการทำนายสิ่งนี้จะทำให้เกิดอคติที่ชัดเจน และที่แย่กว่านั้นคือมันจะมีอคติถาวรในแง่ที่ว่าเราจะไม่มีการประมาณการที่สอดคล้องกันเมื่อขนาดตัวอย่างเพิ่มขึ้น
ดังนั้นเนื้อหาของข้อมูลที่สมดุล (เทียม) จึงแย่กว่ากรณีที่ไม่สมดุล
ข้อมูลที่สมดุลนั้นดีสำหรับการจำแนก แต่คุณเห็นได้ชัดว่าข้อมูลหลวมเกี่ยวกับความถี่ลักษณะที่ปรากฏซึ่งจะส่งผลต่อการวัดความแม่นยำของตัวเองเช่นเดียวกับประสิทธิภาพการผลิต
สมมติว่าคุณกำลังจดจำตัวอักษรเขียนด้วยลายมือจากตัวอักษรภาษาอังกฤษ (26 ตัวอักษร) การปรากฏตัวของตัวอักษรทุกตัวมากเกินไปจะทำให้มีความเป็นไปได้ที่จะจำแนกประเภท (อย่างถูกต้องหรือไม่) ประมาณ 1/26 ดังนั้นตัวจําแนกจะลืมเกี่ยวกับการกระจายตัวอักษรที่แท้จริงในตัวอย่างดั้งเดิม และก็okเมื่อลักษณนามสามารถที่จะพูดคุยและรู้จักตัวอักษรที่มีความแม่นยำสูงทุก
แต่ถ้าความแม่นยำและที่สำคัญที่สุดไม่ได้ "สูงมาก" (ฉันไม่สามารถให้คำจำกัดความกับคุณได้ - คุณสามารถคิดได้ว่ามันเป็น "กรณีที่เลวร้ายที่สุด") - จุดที่ผิดประเภทจะกระจายตัวอักษรทุกตัวเท่า ๆ กัน , สิ่งที่ต้องการ:
"A" was misclassified 10 times
"B" was misclassified 10 times
"C" was misclassified 11 times
"D" was misclassified 10 times
...and so on
เมื่อเทียบกับที่ไม่สมดุล (สมมติว่า "A" และ "C" มีความน่าจะเป็นของการปรากฏในข้อความมากขึ้น)
"A" was misclassified 3 times
"B" was misclassified 14 times
"C" was misclassified 3 times
"D" was misclassified 14 times
...and so on
ดังนั้นกรณีที่พบบ่อยจะได้รับการจำแนกประเภทน้อยลง ไม่ว่าจะดีหรือไม่ก็ขึ้นอยู่กับงานของคุณ สำหรับการรับรู้ข้อความธรรมชาติหนึ่งได้ยืนยันตัวอักษรที่มีความถี่สูงขึ้นทำงานได้มากขึ้นขณะที่พวกเขาจะรักษาความหมายของข้อความเดิมที่นำงานที่ได้รับการยอมรับที่ใกล้ชิดกับการคาดการณ์ (ที่ความหมายแทนแนวโน้ม ) แต่ถ้าคุณพยายามที่จะรับรู้บางอย่างเช่นภาพหน้าจอของคีย์ ECDSA (เอนโทรปีมากกว่า -> การทำนายน้อยลง) - การรักษาข้อมูลไม่สมดุลจะไม่ช่วย ดังนั้นอีกครั้งมันขึ้นอยู่กับ
ความแตกต่างที่สำคัญที่สุดคือการประมาณความแม่นยำคือรับลำเอียง (ดังที่คุณเห็นในตัวอย่างตัวอักษรที่มีความสมดุล) ดังนั้นคุณจึงไม่ทราบว่าพฤติกรรมของแบบจำลองได้รับผลกระทบอย่างไรจากจุดที่หายากหรือจุดที่พบบ่อยที่สุด
PS คุณสามารถติดตามประสิทธิภาพของการจัดประเภทที่ไม่สมดุลได้ด้วยเมตริกที่แม่นยำ / เรียกคืนก่อนและตัดสินใจว่าคุณต้องการเพิ่มความสมดุลหรือไม่
แก้ไข : มีความสับสนเพิ่มเติมที่อยู่ในทฤษฎีการประมาณค่าอย่างแม่นยำในความแตกต่างระหว่างค่าเฉลี่ยตัวอย่างและค่าเฉลี่ยประชากร ตัวอย่างเช่นคุณอาจรู้ว่าการกระจายตัวอักษรภาษาอังกฤษที่แท้จริงในตัวอักษรแต่ตัวอย่าง (ชุดฝึกอบรม) ของคุณมีขนาดไม่ใหญ่พอที่จะประมาณได้อย่างถูกต้อง (ด้วย ) ดังนั้นเพื่อชดเชย บางครั้งก็แนะนำให้ปรับสมดุลคลาสตามประชากรเองหรือพารามิเตอร์ที่รู้จักจากตัวอย่างขนาดใหญ่p ( xผม| θ)p ( xผม| θ^)θ^ผม- θผม(ตัวประมาณจึงดีกว่า) อย่างไรก็ตามในทางปฏิบัติไม่มีการรับประกันว่า "ตัวอย่างที่ใหญ่กว่า" นั้นมีการกระจายตัวเหมือนกันเนื่องจากมีความเสี่ยงในการได้รับข้อมูลลำเอียงในทุกขั้นตอน (สมมติว่าตัวอักษรภาษาอังกฤษที่รวบรวมจากวรรณกรรมทางเทคนิคเทียบกับนิยายทั้งหมด) ดังนั้นการทรงตัวอาจเป็นอันตราย
คำตอบนี้ควรอธิบายเกณฑ์การปรับใช้ให้สมดุล
ปัญหาความไม่สมดุลของคลาสเกิดจากการที่มีรูปแบบไม่เพียงพอในชั้นเรียนของชนกลุ่มน้อยไม่ใช่โดยอัตราส่วนของรูปแบบเชิงบวกและเชิงลบต่อตัวเอง โดยทั่วไปหากคุณมีข้อมูลเพียงพอ "ปัญหาความไม่สมดุลของระดับ" จะไม่เกิดขึ้น
โดยสรุปแล้วการทรงตัวประดิษฐ์ไม่ค่อยมีประโยชน์หากชุดฝึกอบรมมีขนาดใหญ่พอ การขาดข้อมูลสถิติจากตัวอย่างกระจายที่มีขนาดใหญ่กว่านั้นก็ไม่จำเป็นต้องมีการสร้างสมดุล (โดยเฉพาะอย่างยิ่งสำหรับการทำนาย) มิฉะนั้นคุณภาพของตัวประมาณจะดีเท่ากับ "ความน่าจะเป็นที่จะพบไดโนเสาร์":
ความเป็นไปได้ที่จะพบไดโนเสาร์ในถนนคืออะไร?
1/2 คุณอาจพบกับไดโนเสาร์หรือคุณไม่ได้พบกับไดโนเสาร์