ฉันได้คิดมากเกี่ยวกับ "ปัญหาความไม่สมดุลในชั้นเรียน" ในการเรียนรู้ของเครื่องจักร / สถิติเมื่อเร็ว ๆ นี้และฉันรู้สึกลึกลงไปในความรู้สึกที่ฉันไม่เข้าใจว่าเกิดอะไรขึ้น
ก่อนอื่นให้ฉันกำหนด (หรือพยายาม) กำหนดคำของฉัน:
ปัญหาระดับความไม่สมดุลในเครื่อง / การเรียนรู้ทางสถิติคือการสังเกตว่าบางจำแนกไบนารี (*) ขั้นตอนวิธีการทำงานได้ไม่ดีเมื่อสัดส่วนของ 0 เรียน 1 ชั้นเรียนเป็นเบ้มาก
ดังนั้นในข้างต้นตัวอย่างเช่นถ้ามีหนึ่งร้อยชั้นเรียนสำหรับทุกเดียวชั้นผมจะบอกว่าความไม่สมดุลของระดับคือที่จะหรือ %
งบส่วนใหญ่ของปัญหาที่ฉันได้เห็นขาดสิ่งที่ฉันคิดว่าเป็นคุณสมบัติที่เพียงพอ (สิ่งที่รูปแบบการต่อสู้ปัญหาไม่สมดุลคือปัญหา) และนี่คือแหล่งที่มาของความสับสนของฉัน
การสำรวจข้อความมาตรฐานในการเรียนรู้ของเครื่อง / สถิติกลับมีน้อย:
- องค์ประกอบของสถิติเอนและรู้เบื้องต้นเกี่ยวกับการเรียนรู้ทางสถิติไม่ได้มี "ชั้นไม่สมดุล" ในดัชนี
การเรียนรู้ของเครื่องสำหรับ Predictive Data Analyticsยังไม่มี "คลาสที่ไม่สมดุล" ในดัชนี
เมอร์ฟี่เครื่องเรียนรู้: การน่าจะเป็นมุมมองที่ ไม่มี "ระดับความไม่สมดุล * ในดัชนีอ้างอิงไปยังส่วนบนของ SVM ที่ผมพบว่าความคิดเห็นยั่วเย้าดังต่อไปนี้.
มันเป็นเรื่องที่ควรค่าแก่การจดจำว่าปัญหาทั้งหมดเหล่านี้และการวิเคราะห์พฤติกรรมที่ได้รับการเสนอเพื่อแก้ไขปัญหาเหล่านี้เกิดขึ้นโดยพื้นฐานเพราะ SVM ไม่ได้สร้างแบบจำลองความไม่แน่นอนในการใช้ความน่าจะเป็นดังนั้นคะแนนเอาท์พุท
ความคิดเห็นนี้ไม่พูดที่หลอกลวงกับสัญชาตญาณและประสบการณ์ของฉัน: ที่งานก่อนหน้าของฉันเราเป็นประจำจะพอดีกับการถดถอยโลจิสติกและการไล่ระดับสีได้แรงหนุนรุ่นต้นไม้ (เพื่อลดทวินามบันทึก-โอกาส) ข้อมูลที่ไม่สมดุล (ในลำดับที่ความไม่สมดุลของระดับ) ไม่มี ปัญหาที่ชัดเจนในประสิทธิภาพ
ฉันได้อ่าน (บางแห่ง) ว่าการจำแนกต้นไม้ตามตัวแบบ (ต้นไม้เองและป่าสุ่ม) ยังประสบปัญหาความไม่สมดุลในชั้นเรียนด้วย สิ่งนี้ทำให้น้ำขุ่นมัวไปเล็กน้อยต้นไม้กลับมาด้วยความน่าจะเป็น: บันทึกการลงคะแนนสำหรับกลุ่มเป้าหมายในแต่ละขั้วของต้นไม้
ดังนั้นเพื่อสรุปสิ่งที่ฉันตามมาจริงๆคือความเข้าใจในแนวคิดของกองกำลังที่นำไปสู่ปัญหาความไม่สมดุลในชั้นเรียน (ถ้ามี)
- มันเป็นสิ่งที่เราทำเพื่อตัวเราเองด้วยอัลกอริทึมที่เลือกไม่ดีและเกณฑ์การจัดหมวดหมู่เริ่มต้นขี้เกียจ?
- มันจะหายไปหรือไม่ถ้าเราเหมาะสมกับตัวแบบความน่าจะเป็นที่จะทำให้เกณฑ์การให้คะแนนเหมาะสมที่สุด? สิ่งที่กล่าวมาแตกต่างกันเป็นสาเหตุของการเลือกฟังก์ชั่นการสูญเสียที่ไม่ดีเช่นการประเมินพลังการทำนายของแบบจำลองตามกฎการจำแนกประเภทอย่างหนักและความแม่นยำโดยรวมหรือไม่?
- ถ้าเป็นเช่นนั้นโมเดลที่ไม่เพิ่มประสิทธิภาพกฎการให้คะแนนที่เหมาะสมนั้นไร้ประโยชน์ (หรืออย่างน้อยก็มีประโยชน์น้อยกว่า)?
(*) โดยการจัดหมวดหมู่ฉันหมายถึงรูปแบบทางสถิติใด ๆ ที่เหมาะสมกับข้อมูลการตอบสนองแบบไบนารี ฉันไม่ได้สมมติว่าเป้าหมายของฉันเป็นการมอบหมายอย่างหนักให้กับชั้นเรียนหนึ่งหรือชั้นเรียนอื่นแม้ว่ามันอาจจะเป็น
poor choice of loss function
ในรายการของฉัน ดังนั้นคุณคิดว่าสิ่งนี้เป็นจริงแม้สำหรับกฎการให้คะแนนที่เหมาะสมในฐานะฟังก์ชันการสูญเสีย