เมื่อใดที่เราควรพิจารณาชุดข้อมูลว่าไม่สมดุล


10

ฉันกำลังเผชิญสถานการณ์ที่จำนวนตัวอย่างบวกและลบในชุดข้อมูลนั้นไม่สมดุลกัน

คำถามของฉันคือมีกฎของหัวแม่มือที่บอกเราเมื่อเราควร subsample หมวดหมู่ขนาดใหญ่เพื่อบังคับสมดุลบางประเภทในชุดข้อมูล

ตัวอย่าง:

  • หากจำนวนตัวอย่างที่เป็นบวกคือ 1,000 และจำนวนตัวอย่างเชิงลบคือ 10,000 ฉันควรไปฝึกลักษณนามลักษณนามของฉันในชุดข้อมูลแบบเต็มหรือฉันควรตัวอย่างตัวอย่างเชิงลบหรือไม่
  • คำถามเดียวกันสำหรับตัวอย่างบวก 1,000 ข้อและลบ 100,000 ข้อ
  • คำถามเดียวกันสำหรับ 10,000 บวกและ 1,000 ลบ
  • ฯลฯ ...

มีอะไรผิดปกติกับชุดข้อมูลที่ไม่แบ่งกลางอย่างสมบูรณ์ต่อ se คุณใช้เทคนิคการสร้างแบบจำลองอะไร หากเทคนิคอาศัยข้อมูล "สมดุล" คุณอาจกำลังใช้เทคนิคที่ไม่ถูกต้อง
D3C34C34D

1
Nina Zumel ตรวจสอบผลกระทบของการปรับสมดุลกับตัวประมาณค่าต่าง ๆที่นี่สิ่งนี้อาจช่วยผู้อื่นได้เช่นกัน เธอดูที่ฟอเรสต์แบบสุ่ม SVM และการประเมิน logit
CFM

คำตอบ:


9

ฉันคิดว่า subsampling (downsampling) เป็นวิธียอดนิยมในการควบคุมความไม่สมดุลของคลาสที่ระดับฐานซึ่งหมายความว่าจะแก้ไขรากของปัญหา ดังนั้นสำหรับตัวอย่างทั้งหมดของคุณให้สุ่มเลือก 1,000 คลาสส่วนใหญ่ในแต่ละครั้งจะได้ผล คุณสามารถเล่นด้วยการสร้างแบบจำลอง 10 แบบ (10 เท่าจาก 1,000 ส่วนใหญ่เทียบกับ 1,000 ส่วนน้อย) ดังนั้นคุณจะใช้ชุดข้อมูลทั้งหมดของคุณ คุณสามารถใช้วิธีนี้ แต่คุณสามารถทิ้งตัวอย่าง 9,000 ตัวอย่างได้อีกเว้นแต่คุณจะลองใช้วิธีการทั้งมวล แก้ไขได้ง่าย แต่ยากที่จะรับแบบจำลองที่ดีที่สุดตามข้อมูลของคุณ

ระดับที่คุณต้องควบคุมความไม่สมดุลของคลาสนั้นขึ้นอยู่กับเป้าหมายของคุณเป็นส่วนใหญ่ หากคุณสนใจการจำแนกที่บริสุทธิ์ความไม่สมดุลจะส่งผลต่อความน่าจะเป็น 50% ที่ถูกตัดออกสำหรับเทคนิคส่วนใหญ่ดังนั้นฉันจะพิจารณาการสุ่มตัวอย่าง หากคุณสนใจเฉพาะลำดับของการจำแนกประเภท (ต้องการผลบวกโดยทั่วไปสูงกว่าเชิงลบ) และใช้การวัดเช่น AUC ความไม่สมดุลของคลาสจะทำให้มีความน่าจะเป็นของคุณเท่านั้น

การถดถอยโลจิสติกส์นั้นดีสำหรับความไม่สมดุลของคลาสเพราะตราบใดที่คุณมีระดับชนกลุ่มน้อย> 500 การประมาณของพารามิเตอร์จะแม่นยำเพียงพอและผลกระทบเพียงอย่างเดียวจะอยู่ที่จุดตัดซึ่งสามารถแก้ไขได้หากนั่นคือสิ่งที่คุณอาจ ต้องการ. การถดถอยแบบลอจิสติกเป็นแบบจำลองความน่าจะเป็นมากกว่าแค่คลาสดังนั้นคุณสามารถทำการปรับด้วยตนเองได้มากขึ้นเพื่อให้เหมาะกับความต้องการของคุณ

เทคนิคการจำแนกประเภทจำนวนมากยังมีอาร์กิวเมนต์น้ำหนักคลาสที่จะช่วยให้คุณมุ่งเน้นไปที่กลุ่มชนกลุ่มน้อยมากขึ้น มันจะลงโทษการจำแนกประเภทของชนกลุ่มน้อยที่แท้จริงดังนั้นการสะสมโดยรวมของคุณจะประสบเพียงเล็กน้อย แต่คุณจะเริ่มเห็นกลุ่มชนกลุ่มน้อยอื่น ๆ


คุณสามารถขยายคำแนะนำของ "ตราบเท่าที่คุณมี> 500 ของชนกลุ่มน้อย"? คุณได้รับ 500 จำนวนนี้จากที่ใด มันขึ้นอยู่กับประสบการณ์ของคุณ? ฉันคาดหวังเปอร์เซ็นต์จากคำตอบของคุณ
Jas

2

ความไม่สมดุลไม่ได้กำหนดอย่างเป็นทางการ แต่อัตราส่วน 1 ต่อ 10 มักไม่สมดุลพอที่จะได้รับประโยชน์จากการใช้เทคนิคการปรับสมดุล

ความไม่สมดุลมีสองประเภทสัมพันธ์และสัมบูรณ์ ในความสัมพันธ์อัตราส่วนระหว่างคนส่วนใหญ่และชนกลุ่มน้อยมีความไม่สมดุล แน่นอนคุณยังมีตัวอย่างของชนกลุ่มน้อยจำนวนน้อย ยิ่งอัตราส่วนความไม่สมดุลสูงขึ้นเท่าใดคุณก็จะยิ่งมีความไม่สมดุลอย่างแน่นอนเช่นกัน

โปรดทราบว่าการสุ่มตัวอย่างแบบตรงไปข้างหน้าไม่ใช่วิธีที่ดีที่สุดในการรับมือกับชุดข้อมูลที่ไม่สมดุล นั่นเป็นเพราะคุณควรสร้างลักษณนามที่จะทำงานได้ดีกับชุดข้อมูลดั้งเดิมของคุณ สำหรับเทคนิคในการสร้างลักษณนามในชุดข้อมูลขาดดุลดูที่นี่ สำหรับการประเมินลักษณนามของคุณดูที่นี่


2

ปัญหาความไม่สมดุลของข้อมูล? ในทางทฤษฎีมันเป็นเพียงเกี่ยวกับตัวเลข แม้ว่าความแตกต่างคือ 1 ตัวอย่างมันเป็นความไม่สมดุลของข้อมูล

ในทางปฏิบัติการบอกว่านี่เป็นปัญหาความไม่สมดุลของข้อมูลที่ถูกควบคุมโดยสามสิ่ง: 1. จำนวนและการกระจายของตัวอย่างที่คุณมี 2. การเปลี่ยนแปลงภายในคลาสเดียวกัน 3. ความคล้ายคลึงกันระหว่างคลาสที่แตกต่างกัน

จุดสองจุดสุดท้ายเปลี่ยนวิธีที่เราพิจารณาปัญหาของเรา

เพื่ออธิบายสิ่งนี้ขอยกตัวอย่าง: Class A = 100 ตัวอย่าง Class B = 10,000

หากความแตกต่างภายในคลาส B ต่ำมากจากนั้นการสุ่มตัวอย่างจะเพียงพอก็จะไม่มีปัญหาความไม่สมดุลของข้อมูล

หากความแตกต่างสูงมากในคลาส b การสุ่มตัวอย่างลงอาจนำไปสู่การสูญเสียข้อมูลและเป็นอันตรายที่จะใช้การสุ่มตัวอย่างลง

อีกจุดหนึ่งการมีตัวอย่างจำนวนมาก (ส่วนใหญ่สำหรับชนกลุ่มน้อย) จะผ่อนคลายปัญหาความไม่สมดุลของข้อมูลและทำให้ง่ายต่อการจัดการกับ

เช่น 10: 100 กับ 1,000: 10 000

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.