คู่มือฉบับย่อเกี่ยวกับการฝึกอบรมชุดข้อมูลที่มีความไม่สมดุลสูง


29

ฉันมีปัญหาการจัดหมวดหมู่โดยมี 1,000 ตัวอย่างบวกและลบ 10,000 ตัวอย่างในชุดการฝึกอบรม ดังนั้นชุดข้อมูลนี้จึงค่อนข้างไม่สมดุล ป่าสุ่มธรรมดา ๆ กำลังพยายามทำเครื่องหมายตัวอย่างการทดสอบทั้งหมดว่าเป็นเสียงส่วนใหญ่

คำตอบที่ดีเกี่ยวกับการสุ่มตัวอย่างย่อยและการสุ่มน้ำหนักป่ามีให้ที่นี่: อะไรคือความหมายของการฝึกอบรมชุดทรีด้วยชุดข้อมูลที่มีอคติสูง?

วิธีการจำแนกประเภทใดนอกจาก RF สามารถจัดการปัญหาได้อย่างดีที่สุด?


ดูเพิ่มเติมstats.stackexchange.com/q/247871/232706
Ben Reiniger

คำตอบ:


19
  • แม็กซ์ Kuhn ครอบคลุมดีใน CH16 ของการประยุกต์ใช้แบบจำลองทำนาย
  • ดังที่กล่าวไว้ในเธรดที่เชื่อมโยงข้อมูลที่ไม่สมดุลนั้นเป็นปัญหาการฝึกอบรมที่มีความอ่อนไหวด้านต้นทุน ดังนั้นวิธีการที่มีความอ่อนไหวด้านราคาจึงมีผลกับข้อมูลที่ไม่สมดุล
  • มีวิธีการดังกล่าวจำนวนมาก ไม่ได้นำมาใช้ทั้งหมดใน R: C50, SVM แบบถ่วงน้ำหนักเป็นตัวเลือก Jous-เพิ่ม Rusboost ฉันคิดว่าใช้ได้เฉพาะโค้ด Matlab เท่านั้น
  • ฉันไม่ได้ใช้ Weka แต่เชื่อว่ามีตัวแยกประเภทที่มีความอ่อนไหวด้านราคาจำนวนมาก
  • การจัดการชุดข้อมูลที่ไม่สมดุล: ความคิดเห็น : Sotiris Kotsiantis, Dimitris Kanellopoulos, Panayiotis Pintelas '
  • ในปัญหาความไม่สมดุลของระดับ : Xinjian Guo, Yilong Yin, Cailing Dong, Gongping Yang, Guangtong Zhou

16

การรวมกลุ่มส่วนใหญ่เป็นวิธีที่จะไปในสถานการณ์เช่นนี้

หากคุณคิดว่าคุณมีอินสแตนซ์ของคลาสบวกน้อยเกินไปคุณอาจทำการสุ่มตัวอย่างตัวอย่างอินสแตนซ์ 5n ตัวอย่างด้วยการแทนที่จากชุดข้อมูลของขนาด n

คำเตือน:

  • วิธีการบางอย่างอาจมีความอ่อนไหวต่อการเปลี่ยนแปลงในการกระจายคลาสเช่นสำหรับ Naive Bayes - ซึ่งมีผลต่อความน่าจะเป็นก่อนหน้านี้
  • การ oversampling อาจนำไปสู่

หรืออาจลองใช้อัลกอริทึมการจัดกลุ่มและใช้ศูนย์คลัสเตอร์หรือไม่
ลีลาปราบู

คุณสามารถตรวจสอบลิงค์นี้เพื่อดูตัวอย่างและวิธีอื่น ๆ เพื่อจัดการกับชุดข้อมูลที่ไม่สมดุล
janpreet singh

11

การไล่ระดับสีเป็นการเพิ่มทางเลือกที่ดีที่นี่ คุณสามารถใช้ตัวแยกประเภทการไล่ระดับสีแบบไล่ระดับใน sci-kit learn เช่น การส่งเสริมการไล่ระดับสีเป็นวิธีการหลักในการจัดการกับความไม่สมดุลในชั้นเรียนโดยการสร้างชุดการฝึกอบรมต่อเนื่องตามตัวอย่างที่ไม่ถูกต้อง


1
ความเข้าใจของฉันคือการเพิ่มการไล่ระดับสีได้รับความทุกข์ทรมานจากข้อ จำกัด เดียวกันกับ RF เมื่อจัดการกับข้อมูลที่ไม่สมดุล: sci2s.ugr.es/keel/pdf/algorithm/articulo/ …
charles

1
การส่งเสริมเป็นขั้นตอนเพิ่มเติมที่คุณใช้ในการสร้างป่าที่จัดการกับความไม่สมดุลโดยตรง กระดาษที่คุณลิงค์จะบันทึกสิ่งนี้ไว้ในหน้าแนะนำการส่งเสริมช่วยแม้ในกรณีที่ไม่มีความไม่สมดุล และกระดาษนั้นก็สรุปว่าการส่งเสริมช่วยอย่างมีนัยสำคัญ ดังนั้นไม่แน่ใจว่าจะแสดงตำแหน่งที่เทียบเท่าระหว่าง RF และการเพิ่มที่นั่นหรือไม่
cwharland

1

นอกจากคำตอบที่โพสต์ที่นี่หากจำนวนตัวอย่างบวกมีจำนวนน้อยเกินไปเมื่อเปรียบเทียบกับตัวอย่างเชิงลบแสดงว่ามันใกล้เคียงกับปัญหาการตรวจจับความผิดปกติซึ่งตัวอย่างเชิงบวกคือความผิดปกติ

คุณมีวิธีการที่หลากหลายในการตรวจจับความผิดปกติตั้งแต่การใช้การแจกแจงแบบเกาส์หลายตัวแปรไปยังแบบจำลองทุกจุดแล้วเลือกสิ่งที่อยู่ห่างจากค่าเฉลี่ย 2 หรือ 3 stds

อาหารอีกอย่างสำหรับความคิด - ฉันเห็นคนไม่กี่คนที่สุ่มตัวอย่างตัวอย่างเชิงลบพร้อมตัวอย่างเพิ่มเติมเพื่อให้ทั้งชั้นเรียนมีจำนวนเท่ากัน มันทั้งหมดขึ้นอยู่กับปัญหาในมือไม่ว่าเราต้องการให้พวกเขามีความสมดุลหรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.