คู่มือฉบับย่อเกี่ยวกับการฝึกอบรมชุดข้อมูลที่มีความไม่สมดุลสูง

29

ฉันมีปัญหาการจัดหมวดหมู่โดยมี 1,000 ตัวอย่างบวกและลบ 10,000 ตัวอย่างในชุดการฝึกอบรม ดังนั้นชุดข้อมูลนี้จึงค่อนข้างไม่สมดุล ป่าสุ่มธรรมดา ๆ กำลังพยายามทำเครื่องหมายตัวอย่างการทดสอบทั้งหมดว่าเป็นเสียงส่วนใหญ่

คำตอบที่ดีเกี่ยวกับการสุ่มตัวอย่างย่อยและการสุ่มน้ำหนักป่ามีให้ที่นี่: อะไรคือความหมายของการฝึกอบรมชุดทรีด้วยชุดข้อมูลที่มีอคติสูง?

วิธีการจำแนกประเภทใดนอกจาก RF สามารถจัดการปัญหาได้อย่างดีที่สุด?

— IharS
แหล่งที่มา

ดูเพิ่มเติมstats.stackexchange.com/q/247871/232706

— Ben Reiniger

19

แม็กซ์ Kuhn ครอบคลุมดีใน CH16 ของการประยุกต์ใช้แบบจำลองทำนาย
ดังที่กล่าวไว้ในเธรดที่เชื่อมโยงข้อมูลที่ไม่สมดุลนั้นเป็นปัญหาการฝึกอบรมที่มีความอ่อนไหวด้านต้นทุน ดังนั้นวิธีการที่มีความอ่อนไหวด้านราคาจึงมีผลกับข้อมูลที่ไม่สมดุล
มีวิธีการดังกล่าวจำนวนมาก ไม่ได้นำมาใช้ทั้งหมดใน R: C50, SVM แบบถ่วงน้ำหนักเป็นตัวเลือก Jous-เพิ่ม Rusboost ฉันคิดว่าใช้ได้เฉพาะโค้ด Matlab เท่านั้น
ฉันไม่ได้ใช้ Weka แต่เชื่อว่ามีตัวแยกประเภทที่มีความอ่อนไหวด้านราคาจำนวนมาก
การจัดการชุดข้อมูลที่ไม่สมดุล: ความคิดเห็น : Sotiris Kotsiantis, Dimitris Kanellopoulos, Panayiotis Pintelas '
ในปัญหาความไม่สมดุลของระดับ : Xinjian Guo, Yilong Yin, Cailing Dong, Gongping Yang, Guangtong Zhou

— ชาร์ลส์
แหล่งที่มา

16

การรวมกลุ่มส่วนใหญ่เป็นวิธีที่จะไปในสถานการณ์เช่นนี้

หากคุณคิดว่าคุณมีอินสแตนซ์ของคลาสบวกน้อยเกินไปคุณอาจทำการสุ่มตัวอย่างตัวอย่างอินสแตนซ์ 5n ตัวอย่างด้วยการแทนที่จากชุดข้อมูลของขนาด n

คำเตือน:

วิธีการบางอย่างอาจมีความอ่อนไหวต่อการเปลี่ยนแปลงในการกระจายคลาสเช่นสำหรับ Naive Bayes - ซึ่งมีผลต่อความน่าจะเป็นก่อนหน้านี้
การ oversampling อาจนำไปสู่

— Alexey Grigorev
แหล่งที่มา

หรืออาจลองใช้อัลกอริทึมการจัดกลุ่มและใช้ศูนย์คลัสเตอร์หรือไม่

— ลีลาปราบู

คุณสามารถตรวจสอบลิงค์นี้เพื่อดูตัวอย่างและวิธีอื่น ๆ เพื่อจัดการกับชุดข้อมูลที่ไม่สมดุล

— janpreet singh

11

การไล่ระดับสีเป็นการเพิ่มทางเลือกที่ดีที่นี่ คุณสามารถใช้ตัวแยกประเภทการไล่ระดับสีแบบไล่ระดับใน sci-kit learn เช่น การส่งเสริมการไล่ระดับสีเป็นวิธีการหลักในการจัดการกับความไม่สมดุลในชั้นเรียนโดยการสร้างชุดการฝึกอบรมต่อเนื่องตามตัวอย่างที่ไม่ถูกต้อง

— cwharland
แหล่งที่มา

1

ความเข้าใจของฉันคือการเพิ่มการไล่ระดับสีได้รับความทุกข์ทรมานจากข้อ จำกัด เดียวกันกับ RF เมื่อจัดการกับข้อมูลที่ไม่สมดุล: sci2s.ugr.es/keel/pdf/algorithm/articulo/ …

— charles

1

การส่งเสริมเป็นขั้นตอนเพิ่มเติมที่คุณใช้ในการสร้างป่าที่จัดการกับความไม่สมดุลโดยตรง กระดาษที่คุณลิงค์จะบันทึกสิ่งนี้ไว้ในหน้าแนะนำการส่งเสริมช่วยแม้ในกรณีที่ไม่มีความไม่สมดุล และกระดาษนั้นก็สรุปว่าการส่งเสริมช่วยอย่างมีนัยสำคัญ ดังนั้นไม่แน่ใจว่าจะแสดงตำแหน่งที่เทียบเท่าระหว่าง RF และการเพิ่มที่นั่นหรือไม่

— cwharland

1

นอกจากคำตอบที่โพสต์ที่นี่หากจำนวนตัวอย่างบวกมีจำนวนน้อยเกินไปเมื่อเปรียบเทียบกับตัวอย่างเชิงลบแสดงว่ามันใกล้เคียงกับปัญหาการตรวจจับความผิดปกติซึ่งตัวอย่างเชิงบวกคือความผิดปกติ

คุณมีวิธีการที่หลากหลายในการตรวจจับความผิดปกติตั้งแต่การใช้การแจกแจงแบบเกาส์หลายตัวแปรไปยังแบบจำลองทุกจุดแล้วเลือกสิ่งที่อยู่ห่างจากค่าเฉลี่ย 2 หรือ 3 stds

อาหารอีกอย่างสำหรับความคิด - ฉันเห็นคนไม่กี่คนที่สุ่มตัวอย่างตัวอย่างเชิงลบพร้อมตัวอย่างเพิ่มเติมเพื่อให้ทั้งชั้นเรียนมีจำนวนเท่ากัน มันทั้งหมดขึ้นอยู่กับปัญหาในมือไม่ว่าเราต้องการให้พวกเขามีความสมดุลหรือไม่

— แกะ
แหล่งที่มา