เมื่อเกิน / ต่ำกว่าการสุ่มตัวอย่างคลาสที่ไม่สมดุลการเพิ่มความแม่นยำจะแตกต่างจากการลดค่าใช้จ่ายในการจำแนกประเภทหรือไม่?


14

ครั้งแรกของทั้งหมดผมอยากจะอธิบายรูปแบบบางอย่างร่วมกันว่าหนังสือการทำเหมืองข้อมูลที่ใช้อธิบายวิธีการจัดการกับสมดุลชุดข้อมูล โดยทั่วไปส่วนหลักจะมีชื่อว่าชุดข้อมูลที่ไม่สมดุลและครอบคลุมส่วนย่อยทั้งสองนี้: การจำแนกประเภทที่คำนึงถึงต้นทุนและการสุ่มตัวอย่าง

ดูเหมือนว่าการเผชิญหน้ากับปัญหาในชั้นเรียนที่หายากคุณสามารถทำการจำแนกและการสุ่มตัวอย่างที่มีความอ่อนไหวด้านราคา ฉันคิดว่าควรใช้เทคนิคที่มีความอ่อนไหวด้านต้นทุนหากคลาสที่หายากนั้นเป็นเป้าหมายของการจัดหมวดหมู่และการจัดประเภทที่ไม่ถูกต้องของบันทึกของคลาสนั้นนั้นมีค่าใช้จ่ายสูง

ในทางกลับกันเทคนิคการสุ่มตัวอย่างเช่นการสุ่มตัวอย่างมากเกินไปและการสุ่มตัวอย่างต่ำกว่าจะมีประโยชน์หากเป้าหมายของการจัดหมวดหมู่นั้นมีความแม่นยำโดยรวมที่ดี

ความเชื่อนี้มาจากเหตุผลของMetaCostซึ่งเป็นวิธีทั่วไปในการทำให้ลักษณนามมีความอ่อนไหวต่อต้นทุน: หากใครต้องการทำให้ลักษณนามมีความอ่อนไหวต่อราคาเพื่อที่จะลงโทษข้อผิดพลาดของคลาสที่หายาก . ลักษณนามพูดอย่างลวก ๆ พยายามที่จะปรับให้เข้ากับชั้นเรียนอื่นและมันจะกลายเป็นเฉพาะกับชั้นเรียนที่หายาก

นี่คือสิ่งที่ตรงกันข้ามกับการสุ่มตัวอย่างของคลาสที่หายากซึ่งเป็นวิธีที่มักจะแนะนำเพื่อจัดการกับปัญหานี้ การสุ่มตัวอย่างของคลาสที่หายากหรือการสุ่มตัวอย่างต่ำกว่าคลาสอื่นนั้นมีประโยชน์ในการปรับปรุงความแม่นยำโดยรวม

ได้โปรดจะดีถ้าคุณยืนยันความคิดของฉัน

ระบุสิ่งนี้คำถามทั่วไปที่เผชิญกับชุดข้อมูลที่ไม่สมดุลคือ:

ฉันควรจะลองชุดข้อมูลที่นับว่าเป็นระเบียนที่หายากมากที่สุด

คำตอบของฉันคือในกรณีที่คุณกำลังมองหาความแม่นยำ: ตกลง คุณสามารถทำได้ทั้งค้นหาตัวอย่างคลาสที่หายากมากขึ้นหรือลบบางระเบียนของคลาสอื่น

ในกรณีที่คุณกำลังมุ่งเน้นไปที่คลาสที่หายากด้วยเทคนิคที่มีความอ่อนไหวด้านต้นทุนฉันจะตอบว่า: คุณสามารถหาตัวอย่างคลาสที่หายากได้มากขึ้นเท่านั้น แต่คุณไม่ควรลบระเบียนของคลาสอื่น ในกรณีหลังคุณจะไม่สามารถปล่อยให้ตัวจําแนกปรับให้เข้ากับชั้นเรียนอื่นและข้อผิดพลาดการจำแนกคลาสที่หายากอาจเพิ่มขึ้น

คุณจะตอบอย่างไร


2
"การค้นหา" บันทึกใหม่สำหรับชั้นเรียนที่หายากอาจเป็นไปไม่ได้ ฉันคิดว่าข้อมูลมีโครงสร้างด้วยวิธีนี้เนื่องจากมีราคาแพง (ชีวสารสนเทศศาสตร์) หรือมีความเสี่ยง (สินเชื่อธนาคาร) เพื่อสร้างกิจกรรมระดับที่หายากมากขึ้น
steffen

แน่นอน แต่มันเป็นทางออกที่นำเสนอทั่วไป อย่างไรก็ตามมันเป็นความจริงที่ว่าถ้าคุณสามารถหาตัวอย่างคลาสที่หายากมากขึ้นคุณอาจจะสามารถหาตัวอย่างอื่น ๆ ได้ เพราะชุดฝึกอบรมควรเป็นตัวแทนตัวอย่างของเอกภพบันทึก ดังนั้นสำหรับฉันดูเหมือนว่าจะทำการสุ่มตัวอย่างมากเกินไป
Simone

คำตอบ:


9

มันเป็นคำถามที่ดี โดยส่วนตัวแล้วคำตอบของฉันก็คือว่ามันไม่มีเหตุผลที่จะทิ้งข้อมูล (เว้นแต่จะเป็นเพราะเหตุผลด้านการคำนวณ) ยิ่งคุณมีข้อมูลมากเท่าไหร่ก็ยิ่งทำให้โมเดลของคุณในโลกดีขึ้นเท่านั้น ดังนั้นฉันขอแนะนำให้การแก้ไขฟังก์ชันต้นทุนในวิธีที่เหมาะสมสำหรับงานของคุณควรเพียงพอ ตัวอย่างเช่นถ้าคุณมีความสนใจในชั้นเรียนที่หายากโดยเฉพาะคุณสามารถทำการจำแนกประเภทของคลาสนี้มีราคาแพงกว่าเท่านั้น หากคุณสนใจในการวัดที่สมดุลบางอย่างเช่น Balanced Error Rate (ค่าเฉลี่ยของข้อผิดพลาดในแต่ละชั้นเรียน) หรือสัมประสิทธิ์สหสัมพันธ์ของแมตทิวส์นั้นเหมาะสม ถ้าคุณมีความสนใจเฉพาะความผิดพลาดในการจัดหมวดหมู่โดยรวมแบบดั้งเดิม0-1 สูญเสีย

วิธีการที่ทันสมัยในการแก้ไขปัญหาคือการใช้การเรียนรู้เชิงรุก ตัวอย่างเช่น Hospedales et al (2011) "การค้นหาคลาสที่หายาก: การเรียนรู้ที่ใช้งานกับ Generative และ Discriminative Model, ธุรกรรม IEEE เกี่ยวกับความรู้และวิศวกรรมข้อมูล (TKDE 2011)อย่างไรก็ตามฉันเชื่อว่าวิธีการเหล่านี้ยังค่อนข้างเป็นผู้ใหญ่


วัดที่น่าสนใจหนึ่ง Metthews ในกรณีที่จำเป็นต้องใช้การวัดที่สมดุล อย่างไรก็ตามเนื่องจากเราไม่ต้องการลบบันทึกใด ๆ ก่อนที่จะทำการสุ่มตัวอย่างหรือแก้ไขฟังก์ชันต้นทุนคุณจะปรับสมดุลชุดข้อมูลที่เพิ่มตัวอย่างคลาสที่หายากหรือไม่ ฉันคิดว่าคำตอบอาจจะไม่ เพราะตราบใดที่คุณพบตัวอย่างคลาสที่หายากคุณสามารถหาตัวอย่างอื่น ๆ ได้ ดังนั้นเพื่อให้ได้การวัดที่สมดุลที่ดีขึ้นหรือการวัดระดับประสิทธิภาพที่หายากยิ่งขึ้น (เช่นการวัดแบบ F) ฉันจะใช้เทคนิค (เช่นการสุ่มตัวอย่างหรือ mod ของค่าใช้จ่าย) เฉพาะหลังจากขั้นตอนการรวบรวมข้อมูล คุณเห็นด้วยไหม?
Simone

ตกลงการดำเนินการใด ๆ เช่นนี้ควรดำเนินการหลังจากขั้นตอนการรวบรวมข้อมูล
tdc
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.