การสร้างตัวแยกประเภทมัลติคลาสดีกว่าไบนารีหลายตัวหรือไม่?


18

ฉันต้องการจัดหมวดหมู่ URL เป็นหมวดหมู่ สมมติว่าฉันมี 15 หมวดหมู่ที่ฉันวางแผนจะลดศูนย์ทุก URL ลงให้

ตัวจําแนกแบบ 15 ทางดีกว่าหรือไม่ ที่ฉันมี 15 ป้ายกำกับและสร้างคุณสมบัติสำหรับแต่ละจุดข้อมูล

หรือการสร้างตัวแยกประเภทไบนารี 15 ตัวบอกว่า: ภาพยนตร์หรือไม่ใช่ภาพยนตร์และใช้ตัวเลขที่ฉันได้รับจากการจำแนกประเภทเหล่านี้เพื่อสร้างอันดับเพื่อเลือกหมวดหมู่ที่ดีที่สุด

คำตอบ:


12

ก่อนอื่นคุณต้องถามตัวเองว่าปัญหาของคุณคือมัลติเลเยอร์หรือไม่ (เช่น URL เดียวสามารถเป็นของหลายคลาสได้) หรือไม่ (เช่น URL เดียวสามารถเป็นของชั้นเดียวได้)

หากก่อนไปด้วยแบตเตอรี่ของตัวแยกประเภทไบนารีเพราะนี่เป็นวิธีเริ่มต้นในการทำปัญหาหลายป้าย

หากหลังคำตอบขึ้นอยู่กับการรวมกันของข้อมูลของคุณเป็นอย่างไรจุดประสงค์ของการวิเคราะห์ของคุณและวิธีการใช้งานของคุณคืออะไรบางทีคุณควรลองทั้งคู่และเลือกให้ดีที่สุด
โปรดทราบว่าวิธีการบางอย่าง (เช่น SVM) ไม่สามารถทำการจำแนกประเภทหลายคลาสได้เนื่องจากวิธีการกำหนดไว้และใช้แบตเตอรี่ของตัวแยกประเภทไบนารีภายใน


คำแถลงปัญหาของฉันอยู่ระหว่างการพิจารณาข้อสันนิษฐานเดิม @mbq ฉันรู้ว่ามีหลายรูปแบบ และใช่อย่างที่คุณบอกว่าฉันได้ตัดสินใจที่จะใช้ตัวแยกประเภทไบนารี 15 ตัว แต่อีกครั้งฉันต้องจัดอันดับให้เลือกหมวดที่ดีที่สุด ดังนั้นฉันจะลองทำการจำแนกระดับบนสุดอีกระดับโดยใช้ตัวเลขที่ฉันได้รับจากแบตเตอรี่ของตัวแยกประเภทไบนารี คุณเห็นปัญหาหรือไม่?
madCode

SVM สามารถทำการจำแนกประเภทหลายคลาสได้ วิธีนี้คล้ายกับการถดถอยแบบ softmax มาก (ดู "การใช้อัลกอริทึมของเครื่องเวกเตอร์ที่ใช้เคอร์เนลแบบหลายคลาส")
user1149913

4

ขึ้นอยู่กับว่าข้อมูลของคุณกระจายอย่างไร มีตัวอย่างที่สวยงามที่ได้รับเมื่อเร็ว ๆ นี้กับคำถามที่คล้ายกันซึ่ง OP ต้องการทราบว่าฟังก์ชัน discriminant แบบเส้นตรงเดียวจะเป็นตัวแยกประเภทที่ดีกว่าสำหรับการตัดสินใจประชากร A vs B หรือ C หรือหนึ่งจากฟังก์ชัน discriminant linear แบบแยกส่วนที่แยก A B และ C บางคนให้ scatterplot สีที่ดีมากเพื่อแสดงว่าการใช้ discriminants สองแบบนั้นดีกว่าแบบใดในกรณีนี้ ฉันจะพยายามเชื่อมโยงกับมัน


รอก่อน. ฉันมีปัญหาในการค้นหา แต่ฉันจะดูต่อไป
Michael R. Chernick

ขออภัยที่ไม่สามารถหาลิงก์ได้ ลองจินตนาการถึงก้อนเมฆที่มีสีหนึ่งทางด้านซ้ายอีกสีหนึ่งที่อยู่ตรงกลางและหนึ่งในสามทางด้านขวา เส้นแบ่งประเภทเชิงเส้นสองเส้นจะทำงานได้ดีในการแยกกลุ่มกลางออกจากกลุ่มทางด้านซ้ายและขวา แต่ไม่มีบรรทัดเดียวที่ทำได้ดีเลย ภาพจะมีค่ามากกว่าคำเหล่านี้ทั้งหมด
Michael R. Chernick

1
@MichaelChernick นี่คือลิงค์ที่คุณกำลังมองหา?

ฉันคิดว่าฉันเข้าใจสิ่งที่คุณพูด: bit.ly/M1NydS - รูปภาพที่คุณกำหนดฉันได้พบในงานนำเสนอนี้ 4 ทางหรือ 3 ทางการจัดประเภท .. อาจจะโดยตรง แต่ .. ฉันสงสัยว่าความแม่นยำ / การเรียกคืนจะลดลงหรือไม่หากการจำแนกประเภท 15 ทางดร. เชอร์นิค
madCode

@Procrastinator ขอบคุณสำหรับการค้นพบว่า ฉันมีปัญหามากในการค้นหาและฉันก็มักจะมองหาเวลามาก! มันเป็นโพสต์เมื่อเร็ว ๆ นี้ดังนั้นฉันแม้ว่าหัวนมจะหาง่าย
Michael R. Chernick

1

วิธีการบางอย่างจัดการกับ multiclass, Random Forests, MLP ได้เป็นอย่างดี

หากคุณไม่ต้องการไปทางนั้นเป็นไปได้ว่า ECOC อาจดำเนินการ 1-vs-All สำหรับปัญหาของคุณการทดสอบจะบอกเท่านั้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.