Naive Bayes ทำงานได้ดีกว่า SVM เมื่อใด


17

ในปัญหาการจัดหมวดหมู่ข้อความเล็ก ๆ ที่ฉันกำลังดู Naive Bayes แสดงผลงานที่คล้ายหรือมากกว่า SVM และฉันสับสนมาก

ฉันสงสัยว่าปัจจัยใดเป็นตัวตัดสินชัยชนะของอัลกอริทึมหนึ่งเหนืออีกอัน มีสถานการณ์ที่ไม่มีจุดในการใช้ Naive Bayes เหนือ SVM หรือไม่? ใครบางคนสามารถให้แสงสว่างกับเรื่องนี้ได้หรือไม่?


1
ไปที่ลิงก์นี้เพื่อดูบทแนะนำที่
q12

คำตอบ:


27

ไม่มีคำตอบเดียวกับที่ซึ่งเป็นวิธีที่ดีที่สุดสำหรับการจัดหมวดหมู่ชุดข้อมูลที่ได้รับคือ ตัวจําแนกประเภทต่าง ๆ ควรได้รับการพิจารณาเพื่อศึกษาเปรียบเทียบชุดข้อมูลที่ได้รับเสมอ รับคุณสมบัติของชุดข้อมูลคุณอาจมีเบาะแสบางอย่างที่อาจให้ความสำคัญกับวิธีการบางอย่าง อย่างไรก็ตามยังคงแนะนำให้ทดลองกับทุกคนหากเป็นไปได้

Naive Bayes Classifier (NBC) และ Support Vector Machine (SVM) มีตัวเลือกต่าง ๆ รวมถึงตัวเลือกของฟังก์ชันเคอร์เนลสำหรับแต่ละตัว พวกเขาทั้งสองมีความไวต่อการเพิ่มประสิทธิภาพพารามิเตอร์ (คือตัวเลือกที่แตกต่างกันอย่างมีนัยสำคัญพารามิเตอร์สามารถเปลี่ยนผลผลิตของพวกเขา) ดังนั้นหากคุณมีผลลัพธ์แสดงว่า NBC ทำงานได้ดีกว่า SVM สิ่งนี้เป็นจริงสำหรับพารามิเตอร์ที่เลือกเท่านั้น อย่างไรก็ตามสำหรับการเลือกพารามิเตอร์อื่นคุณอาจพบว่า SVM ทำงานได้ดีขึ้น

โดยทั่วไปหากสมมติฐานของความเป็นอิสระใน NBC พอใจกับตัวแปรของชุดข้อมูลของคุณและระดับของการทับซ้อนของชั้นเรียนนั้นมีขนาดเล็ก สำหรับชุดข้อมูลบางส่วนที่มีการปรับให้เหมาะสมโดยใช้การเลือกคุณลักษณะของ wrapper เช่น NBC อาจเอาชนะตัวแยกประเภทอื่น ๆ แม้ว่าจะประสบความสำเร็จในการเปรียบเทียบ NBC จะเป็นที่ต้องการมากกว่าเนื่องจากความเร็วสูง

โดยสรุปเราไม่ควรใช้วิธีการจำแนกใด ๆ ถ้ามันมีประสิทธิภาพสูงกว่าคนอื่นในบริบทเดียวเพราะมันอาจล้มเหลวอย่างรุนแรงในอีกวิธีหนึ่ง ( นี่เป็นปัญหาปกติในการขุดข้อมูล )


7
(+1) นอกจากนี้ยังเรียกว่าไม่มีทฤษฎีบทอาหารกลางวันฟรี ฉันไม่เห็นด้วยอย่างยิ่งกับการเปรียบเทียบความไวต่อพารามิเตอร์แม้ว่า (ต้นไม้ตัดสินใจเดี่ยวเป็นหนึ่งในวิธีการที่อ่อนไหวที่สุดของ IMHO) แต่เราไม่ควรพูดถึงเรื่องนี้ที่นี่ :)
steffen

@steffen ขอบคุณสำหรับความคิดเห็นที่มีค่าของคุณ มีหลายวิธีในการเพิ่มประสิทธิภาพตัวแบบและฉันเห็นด้วยว่าเราไม่สามารถสรุปได้ว่าตัวแบบใดที่เป็นรุ่นวุฒิสภาในทุกกรณี สำหรับการเลือกคุณสมบัติ DT นั้นมีความไวน้อยกว่า NBC แต่อาจไม่ใช่กรณีทั่วไป ฉันจะแก้ไขคำตอบเพื่อพิจารณาความคิดเห็นของคุณและหากคุณต้องการคุณสามารถแก้ไขได้ด้วย ขอบคุณมาก :).
soufanom

3
+1 สำหรับความคิดเห็นเกี่ยวกับความไวของพารามิเตอร์ นอกจากนี้ยังเป็นที่น่าสังเกตว่ามากของทฤษฎี SVMs หนุนนำไปใช้กับรุ่นที่มีเมล็ดในการแก้ไขเพื่อให้เร็วที่สุดเท่าที่คุณพยายามที่จะเพิ่มประสิทธิภาพ Hyper-พารามิเตอร์ (ซึ่งจะต้องทำได้และทำอย่างระมัดระวัง) มากจากพื้นฐานทางทฤษฎีไม่ใช้
Dikran Marsupial
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.