สมมติว่าฉันกำลังแก้ไขปัญหาการจัดประเภทบางอย่าง (การตรวจจับการฉ้อโกงและสแปมความคิดเห็นเป็นปัญหาสองประการที่ฉันกำลังดำเนินการอยู่ในขณะนี้ แต่ฉันสงสัยเกี่ยวกับงานการจัดประเภทโดยทั่วไป)
ฉันจะรู้ได้อย่างไรว่าควรใช้ลักษณนามใด
- ต้นไม้ตัดสินใจ
- SVM
- Bayesian
- โครงข่ายประสาท
- K- เพื่อนบ้านที่ใกล้ที่สุด
- ถาม - เรียนรู้
- ขั้นตอนวิธีทางพันธุกรรม
- กระบวนการตัดสินใจของ Markov
- โครงข่ายประสาทเทียม
- การถดถอยเชิงเส้นหรือการถดถอยโลจิสติก
- การส่งเสริมการบรรจุถุงการพนัน
- การปีนเขาแบบสุ่มหรือการอบอ่อนแบบจำลอง
- ...
ในกรณีใดบ้างที่เป็นตัวเลือกแรก "ธรรมชาติ" และหลักการในการเลือกตัวเลือกนั้นคืออะไร?
ตัวอย่างประเภทของคำตอบที่ฉันกำลังมองหา (จากหนังสือIntroduction to Information Retrieval ของ Manning et al. ):
ก. ถ้าข้อมูลของคุณจะมีป้าย แต่คุณมีเพียงจำนวน จำกัด คุณควรใช้ลักษณนามที่มีอคติสูง (เช่น Naive Bayes)
ฉันคาดเดาว่านี่เป็นเพราะลักษณนามที่มีอคติสูงกว่าจะมีความแปรปรวนต่ำกว่าซึ่งเป็นสิ่งที่ดีเนื่องจากมีข้อมูลจำนวนน้อย
ข. หากคุณมีข้อมูลจำนวนมากตัวลักษณนามก็ไม่ได้มีความสำคัญมากนักดังนั้นคุณควรเลือกลักษณนามที่มีความสามารถในการปรับขนาดได้ดี
แนวทางอื่น ๆ คืออะไร? แม้แต่คำตอบเช่น "ถ้าคุณจะต้องอธิบายโมเดลของคุณกับผู้บริหารระดับสูงคุณก็ควรใช้แผนผังการตัดสินใจเนื่องจากกฎการตัดสินใจค่อนข้างโปร่งใส" ก็เป็นสิ่งที่ดี ฉันไม่ค่อยสนใจเกี่ยวกับปัญหาการใช้งาน / ไลบรารี
นอกจากนี้สำหรับคำถามที่แยกออกจากกันนอกเหนือจากตัวแยกประเภทแบบเบย์มาตรฐานแล้วยังมีวิธีการ 'ที่ล้ำสมัยมาตรฐาน' สำหรับการตรวจจับสแปมความคิดเห็น (ซึ่งต่างจากสแปมอีเมล)