เลือกอัลกอริทึมการจำแนกประเภทไบนารี


17

ฉันมีปัญหาการจำแนกเลขฐานสอง:

  • ประมาณ 1,000 ตัวอย่างในชุดฝึกอบรม
  • 10 คุณลักษณะรวมถึงไบนารีตัวเลขและหมวดหมู่

อัลกอริทึมใดเป็นตัวเลือกที่ดีที่สุดสำหรับปัญหาประเภทนี้

โดยค่าเริ่มต้นฉันจะเริ่มต้นด้วย SVM (เบื้องต้นมีค่าแอตทริบิวต์เล็กน้อยแปลงเป็นคุณสมบัติไบนารี) เนื่องจากถือว่าดีที่สุดสำหรับข้อมูลที่ค่อนข้างสะอาดและไม่มีเสียงดัง

คำตอบ:


15

เป็นการยากที่จะพูดโดยไม่ทราบเพิ่มเติมเกี่ยวกับชุดข้อมูลของคุณเพียงเล็กน้อยและวิธีแยกชุดข้อมูลของคุณขึ้นอยู่กับเวกเตอร์คุณลักษณะของคุณ แต่ฉันอาจแนะนำให้ใช้ป่าสุ่มแบบสุ่มเหนือป่าสุ่มมาตรฐานเนื่องจากชุดตัวอย่างขนาดเล็กของคุณ

ป่าสุ่มสุดขั้วนั้นค่อนข้างคล้ายคลึงกับป่าสุ่มมาตรฐานโดยมีข้อยกเว้นเพียงข้อเดียวคือแทนที่จะสุ่มเพิ่มประสิทธิภาพต้นไม้ เริ่มแรกสิ่งนี้ดูเหมือนจะเป็นเชิงลบ แต่โดยทั่วไปหมายความว่าคุณมีลักษณะทั่วไปและความเร็วที่ดีขึ้นอย่างมีนัยสำคัญแม้ว่า AUC ในชุดการฝึกอบรมของคุณน่าจะแย่กว่าเล็กน้อย

การถดถอยแบบลอจิสติกยังเป็นสิ่งที่ค่อนข้างแข็งแกร่งสำหรับงานประเภทนี้ถึงแม้ว่าจะมีมิติข้อมูลที่ค่อนข้างต่ำและขนาดตัวอย่างเล็ก ๆ ของฉัน คุณอาจต้องการที่จะตรวจสอบโดยใช้ K- เพื่อนบ้านที่ใกล้ที่สุดเพราะมันมักจะทำงานได้ดีที่มีมิติต่ำ แต่มักจะไม่จัดการกับตัวแปรเด็ดขาดได้เป็นอย่างดี

ถ้าฉันต้องเลือกอย่างใดอย่างหนึ่งโดยไม่ทราบเพิ่มเติมเกี่ยวกับปัญหาฉันจะวางเดิมพันของฉันบนฟอเรสต์แบบสุ่มสุดขีดเนื่องจากเป็นไปได้มากที่จะทำให้คุณเห็นภาพรวมของชุดข้อมูลประเภทนี้ได้ดี กว่าวิธีอื่น ๆ ส่วนใหญ่


ดีมากขอบคุณ! แม้ว่าจะยังไม่แน่ใจถ้าฉันสามารถใช้แพ็คเกจ R "randomForest" ( cran.r-project.org/web/packages/randomForest/randomForest.pdf ) เพื่อสร้าง ERF อาจจะไม่.
IharS

12

สำหรับพารามิเตอร์ต่ำขนาดตัวอย่างค่อนข้าง จำกัด และการถดถอยลอจิสติกลอจิสติกลักษณนามไบนารี่ควรมีประสิทธิภาพเพียงพอ คุณสามารถใช้อัลกอริธึมขั้นสูงกว่าได้


5

เมื่อตัวแปรเด็ดขาดอยู่ในการผสมผสานฉันจะไปถึงป่าเพื่อการตัดสินใจแบบสุ่มเนื่องจากมันจัดการกับตัวแปรเด็ดขาดโดยตรงโดยไม่ต้องมีการแปลงการเข้ารหัสแบบ 1-of-n สิ่งนี้จะสูญเสียข้อมูลน้อยลง


5

Linear SVM ควรเป็นจุดเริ่มต้นที่ดี ดูคู่มือนี้เพื่อเลือกเครื่องมือประมาณค่าที่เหมาะสม


2

จะไม่แนะนำให้ใช้วิธีการที่ซับซ้อนก่อน ใช้วิธีการที่ง่ายขึ้นเร็วขึ้นในขั้นต้น (kNN, NBC, ฯลฯ ) จากนั้นดำเนินการผ่านการถดถอยเชิงเส้นการถดถอยโลจิสติก LDA, CART (RF), KREG และจากนั้นให้มีกำลังสองน้อยที่สุด SVM, Gradient ascent SVM, ANNs การปีนเขาแบบ heuristic ด้วย GAs การจับกลุ่มอัจฉริยะการเพิ่มประสิทธิภาพฝูงมด ฯลฯ )

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.