เป็นการยากที่จะพูดโดยไม่ทราบเพิ่มเติมเกี่ยวกับชุดข้อมูลของคุณเพียงเล็กน้อยและวิธีแยกชุดข้อมูลของคุณขึ้นอยู่กับเวกเตอร์คุณลักษณะของคุณ แต่ฉันอาจแนะนำให้ใช้ป่าสุ่มแบบสุ่มเหนือป่าสุ่มมาตรฐานเนื่องจากชุดตัวอย่างขนาดเล็กของคุณ
ป่าสุ่มสุดขั้วนั้นค่อนข้างคล้ายคลึงกับป่าสุ่มมาตรฐานโดยมีข้อยกเว้นเพียงข้อเดียวคือแทนที่จะสุ่มเพิ่มประสิทธิภาพต้นไม้ เริ่มแรกสิ่งนี้ดูเหมือนจะเป็นเชิงลบ แต่โดยทั่วไปหมายความว่าคุณมีลักษณะทั่วไปและความเร็วที่ดีขึ้นอย่างมีนัยสำคัญแม้ว่า AUC ในชุดการฝึกอบรมของคุณน่าจะแย่กว่าเล็กน้อย
การถดถอยแบบลอจิสติกยังเป็นสิ่งที่ค่อนข้างแข็งแกร่งสำหรับงานประเภทนี้ถึงแม้ว่าจะมีมิติข้อมูลที่ค่อนข้างต่ำและขนาดตัวอย่างเล็ก ๆ ของฉัน คุณอาจต้องการที่จะตรวจสอบโดยใช้ K- เพื่อนบ้านที่ใกล้ที่สุดเพราะมันมักจะทำงานได้ดีที่มีมิติต่ำ แต่มักจะไม่จัดการกับตัวแปรเด็ดขาดได้เป็นอย่างดี
ถ้าฉันต้องเลือกอย่างใดอย่างหนึ่งโดยไม่ทราบเพิ่มเติมเกี่ยวกับปัญหาฉันจะวางเดิมพันของฉันบนฟอเรสต์แบบสุ่มสุดขีดเนื่องจากเป็นไปได้มากที่จะทำให้คุณเห็นภาพรวมของชุดข้อมูลประเภทนี้ได้ดี กว่าวิธีอื่น ๆ ส่วนใหญ่