ฉันคิดว่ามันจะคุ้มค่าให้ลองสุ่มป่า ( randomForest ); อ้างอิงบางคนถูกจัดให้อยู่ในการตอบสนองต่อคำถามที่เกี่ยวข้อง: การเลือกคุณลักษณะสำหรับ“สุดท้าย” รูปแบบเมื่อดำเนินการตรวจสอบข้ามในการเรียนรู้เครื่อง ; โมเดลรถเข็นสามารถสร้างความแข็งแกร่งได้หรือไม่? . การเพิ่ม / บรรจุถุงทำให้พวกมันมีเสถียรภาพมากกว่ารถเข็นเดี่ยวซึ่งเป็นที่ทราบกันดีว่ามีความไวต่อการก่อกวนเล็กน้อย ผู้เขียนบางคนแย้งว่ามันทำงานได้ดีเท่ากับ SVM หรือGradient Boosting Machines (ดูเช่น Cutler et al., 2009) ฉันคิดว่าพวกเขามีประสิทธิภาพสูงกว่า NN อย่างแน่นอน
Boulesteix และ Strobl ให้ภาพรวมที่ดีของตัวแยกประเภทต่างๆในการเลือกตัวจําแนกที่ดีที่สุดและอคติเชิงลบในการประมาณอัตราข้อผิดพลาด: การศึกษาเชิงประจักษ์เกี่ยวกับการทำนายเชิงมิติ (BMC MRM 2009 9: 85) ผมเคยได้ยินของการศึกษาที่ดีอีกที่ประชุม IV EAMซึ่งควรจะอยู่ภายใต้การตรวจสอบในสถิติในการแพทย์ ,
João Maroco , Dina Silva, Manuela Guerreiro, Alexandre de Mendonça ป่าสุ่มมีประสิทธิภาพเหนือกว่าโครงข่ายประสาทสนับสนุนเครื่องเวกเตอร์และตัวแยกประเภทการวิเคราะห์แยกแยะหรือไม่? กรณีศึกษาเกี่ยวกับวิวัฒนาการของภาวะสมองเสื่อมในผู้ป่วยสูงอายุที่มีปัญหาการรับรู้
ฉันชอบชุดคาเร็ต : มันมีเอกสารที่ดีและช่วยให้สามารถเปรียบเทียบความแม่นยำในการทำนายของตัวแยกประเภทที่แตกต่างกันในชุดข้อมูลเดียวกัน ดูแลการจัดการตัวอย่างการฝึกอบรม / ทดสอบความแม่นยำในการคำนวณและอื่น ๆ ในฟังก์ชั่นที่ใช้งานง่าย
glmnetแพคเกจจากฟรีดแมนและ Coll. การดำเนินการลงโทษ GLM (ดูตรวจสอบในที่วารสารสถิติซอฟต์แวร์ ) เพื่อให้คุณยังคงอยู่ในกรอบการสร้างแบบจำลองที่รู้จักกันดี
มิฉะนั้นคุณยังสามารถหากฎสมาคมจําแนกตาม (ดู CRAN งานดูบนเครื่องการเรียนรู้หรือTop 10 ขั้นตอนวิธีการในการทำเหมืองข้อมูลสำหรับการแนะนำอ่อนโยนกับบางส่วนของพวกเขา)
ฉันอยากจะพูดถึงอีกวิธีที่น่าสนใจที่ฉันวางแผนที่จะนำมาใช้ใหม่ใน R (อันที่จริงมันเป็นรหัส Matlab) ซึ่งเป็นการวิเคราะห์การโต้ตอบทางจดหมายจากHervé Abdi แม้ว่าเริ่มแรกพัฒนาขึ้นเพื่อรับมือกับการศึกษาตัวอย่างขนาดเล็กที่มีตัวแปรอธิบายจำนวนมาก
อ้างอิง
- Cutler, A. , Cutler, DR, และ Stevens, JR (2009) วิธีการแบบต้นไม้ในการวิเคราะห์ข้อมูลมิติสูงในการวิจัยมะเร็ง Li, X. และ Xu, R. (eds.), pp. 83-101, Springer
- Saeys, Y. , Inza, I. และLarrañaga, P. (2007) ทบทวนเทคนิคการเลือกคุณลักษณะในชีวสารสนเทศ ชีวสารสนเทศศาสตร์, 23 (19): 2507-2517