ฉันมีพื้นฐานด้านวิทยาการคอมพิวเตอร์ แต่ฉันพยายามสอนวิทยาศาสตร์ข้อมูลด้วยตนเองโดยการแก้ปัญหาทางอินเทอร์เน็ต
ฉันได้พยายามแก้ไขปัญหานี้ในช่วงสองสามสัปดาห์ที่ผ่านมา (ประมาณ 900 แถวและ 10 ฟีเจอร์) ตอนแรกฉันใช้การถดถอยแบบโลจิสติกส์ แต่ตอนนี้ฉันเปลี่ยนเป็นป่าแบบสุ่ม เมื่อฉันใช้โมเดลฟอเรสต์แบบสุ่มบนข้อมูลการฝึกอบรมของฉันฉันจะได้รับค่าที่สูงมากสำหรับ auc (> 99%) อย่างไรก็ตามเมื่อฉันรันโมเดลเดียวกันกับข้อมูลการทดสอบผลลัพธ์จะไม่ดี (ความแม่นยำประมาณ 77%) สิ่งนี้ทำให้ฉันเชื่อว่าฉันเหมาะสมกว่าข้อมูลการฝึกอบรม
อะไรคือวิธีปฏิบัติที่ดีที่สุดเกี่ยวกับการป้องกันการติดตั้งในป่าสุ่ม?
ฉันใช้ r และ rstudio เป็นสภาพแวดล้อมการพัฒนาของฉัน ฉันใช้randomForest
แพคเกจและได้ยอมรับค่าเริ่มต้นสำหรับพารามิเตอร์ทั้งหมด