ฉันกำลังพยายามใช้ Random Forest Regression ใน Scikits-Learn ปัญหาคือฉันได้รับข้อผิดพลาดการทดสอบที่สูงมาก:
train MSE, 4.64, test MSE: 252.25.
นี่คือลักษณะที่ข้อมูลของฉัน: (สีน้ำเงิน: ข้อมูลจริง, สีเขียว: คาดการณ์):
ฉันใช้ 90% สำหรับการฝึกอบรมและ 10% สำหรับการทดสอบ นี่คือรหัสที่ฉันใช้หลังจากลองชุดพารามิเตอร์หลายชุด:
rf = rf = RandomForestRegressor(n_estimators=10, max_features=2, max_depth=1000, min_samples_leaf=1, min_samples_split=2, n_jobs=-1)
test_mse = mean_squared_error(y_test, rf.predict(X_test))
train_mse = mean_squared_error(y_train, rf.predict(X_train))
print("train MSE, %.4f, test MSE: %.4f" % (train_mse, test_mse))
plot(rf.predict(X))
plot(y)
กลยุทธ์ที่เป็นไปได้ในการปรับปรุงข้อต่อของฉันคืออะไร? มีอย่างอื่นที่ฉันสามารถทำได้เพื่อแยกแบบจำลองพื้นฐานหรือไม่ ฉันไม่น่าเชื่อเลยว่าหลังจากการทำซ้ำในรูปแบบเดียวกันจำนวนมากโมเดลนั้นจะทำงานได้ไม่ดีกับข้อมูลใหม่ ฉันมีความหวังหรือไม่ที่พยายามปรับข้อมูลนี้ให้เหมาะสม