วิธีการแยกชุดข้อมูลสำหรับการตรวจสอบข้ามการเรียนรู้และการประเมินขั้นสุดท้าย?
กลยุทธ์ที่เหมาะสมสำหรับการแยกชุดข้อมูลคืออะไร? ผมขอให้ความคิดเห็นเกี่ยวกับวิธีการดังต่อไปนี้ (ไม่ได้อยู่ในแต่ละพารามิเตอร์เหมือนtest_sizeหรือn_iterแต่ถ้าผมใช้X, y, X_train, y_train, X_testและy_testเหมาะสมและถ้าลำดับทำให้รู้สึก): (ขยายตัวอย่างนี้จากเอกสาร scikit-Learn) 1. โหลดชุดข้อมูล from sklearn.datasets import load_digits digits = load_digits() X, y = digits.data, digits.target 2. แบ่งออกเป็นชุดฝึกอบรมและทดสอบ (เช่น 80/20) from sklearn.cross_validation import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0) 3. เลือกเครื่องมือประมาณ from sklearn.svm import SVC estimator = SVC(kernel='linear') 4. …