หน้า Scikit Learn เกี่ยวกับการเลือกแบบจำลองกล่าวถึงการใช้การตรวจสอบความถูกต้องแบบซ้อน:
>>> clf = GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas), ... n_jobs=-1) >>> cross_validation.cross_val_score(clf, X_digits, y_digits)
การข้ามการตรวจสอบความถูกต้องสองลูปถูกดำเนินการแบบขนาน: หนึ่งโดยตัวประมาณของ GridSearchCV เพื่อตั้งค่าแกมม่าและอีกอันหนึ่งโดย cross_val_score เพื่อวัดประสิทธิภาพการทำนายของตัวประมาณ คะแนนที่ได้นั้นเป็นค่าประมาณที่ไม่เอนเอียงของคะแนนการทำนายของข้อมูลใหม่
จากสิ่งที่ฉันเข้าใจclf.fit
จะใช้การตรวจสอบข้ามแบบดั้งเดิมเพื่อกำหนดแกมมาที่ดีที่สุด ในกรณีนั้นทำไมเราต้องใช้ CV ที่ซ้อนกันตามที่ระบุข้างต้น บันทึกดังกล่าวระบุว่าพันธุ์ที่ซ้อนกันสร้าง "การประเมินที่เป็นกลาง" ของคะแนนการทำนาย นั่นไม่ได้เป็นอย่างนั้นclf.fit
หรือ
นอกจากนี้ฉันไม่สามารถรับค่า clf ที่ดีที่สุดจากcross_validation.cross_val_score(clf, X_digits, y_digits)
ขั้นตอน คุณช่วยกรุณาแนะนำวิธีการที่สามารถทำได้?