คุณควรแยกก่อนการประมวลผลล่วงหน้าหรือการใส่ข้อมูล
การแบ่งระหว่างชุดฝึกอบรมและชุดทดสอบเป็นความพยายามที่จะทำซ้ำสถานการณ์ที่คุณมีข้อมูลในอดีตและกำลังสร้างแบบจำลองที่คุณจะทดสอบข้อมูลในอนาคตที่ยังไม่ทราบ: ชุดฝึกอบรมเกิดขึ้นในอดีตและชุดทดสอบใช้ สถานที่แห่งอนาคตดังนั้นคุณจะได้ทดสอบรูปแบบการฝึกฝนของคุณเพียงครั้งเดียว
คำนึงถึงการเปรียบเทียบในอดีต / ในอนาคตสิ่งนี้หมายถึงทุกสิ่งที่คุณทำเพื่อดำเนินการล่วงหน้าหรือประมวลผลข้อมูลของคุณเช่นการใส่ค่าที่หายไปคุณควรทำในชุดฝึกอบรมเพียงอย่างเดียว จากนั้นคุณสามารถจำสิ่งที่คุณทำกับชุดการฝึกอบรมของคุณหากชุดทดสอบของคุณต้องการการประมวลผลล่วงหน้าหรือการใส่ข้อมูลเพื่อให้คุณทำแบบเดียวกันกับทั้งสองชุด
เพิ่มจากความคิดเห็น:หากคุณใช้ข้อมูลทดสอบเพื่อส่งผลกระทบต่อข้อมูลการฝึกอบรมข้อมูลการทดสอบจะถูกนำไปใช้ในการสร้างแบบจำลองของคุณดังนั้นมันจะหยุดเป็นข้อมูลทดสอบและจะไม่ให้แบบทดสอบที่เป็นธรรมของคุณ คุณมีความเสี่ยงที่จะได้รับข้อมูลมากเกินไปและเป็นการกีดกันสิ่งนี้ซึ่งทำให้คุณแยกข้อมูลการทดสอบออกจากที่แรก