ในองค์ประกอบของการเรียนรู้ทางสถิติฉันพบคำสั่งต่อไปนี้:
มีคุณสมบัติหนึ่งประการ: ขั้นตอนการคัดกรองเบื้องต้นที่ไม่มีผู้ดูแลสามารถทำได้ก่อนที่จะปล่อยตัวอย่าง ตัวอย่างเช่นเราสามารถเลือกตัวทำนาย 1,000 รายการที่มีความแปรปรวนสูงสุดในตัวอย่าง 50 ทั้งหมดก่อนเริ่มการตรวจสอบความถูกต้องข้าม เนื่องจากตัวกรองนี้ไม่เกี่ยวข้องกับป้ายกำกับของชั้นเรียนจึงไม่ได้ให้ข้อได้เปรียบที่ไม่เป็นธรรม
มันถูกต้องจริงเหรอ? ฉันหมายถึงโดยการกรองคุณลักษณะไว้ก่อนหน้านี้เราไม่ได้เลียนแบบข้อมูลการฝึกอบรม / สภาพแวดล้อมข้อมูลใหม่ - ดังนั้นเรื่องนี้ที่การกรองที่เราดำเนินการอยู่จะไม่ได้รับการดูแลหรือไม่? การทำกระบวนการpreprocessing ทั้งหมดในกระบวนการตรวจสอบข้ามจริง ๆ ดีกว่าหรือไม่ หากไม่ใช่กรณีดังกล่าวหมายความว่าการดำเนินการประมวลผลล่วงหน้าที่ไม่ได้รับการจัดการทั้งหมดสามารถทำได้ล่วงหน้ารวมถึงคุณสมบัติการทำให้เป็นมาตรฐาน / PCA เป็นต้น แต่ด้วยการทำสิ่งเหล่านี้ในชุดฝึกอบรมทั้งหมดเราจะรั่วข้อมูลบางส่วนไปยังชุดฝึกอบรม ฉันเห็นด้วยกับชุดข้อมูลที่ค่อนข้างคงที่ความแตกต่างเหล่านี้น่าจะเล็กมาก - แต่ไม่ได้หมายความว่ามันไม่มีอยู่ใช่ไหม? วิธีที่ถูกต้องในการคิดเกี่ยวกับเรื่องนี้คืออะไร?