คำถามเกี่ยวกับการลบค่าเฉลี่ยในชุดรถไฟ / ถูกต้อง / ทดสอบ


11

ฉันกำลังประมวลผลข้อมูลล่วงหน้าและจะสร้าง Convonets กับข้อมูลของฉันหลังจากนั้น

คำถามของฉันคือ: สมมติว่าฉันมีชุดข้อมูลทั้งหมด 100 ภาพฉันคำนวณค่าเฉลี่ยสำหรับแต่ละภาพ 100 ภาพแล้วลบมันออกจากแต่ละภาพจากนั้นแยกชุดนี้เป็นชุดรถไฟและชุดตรวจสอบและฉันก็ทำเช่นเดียวกัน ขั้นตอนในการประมวลผลในชุดทดสอบที่กำหนด แต่ดูเหมือนว่านี่ไม่ใช่วิธีที่ถูกต้องในการทำตามลิงค์นี้: http://cs231n.github.io/neural-networks-2/#datapre

จุดผิดพลาดทั่วไปจุดสำคัญที่จะทำให้การประมวลผลล่วงหน้าคือสถิติการประมวลผลล่วงหน้า (เช่นค่าเฉลี่ยของข้อมูล) จะต้องคำนวณจากข้อมูลการฝึกอบรมเท่านั้นจากนั้นนำไปใช้กับข้อมูลการตรวจสอบ / ทดสอบเช่นคำนวณค่าเฉลี่ยและลบออกจาก ทุกภาพในชุดข้อมูลทั้งหมดจากนั้นแยกข้อมูลออกเป็นส่วนแยก train / val / test จะเป็นความผิดพลาดแทนค่าเฉลี่ยจะต้องคำนวณเฉพาะข้อมูลการฝึกอบรมและจากนั้นแยกเท่า ๆ กันจากการแยกทั้งหมด (train / val / test) "

ฉันคาดเดาสิ่งที่ผู้เขียนพูดคืออย่าคำนวณค่าเฉลี่ยและลบมันภายในแต่ละภาพ แต่คำนวณค่าเฉลี่ยของชุดภาพทั้งหมด (เช่น (image1 + ... + image100) / 100) และลบค่าเฉลี่ยของ แต่ละภาพ

ฉันไม่เข้าใจทุกคนสามารถอธิบายได้? และอาจอธิบายได้ว่าทำไมสิ่งที่ฉันทำผิด (ถ้าผิด)


ยินดีต้อนรับสู่ชุมชน โปรดดูคำตอบของฉันด้านล่าง
usεr11852

คำตอบ:


6

สมมติว่าคุณมี 100 ภาพรวม 90 เป็นข้อมูลการฝึกอบรมและ 10 คือข้อมูลการทดสอบ

ผู้เขียนยืนยันอย่างถูกต้องว่าการใช้ตัวอย่างรูปภาพทั้ง 100 เพื่อคำนวณค่าเฉลี่ยตัวอย่าง μ^มันผิด. นั่นเป็นเพราะในกรณีนี้คุณจะมีการรั่วไหลของข้อมูล ข้อมูลจากองค์ประกอบ "หมดตัวอย่าง" ของคุณจะถูกย้ายไปยังชุดการฝึกอบรมของคุณ โดยเฉพาะอย่างยิ่งสำหรับการประเมินของμ^หากคุณใช้ 100 ภาพแทน 90 ภาพคุณอนุญาตให้ชุดการฝึกอบรมของคุณมีค่าเฉลี่ยมากกว่าที่ควรจะเป็นเช่นกัน ดังนั้นข้อผิดพลาดการฝึกอบรมของคุณอาจต่ำกว่าที่ควรจะเป็น

โดยประมาณ μ^เป็นเรื่องปกติตลอดกระบวนการฝึกอบรม / ตรวจสอบ / ทดสอบ เหมือนμ^จะใช้เป็นศูนย์กลางข้อมูลของคุณทั้งหมด (ฉันพูดถึงเรื่องนี้ในภายหลังเพราะฉันมีความประทับใจเล็กน้อยที่คุณใช้ค่าเฉลี่ยของภาพแยกแต่ละภาพเพื่อจัดกึ่งกลางภาพนั้น)


ขอบคุณสำหรับคำตอบที่เหมาะสม และใช่ฉันกำลังคำนวณค่าเฉลี่ยสำหรับแต่ละภาพดังนั้นค่าประมาณμ^ควรคำนวณโดยภาพการฝึกอบรมทั้งหมด 90 ภาพแทนที่จะเป็นภาพเดียวหรือไม่ เหตุผลใด ฉันไม่สามารถจัดกึ่งกลางภาพแต่ละภาพในชุดฝึก 90 ชุดได้หรือไม่?
Sam

1
การประมาณค่า μ^ควรเป็นภาพตัวเอง หากคุณอยู่ตรงกลางเป็นรายบุคคลการจัดกึ่งกลางคุณไม่ได้ควบคุมแนวโน้มโดยรวมในตัวอย่างทั้งหมด
usεr11852

@ usεr11852ทำไมการมีข้อมูลเพิ่มเติมหมายถึงเป็นอันตรายต่อแบบจำลองของเรา สิ่งนี้จะไม่ทำให้ข้อมูลของ "ตัวแปรตอบสนองที่ไม่อยู่ในกลุ่มตัวอย่าง" ไม่ว่าจะด้วยวิธีการใดในการฝึกอบรมของเราใช่ไหม เหตุใดข้อผิดพลาดของรถไฟจึงต่ำ
GeneX

1
ข้อมูลที่ถูกต้องจะไม่ "ทำอันตรายต่อแบบจำลอง"; หลังจากตัดสินใจเลือกรูปแบบการใช้งาน (ขึ้นอยู่กับ resampling / ถือเอาโครงการบางส่วน) เราจะฝึกอบรมรุ่นสุดท้ายในข้อมูลทั้งหมด อย่างไรก็ตามเมื่อฝึกอบรมหากเราประเมินμ^ใช้ชุดข้อมูลทั้งหมดข้อมูลเพิ่มเติมนี้จะสะท้อนให้เห็นถึงข้อมูลเชิงลึกที่ดีไม่สมจริง สิ่งนี้สามารถนำไปสู่ข้อผิดพลาดในการทดสอบที่ต่ำกว่าที่คาดไว้อย่างแน่นอนเพราะเรารู้บางอย่างเกี่ยวกับข้อมูลการทดสอบที่เราไม่สามารถใช้ในระหว่างการฝึกอบรมได้ ( ตัวอย่าง : สมมติว่าเราพัฒนารูปแบบการออกกำลังกายข้อมูลของเราประกอบด้วยวัยรุ่นผู้ใหญ่และผู้สูงอายุและ (ต่อ)
usεr11852

... โดยความบังเอิญบางคนผู้สูงอายุทั้งหมดจบลงในชุดทดสอบ หากเราคำนวณอายุเฉลี่ยในชุดการฝึกอบรมเท่านั้นเราจะเห็นได้ว่าอายุเฉลี่ยต่ำกว่าตัวอย่างทั้งหมดของเรา การใช้อายุเฉลี่ยแบบอคติอย่างเห็นได้ชัดนี้อาจทำให้AประสิทธิภาพของโมเดลลดลงหากAไม่ได้ทำให้อายุเฉลี่ยแตกต่างกัน หากเราคำนวณอายุเฉลี่ยในชุดข้อมูลทั้งหมดเราจะได้ตัวแทนอายุเฉลี่ยที่มากขึ้น หากตอนนี้เราใช้ค่าเฉลี่ยที่ไม่เอนเอียงในแบบจำลองAเราอาจจะได้ประสิทธิภาพที่ดีขึ้นกว่าที่ผ่านมาแม้ว่าจะAไม่ได้พูดถึงอายุที่แตกต่างกันไป)
usεr11852
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.