ทำไมเราต้องทำให้รูปภาพเป็นปกติก่อนที่เราจะใส่ลงใน CNN


คำตอบ:


34

หมายเหตุแรก: คุณควรจะหารด้วยค่าเบี่ยงเบนมาตรฐานของแต่ละคุณสมบัติ (พิกเซล) ด้วยเช่นกัน การลบค่าเฉลี่ยศูนย์ทำให้อินพุตอยู่ที่ 0 และการหารด้วยค่าเบี่ยงเบนมาตรฐานทำให้ค่าคุณลักษณะใด ๆ ที่ปรับขนาดเป็นค่าเบี่ยงเบนมาตรฐานห่างจากค่าเฉลี่ย

เพื่อตอบคำถามของคุณ: พิจารณาว่าเครือข่ายประสาทเทียมเรียนรู้น้ำหนักของมันอย่างไร เรียนรู้ C (NN) โดยการเพิ่มเวกเตอร์ข้อผิดพลาดการไล่ระดับสีอย่างต่อเนื่อง (คูณด้วยอัตราการเรียนรู้) ที่คำนวณจาก backpropagation ไปยังเมทริกซ์น้ำหนักต่างๆทั่วทั้งเครือข่ายตามตัวอย่างการฝึกอบรม

สิ่งที่ควรสังเกตคือ "การคูณด้วยอัตราการเรียนรู้"

หากเราไม่ปรับขนาดเวกเตอร์การฝึกอบรมการป้อนข้อมูลของเราช่วงของการแจกแจงค่าคุณลักษณะของเราน่าจะแตกต่างกันสำหรับแต่ละคุณลักษณะดังนั้นอัตราการเรียนรู้จะทำให้เกิดการแก้ไขในแต่ละมิติที่จะแตกต่างกัน เราอาจชดเชยการแก้ไขในมิติน้ำหนักหนึ่งไปในขณะที่ชดเชยในอีกมิติหนึ่ง

สิ่งนี้ไม่เหมาะอย่างยิ่งเนื่องจากเราอาจพบว่าตัวเองอยู่ในสภาพที่สั่นสะเทือน (ไม่สามารถมุ่งไปที่จุดสูงสุดในพื้นที่ (น้ำหนัก) ราคา) หรือในสภาวะที่เคลื่อนไหวช้า (เดินทางช้าเกินไป

แน่นอนว่าเป็นไปได้ที่จะมีอัตราการเรียนรู้ต่อน้ำหนัก แต่ก็ยังมีพารามิเตอร์หลายมิติที่จะแนะนำในเครือข่ายที่ซับซ้อนอยู่แล้วซึ่งเราต้องเพิ่มประสิทธิภาพในการค้นหาด้วย โดยทั่วไปอัตราการเรียนรู้เป็นสเกลาร์

ดังนั้นเราจึงพยายามทำให้รูปภาพเป็นปกติก่อนที่จะใช้เป็นอินพุตในอัลกอริทึม NN (หรือการไล่ระดับสีใด ๆ )


1
แล้วภาพสีล่ะ ฉันจะใช้กับแต่ละช่องสีได้อย่างไร จะไม่ทำให้การกระจายของสียุ่งเหยิงหรือ?
user10024395

2
เชื่อว่าคุณควรจะใช่ คุณสามารถทำสิ่งที่ชอบ:(image - image.mean()) / (image.std() + 1e-8)
JohnAllen

สิ่งนี้มีประโยชน์จริง ๆ สำหรับการฝึกอบรมหรือไม่? ฉันกำลังฝึกการตรวจจับวัตถุและการใช้อุปกรณ์ตัวนี้ทำให้ภาพสับสนจริงๆมันยากที่จะเห็นวัตถุที่ฉันกำลังตรวจจับได้
Darlyn

มันค่อนข้างมีประโยชน์สำหรับการฝึกอบรมในแง่ของความสามารถในการเรียนรู้และความแม่นยำ - ไม่ใช่สำหรับคุณสำหรับรุ่น :) คุณอาจต้องการแสดงผลภาพที่ไม่ได้มาตรฐานเมื่อคุณทำการดีบั๊กเพื่อให้ปรากฏตามปกติต่อสายตามนุษย์
lollercoaster
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.