เหตุผลในการถ่ายภาพสี่เหลี่ยมในการเรียนรู้อย่างลึกซึ้ง


12

ส่วนใหญ่ของโมเดลการเรียนรู้ลึกขั้นสูงเช่น VGG, RESNET ฯลฯ จำเป็นต้องมีภาพตารางเป็น input มักจะมีขนาดของพิกเซล224x224224x224

มีเหตุผลที่อินพุตจะต้องมีรูปร่างเท่ากันหรือฉันสามารถสร้างแบบจำลอง convnet ด้วยการพูดเช่นกัน (ถ้าฉันต้องการจดจำใบหน้าและตัวอย่างเช่นฉันมีภาพบุคคล)?100x200

มีประโยชน์เพิ่มขึ้นด้วยขนาดพิกเซลที่ใหญ่ขึ้นพูด ?512x512

คำตอบ:


10

ไม่มีข้อกำหนดสำหรับขนาดพิกเซลที่เฉพาะเจาะจงสำหรับเครือข่ายประสาทเทียมเพื่อให้ทำงานได้ตามปกติ เป็นไปได้ว่าค่าต่างๆจะถูกเลือกด้วยเหตุผลเชิงปฏิบัติเช่นการประนีประนอมระหว่างการใช้รายละเอียดของภาพเทียบกับจำนวนพารามิเตอร์และขนาดชุดฝึกอบรมที่ต้องการ

นอกจากนี้หากแหล่งข้อมูลมีช่วงของอัตราส่วนภาพที่แตกต่างกันภาพบุคคลบางภาพทิวทัศน์บางภาพโดยมีวัตถุเป้าหมายอยู่กึ่งกลาง

เมื่อคุณเพิ่มขนาดภาพอินพุตคุณจะเพิ่มจำนวนเสียงรบกวนและความแปรปรวนที่เครือข่ายจะต้องดำเนินการเพื่อประมวลผลอินพุตนั้น นั่นอาจหมายถึงเลเยอร์ที่มากขึ้น - ทั้ง convolutional และ pooling อาจหมายความว่าคุณต้องการตัวอย่างการฝึกอบรมเพิ่มเติมและแน่นอนตัวอย่างการฝึกอบรมแต่ละรายการจะมีขนาดใหญ่ขึ้น สิ่งเหล่านี้ช่วยเพิ่มทรัพยากรการคำนวณที่คุณต้องใช้ในการฝึกอบรมให้เสร็จ อย่างไรก็ตามหากคุณสามารถผ่านข้อกำหนดนี้ไปได้อาจเป็นไปได้ว่าคุณจะได้รูปแบบที่แม่นยำยิ่งขึ้นสำหรับงานใด ๆ ที่พิกเซลพิเศษสามารถสร้างความแตกต่างได้

กฎง่ายๆข้อหนึ่งที่เป็นไปได้สำหรับว่าคุณต้องการความละเอียดสูงกว่าหรือไม่หากเป้าหมายของเครือข่ายของคุณผู้เชี่ยวชาญของมนุษย์สามารถใช้ความละเอียดพิเศษและทำงานได้ดีขึ้น นี่อาจเป็นกรณีในระบบการถดถอยที่เครือข่ายได้รับปริมาณตัวเลขจากภาพเช่นการจดจำใบหน้าที่แยกชีวภาพเช่นระยะห่างระหว่างใบหน้า มันอาจเป็นที่พึงประสงค์สำหรับงานประมวลผลภาพเช่นการปิดบังอัตโนมัติ - ผลงานศิลปะขั้นสูงสำหรับงานเหล่านี้อาจยังมีความละเอียดต่ำกว่าภาพเชิงพาณิชย์ที่เราต้องการนำไปใช้ในทางปฏิบัติ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.