เครือข่ายประสาทเทียมสามารถใช้เป็นภาพอินพุตที่มีขนาดต่างกันได้หรือไม่?

ฉันกำลังทำงานบนเครือข่ายการสนทนาเพื่อการจดจำรูปภาพและฉันสงสัยว่าฉันสามารถใส่ภาพที่มีขนาดต่างกันได้หรือไม่

ในโครงการนี้: https://github.com/harvardnlp/im2markup

พวกเขาพูดว่า:

and group images of similar sizes to facilitate batching

ดังนั้นแม้หลังจากประมวลผลล่วงหน้าภาพยังคงมีขนาดแตกต่างกันซึ่งเหมาะสมเนื่องจากไม่ตัดบางส่วนของสูตร

มีปัญหาในการใช้ขนาดที่แตกต่างกันหรือไม่? หากมีฉันจะแก้ไขปัญหานี้ได้อย่างไร (เนื่องจากสูตรจะไม่พอดีกับขนาดภาพเดียวกัน)

การป้อนข้อมูลใด ๆ จะได้รับการชื่นชมมาก

neural-networks conv-neural-network computer-vision

— Graham Slick
แหล่งที่มา

คำตอบ:

มีปัญหาในการใช้ขนาดที่แตกต่างกันหรือไม่? หากมีฉันจะแก้ไขปัญหานี้ได้อย่างไร (เนื่องจากสูตรจะไม่พอดีกับขนาดภาพเดียวกัน)

มันขึ้นอยู่กับสถาปัตยกรรมของเครือข่ายประสาท สถาปัตยกรรมบางอย่างสมมติว่ารูปภาพทั้งหมดมีขนาดเท่ากันส่วนอื่น ๆ (เช่น im2markup) จะไม่สร้างสมมติฐานดังกล่าว ความจริงที่ว่า im2markup อนุญาตให้ใช้ภาพที่มีความกว้างแตกต่างกันไม่ได้ทำให้เกิดปัญหาใด ๆ ที่ฉันเชื่อว่าเนื่องจากพวกเขาใช้ RNN ที่สแกนผ่านเอาต์พุตของเลเยอร์ Convolution

ภาพกลุ่มที่มีขนาดใกล้เคียงกันเพื่ออำนวยความสะดวกในการแบทช์

ซึ่งโดยทั่วไปจะเพิ่มความเร็วให้มากขึ้นโดยหลีกเลี่ยงการเพิ่มการเติมมากเกินไป

— Franck Dernoncourt
แหล่งที่มา

คุณได้พิจารณาปรับขนาดภาพในระยะก่อนการประมวลผลหรือไม่? โดยสังเขปมนุษย์ที่เผชิญกับภาพที่ปรับขนาดแล้วจะยังสามารถรับรู้คุณสมบัติและวัตถุเดียวกันได้และไม่มีเหตุผลที่ชัดเจนว่าเหตุใดซีเอ็นเอ็นจึงไม่สามารถทำสิ่งเดียวกันกับภาพที่ปรับขนาดได้

ฉันคิดว่าการปรับขนาดของภาพให้มีขนาดเท่ากันอาจจะง่ายกว่าการพยายามสร้างเครือข่ายที่มีความซับซ้อนในการจัดการภาพในขนาดต่าง ๆ ซึ่งฉันคิดว่าน่าจะอยู่ที่นั่นในดินแดน 'การวิจัยดั้งเดิม' แน่นอนว่าคุณสามารถสร้างเลเยอร์ Conv ของ Convnet จัดการกับรูปภาพทุกขนาดโดยไม่ต้องฝึกซ้ำ อย่างไรก็ตามโดยทั่วไปแล้วเอาต์พุตของ convnet จะเป็นลักษณนามบางประเภทและนี่อาจจะทำงานได้ไม่ดีนักหากคุณป้อนอินพุตที่มีขนาดแตกต่างกันฉันจะจินตนาการ

อีกวิธีหนึ่งก็คือการอัดภาพด้วยศูนย์ แต่ลองนึกภาพโดยสังหรณ์ใจว่าคุณกำลังดูภาพถ่ายขนาดเล็กที่มีขอบสีดำหรือคุณสามารถซูมเข้าได้ดังนั้นมันจึงรองรับส่วนโค้งที่เหมาะสมในฟิลด์ภาพของคุณ คุณจะทำอะไร ไหนจะเห็นง่ายกว่า

— Hugh Perkins
แหล่งที่มา

ไม่ได้ลดขนาดลดคุณภาพของภาพที่แนะนำข้อผิดพลาดและคุณสมบัติการเปลี่ยนรูปถ้าภาพนั้นมีความละเอียดต่ำการปรับขนาดจะลดคุณภาพของภาพไปยังจุดที่มนุษย์ไม่สามารถจดจำได้อย่างง่ายดาย แต่ภาพที่ไม่ได้ปรับขนาด

— Vikram Bhat

คุณมีตัวอย่างของภาพที่มนุษย์รู้จักหรือไม่เว้นแต่ว่าคุณใช้การปรับขนาดแล้วจะไม่สามารถจดจำได้?

— Hugh Perkins

ฉันก็สงสัยเช่นกัน เมื่อพยายามใช้โมเดลที่ได้รับการฝึกอบรมมาจาก keras ฉันคิดว่าฉันสามารถปรับขนาดรูปภาพให้พอดีกับอินเทอร์เฟซ InceptionV3 (299x299 จาก 32x32 -> CIFAR10) ฉันคิดว่าการปรับลดคุณภาพ แต่ฉันคิดว่าวิธีที่เหมาะสมในการทำเช่นนั้นก็คือการไม่รวมเอฟซีเอาท์พุทและระบุรูปร่างอินพุตเป็น 32x32 ฉันคิดว่าสิ่งนี้จะต้องมีการฝึกอบรมซ้ำเนื่องจากน้ำหนักของเลเยอร์อินพุตจะเป็นแบบสุ่ม

— Joey Carson

การลดขนาดช่วยลดคุณภาพ แต่ช่วยให้มีลักษณะทั่วไป: มีเอกสารจำนวนมากที่สังเกตเห็นการรับรู้ที่ชัดเจนเมื่อใช้ Gauss เบลอก่อนการฝึกอบรม โดยสังหรณ์ใจคุณมีตัวอย่างอินพุตที่แตกต่างกันมากขึ้นซึ่งมีลักษณะคล้ายกับภาพ "เบลอ" เดียวดังนั้นจึงทำให้การจัดหมวดหมู่มีความแข็งแกร่งยิ่งขึ้น

— Matthieu