ฉันต้องการใช้เครือข่ายประสาทเทียมสำหรับการจัดประเภทรูปภาพ ฉันจะเริ่มต้นด้วย CaffeNet ที่ได้รับการฝึกฝนมาล่วงหน้าและฝึกอบรมเพื่อการสมัครของฉัน
ฉันควรเตรียมภาพอินพุตอย่างไร
ในกรณีนี้ภาพทั้งหมดเป็นวัตถุเดียวกัน แต่มีการเปลี่ยนแปลง (คิดว่า: การควบคุมคุณภาพ) พวกเขาอยู่ในระดับที่แตกต่างกันค่อนข้าง / ความละเอียด / ระยะทาง / สภาพแสง (และในหลายกรณีฉันไม่ทราบขนาด) นอกจากนี้ในแต่ละภาพยังมีพื้นที่ (รู้จัก) รอบวัตถุที่น่าสนใจซึ่งเครือข่ายควรละเว้น
ฉันสามารถครอบตัดจุดศูนย์กลางของภาพแต่ละภาพซึ่งรับประกันว่าจะมีส่วนของวัตถุที่น่าสนใจและไม่มีพื้นที่ที่ถูกละเว้น แต่ดูเหมือนว่ามันจะส่งข้อมูลออกไปและผลลัพธ์ก็ไม่ได้มีขนาดเท่ากันจริง ๆ (อาจมีการเปลี่ยนแปลง 1.5 เท่า)
การเสริมชุดข้อมูล
ฉันเคยได้ยินการสร้างข้อมูลการฝึกอบรมเพิ่มเติมโดยการครอบตัดแบบสุ่ม / มิเรอร์ / ฯลฯ มีวิธีการมาตรฐานสำหรับสิ่งนี้หรือไม่ ผลลัพธ์ใด ๆ เกี่ยวกับการปรับปรุงที่เกิดขึ้นกับความแม่นยำของลักษณนาม