เพื่อเป็นตัวอย่างลองสมมติว่าเรากำลังสร้างตัวประมาณอายุตามภาพของบุคคล ด้านล่างเรามีคนสองคนในชุดสูท แต่คนแรกอายุน้อยกว่าคนที่สองอย่างชัดเจน
(ที่มา: tinytux.com )
มีคุณสมบัติมากมายที่บ่งบอกถึงสิ่งนี้เช่นโครงสร้างใบหน้า อย่างไรก็ตามคุณสมบัติที่บอกได้มากที่สุดคืออัตราส่วนของขนาดหัวต่อขนาดร่างกาย :
(ที่มา: wikimedia.org )
สมมติว่าเราได้ฝึกการถดถอยของซีเอ็นเอ็นเพื่อทำนายอายุของบุคคล ในการทำนายอายุจำนวนมากที่ฉันได้ลองภาพข้างบนของเด็กดูเหมือนจะหลอกการคาดการณ์ในการคิดว่าเขาแก่กว่าเพราะเหมาะสมและน่าจะเป็นเพราะพวกเขาใช้ใบหน้าเป็นหลัก:
ฉันสงสัยว่าสถาปัตยกรรมวานิลลาของซีเอ็นเอ็นจะมีอัตราส่วนที่ดีต่อร่างกายได้ดีแค่ไหน?
เมื่อเปรียบเทียบกับ RCNN ระดับภูมิภาคซึ่งสามารถรับกล่องขอบเขตบนร่างกายและศีรษะวานิลลาซีเอ็นเอ็นจะทำงานแย่กว่านี้หรือไม่?
ก่อนที่โลกจะแบนราบในวานิลลาซีเอ็นเอ็น (เช่นหลังจากการโน้มน้าวใจทั้งหมด) แต่ละเอาต์พุตมีเขตข้อมูลที่เปิดกว้างที่สอดคล้องกันซึ่งควรมีความรู้สึกของขนาด ฉันรู้ว่า RCNN ใช้ประโยชน์จากสิ่งนี้ได้เร็วขึ้นโดยการทำข้อเสนอกรอบขอบเขตในขั้นตอนนี้ดังนั้นตัวกรอง convolutional ก่อนหน้านี้จะทำการฝึกอบรมให้กับเครื่องชั่งทั้งหมดโดยอัตโนมัติ
ดังนั้นฉันคิดว่า Vanilla CNN น่าจะสามารถอนุมานอัตราส่วนของหัวต่อขนาดลำตัวได้หรือไม่? ถูกต้องหรือไม่ ถ้าเป็นเช่นนั้นจะเป็นประโยชน์เพียงอย่างเดียวของการใช้กรอบ RCNN ที่เร็วขึ้นเพื่อใช้ประโยชน์จากความจริงที่ว่าอาจได้รับการฝึกฝนก่อนการตรวจจับคน