คำสำคัญที่นี่มีไพรเออร์และขนาด เป็นตัวอย่างง่ายๆลองจินตนาการว่าคุณกำลังพยายามทำนายอายุของบุคคลจากภาพถ่าย ด้วยชุดข้อมูลของภาพและอายุคุณสามารถฝึกอบรมรูปแบบการเรียนรู้ลึกเพื่อคาดการณ์ สิ่งนี้ไม่มีประสิทธิภาพอย่างแท้จริงเนื่องจาก 90% ของภาพไม่มีประโยชน์และมีเพียงภูมิภาคเดียวกับบุคคลที่มีประโยชน์ โดยเฉพาะอย่างยิ่งใบหน้าของบุคคลร่างกายและเสื้อผ้าของพวกเขา
ในทางกลับกันคุณสามารถใช้เครือข่ายการตรวจจับวัตถุที่ผ่านการฝึกอบรมมาก่อนเพื่อแยกกล่องขอบเขตสำหรับบุคคลครอบตัดรูปภาพแล้วส่งผ่านเครือข่าย กระบวนการนี้จะปรับปรุงความแม่นยำของโมเดลของคุณอย่างมีนัยสำคัญด้วยเหตุผลหลายประการ:
1) ทรัพยากรเครือข่ายทั้งหมด (เช่นน้ำหนัก) สามารถมุ่งเน้นไปที่งานที่แท้จริงของการทำนายอายุเมื่อเทียบกับการหาคนแรกก่อน สิ่งนี้สำคัญอย่างยิ่งเพราะใบหน้าของบุคคลนั้นมีคุณสมบัติที่มีประโยชน์ มิฉะนั้นคุณสมบัติที่ดีกว่าที่คุณต้องการอาจหายไปในเลเยอร์แรก ๆ ในทางทฤษฎีเครือข่ายที่ใหญ่พออาจแก้ปัญหานี้ได้ แต่มันจะไร้ประสิทธิภาพอย่างมาก ภาพตัดยังเป็นอย่างมากปกติมากกว่าภาพต้นฉบับ ในขณะที่ภาพต้นฉบับมีสัญญาณรบกวนเป็นจำนวนมากเนื้อหาที่ขัดแย้งกันในภาพที่ถูกครอบตัดนั้นมีความสัมพันธ์อย่างมากกับวัตถุประสงค์
2) ภาพที่ตัดสามารถที่จะมีนัยเดียวกันขนาด วิธีนี้จะช่วยให้เครือข่ายที่สองจัดการกับปัญหาการปรับขนาดเนื่องจากในภาพต้นฉบับผู้คนสามารถเกิดขึ้นได้ใกล้หรือไกล การปรับขนาดมาตรฐานไว้ล่วงหน้าทำให้ภาพที่ถูกครอบตัดนั้นรับประกันว่าจะมีบุคคลอยู่ในนั้นที่เติมภาพที่ครอบตัดเต็ม หากต้องการดูว่าวิธีการนี้สามารถช่วยปรับขนาดได้อย่างไรร่างกายที่ถูกครอบตัดซึ่งครึ่งหนึ่งของความกว้างและความสูงของภาพต้นฉบับจะมีพิกเซลประมวลผล 4x น้อยลงและด้วยเหตุนี้เครือข่ายเดียวกันที่นำมาใช้กับภาพนี้
ตัวอย่างเช่นในการแข่งขัน kaggle lung ชุดรูปแบบทั่วไปในโซลูชันระดับสูงคือการประมวลผลล่วงหน้าของภาพปอดบางชนิดที่ครอบตัดมันให้มากที่สุดเท่าที่จะเป็นไปได้และแยกส่วนประกอบของแต่ละปอด สิ่งนี้มีความสำคัญอย่างยิ่งในภาพ 3 มิติเนื่องจากเอฟเฟกต์เป็นลูกบาศก์: โดยการลบ 20% ของแต่ละมิติคุณจะได้กำจัดพิกเซลเกือบครึ่งหนึ่ง!