เท่าที่ฉันเข้าใจปัญหามีดังต่อไปนี้: ในการรับรู้ภาพอินพุตของเครือข่ายของคุณอาจเป็นพิกเซล (โทนสีเทาหรือเพียง 1 และ 0 สำหรับขาวดำ) หากคุณต้องการเช่นรับรู้หมายเลขที่เขียนด้วยลายมือมันเป็นเรื่องยากมากที่จะทำงานกับค่าเช่นเดียวกับที่คุณไม่เคยรู้ว่าหมายเลข (เช่นค่าสีดำ) จะเป็นอย่างไร
พิกเซล 140 ดำหรือ 142 ดำ? ในทั้งสองกรณีมันอาจเป็นสามอย่าง ในตัวอย่างอายุ / น้ำหนักอินพุตเหล่านี้มีการกำหนดอย่างดี คุณสมบัติที่ 2 คือน้ำหนัก คุณสมบัติ 3 คืออายุ "ส่วนข้อมูล" เหล่านี้ไม่ควร "กระโดด" ในชุดข้อมูลของคุณ
ดังนั้น: ในการฝึกภาพของคุณคุณจะต้องรู้จัก "threes" หรือ "cars" หรือ "houses" โดยไม่ขึ้นอยู่กับตำแหน่งในภาพเช่นค่าพิกเซลเช่น vector / feature / input อินพุตเช่นข้อมูลผู้ป่วย
คุณจะแก้ปัญหานี้ในการจดจำภาพได้อย่างไร คุณใช้เทคนิคเพิ่มเติมเช่น convolution