ดังนั้นฉันจึงพยายามที่จะจัดเตรียมภาพลักษณ์ของมนุษย์โดยใช้ตาข่ายแบบ Convolutional ฉันอ่านเอกสาร ( Paper1และPaper2 ) และลิงก์ stackoverflowนี้แต่ฉันไม่แน่ใจว่าฉันเข้าใจโครงสร้างของอวน (มันไม่ได้นิยามไว้อย่างชัดเจนในเอกสาร)
คำถาม:
ฉันสามารถป้อนข้อมูลของฉันตามด้วยเลเยอร์เสียงตามด้วยเลเยอร์ Conv ตามด้วยเลเยอร์รวมกำไร - หลังจากนั้นฉันจะยกเลิกการรวมกลุ่มก่อนที่จะให้ผลลัพธ์ของฉัน (ซึ่งเป็นรูปอินพุตของฉัน)
บอกว่าฉันมีหลายภาพ (135,240) ถ้าฉันใช้ 32, (12,21) เมล็ด, ตามด้วย (2,2) การรวมฉันจะจบลงด้วยแผนที่คุณลักษณะ 32 (62, 110) ตอนนี้ฉันจะยกเลิกการพูลเพื่อรับแผนที่คุณลักษณะ 32 (124, 220) แล้วแบนได้หรือไม่ ก่อนให้เลเยอร์เอาต์พุต (135,240) ของฉัน
ถ้าฉันมีเลเยอร์ Conv-pool หลายเลเยอร์ฉันควรฝึกพวกมันทีละตัว - เช่นในระบบถอดรหัสอัตโนมัติ หรือ - ฉันสามารถมีบางสิ่งเช่นอินพุต - Conv-pool-Conv-pool-conv-pool-output (เอาต์พุตเหมือนกับอินพุต) ได้หรือไม่? ในกรณีดังกล่าวการรวมกำไรการลดราคาควรมีการจัดการอย่างไร ฉันควรยกเลิกการพูลในเลเยอร์พูลสุดท้ายก่อนออกผลลัพธ์หรือไม่ และอีกครั้ง - อะไรคือปัจจัยการปรับขนาดของการยกเลิกการรวมกำไร? ความตั้งใจที่จะนำคุณลักษณะของแผนที่กลับไปที่รูปร่างของอินพุตหรือไม่
ฉันควรจะแนะนำเลเยอร์เสียงรบกวนหลังจากเลเยอร์ Conv-pool-depool ทุกครั้งหรือไม่
และเมื่อปรับแต่งแล้ว - ฉันควรจะเอาเลเยอร์ที่แยกออกมาแล้วปล่อยให้ส่วนที่เหลือเหมือนกัน หรือฉันควรลบทั้งชั้นเสียงและชั้นรวมกัน
คนใดคนหนึ่งสามารถชี้ให้ฉันไปที่ URL / กระดาษที่มีรายละเอียดสถาปัตยกรรมของตัวเข้ารหัสอัตโนมัติแบบเรียงซ้อนแบบซ้อนกันเพื่อทำการฝึกอบรมเกี่ยวกับภาพล่วงหน้าได้หรือไม่?