สถาปัตยกรรมของตัวเข้ารหัสอัตโนมัติแบบเรียงซ้อนคืออะไร?
ดังนั้นฉันจึงพยายามที่จะจัดเตรียมภาพลักษณ์ของมนุษย์โดยใช้ตาข่ายแบบ Convolutional ฉันอ่านเอกสาร ( Paper1และPaper2 ) และลิงก์ stackoverflowนี้แต่ฉันไม่แน่ใจว่าฉันเข้าใจโครงสร้างของอวน (มันไม่ได้นิยามไว้อย่างชัดเจนในเอกสาร) คำถาม: ฉันสามารถป้อนข้อมูลของฉันตามด้วยเลเยอร์เสียงตามด้วยเลเยอร์ Conv ตามด้วยเลเยอร์รวมกำไร - หลังจากนั้นฉันจะยกเลิกการรวมกลุ่มก่อนที่จะให้ผลลัพธ์ของฉัน (ซึ่งเป็นรูปอินพุตของฉัน) บอกว่าฉันมีหลายภาพ (135,240) ถ้าฉันใช้ 32, (12,21) เมล็ด, ตามด้วย (2,2) การรวมฉันจะจบลงด้วยแผนที่คุณลักษณะ 32 (62, 110) ตอนนี้ฉันจะยกเลิกการพูลเพื่อรับแผนที่คุณลักษณะ 32 (124, 220) แล้วแบนได้หรือไม่ ก่อนให้เลเยอร์เอาต์พุต (135,240) ของฉัน ถ้าฉันมีเลเยอร์ Conv-pool หลายเลเยอร์ฉันควรฝึกพวกมันทีละตัว - เช่นในระบบถอดรหัสอัตโนมัติ หรือ - ฉันสามารถมีบางสิ่งเช่นอินพุต - Conv-pool-Conv-pool-conv-pool-output (เอาต์พุตเหมือนกับอินพุต) ได้หรือไม่? ในกรณีดังกล่าวการรวมกำไรการลดราคาควรมีการจัดการอย่างไร ฉันควรยกเลิกการพูลในเลเยอร์พูลสุดท้ายก่อนออกผลลัพธ์หรือไม่ …