ฉันกำลังพยายามสร้างระบบรู้จำท่าทางเพื่อจำแนกASL (ภาษามือแบบอเมริกัน)ท่าทางดังนั้นการป้อนข้อมูลของฉันควรเป็นลำดับของเฟรมไม่ว่าจะเป็นจากกล้องหรือไฟล์วิดีโอจากนั้นมันจะตรวจจับลำดับและแมปตามความเหมาะสม ชั้นเรียน (การนอนหลับการช่วยเหลือการกินการวิ่งเป็นต้น)
สิ่งนี้คือฉันได้สร้างระบบที่คล้ายกันแล้ว แต่สำหรับรูปภาพแบบสแตติก (ไม่รวมการเคลื่อนไหว) มันมีประโยชน์สำหรับการแปลตัวอักษรเฉพาะในการสร้างซีเอ็นเอ็นนั้นเป็นงานที่ตรงไปตรงมาเนื่องจากมือไม่ขยับมากและ โครงสร้างชุดข้อมูลก็จัดการได้เช่นกันเมื่อฉันใช้kerasและอาจยังตั้งใจจะทำเช่นนั้น (ทุก ๆ โฟลเดอร์มีชุดภาพสำหรับสัญญาณเฉพาะและชื่อของโฟลเดอร์คือชื่อคลาสของเครื่องหมายนี้เช่น A, B, C , .. )
คำถามของฉันที่นี่ว่าฉันสามารถจัดชุดข้อมูลของฉันเพื่อให้สามารถป้อนข้อมูลลงในRNNใน keras และสิ่งที่ฟังก์ชั่นบางอย่างที่ฉันควรใช้ให้เกิดประสิทธิภาพในการฝึกอบรมรุ่นและพารามิเตอร์ใด ๆ ที่จำเป็นของฉันบางคนแนะนำให้ใช้TimeDistributedชั้น แต่ฉันทำไม่ได้ มีความคิดที่ชัดเจนเกี่ยวกับวิธีการใช้เพื่อประโยชน์ของฉันและคำนึงถึงรูปร่างอินพุตของทุกเลเยอร์ในเครือข่าย
การพิจารณาว่าชุดข้อมูลของฉันจะประกอบด้วยภาพฉันอาจต้องใช้เลเยอร์ convolutional เป็นไปได้อย่างไรที่จะรวมเลเยอร์Convเข้ากับLSTMหนึ่ง (ฉันหมายถึงในแง่ของรหัส)
ตัวอย่างเช่นฉันจินตนาการว่าชุดข้อมูลของฉันเป็นแบบนี้
โฟลเดอร์ที่ชื่อว่า 'Run' มี 3 โฟลเดอร์ 1, 2 และ 3 แต่ละโฟลเดอร์สอดคล้องกับเฟรมในลำดับ
ดังนั้นRun_1จะมีชุดของภาพสำหรับกรอบแรกบางRun_2สำหรับกรอบสองและRun_3สำหรับสามรูปแบบของฉันวัตถุประสงค์คือการได้รับการอบรมที่มีลำดับนี้การส่งออกคำเรียก