2
การเรียนรู้เชิงลึกด้วย Spectrograms เพื่อการจดจำเสียง
ฉันกำลังดูความเป็นไปได้ที่จะจำแนกเสียง (เช่นเสียงของสัตว์) โดยใช้สเปคตรัม ความคิดคือการใช้เครือข่ายประสาทเทียมแบบลึกเพื่อจำแนกส่วนในสเปคโทรแกรมและส่งออกฉลากระดับหนึ่ง (หรือหลาย) นี่ไม่ใช่แนวคิดใหม่ (ดูตัวอย่างการจำแนกเสียงของวาฬหรือการจดจำสไตล์เพลง ) ปัญหาที่ฉันเผชิญอยู่ก็คือฉันมีไฟล์เสียงที่มีความยาวต่างกันดังนั้นจึงมีขนาดต่างกัน จนถึงทุกวิธีที่ฉันเห็นใช้ตัวอย่างเสียงขนาดคงที่ แต่ฉันไม่สามารถทำได้เพราะไฟล์เสียงของฉันอาจมีความยาว 10 วินาทีหรือ 2 นาที ตัวอย่างเช่นด้วยเสียงนกในตอนเริ่มต้นและเสียงกบตอนท้าย (เอาต์พุตควรเป็น "Bird, Frog") วิธีแก้ปัญหาปัจจุบันของฉันคือการเพิ่มส่วนประกอบชั่วคราวให้กับเครือข่ายประสาท (สร้างเครือข่ายประสาทที่เกิดขึ้นอีก) แต่ฉันต้องการที่จะทำให้มันง่ายขึ้นสำหรับตอนนี้ ความคิดลิงก์บทเรียนหรือไม่?