วิทยาศาสตร์ข้อมูล audio-recognition

การเรียนรู้เชิงลึกด้วย Spectrograms เพื่อการจดจำเสียง

ฉันกำลังดูความเป็นไปได้ที่จะจำแนกเสียง (เช่นเสียงของสัตว์) โดยใช้สเปคตรัม ความคิดคือการใช้เครือข่ายประสาทเทียมแบบลึกเพื่อจำแนกส่วนในสเปคโทรแกรมและส่งออกฉลากระดับหนึ่ง (หรือหลาย) นี่ไม่ใช่แนวคิดใหม่ (ดูตัวอย่างการจำแนกเสียงของวาฬหรือการจดจำสไตล์เพลง ) ปัญหาที่ฉันเผชิญอยู่ก็คือฉันมีไฟล์เสียงที่มีความยาวต่างกันดังนั้นจึงมีขนาดต่างกัน จนถึงทุกวิธีที่ฉันเห็นใช้ตัวอย่างเสียงขนาดคงที่ แต่ฉันไม่สามารถทำได้เพราะไฟล์เสียงของฉันอาจมีความยาว 10 วินาทีหรือ 2 นาที ตัวอย่างเช่นด้วยเสียงนกในตอนเริ่มต้นและเสียงกบตอนท้าย (เอาต์พุตควรเป็น "Bird, Frog") วิธีแก้ปัญหาปัจจุบันของฉันคือการเพิ่มส่วนประกอบชั่วคราวให้กับเครือข่ายประสาท (สร้างเครือข่ายประสาทที่เกิดขึ้นอีก) แต่ฉันต้องการที่จะทำให้มันง่ายขึ้นสำหรับตอนนี้ ความคิดลิงก์บทเรียนหรือไม่?

12 deep-learning multilabel-classification audio-recognition

Convolutional ply แตกต่างจากเครือข่าย Convolutional ทั่วไปอย่างไร

ฉันกำลังทำงานเพื่อสร้างผลลัพธ์ของเอกสารนี้ใหม่ ในกระดาษพวกเขาอธิบายวิธีการใช้ CNN สำหรับการสกัดคุณลักษณะและมีรูปแบบอะคูสติกที่ Dnn-hmm และถูกฝึกโดยใช้ RBM ส่วนย่อย III ระบุสถานะที่แตกต่างกันในการแสดงข้อมูลอินพุต ฉันตัดสินใจที่จะสแต็คพล็อตสเปกตรัมของสแตติกเดลต้าและเดลต้าในแนวตั้ง ดังนั้นเช่น: กระดาษจะอธิบายว่าเครือข่ายควรเป็นอย่างไร พวกเขาระบุว่าพวกเขาใช้เครือข่าย convolutional แต่ไม่มีอะไรเกี่ยวกับโครงสร้างของเครือข่าย? ยิ่งไปกว่านั้นเครือข่ายอ้างถึงเสมอว่าเป็นคนเร่ขายของ? ซึ่งฉันแน่ใจว่าฉันเห็นความแตกต่างใด ๆ เมื่อเทียบกับเครือข่ายประสาทเทียมธรรมดาเครือข่าย (cnn) กระดาษระบุสิ่งนี้เกี่ยวกับความแตกต่าง: (จากส่วนย่อย III B) อย่างไรก็ตามการแปลงชั้นจะแตกต่างจากเลเยอร์มาตรฐานที่เชื่อมต่ออย่างสมบูรณ์ในสองส่วนที่สำคัญ ขั้นแรกหน่วย Convolutional แต่ละหน่วยจะรับอินพุตจากพื้นที่ท้องถิ่นของอินพุตเท่านั้น ซึ่งหมายความว่าแต่ละหน่วยแสดงถึงคุณสมบัติบางอย่างของภูมิภาคท้องถิ่นของอินพุต ประการที่สองหน่วยของการจัดเรียงสังวัตนาสามารถจัดเป็นแผนที่คุณลักษณะจำนวนหนึ่งซึ่งหน่วยทั้งหมดในแผนที่คุณลักษณะเดียวกันจะมีน้ำหนักเท่ากัน แต่รับข้อมูลจากสถานที่ต่าง ๆ ของชั้นล่าง อีกสิ่งหนึ่งที่ฉันสงสัยคือว่ากระดาษระบุจำนวนเอาต์พุตพารามิเตอร์ที่จำเป็นในการป้อนข้อมูลแบบจำลองอะคูสติก dnn-hmm หรือไม่ ฉันดูเหมือนจะไม่สามารถถอดรหัสจำนวนตัวกรองขนาดตัวกรอง .. ในรายละเอียดทั่วไปของเครือข่ายได้หรือไม่

9 neural-network convnet feature-extraction audio-recognition

คำถามติดแท็ก audio-recognition