การแยกคุณลักษณะสำหรับการจำแนกเสียง


15

ฉันพยายามที่จะแยกคุณสมบัติออกจากไฟล์เสียงและจำแนกเสียงว่าเป็นของประเภทใดหมวดหนึ่ง (เช่น: เปลือกสุนัขเครื่องยนต์ยานพาหนะ ฯลฯ ) ฉันต้องการความชัดเจนในสิ่งต่อไปนี้:

1) สิ่งนี้เป็นไปได้หรือไม่? มีโปรแกรมที่สามารถรู้จำเสียงพูดและแยกแยะความแตกต่างระหว่างชนิดเปลือกสุนัข แต่เป็นไปได้หรือไม่ที่จะมีโปรแกรมที่สามารถรับตัวอย่างเสียงและเพียงแค่พูดว่าเป็นเสียงแบบใด (สมมติว่ามีฐานข้อมูลที่มีตัวอย่างเสียงจำนวนมากที่จะอ้างอิง) ตัวอย่างเสียงอินพุตอาจมีเสียงดังเล็กน้อย (อินพุตไมโครโฟน)

2) ฉันคิดว่าขั้นตอนแรกคือการแยกคุณสมบัติเสียง นี้บทความแสดงให้เห็นการแยก MFCCs และการให้อาหารพวกเขาไปยังขั้นตอนวิธีการเรียนรู้ของเครื่อง MFCC เพียงพอหรือไม่ มีคุณสมบัติอื่น ๆ ที่ใช้โดยทั่วไปสำหรับการจำแนกเสียงหรือไม่

ขอขอบคุณสำหรับเวลาของคุณ.

คำตอบ:


15
  1. โดยการยิงยาวมันเป็นไปได้ที่จะขยายอะไร? แล้วคุณจะได้เห็น. งานการจำแนกเสียงสิ่งแวดล้อมนี้ไม่ได้รับการศึกษาที่ดีนัก การเลือกกระบวนทัศน์การเรียนรู้ของเครื่องเป็นสิ่งสำคัญเช่นกัน - วิธีทางสถิติหรือตัวจําแนกไบนารี คุณสามารถเริ่มต้นด้วย GMM, ANN's และ SVM's - ฉันเลือก GMM และ ANN
  2. ใช่คนส่วนใหญ่ใช้ MFCC เพราะมีความสัมพันธ์กับสิ่งที่ผู้คนได้ยินจริง ๆ และไม่มีใครคิดอะไรดีไปกว่านี้ คุณอาจต้องการเพิ่มคุณสมบัติพิเศษเช่นตัวอธิบาย MPEG-7 ต้องเพิ่มประสิทธิภาพของคุณสมบัติที่เหมาะสมเพราะบางครั้งคุณไม่ต้องการคุณสมบัติมากมายโดยเฉพาะเมื่อไม่สามารถแยกได้ สำหรับข้อมูลเพิ่มเติมโปรดอ้างอิงคำตอบก่อนหน้าของฉัน:

การดึงคุณสมบัติจากสเปกตรัม

การแยก MFCC

ตรวจจับเสียง


ฉันจะขยายคำตอบของฉันตอนเย็น
jojek

ยังคงรอคำตอบเพิ่มเติม ...
Nithin

ในตอนเย็น ...
jojek

4

เสียงที่ไม่ใช้คำพูด (เป็นสิ่งแวดล้อม) เป็นน้องชายของเครื่องเรียนรู้ประเภทสื่อภาพรูปภาพคำพูดข้อความ

เพื่อตอบคำถามของคุณเป็นไปได้ไหมที่จะฝึกอบรมเครือข่ายเพื่อระบุเสียงที่ต้องการ ใช่แล้ว! แต่มันก็ยากสำหรับเหตุผลเดียวกันทั้งหมดที่การเรียนรู้ของเครื่องนั้นยาก

อย่างไรก็ตามสิ่งที่ทำให้เสียงกลับมาเหมือนเดิมและทำไมฉันถึงเรียกมันว่าน้องชายคนเล็กสู่ภาพและเสียงพูดเพราะเสียงขาดชุดข้อมูลขนาดใหญ่ สำหรับการพูดนั้นมี TIMIT สำหรับรูปภาพมีหลาย ImagenNet, CIFAR, Caltech สำหรับการประมวลผลข้อความและภาษาธรรมชาติมีหนังสือมากมายมากมาย ฯลฯ

สำหรับความรู้ของฉันชุดข้อมูลเสียงที่ไม่ใช่มนุษย์ด้วยวาจาสองตัวที่ใหญ่ที่สุดคือชุดข้อมูล UrbanSounds และ ESC-100 ซึ่งมีขนาดเล็กสำหรับการเรียนรู้ที่ลึกซึ้งอย่างแท้จริง มีผลลัพธ์บางส่วนที่เผยแพร่ในชุดข้อมูลเหล่านี้โดยใช้ 2-layer ConvNet

คุณสมบัติ MFCC เป็นคุณสมบัติพื้นฐานที่ได้รับการยอมรับเป็นอย่างดีในการรู้จำเสียงพูดและการวิเคราะห์เสียงโดยทั่วไป แต่ยังมีคุณสมบัติด้านเสียงอื่น ๆ อีกมากมาย! กระดาษนี้ให้อนุกรมวิธานของประเภทเสียงที่ดี

การทำงานที่น่าตื่นเต้นที่สุดทำจำแนกเสียงที่ผมเคยเห็นเมื่อเร็ว ๆ นี้จะถูกทำโดยคนบางคนที่ DeepMind เรียกWavenet


3

นี่คือวิธีการแก้ปัญหาสำหรับการจำแนกประเภทเสียงสำหรับ 10 ชั้นเรียน: เห่าสุนัข, แตรรถ, เด็ก ๆ เล่นเป็นต้นมันขึ้นอยู่กับห้องสมุดเทนเซอร์ไหลโดยใช้เครือข่ายประสาท คุณสมบัติถูกแยกโดยการแปลงคลิปเสียงเป็น spectrogram


3
เพียงเชื่อมโยงไม่ดีพอเป็นคำตอบ
Gilles

ใช่โปรดขยายสิ่งที่ลิงก์พูด
Peter K.

2
แต่ขอบคุณสำหรับลิงค์อย่างไรก็ตาม
Kevin Martin Jose

ที่จริงแล้วฉันพยายามทำความเข้าใจเพิ่มเติมเกี่ยวกับเทคนิคที่ใช้ในการสอนที่ให้ไว้ในลิงค์ ความรู้ของฉันเกี่ยวกับสัญญาณเสียงนั้น จำกัด มากเพราะฉันเป็นผู้ที่มีวิสัยทัศน์ด้านคอมพิวเตอร์และการประมวลผลภาพ ฉันจะพยายามอธิบายเพิ่มเติมเกี่ยวกับคำตอบเมื่อฉันมีความเข้าใจที่ดีขึ้น
abggcv

1

ใช่มันเป็นไปได้อย่างยิ่ง แม้ว่า NNs นั้นยอดเยี่ยมในการฝึกอบรมการจัดประเภทเช่นนี้พวกเขาอาจไม่จำเป็น - ด้วยชุดคุณสมบัติที่ได้รับการแต่งตั้งเป็นอย่างดีเพียงอัลกอริธึมการจัดกลุ่มแบบคลาสสิกเช่นแบบผสมแบบเกาส์หรือการวิเคราะห์องค์ประกอบหลัก . ห้องสมุดสมัยใหม่สามารถทำสิ่งนี้ให้ถูกต้องได้ในเวลาประมาณ 95% หรือมากกว่านั้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.