การประมวลผลสัญญาณ speech-processing

การลดเสียงรบกวนสำหรับการรู้จำเสียงแตกต่างจากการลดเสียงรบกวนที่ควรทำให้คำพูด“ เข้าใจได้” สำหรับมนุษย์มากขึ้นอย่างไร

นี่เป็นคำถามที่ให้ความสนใจฉันมาระยะหนึ่งแล้วส่วนใหญ่เป็นเพราะฉันกำลังทำงานเกี่ยวกับการลดเสียงรบกวนสำหรับระบบรู้จำเสียงพูดที่มีอยู่ด้วยตัวเอง เอกสารส่วนใหญ่เกี่ยวกับเทคนิคการลดเสียงรบกวนดูเหมือนจะมุ่งเน้นไปที่การทำให้การพูดเข้าใจได้ง่ายขึ้นสำหรับมนุษย์หรือวิธีการปรับปรุงคำที่คลุมเครือเช่น "คุณภาพการพูด" ฉันแน่ใจว่าโดยใช้เกณฑ์เช่นนี้คุณสามารถระบุตัวกรองที่ทำให้สัญญาณเสียงพูดที่ฟังง่ายขึ้นสำหรับมนุษย์ อย่างไรก็ตามฉันไม่แน่ใจว่าสามารถปรับเกณฑ์เหล่านี้ได้อย่างง่ายดายเมื่อพยายามประเมินสัญญาณเสียงพูดที่ได้รับการแปลเพื่อปรับปรุงความแม่นยำของระบบรู้จำเสียง ฉันไม่พบเอกสารที่พูดถึงความแตกต่างนี้จริงๆ ความชัดเจนของเสียงพูดและคุณภาพเสียงพูดสัมพันธ์กับความแม่นยำของระบบรู้จำเสียงพูดหรือไม่? มีมาตรการวัตถุประสงค์ที่สามารถประเมินว่า "ดี" สัญญาณเสียงพูด denoised สำหรับระบบรู้จำเสียงพูดได้เช่นกันถ้าได้รับการพูดที่ชัดเจน หรือเป็นวิธีเดียวที่จะทราบว่าเทคนิคการลดเสียงรบกวนของคุณนั้นดีแค่ไหนในการฝึกอบรมระบบรู้จำเสียงพูดสำหรับข้อมูลที่ถูกแปลและดูความถูกต้อง? ฉันจะมีความสุขถ้ามีคนชี้ให้ฉันไปในทิศทางที่ถูกต้องหรืออาจมอบเอกสารบางอย่างเกี่ยวกับเรื่องนี้ ขอบคุณล่วงหน้า!

10 noise speech-recognition speech-processing noise-cancellation

ฉันจะตรวจจับเสียงนกหวีด, ป๊อปและเสียงอื่น ๆ ในอินพุตเสียงสดได้อย่างไร?

ฉันได้อ่านคำถามมากมายเกี่ยวกับ SO และตรงไปตรงมาพวกเขาแต่ละคนไม่ได้อธิบายวิธีการเฉพาะเกี่ยวกับเรื่องนี้ บางคนพูดว่า "ทำ FFT" และบางคนก็พูดว่า "การข้ามศูนย์" เป็นต้น แต่ฉันก็แค่เข้าใจว่าอินพุตเสียงดิจิตอลนั้นประกอบไปด้วยแอมพลิจูดสำหรับความถี่เฉพาะและดี .. ไม่ค่อยรู้เท่าไหร่ เกินมัน ตอนนี้ฉันรู้ทฤษฎี Nyquist, ความถี่, แอมพลิจูด, อนุกรมฟูริเยร์และอื่น ๆ และเมื่อ 2-3 ปีที่แล้วตอนที่ฉันทำในหลักสูตรมหาวิทยาลัยของฉันในบางภาคการศึกษา แต่ก่อนหน้านั้นเราไม่ได้สอนการใช้ฟูริเยร์ในโลกแห่งความเป็นจริงและฉันก็ไม่อยากที่จะขุดเรื่องมากไปกว่าการเรียนรู้มากพอที่จะผ่านเรื่องไป แต่ตอนนี้ฉันจะต้องใช้ทุกอย่าง นี่คือภาพรวมของเสียงที่ฉันพยายามตรวจจับ: เห็นได้ชัดว่าเสียงมีกราฟที่ไม่ซ้ำกัน ฉันแค่ต้องการที่จะเข้าใจวิธีการแยกลักษณะเฉพาะของพวกเขาสำหรับเส้นแหลมคมที่ไม่ซ้ำกันในกราฟ เช่นเดียวกับแอมพลิจูดความถี่และอื่น ๆ และสำหรับเวลาเท่าไหร่ - ถึงแม้ว่ามันจะไม่สำคัญก็ตาม ฉันต้องการขั้นตอนง่าย ๆ รายการคำสั่งไม่คลุมเครือ - ฉันสามารถ google ศัพท์ที่ฉันจะไม่เข้าใจ เช่นนี้อาจ? - รับข้อมูลเสียงอินพุต พลอตโตกราฟ รับกราฟกราฟสำหรับเสียงที่คุณต้องการตรวจจับในสภาพแวดล้อมที่ไม่มีเสียง ศึกษากราฟนั้น - วาดลักษณะเฉพาะของเสียงนั้น สร้างฟังก์ชั่นบางอย่างที่สามารถตรวจจับลักษณะเฉพาะเหล่านั้นในฟีดเสียงสดโดยใช้คุณสมบัติของเสียงที่พบใน (4) หากพบการแข่งขันดี …

9 fft audio speech-processing

คำถามติดแท็ก speech-processing