นี่เป็นคำถามที่ให้ความสนใจฉันมาระยะหนึ่งแล้วส่วนใหญ่เป็นเพราะฉันกำลังทำงานเกี่ยวกับการลดเสียงรบกวนสำหรับระบบรู้จำเสียงพูดที่มีอยู่ด้วยตัวเอง
เอกสารส่วนใหญ่เกี่ยวกับเทคนิคการลดเสียงรบกวนดูเหมือนจะมุ่งเน้นไปที่การทำให้การพูดเข้าใจได้ง่ายขึ้นสำหรับมนุษย์หรือวิธีการปรับปรุงคำที่คลุมเครือเช่น "คุณภาพการพูด"
ฉันแน่ใจว่าโดยใช้เกณฑ์เช่นนี้คุณสามารถระบุตัวกรองที่ทำให้สัญญาณเสียงพูดที่ฟังง่ายขึ้นสำหรับมนุษย์ อย่างไรก็ตามฉันไม่แน่ใจว่าสามารถปรับเกณฑ์เหล่านี้ได้อย่างง่ายดายเมื่อพยายามประเมินสัญญาณเสียงพูดที่ได้รับการแปลเพื่อปรับปรุงความแม่นยำของระบบรู้จำเสียง
ฉันไม่พบเอกสารที่พูดถึงความแตกต่างนี้จริงๆ ความชัดเจนของเสียงพูดและคุณภาพเสียงพูดสัมพันธ์กับความแม่นยำของระบบรู้จำเสียงพูดหรือไม่? มีมาตรการวัตถุประสงค์ที่สามารถประเมินว่า "ดี" สัญญาณเสียงพูด denoised สำหรับระบบรู้จำเสียงพูดได้เช่นกันถ้าได้รับการพูดที่ชัดเจน หรือเป็นวิธีเดียวที่จะทราบว่าเทคนิคการลดเสียงรบกวนของคุณนั้นดีแค่ไหนในการฝึกอบรมระบบรู้จำเสียงพูดสำหรับข้อมูลที่ถูกแปลและดูความถูกต้อง?
ฉันจะมีความสุขถ้ามีคนชี้ให้ฉันไปในทิศทางที่ถูกต้องหรืออาจมอบเอกสารบางอย่างเกี่ยวกับเรื่องนี้ ขอบคุณล่วงหน้า!