การลดเสียงรบกวนสำหรับการรู้จำเสียงแตกต่างจากการลดเสียงรบกวนที่ควรทำให้คำพูด“ เข้าใจได้” สำหรับมนุษย์มากขึ้นอย่างไร

นี่เป็นคำถามที่ให้ความสนใจฉันมาระยะหนึ่งแล้วส่วนใหญ่เป็นเพราะฉันกำลังทำงานเกี่ยวกับการลดเสียงรบกวนสำหรับระบบรู้จำเสียงพูดที่มีอยู่ด้วยตัวเอง

เอกสารส่วนใหญ่เกี่ยวกับเทคนิคการลดเสียงรบกวนดูเหมือนจะมุ่งเน้นไปที่การทำให้การพูดเข้าใจได้ง่ายขึ้นสำหรับมนุษย์หรือวิธีการปรับปรุงคำที่คลุมเครือเช่น "คุณภาพการพูด"

ฉันแน่ใจว่าโดยใช้เกณฑ์เช่นนี้คุณสามารถระบุตัวกรองที่ทำให้สัญญาณเสียงพูดที่ฟังง่ายขึ้นสำหรับมนุษย์ อย่างไรก็ตามฉันไม่แน่ใจว่าสามารถปรับเกณฑ์เหล่านี้ได้อย่างง่ายดายเมื่อพยายามประเมินสัญญาณเสียงพูดที่ได้รับการแปลเพื่อปรับปรุงความแม่นยำของระบบรู้จำเสียง

ฉันไม่พบเอกสารที่พูดถึงความแตกต่างนี้จริงๆ ความชัดเจนของเสียงพูดและคุณภาพเสียงพูดสัมพันธ์กับความแม่นยำของระบบรู้จำเสียงพูดหรือไม่? มีมาตรการวัตถุประสงค์ที่สามารถประเมินว่า "ดี" สัญญาณเสียงพูด denoised สำหรับระบบรู้จำเสียงพูดได้เช่นกันถ้าได้รับการพูดที่ชัดเจน หรือเป็นวิธีเดียวที่จะทราบว่าเทคนิคการลดเสียงรบกวนของคุณนั้นดีแค่ไหนในการฝึกอบรมระบบรู้จำเสียงพูดสำหรับข้อมูลที่ถูกแปลและดูความถูกต้อง?

ฉันจะมีความสุขถ้ามีคนชี้ให้ฉันไปในทิศทางที่ถูกต้องหรืออาจมอบเอกสารบางอย่างเกี่ยวกับเรื่องนี้ ขอบคุณล่วงหน้า!

— marlonfl
แหล่งที่มา

ฉันไม่พบเอกสารที่พูดถึงความแตกต่างนี้จริงๆ

มีหนังสือทั้งหมดเกี่ยวกับเรื่องนี้:

การรู้จำเสียงอัตโนมัติที่มีประสิทธิภาพรุ่นที่ 1

ความชัดเจนของเสียงพูดและคุณภาพเสียงพูดมีความสัมพันธ์กับความแม่นยำของระบบรู้จำเสียงพูดหรือไม่?

โดยปกติแล้วจะไม่มีการลดเสียงรบกวนทำให้เกิดความเสียหายในลักษณะที่คาดเดาไม่ได้และลดความแม่นยำในการรู้จำเสียง

มีมาตรการวัตถุประสงค์ที่สามารถประเมินว่า "ดี" สัญญาณเสียงพูด denoised สำหรับระบบรู้จำเสียงพูดได้เช่นกันถ้าได้รับการพูดที่ชัดเจน หรือเป็นวิธีเดียวที่จะทราบว่าเทคนิคการลดเสียงรบกวนของคุณนั้นดีแค่ไหนในการฝึกอบรมระบบรู้จำเสียงพูดสำหรับข้อมูลที่ถูกแปลและดูความถูกต้อง?

ที่สอง ยิ่งไปกว่านั้นการลดเสียงรบกวนที่อิงคุณสมบัติจะลบข้อมูลสำคัญออกจากสเปกตรัมโดยสิ้นเชิงดังนั้นคุณจึงไม่สามารถซ่อมแซมความถูกต้องของระบบทำความสะอาดได้ ด้วยเหตุผลดังกล่าววิธีการที่ทันสมัยคือการฝึกอบรมแบบหลายสไตล์กับข้อมูลที่มีเสียงดังแทนการใช้อัลกอริธึมลดเสียงรบกวนล่วงหน้า มันจบลงด้วยการจดจำที่แม่นยำยิ่งขึ้น

— Nikolay Shmyrev
แหล่งที่มา

ขอบคุณสำหรับคำตอบของคุณ ฉันเดาว่าไม่ได้มองหาเอกสารที่ถูกต้อง ฉันจะดูหนังสือเล่มนั้น

— marlonfl

ตกลงถ้าคุณต้องการเอกสารคุณสามารถตรวจสอบผลการท้าทาย CHIME-4 ส่วนใหญ่เป็นศิลปะที่ทันสมัยใน ASR ที่แข็งแกร่ง

— Nikolay Shmyrev