การใช้ตัวกรอง pass band ที่ตรงกับแบนด์วิดท์ของเสียงพูดจะช่วยได้
หากคุณมีไมโครโฟนหลายตัว (เช่นในกรณีของโทรศัพท์มือถือ) มีวิธีการเหมือน ICA ซึ่งสามารถใช้ประโยชน์จากสิ่งนั้น - แต่คำถามของคุณบอกฉันว่าคุณมีเพียงอินพุตเดียว
สิ่งที่คุณต้องการทำคือ "การแยกแหล่งที่มาของไมโครโฟนเดียว" (ชื่อที่นำมาจากกระดาษที่ก้าวล้ำของ Roweis) หรือที่เรียกว่า "เซ็นเซอร์เดียว" คำเตือน: สิ่งนี้อยู่ไกลจากปัญหาที่แก้ไขแล้วและการวิจัยทั้งหมดในสาขานี้ล่าสุดมากโดยไม่มีอัลกอริทึมหรือวิธีการที่จะเป็น "ผู้ชนะที่ชัดเจน" (ซึ่งแตกต่างจากแบบจำลองผสม gaussian + FST สำหรับการรู้จำเสียง)
กรอบการทำงานที่ดีคือการกรองด้วย Wiener ดู Benaroya และคณะ "การแยกแหล่งเซ็นเซอร์เดี่ยวตามการกรอง Wiener และ STFT หลายหน้าต่าง" (อ่านหัวข้อที่ 1 & 2 ไม่ต้องกังวลกับสิ่งที่รวมอยู่ด้วยเว้นแต่ว่าคุณต้องการมันจริงๆ) กล่าวโดยย่อคือคุณคำนวณ STFT ของสัญญาณของคุณและสำหรับแต่ละเฟรม STFT คุณพยายามรับค่าประมาณของสเปกตรัมเสียงและคลื่นความถี่เสียงและคุณใช้การกรอง Wiener เพื่อกู้คืนการประมาณค่าความถี่คลื่นเสียงที่ดีที่สุด ( คล้ายกับ "soft-masking" สเปกตรัม)
ขณะนี้ปัญหาของคุณมีดังต่อไปนี้: กำหนดเฟรม STFT ประเมินคำพูดและองค์ประกอบเสียงจากมัน วิธีที่ง่ายกว่าที่อธิบายไว้ในบทความโดย Benaroya คือผ่าน Vector-quantization - ใช้เวลาหลายชั่วโมงในการพูดโดยผู้พูดหลายคนคำนวณ STFT เรียกใช้ LBG เพื่อหา codebook ที่มีกรอบคำพูดปกติ 512 หรือ 1024; ทำสิ่งเดียวกันสำหรับเสียง ตอนนี้ให้กรอบสัญญาณอินพุตของคุณฉายภาพแบบไม่ลบ (ขั้นตอนการไล่ระดับสีแบบทวีคูณอธิบายไว้ในกระดาษ) ไปยังฐานเสียงพูดและเสียงรบกวนและคุณจะได้รับการประมาณเสียงและเสียงรบกวนของคุณ หากคุณไม่ต้องการจัดการกับสิ่งที่ไม่ต้องการฉายให้ใช้เพื่อนบ้านที่อยู่ใกล้ที่สุด นี่เป็นสิ่งที่ง่ายที่สุดที่อาจทำงานได้ในแผนก "การแยกแหล่งเซ็นเซอร์เดียว"
โปรดทราบว่าระบบรู้จำเสียงพูดสามารถให้อินพุตบางอย่างสำหรับระบบแยกเสียงได้ ทำการถอดรหัสครั้งแรกโดยใช้ระบบรู้จำเสียงพูดของคุณ สำหรับแต่ละเฟรมให้ใช้เวกเตอร์ MFCC เฉลี่ยจาก Gaussian ที่ได้คะแนนดีที่สุด แปลงกลับไปเป็นสเปกตรัม บูมคุณมีหน้ากากที่ให้ตำแหน่งสเปกตรัมของบิตคล้ายคำพูดและคุณสามารถใช้เป็นอินพุตสำหรับการกรอง Wiener ฟังดูคล้ายกับโบกมือ แต่นักธรณีวิทยาก็คือการแยกแหล่งข้อมูลที่คุณต้องการแบบจำลองที่ดีออกมาและระบบรู้จำเสียงพูดที่นำมาใช้ย้อนหลังนั้นเป็นรูปแบบกำเนิดที่ดีสำหรับสัญญาณเสียงพูด