คำถามติดแท็ก speech

4
ไลบรารีสำหรับการตรวจหากิจกรรมเสียง (ไม่ใช่การจดจำเสียง)
ตามคำถามก่อนหน้านี้ฉันสงสัยว่ามีห้องสมุดตรวจจับเสียงพูดอยู่หรือไม่ โดยการตรวจจับเสียงฉันหมายถึงการส่งผ่านบัฟเฟอร์เสียงและกลับดัชนีซึ่งการพูดเริ่มและหยุด ดังนั้นหากฉันมีการสุ่มตัวอย่างเสียง 10 วินาทีที่ 44kHz ฉันคาดว่าจะมีอาร์เรย์ของตัวเลขเช่น: 44000 88000 123000 190334 ... สิ่งนี้จะบ่งบอกถึงตัวอย่างเช่นคำพูดเริ่มต้นหนึ่งวินาทีแล้วเสร็จที่จุดสองวินาทีเป็นต้น สิ่งที่ฉันไม่ต้องการคือการรู้จำเสียงพูดซึ่งเขียนข้อความจากคำพูด น่าเสียดายที่นี่เป็นสิ่งที่ฉันเห็นมากเมื่อฉัน 'ตรวจจับคำพูด' ของ Google คงจะดีถ้าห้องสมุดอยู่ใน C, C ++ หรือแม้แต่ Objective-C เพราะฉันเขียนแอพสำหรับ iPhone ขอบคุณ!
18 audio  speech 

2
เมื่อใดฉันจึงควรคำนวณ PSD แทนสเปกตรัมขนาด FFT ธรรมดา
ฉันมีสัญญาณเสียงพูดสามสิบวินาทีที่เก็บตัวอย่างที่ 44.1 kHz ตอนนี้ฉันต้องการที่จะแสดงให้เห็นว่าคำพูดที่มีความถี่ อย่างไรก็ตามฉันไม่แน่ใจว่าสิ่งใดจะเป็นวิธีที่ดีที่สุดในการทำเช่นนั้น ดูเหมือนว่าบางครั้งเราคำนวณค่าสัมบูรณ์ของการแปลงฟูริเยร์และบางครั้งความหนาแน่นของสเปกตรัมกำลัง หากฉันเข้าใจอย่างถูกต้องหลังจะทำงานเพื่อที่ฉันจะแบ่งสัญญาณของฉันออกเป็นส่วน ๆ ทำ FFT ทีละส่วนแล้วหาผลรวมเหล่านี้ ฟังก์ชั่นหน้าต่างมีส่วนเกี่ยวข้องอย่างใด คุณช่วยอธิบายให้ฉันฟังหน่อยได้ไหม? ฉันใหม่กับ DSP
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.