คำถามติดแท็ก speech-recognition

3
ลดเสียงรบกวนพื้นหลังและเพิ่มประสิทธิภาพการพูดจากคลิปเสียงโดยใช้ ffmpeg
ฉันแยกคลิปเสียงจากไฟล์วิดีโอสำหรับการรู้จำเสียง วิดีโอเหล่านี้มาจากอุปกรณ์มือถือ / อื่น ๆ ที่ทำด้วยมือดังนั้นจึงมีเสียงดังมาก ฉันต้องการลดเสียงพื้นหลังของเสียงเพื่อให้การพูดที่ฉันส่งไปยังโปรแกรมรู้จำเสียงพูดของฉันชัดเจน ฉันใช้ ffmpeg เพื่อทำสิ่งนี้ทั้งหมด แต่ฉันติดอยู่ที่ขั้นตอนการลดเสียงรบกวน จนถึงตอนนี้ฉันได้ลองใช้ตัวกรองดังนี้: ffmpeg-20140324-git-63dbba6-win64-static\bin>ffmpeg -i i nput.wav -filter_complex "highpass=f=400,lowpass=f=1800" out2.wav ffmpeg -i i nput.wav -af "equalizer=f=1000:width_type=h:width=900:g=-10" output.wav ffmpeg -i i nput.wav -af "bandreject=f=1200:width_type=h:width=900:g=-10" output.wav แต่ผลลัพธ์ที่น่าผิดหวังมาก เหตุผลของฉันคือเนื่องจากคำพูดอยู่ในช่วง 300-3,000 เฮิร์ตซ์ฉันสามารถกรองความถี่อื่น ๆ ทั้งหมดเพื่อระงับเสียงพื้นหลังใด ๆ ฉันพลาดอะไรไป นอกจากนี้ฉันอ่านเกี่ยวกับตัวกรองเนอร์ที่สามารถใช้สำหรับการปรับปรุงการพูดและพบสิ่งนี้แต่ฉันไม่แน่ใจว่าจะใช้อย่างไร

6
การรู้จำเสียง - ซอฟต์แวร์ MP3 เป็นข้อความ [ปิด]
ฉันกำลังมองหาโปรแกรมอิสระลำโพง (เชิงพาณิชย์หรือฟรี) ที่จะช่วยให้ฉันสามารถคัดลอกไฟล์ MP3 ที่มีการบันทึกคำพูด (โดยเฉพาะอย่างยิ่งพอดคาสต์) เป็นข้อความ ฉันอยากลอง Dragon Nasty Speaking แต่ดูเหมือนว่ามันสนับสนุนการถอดเสียงบันทึกเสียงของฉันเท่านั้น ดังนั้นทางเลือกคืออะไร?

3
ใช้การรู้จำเสียงของ YouTube ใน Google โดยไม่ต้องอัปโหลดวิดีโอไปยัง YouTube ได้อย่างไร
ฉันมีเนื้อหาวิดีโอบรรยายจำนวนมากที่ฉันต้องการมีคำบรรยาย YouTube สร้างคำบรรยายสำหรับวิดีโอโดยอัตโนมัติภายใต้เงื่อนไขบางประการ (เงื่อนไขเหล่านั้นยังเป็นเรื่องลึกลับสำหรับฉัน) ฉันต้องการใช้เทคโนโลยีการรู้จำเสียงนี้นอก YouTube ฉันไม่ต้องการอัปโหลดวิดีโอทุกรายการเพื่อรับการถอดความ (ใช้เวลานานเกินไป) รวมทั้งฉันไม่คิดว่า YouTube จะทำวิดีโอที่มีความยาวเกินกว่า 30 นาที (ส่วนใหญ่เป็น) และต่อไปฉัน อย่าคิดว่ามันจะทำสำหรับวิดีโอที่ไม่เปิดเผยต่อสาธารณะ (ซึ่งเป็นปัญหาเพราะเป็นเนื้อหาพรีเมี่ยมที่ตั้งใจจะขาย) สถานการณ์ที่สมบูรณ์แบบ: มีโปรแกรมที่ฉันสามารถเรียกใช้จากเดสก์ท็อปของฉันเพื่อรับการถอดเสียงจากวิดีโอเหล่านี้และมีคุณภาพเท่าเทียมกันหรือดีกว่าของ YouTube และมีรหัสเวลาคล้ายกับ SRT หรือ XML ที่ YouTube สร้าง [ วิธีการ รับคำบรรยาย YouTube ] สถานการณ์ที่ยอมรับได้: มีเทคนิคบางอย่างที่ฉันสามารถทำได้เพื่อบังคับให้ YouTube ถอดความวิดีโอไม่ว่าจะตั้งเป็นส่วนตัวหรือสาธารณะและมีความยาว สถานการณ์ที่เป็นไปได้: มีห้องสมุดหรือบางสิ่งที่ฉันสามารถใช้เพื่อเขียนโปรแกรมของตัวเอง ฉันใช้ C # ได้ดีและโอเคกับ C ++ (แต่ฉันชอบ C # มากกว่า)

1
google รู้จำเสียงพูด linux ออฟไลน์
เมื่อฉันทำการค้นคว้าเกี่ยวกับการรู้จำเสียงฉันเห็นบางบทความเกี่ยวกับบริการรู้จำเสียงพูดของ Google บน Android ที่สามารถดาวน์โหลดและใช้ออฟไลน์บน Android ฉันเห็นสิ่งต่าง ๆ เกี่ยวกับการใช้บริการ Google speech ผ่านคอมพิวเตอร์ แต่มันเกี่ยวข้องกับการสอบถามเซิร์ฟเวอร์ google ดังนั้นนี่คือคำถามของฉัน: มีวิธีใช้บริการ Google รู้จำเสียงแบบออฟไลน์ทางคอมพิวเตอร์โดยเฉพาะบน linux หรือไม่

2
ภาษาที่รู้จำเสียงของ Windows 8
ฉันติดตั้ง Windows 8 Pro แล้ว (รุ่น RTM จาก MSDN) สำหรับแอปพลิเคชันที่ฉันใช้ฉันจำเป็นต้องตั้งค่าการรู้จำเสียงเป็นภาษาอังกฤษ - สหรัฐอเมริกา ตัวเลือกเดียวที่ฉันมีคือภาษาอังกฤษ - สหราชอาณาจักร ฉันได้ลองใช้ภาษาในแผงควบคุมและตั้งค่าภาษาเป็นภาษาอังกฤษ - สหรัฐอเมริกาเท่านั้นอย่างไรก็ตามภาษาอังกฤษ - อังกฤษยังคงเป็นตัวเลือกเดียวในคุณสมบัติการพูด ฉันจะเพิ่มภาษาลงในคุณสมบัติการพูดได้อย่างไร

2
เปิดตัว CMD ที่นี่เพื่อพูดคุยกับ Dragon NaturallySpeaking
ฉันเป็นผู้ใช้รู้จำเสียงพูดหนักเนื่องจากปัญหาเกี่ยวกับมือของฉันทำให้เกิดอาการปวดมาก ฉันได้พยายามเขียนคำสั่งสำหรับ Dragon ที่จะเปิด Command Prompt ในหน้าต่าง Windows Explorer ที่ใช้งานอยู่ในปัจจุบัน ฉันเป็นเจ้าของเวอร์ชัน v14 Pro ของ Dragon ฉันยังติดตั้ง Vocola / Natlink และ Unimacro ด้วย สิ่งที่ฉันได้ลองไปแล้วคือการสร้างคำสั่งทีละขั้นตอนที่กำหนดเองซึ่งเรียกใช้พรอมต์คำสั่งพร้อมตำแหน่งเริ่มต้นที่กำหนดเป็น% ~ dp0 อย่างไรก็ตามดูเหมือนว่าจะเปิดตัว cmd ด้วยไดเรกทอรีเดสก์ท็อปของฉันเท่านั้นฉันไม่แน่ใจว่าเกิดอะไรขึ้น ฉันไม่ค่อยมีความรู้ในขอบเขตของ VBScripting ดังนั้นฉันจึงไม่ได้ลองตอนนี้ฉันแน่ใจว่าจะทำอย่างไรกับ Vocola ฉันจะทำการค้นคว้าเรื่องนี้ต่อไป แต่หวังว่าจะมีใครบางคนที่นี่อาจทำให้การค้นหาของฉันสั้นลง
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.