คำถามสั้น ๆ : ฉันกำลังมองหาซอฟต์แวร์รู้จำเสียงพูดที่ทำงานบน Linux และมีความแม่นยำและการใช้งานที่เหมาะสม ใบอนุญาตและราคาใด ๆ ก็ดี ไม่ควร จำกัด คำสั่งเสียงเนื่องจากฉันต้องการให้สามารถกำหนดข้อความได้
รายละเอียดเพิ่มเติม:
ฉันได้ลองทำอย่างต่อไปนี้แล้ว:
- CMU Sphinx
- CVoiceControl
- หู
- จูเลียส
- Kaldi (เช่นเซิร์ฟเวอร์ Kaldi GStreamer )
- IBM ViaVoice (เคยทำงานบน Linux แต่ถูกยกเลิกเมื่อหลายปีก่อน)
- NICO ANN Toolkit
- OpenMindSpeech
- RWTH ASR
- เสียงร้อง
- silvius (สร้างขึ้นบนชุดเครื่องมือรู้จำเสียง Kaldi)
- Simon ฟัง
- ViaVoice / Xvoice
- ไวน์ + มังกร NaturallySpeaking + NatLink + แมลงปอ + damselfly
- https://github.com/DragonComputer/Dragonfire : ยอมรับเฉพาะคำสั่งเสียง
โซลูชัน Linux ดั้งเดิมทั้งหมดที่กล่าวถึงข้างต้นมีทั้งความแม่นยำและการใช้งานที่ไม่ดี (หรือบางอย่างไม่อนุญาตให้เขียนตามคำบอกข้อความอิสระ ด้วยความแม่นยำต่ำฉันหมายถึงความแม่นยำต่ำกว่าซอฟต์แวร์การจดจำเสียงที่ฉันพูดถึงด้านล่างสำหรับแพลตฟอร์มอื่น ๆ อย่างมีนัยสำคัญ สำหรับ Wine + Dragon NaturSpeaking จากประสบการณ์ของฉันมันยังคงพังอยู่และฉันก็ไม่ได้เป็นคนเดียวที่มีปัญหาเช่นนี้
ใน Microsoft Windows ฉันใช้ Dragon NaturallySpeaking บน Apple Mac OS XI ใช้ Apple Dictation และ DragonDictate บน Android ฉันใช้การรู้จำเสียงของ Google และ iOS ฉันใช้การรู้จำเสียงในตัวของ Apple
Baidu วิจัยการปล่อยตัวออกมาเมื่อวานนี้รหัสสำหรับไลบรารีรู้จำเสียงพูดที่ใช้Connectionist Temporal การจำแนกประเภทการใช้งานกับไฟฉาย มาตรฐานจากGigaomให้กำลังใจดังที่แสดงในภาพหน้าจอด้านล่าง แต่ฉันไม่ได้ตระหนักถึง wrapper ที่ดีรอบ ๆ เพื่อให้สามารถใช้งานได้โดยไม่ต้องมีการเข้ารหัส (และชุดข้อมูลการฝึกอบรมขนาดใหญ่):
มีโครงการโอเพนซอร์ซบางตัวอยู่มาก:
- https://github.com/mozilla/DeepSpeech (ส่วนหนึ่งของโครงการ Vaani ของ Mozilla: http://vaani.io ( มิเรอร์ ))
- https://github.com/pannous/tensorflow-speech-recognition
- Vox ระบบที่ใช้ควบคุมระบบ Linux โดยใช้ Dragon NaturallySpeaking: https://github.com/Franck-Dernoncourt/vox_linux + https://github.com/Franck-Dernoncourt/vox_windows
- https://github.com/facebookresearch/wav2letter
- https://github.com/espnet/espnet
- http://github.com/tensorflow/lingvo (วางจำหน่ายโดย Google ที่กล่าวถึงที่ Interspeech 2018)
ฉันยังรับรู้ถึงความพยายามนี้ในการติดตามสถานะของศิลปะและผลลัพธ์ล่าสุด (บรรณานุกรม) เกี่ยวกับการรู้จำเสียง เช่นเดียวกับนี้มาตรฐานที่มีอยู่ APIs
ฉันรู้เรื่อง Aeneaซึ่งอนุญาตให้รู้จำเสียงผ่าน Dragonfly บนคอมพิวเตอร์เครื่องหนึ่งเพื่อส่งกิจกรรมไปยังอีกเครื่องหนึ่ง แต่มีค่าใช้จ่ายในการตอบสนอง:
ฉันยังตระหนักถึงการเจรจาสองครั้งนี้เพื่อสำรวจตัวเลือก Linux สำหรับการรู้จำเสียง:
- 2016 - ความหวังที่สิบเอ็ด: การเข้ารหัสด้วยเสียงพร้อมการรู้จำเสียงโอเพ่นซอร์ส (David Williams-King)
- 2014 - Pycon: การใช้ Python เป็นรหัสด้วยเสียง (Tavis Rudd)