มีซอฟต์แวร์รู้จำเสียงที่ดีสำหรับ Linux หรือไม่?

49

คำถามสั้น ๆ : ฉันกำลังมองหาซอฟต์แวร์รู้จำเสียงพูดที่ทำงานบน Linux และมีความแม่นยำและการใช้งานที่เหมาะสม ใบอนุญาตและราคาใด ๆ ก็ดี ไม่ควร จำกัด คำสั่งเสียงเนื่องจากฉันต้องการให้สามารถกำหนดข้อความได้

รายละเอียดเพิ่มเติม:

ฉันได้ลองทำอย่างต่อไปนี้แล้ว:

CMU Sphinx
CVoiceControl
หู
จูเลียส
Kaldi (เช่นเซิร์ฟเวอร์ Kaldi GStreamer )
IBM ViaVoice (เคยทำงานบน Linux แต่ถูกยกเลิกเมื่อหลายปีก่อน)
NICO ANN Toolkit
OpenMindSpeech
RWTH ASR
เสียงร้อง
silvius (สร้างขึ้นบนชุดเครื่องมือรู้จำเสียง Kaldi)
Simon ฟัง
ViaVoice / Xvoice
ไวน์ + มังกร NaturallySpeaking + NatLink + แมลงปอ + damselfly
https://github.com/DragonComputer/Dragonfire : ยอมรับเฉพาะคำสั่งเสียง

โซลูชัน Linux ดั้งเดิมทั้งหมดที่กล่าวถึงข้างต้นมีทั้งความแม่นยำและการใช้งานที่ไม่ดี (หรือบางอย่างไม่อนุญาตให้เขียนตามคำบอกข้อความอิสระ ด้วยความแม่นยำต่ำฉันหมายถึงความแม่นยำต่ำกว่าซอฟต์แวร์การจดจำเสียงที่ฉันพูดถึงด้านล่างสำหรับแพลตฟอร์มอื่น ๆ อย่างมีนัยสำคัญ สำหรับ Wine + Dragon NaturSpeaking จากประสบการณ์ของฉันมันยังคงพังอยู่และฉันก็ไม่ได้เป็นคนเดียวที่มีปัญหาเช่นนี้

ใน Microsoft Windows ฉันใช้ Dragon NaturallySpeaking บน Apple Mac OS XI ใช้ Apple Dictation และ DragonDictate บน Android ฉันใช้การรู้จำเสียงของ Google และ iOS ฉันใช้การรู้จำเสียงในตัวของ Apple

Baidu วิจัยการปล่อยตัวออกมาเมื่อวานนี้รหัสสำหรับไลบรารีรู้จำเสียงพูดที่ใช้Connectionist Temporal การจำแนกประเภทการใช้งานกับไฟฉาย มาตรฐานจากGigaomให้กำลังใจดังที่แสดงในภาพหน้าจอด้านล่าง แต่ฉันไม่ได้ตระหนักถึง wrapper ที่ดีรอบ ๆ เพื่อให้สามารถใช้งานได้โดยไม่ต้องมีการเข้ารหัส (และชุดข้อมูลการฝึกอบรมขนาดใหญ่):

มีโครงการโอเพนซอร์ซบางตัวอยู่มาก:

https://github.com/mozilla/DeepSpeech (ส่วนหนึ่งของโครงการ Vaani ของ Mozilla: http://vaani.io ( มิเรอร์ ))
https://github.com/pannous/tensorflow-speech-recognition
Vox ระบบที่ใช้ควบคุมระบบ Linux โดยใช้ Dragon NaturallySpeaking: https://github.com/Franck-Dernoncourt/vox_linux + https://github.com/Franck-Dernoncourt/vox_windows
https://github.com/facebookresearch/wav2letter
https://github.com/espnet/espnet
http://github.com/tensorflow/lingvo (วางจำหน่ายโดย Google ที่กล่าวถึงที่ Interspeech 2018)

ฉันยังรับรู้ถึงความพยายามนี้ในการติดตามสถานะของศิลปะและผลลัพธ์ล่าสุด (บรรณานุกรม) เกี่ยวกับการรู้จำเสียง เช่นเดียวกับนี้มาตรฐานที่มีอยู่ APIs

ฉันรู้เรื่อง Aeneaซึ่งอนุญาตให้รู้จำเสียงผ่าน Dragonfly บนคอมพิวเตอร์เครื่องหนึ่งเพื่อส่งกิจกรรมไปยังอีกเครื่องหนึ่ง แต่มีค่าใช้จ่ายในการตอบสนอง:

ฉันยังตระหนักถึงการเจรจาสองครั้งนี้เพื่อสำรวจตัวเลือก Linux สำหรับการรู้จำเสียง:

software-rec speech-recognition

— Franck Dernoncourt
แหล่งที่มา

2

รายละเอียดบางอย่างเกี่ยวกับสิ่งที่คุณพบว่า "ไม่พอใจ" อาจเพิ่มหัวข้อการโพสต์ที่น่าสนใจ แต่เป็นเรื่องทั่วไป ตัวอย่างเช่นคุณพบว่าไม่พึงพอใจอะไรเป็นพิเศษเกี่ยวกับชุดค่าผสม "ไวน์ + Dragon NaturallySpeaking" (มันล้มเหลวในการทำซ้ำประสบการณ์ Windows ของคุณได้อย่างไร)

— Theophrastus

1

@Theophrastus โดยพื้นฐานแล้วโซลูชั่น Linux ดั้งเดิมทั้งหมดนั้นมีทั้งความแม่นยำและการใช้งานที่ไม่ดี ด้วยความแม่นยำต่ำฉันหมายถึงความแม่นยำต่ำกว่าซอฟต์แวร์การจดจำเสียงพูดที่ฉันพูดถึงแพลตฟอร์มอื่น ๆ อย่างมีนัยสำคัญ สำหรับ Wine + Dragon NaturSpeaking จากประสบการณ์ของฉันมันยังคงพังและฉันไม่ได้เป็นคนเดียวที่จะมีปัญหาดังกล่าวโชคไม่ดี ( appdb.winehq.org/ … )

— Franck Dernoncourt

1

ฉันไม่ได้ลองสิ่งเหล่านี้ แต่ในกรณีที่บางคนพบว่ามีประโยชน์: github.com/Uberi/speech_recognitionและjasperproject.github.ioและgithub.com/benoitfragit/google2ubuntu

— Hatshepsut

มีหนึ่งในซอฟต์แวร์เหล่านี้ที่มีเครื่องมือบรรทัดคำสั่งหรือไม่ มันน่าสนใจมากที่จะรวมการรู้จำเสียงเข้ากับเครื่องมือกดปุ่มและ mousemove เช่น xdotool ( github.com/jordansissel/xdotool ) หรือ xsendkey ( github.com/kyoto/sendkeys )

— baptx

13

ตอนนี้ฉันกำลังทดลองใช้การเชื่อมต่อ KDE ร่วมกับการรู้จำเสียงของ Google บนสมาร์ทโฟน Android ของฉัน

KDE connect ช่วยให้คุณใช้อุปกรณ์ android เป็นอุปกรณ์ป้อนข้อมูลสำหรับคอมพิวเตอร์ Linux ของคุณ (นอกจากนี้ยังมีคุณสมบัติอื่น ๆ ) คุณต้องติดตั้งแอพเชื่อมต่อ KDE จาก Google play store บนสมาร์ทโฟน / แท็บเล็ตและติดตั้งทั้ง kdeconnect และ indicator-kdeconnect บนคอมพิวเตอร์ Linux ของคุณ สำหรับระบบ Ubuntu การติดตั้งจะเป็นดังนี้:

sudo add-apt-repository ppa:vikoadi/ppa
sudo apt update
sudo apt install kdeconnect indicator-kdeconnect

ข้อเสียของการติดตั้งนี้คือการติดตั้งแพ็คเกจ KDE มากมายที่คุณไม่ต้องการหากคุณไม่ได้ใช้สภาพแวดล้อมเดสก์ทอป KDE

เมื่อคุณจับคู่อุปกรณ์ Android กับคอมพิวเตอร์ (ต้องอยู่ในเครือข่ายเดียวกัน) คุณสามารถใช้แป้นพิมพ์ android แล้วคลิก / กดที่ไมโครโฟนเพื่อใช้การรู้จำเสียงของ Google เมื่อคุณพูดข้อความจะเริ่มปรากฏขึ้นเมื่อเคอร์เซอร์ของคุณทำงานบนคอมพิวเตอร์ Linux

สำหรับผลลัพธ์นั้นพวกเขาผสมกันเล็กน้อยสำหรับฉันในขณะที่ฉันกำลังเขียนเอกสารดาราศาสตร์ทางเทคนิคและการรู้จำเสียงพูดของ Google กำลังดิ้นรนกับศัพท์แสงที่คุณไม่ได้อ่าน ยังลืมเกี่ยวกับการหาเครื่องหมายวรรคตอนหรือการใช้อักษรตัวพิมพ์ใหญ่ที่เหมาะสม

— shockburner
แหล่งที่มา

4

สำหรับตอนนี้มีเพียงสมุดบันทึกเสียงเท่านั้นที่ใช้งานได้ใน Linux

— อเล็กซี่
แหล่งที่มา

2

ขอขอบคุณมันใช้งานได้เฉพาะในเบราว์เซอร์ Chrome เท่านั้น

— Franck Dernoncourt

3

ในฐานะที่เป็นอีกหนึ่ง Linuxer ค้นหาโปรแกรมคำพูดเป็นข้อความ (คำสั่ง) ที่มีประโยชน์ฉันจึงดูเป็น speechpad.pw:

มันสามารถจดจำภาษาแม่ของฉันได้เป็นอย่างดี
มันทำงานได้อย่างรวดเร็วและเชื่อถือได้มาก

ข้อเสีย:

แน่นอนว่าเป็นซอฟต์แวร์ที่เป็นกรรมสิทธิ์และปิดจาก Google
บริการของ Google จะรับฟังดำเนินการและเก็บทุกคำที่คุณพูด
เสียงและข้อความจะถูกประมวลผลและเก็บไว้อย่างชัดเจนโดย Google
speechpad.pw ต้องมีค่าสมัครรายเดือน / ไตรมาส / รายปี
speechpad.pw ทำงานเป็นส่วนเสริมไปยังเบราว์เซอร์ Google Chrome เท่านั้น - ไม่มีเบราว์เซอร์อื่น

ดังนั้น speechpad.pw จึงเป็นกรรมสิทธิ์และเป็นแหล่งข้อมูลปิดและผูกพันกับ Google ซึ่งเราทุกคนรู้ว่าเป็นเมตาดาต้าที่ไม่ต้องนอนหลับข้อมูลส่วนบุคคลและตัวรวบรวมเนื้อหาส่วนตัว

ข้อเสียเหล่านี้ทำให้มันเป็นแอพพลิเคชั่นสำหรับฉันแม้ว่าการรู้จำเสียงพูดนั้นใช้งานได้ดีมาก - ดีกว่าสิ่งอื่นใดที่ฉันเคยเห็น

— เกินไป
แหล่งที่มา

ขอขอบคุณใช่ข้อเสียอย่างมีนัยสำคัญโดยเฉพาะอย่างยิ่งมันทำงานเฉพาะในเบราว์เซอร์ Chrome

— Franck Dernoncourt

1

คุณสามารถใช้ Google เอกสารบน Chrome และใช้ตัวเลือก "เครื่องมือ" » "พิมพ์ดีดเสียง ... " ซอฟแวร์รู้จำเสียงคำพูดที่แน่นอนอาจเหมือนกัน แต่มันฟรี จากนั้นคัดลอกวางผลลัพธ์จากเอกสารของคุณไปยังทุกที่ที่คุณต้องการข้อความ

— Alexis Wilke

2

แอป Chrome "VoiceNote II" ( http://voicenote.in/ ) ทำงานได้ดีบนเครื่อง Xubuntu 16.04 ของฉัน ไม่ต้องใช้การฝึกอบรมด้วยเสียงและการตั้งค่านั้นง่าย ค้นหาเดียวเพื่อค้นหาคลิกเดียวเพื่อติดตั้งคลิกเดียวเพื่อสร้างทางลัดและไปที่เดสก์ท็อปผูกไว้

— Indy Tech Fix
แหล่งที่มา

ขอขอบคุณใช้งานได้เฉพาะใน Google Chrome เท่านั้น

— Franck Dernoncourt

0

ฉันขอแนะนำให้ใช้ dragon บนโทรศัพท์หรือแท็บเล็ตจากนั้นส่งอีเมลข้อความถึงตัวคุณเอง มันเป็นการลาก แต่มันใช้งานได้และแม่นยำมาก หากคุณยืนยันในการใช้ Linux สำหรับสิ่งนี้การได้รับจอแสดงผลที่สองจะทำให้ชีวิตง่ายขึ้นในการคัดลอกและผ่านมา

ฉันยังไม่ได้ลองสิ่งนี้ แต่คุณอาจจะสามารถใช้หรือดัดแปลงโปรแกรม Python Bluetooth Chat ด้วย dragon บนแท็บเล็ต / โทรศัพท์ของคุณ อาจมีแอพแป้นพิมพ์ระยะไกลสำหรับอุปกรณ์มือถือที่อาจรองรับการป้อนข้อมูลตามคำบอก

ฉันจะทดลองและพยายามกลับไปหาคุณด้วยสิ่งที่ชัดเจนยิ่งขึ้น

— user273470
แหล่งที่มา

0

ฉันใช้แอพ KD Connect มันทำงานค่อนข้างมีประสิทธิภาพ! ฉันสามารถเฝ้าดูหน้าจอขณะพูดกับโทรศัพท์บนโต๊ะ ข้อเสียเพียงอย่างเดียวคือสิ่งนี้กำลังดำเนินการผ่านแป้นพิมพ์ของ Google มันไม่ได้ฟรีความเป็นเจ้าของหรือโอเพนซอร์สความคิดเห็นนี้ถูกโพสต์โดยไม่ต้องทำการแก้ไขใด ๆ และพิมพ์

— Josh Levine
แหล่งที่มา

-2

คุณสามารถใช้การพูดเป็นข้อความในแอปพลิเคชัน Linux แอปพลิเคชันนี้ใช้ Google Speech Api และโมดูลการรวมไบนารีสำหรับ Linux 32 หรือ 64 บิต คุณสามารถดูการนำเสนอสั้น ๆ เกี่ยวกับการใช้เครื่องมือ speechpad.pw ใน Ubuntu

— Pavel Popov
แหล่งที่มา

1

OP กำลังมองหาเอ็นจินคำพูดเป็นข้อความ นั่นเป็นเพียงเครื่องมือห่อหุ้ม web-UI (และสิ่งที่ไม่ดีในนั้น) รอบ ๆ เอ็นจิ้น STT

— Cerin