มีซอฟต์แวร์รู้จำเสียงที่ดีสำหรับ Linux หรือไม่?


49

คำถามสั้น ๆ : ฉันกำลังมองหาซอฟต์แวร์รู้จำเสียงพูดที่ทำงานบน Linux และมีความแม่นยำและการใช้งานที่เหมาะสม ใบอนุญาตและราคาใด ๆ ก็ดี ไม่ควร จำกัด คำสั่งเสียงเนื่องจากฉันต้องการให้สามารถกำหนดข้อความได้


รายละเอียดเพิ่มเติม:

ฉันได้ลองทำอย่างต่อไปนี้แล้ว:

โซลูชัน Linux ดั้งเดิมทั้งหมดที่กล่าวถึงข้างต้นมีทั้งความแม่นยำและการใช้งานที่ไม่ดี (หรือบางอย่างไม่อนุญาตให้เขียนตามคำบอกข้อความอิสระ ด้วยความแม่นยำต่ำฉันหมายถึงความแม่นยำต่ำกว่าซอฟต์แวร์การจดจำเสียงที่ฉันพูดถึงด้านล่างสำหรับแพลตฟอร์มอื่น ๆ อย่างมีนัยสำคัญ สำหรับ Wine + Dragon NaturSpeaking จากประสบการณ์ของฉันมันยังคงพังอยู่และฉันก็ไม่ได้เป็นคนเดียวที่มีปัญหาเช่นนี้

ใน Microsoft Windows ฉันใช้ Dragon NaturallySpeaking บน Apple Mac OS XI ใช้ Apple Dictation และ DragonDictate บน Android ฉันใช้การรู้จำเสียงของ Google และ iOS ฉันใช้การรู้จำเสียงในตัวของ Apple

Baidu วิจัยการปล่อยตัวออกมาเมื่อวานนี้รหัสสำหรับไลบรารีรู้จำเสียงพูดที่ใช้Connectionist Temporal การจำแนกประเภทการใช้งานกับไฟฉาย มาตรฐานจากGigaomให้กำลังใจดังที่แสดงในภาพหน้าจอด้านล่าง แต่ฉันไม่ได้ตระหนักถึง wrapper ที่ดีรอบ ๆ เพื่อให้สามารถใช้งานได้โดยไม่ต้องมีการเข้ารหัส (และชุดข้อมูลการฝึกอบรมขนาดใหญ่):

ป้อนคำอธิบายรูปภาพที่นี่

มีโครงการโอเพนซอร์ซบางตัวอยู่มาก:

ฉันยังรับรู้ถึงความพยายามนี้ในการติดตามสถานะของศิลปะและผลลัพธ์ล่าสุด (บรรณานุกรม) เกี่ยวกับการรู้จำเสียง เช่นเดียวกับนี้มาตรฐานที่มีอยู่ APIs


ฉันรู้เรื่อง Aeneaซึ่งอนุญาตให้รู้จำเสียงผ่าน Dragonfly บนคอมพิวเตอร์เครื่องหนึ่งเพื่อส่งกิจกรรมไปยังอีกเครื่องหนึ่ง แต่มีค่าใช้จ่ายในการตอบสนอง:

ป้อนคำอธิบายรูปภาพที่นี่

ฉันยังตระหนักถึงการเจรจาสองครั้งนี้เพื่อสำรวจตัวเลือก Linux สำหรับการรู้จำเสียง:


2
รายละเอียดบางอย่างเกี่ยวกับสิ่งที่คุณพบว่า "ไม่พอใจ" อาจเพิ่มหัวข้อการโพสต์ที่น่าสนใจ แต่เป็นเรื่องทั่วไป ตัวอย่างเช่นคุณพบว่าไม่พึงพอใจอะไรเป็นพิเศษเกี่ยวกับชุดค่าผสม "ไวน์ + Dragon NaturallySpeaking" (มันล้มเหลวในการทำซ้ำประสบการณ์ Windows ของคุณได้อย่างไร)
Theophrastus

1
@Theophrastus โดยพื้นฐานแล้วโซลูชั่น Linux ดั้งเดิมทั้งหมดนั้นมีทั้งความแม่นยำและการใช้งานที่ไม่ดี ด้วยความแม่นยำต่ำฉันหมายถึงความแม่นยำต่ำกว่าซอฟต์แวร์การจดจำเสียงพูดที่ฉันพูดถึงแพลตฟอร์มอื่น ๆ อย่างมีนัยสำคัญ สำหรับ Wine + Dragon NaturSpeaking จากประสบการณ์ของฉันมันยังคงพังและฉันไม่ได้เป็นคนเดียวที่จะมีปัญหาดังกล่าวโชคไม่ดี ( appdb.winehq.org/ … )
Franck Dernoncourt

1
ฉันไม่ได้ลองสิ่งเหล่านี้ แต่ในกรณีที่บางคนพบว่ามีประโยชน์: github.com/Uberi/speech_recognitionและjasperproject.github.ioและgithub.com/benoitfragit/google2ubuntu
Hatshepsut

มีหนึ่งในซอฟต์แวร์เหล่านี้ที่มีเครื่องมือบรรทัดคำสั่งหรือไม่ มันน่าสนใจมากที่จะรวมการรู้จำเสียงเข้ากับเครื่องมือกดปุ่มและ mousemove เช่น xdotool ( github.com/jordansissel/xdotool ) หรือ xsendkey ( github.com/kyoto/sendkeys )
baptx

คำตอบ:


13

ตอนนี้ฉันกำลังทดลองใช้การเชื่อมต่อ KDE ร่วมกับการรู้จำเสียงของ Google บนสมาร์ทโฟน Android ของฉัน

KDE connect ช่วยให้คุณใช้อุปกรณ์ android เป็นอุปกรณ์ป้อนข้อมูลสำหรับคอมพิวเตอร์ Linux ของคุณ (นอกจากนี้ยังมีคุณสมบัติอื่น ๆ ) คุณต้องติดตั้งแอพเชื่อมต่อ KDE จาก Google play store บนสมาร์ทโฟน / แท็บเล็ตและติดตั้งทั้ง kdeconnect และ indicator-kdeconnect บนคอมพิวเตอร์ Linux ของคุณ สำหรับระบบ Ubuntu การติดตั้งจะเป็นดังนี้:

sudo add-apt-repository ppa:vikoadi/ppa
sudo apt update
sudo apt install kdeconnect indicator-kdeconnect

ข้อเสียของการติดตั้งนี้คือการติดตั้งแพ็คเกจ KDE มากมายที่คุณไม่ต้องการหากคุณไม่ได้ใช้สภาพแวดล้อมเดสก์ทอป KDE

เมื่อคุณจับคู่อุปกรณ์ Android กับคอมพิวเตอร์ (ต้องอยู่ในเครือข่ายเดียวกัน) คุณสามารถใช้แป้นพิมพ์ android แล้วคลิก / กดที่ไมโครโฟนเพื่อใช้การรู้จำเสียงของ Google เมื่อคุณพูดข้อความจะเริ่มปรากฏขึ้นเมื่อเคอร์เซอร์ของคุณทำงานบนคอมพิวเตอร์ Linux

สำหรับผลลัพธ์นั้นพวกเขาผสมกันเล็กน้อยสำหรับฉันในขณะที่ฉันกำลังเขียนเอกสารดาราศาสตร์ทางเทคนิคและการรู้จำเสียงพูดของ Google กำลังดิ้นรนกับศัพท์แสงที่คุณไม่ได้อ่าน ยังลืมเกี่ยวกับการหาเครื่องหมายวรรคตอนหรือการใช้อักษรตัวพิมพ์ใหญ่ที่เหมาะสม

ป้อนคำอธิบายรูปภาพที่นี่

ป้อนคำอธิบายรูปภาพที่นี่



3

ในฐานะที่เป็นอีกหนึ่ง Linuxer ค้นหาโปรแกรมคำพูดเป็นข้อความ (คำสั่ง) ที่มีประโยชน์ฉันจึงดูเป็น speechpad.pw:

  • มันสามารถจดจำภาษาแม่ของฉันได้เป็นอย่างดี
  • มันทำงานได้อย่างรวดเร็วและเชื่อถือได้มาก

ข้อเสีย:

  • แน่นอนว่าเป็นซอฟต์แวร์ที่เป็นกรรมสิทธิ์และปิดจาก Google
  • บริการของ Google จะรับฟังดำเนินการและเก็บทุกคำที่คุณพูด
  • เสียงและข้อความจะถูกประมวลผลและเก็บไว้อย่างชัดเจนโดย Google
  • speechpad.pw ต้องมีค่าสมัครรายเดือน / ไตรมาส / รายปี
  • speechpad.pw ทำงานเป็นส่วนเสริมไปยังเบราว์เซอร์ Google Chrome เท่านั้น - ไม่มีเบราว์เซอร์อื่น

ดังนั้น speechpad.pw จึงเป็นกรรมสิทธิ์และเป็นแหล่งข้อมูลปิดและผูกพันกับ Google ซึ่งเราทุกคนรู้ว่าเป็นเมตาดาต้าที่ไม่ต้องนอนหลับข้อมูลส่วนบุคคลและตัวรวบรวมเนื้อหาส่วนตัว

ข้อเสียเหล่านี้ทำให้มันเป็นแอพพลิเคชั่นสำหรับฉันแม้ว่าการรู้จำเสียงพูดนั้นใช้งานได้ดีมาก - ดีกว่าสิ่งอื่นใดที่ฉันเคยเห็น


ขอขอบคุณใช่ข้อเสียอย่างมีนัยสำคัญโดยเฉพาะอย่างยิ่งมันทำงานเฉพาะในเบราว์เซอร์ Chrome
Franck Dernoncourt

1
คุณสามารถใช้ Google เอกสารบน Chrome และใช้ตัวเลือก "เครื่องมือ" » "พิมพ์ดีดเสียง ... " ซอฟแวร์รู้จำเสียงคำพูดที่แน่นอนอาจเหมือนกัน แต่มันฟรี จากนั้นคัดลอกวางผลลัพธ์จากเอกสารของคุณไปยังทุกที่ที่คุณต้องการข้อความ
Alexis Wilke

2

แอป Chrome "VoiceNote II" ( http://voicenote.in/ ) ทำงานได้ดีบนเครื่อง Xubuntu 16.04 ของฉัน ไม่ต้องใช้การฝึกอบรมด้วยเสียงและการตั้งค่านั้นง่าย ค้นหาเดียวเพื่อค้นหาคลิกเดียวเพื่อติดตั้งคลิกเดียวเพื่อสร้างทางลัดและไปที่เดสก์ท็อปผูกไว้


ขอขอบคุณใช้งานได้เฉพาะใน Google Chrome เท่านั้น
Franck Dernoncourt

0

ฉันขอแนะนำให้ใช้ dragon บนโทรศัพท์หรือแท็บเล็ตจากนั้นส่งอีเมลข้อความถึงตัวคุณเอง มันเป็นการลาก แต่มันใช้งานได้และแม่นยำมาก หากคุณยืนยันในการใช้ Linux สำหรับสิ่งนี้การได้รับจอแสดงผลที่สองจะทำให้ชีวิตง่ายขึ้นในการคัดลอกและผ่านมา

ฉันยังไม่ได้ลองสิ่งนี้ แต่คุณอาจจะสามารถใช้หรือดัดแปลงโปรแกรม Python Bluetooth Chat ด้วย dragon บนแท็บเล็ต / โทรศัพท์ของคุณ อาจมีแอพแป้นพิมพ์ระยะไกลสำหรับอุปกรณ์มือถือที่อาจรองรับการป้อนข้อมูลตามคำบอก

ฉันจะทดลองและพยายามกลับไปหาคุณด้วยสิ่งที่ชัดเจนยิ่งขึ้น


0

ฉันใช้แอพ KD Connect มันทำงานค่อนข้างมีประสิทธิภาพ! ฉันสามารถเฝ้าดูหน้าจอขณะพูดกับโทรศัพท์บนโต๊ะ ข้อเสียเพียงอย่างเดียวคือสิ่งนี้กำลังดำเนินการผ่านแป้นพิมพ์ของ Google มันไม่ได้ฟรีความเป็นเจ้าของหรือโอเพนซอร์สความคิดเห็นนี้ถูกโพสต์โดยไม่ต้องทำการแก้ไขใด ๆ และพิมพ์


-2

คุณสามารถใช้การพูดเป็นข้อความในแอปพลิเคชัน Linux แอปพลิเคชันนี้ใช้ Google Speech Api และโมดูลการรวมไบนารีสำหรับ Linux 32 หรือ 64 บิต คุณสามารถดูการนำเสนอสั้น ๆ เกี่ยวกับการใช้เครื่องมือ speechpad.pw ใน Ubuntu


1
OP กำลังมองหาเอ็นจินคำพูดเป็นข้อความ นั่นเป็นเพียงเครื่องมือห่อหุ้ม web-UI (และสิ่งที่ไม่ดีในนั้น) รอบ ๆ เอ็นจิ้น STT
Cerin
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.