ฉันกำลังมองหาซอฟต์แวร์ติดตั้งข้อความเป็นคำพูดที่ใช้งานง่ายสำหรับ Ubuntu ที่ฟังดูเป็นธรรมชาติ ฉันติดตั้งFestival
แล้วGespeaker
ฯลฯ แต่ไม่มีอะไรฟังดูเป็นธรรมชาติมาก ทั้งหมดสังเคราะห์มากและยากที่จะเข้าใจ
มีคำแนะนำอะไรบ้าง?
ฉันกำลังมองหาซอฟต์แวร์ติดตั้งข้อความเป็นคำพูดที่ใช้งานง่ายสำหรับ Ubuntu ที่ฟังดูเป็นธรรมชาติ ฉันติดตั้งFestival
แล้วGespeaker
ฯลฯ แต่ไม่มีอะไรฟังดูเป็นธรรมชาติมาก ทั้งหมดสังเคราะห์มากและยากที่จะเข้าใจ
มีคำแนะนำอะไรบ้าง?
คำตอบ:
TTS ที่เรียบง่ายมากเสียงดีกว่า espeak หรือ mbrola (ในใจของฉัน) ข้อมูลบางอย่างที่นี่
ฉันไม่เข้าใจว่าทำไม pico2wave เทียบกับ espeak หรือ mbrola ไม่ค่อยพูดถึง มันเล็ก แต่ฟังดูดี (เป็นธรรมชาติ) คุณจะได้ยินเสียงผู้หญิงที่เป็นธรรมชาติ
และ ... เมื่อเปรียบเทียบกับ Mbrola จะรับรู้ยูนิตและพูดอย่างถูกต้อง!
ตัวอย่างเช่น:
หลังจากการติดตั้งฉันใช้มันในสคริปต์:
#!/bin/bash
pico2wave -w=/tmp/test.wav "$1"
aplay /tmp/test.wav
rm /tmp/test.wav
จากนั้นเรียกใช้ด้วยข้อความที่ต้องการ:
<scriptname>.sh "hello world"
หรืออ่านเนื้อหาของไฟล์ทั้งหมด:
<scriptname>.sh "$(cat <filename>)"
ทั้งหมดนี้คือ TTS ที่ใช้งานได้น้ำหนักเบาและเสถียรบน Ubuntu
pico2wave
อยู่ในแพ็คเกจlibttspico-utils
ใน Ubuntu รุ่นล่าสุด @ CarlosEugenioThompsonPinzóncat <filename> | xargs -I foo -0 pico2wave -w blah.wav foo
pico2wave -w a.wav "$(input.txt)"
=) ยอมรับว่าอินเตอร์เฟซ CLI นี้คือการออกแบบที่ไม่ดี: แตกต่างจากคนส่วนใหญ่ของ CLIs และเป็นไปได้ที่จะไปถึงระบบปฏิบัติการความยาวสูงสุด CLI หาเรื่อง
echo {1..1000}
ฉันเชื่อว่าฉันได้พบซอฟต์แวร์ TTS ที่ดีที่สุดฟรีโดยใช้ส่วนขยายของ Google Chrome ที่ชื่อว่า "SpeakIt" ใช้งานได้เฉพาะในเบราว์เซอร์ Chrome สำหรับฉันบน Ubuntu ไม่ทำงานกับ Chromium ด้วยเหตุผลบางอย่าง SpeakIt มาพร้อมกับเสียงผู้หญิงสองคนซึ่งทั้งสองฟังดูสมจริงมากเมื่อเทียบกับทุกอย่างที่อยู่ในนั้น มีอย่างน้อยสี่เสียงชาย & หญิงในรายการส่วนขยายของ Chrome หากคุณค้นหา Chrome เว็บสโตร์โดยใช้ "TTS" เป็นข้อความค้นหาของคุณ
การใช้งาน : สำหรับใช้บนเว็บไซต์ คุณเน้นข้อความที่คุณต้องการอ่านและคลิกขวาและ "SpeakIt" หรือคลิกไอคอน SpeakIt ที่เชื่อมต่อกับแถบด้านบนของ Chrome
ผู้ใช้ Firefox มีสองตัวเลือก ในส่วนเสริมของ Firefox ทำการค้นหา TTSและคุณควรพบ "คลิกพูด" และ "ข้อความเป็นเสียง" เสียงไม่ดีเท่าเสียง Chrome SpeakIt แต่ใช้ได้อย่างแน่นอน
นามสกุล SpeakIt ใช้เทคโนโลยี iSpeech และราคา $ 20 ต่อปีเว็บไซต์สามารถแปลงข้อความเป็นไฟล์เสียง MP3 คุณสามารถป้อนข้อความ URL ฟีด RSS รวมถึงเอกสารเช่น TXT DOC และ PDF และส่งออกเป็น MP3 คุณสามารถสร้างพอดแคสต์ฝังเสียง ฯลฯนี่คือลิงก์และตัวอย่างเสียงของพวกเขา (ไม่ทราบว่าลิงก์จะมีอายุการใช้งานนานเท่าใด)
Pico และ Espeak นั้นสนุกและง่ายต่อการทำงาน แต่มันก็ไม่ได้ดีทั้งหมด เสียงเริ่มต้นของเทศกาลก็ไม่ค่อยดีเช่นกัน อย่างไรก็ตาม Festival เป็นกรอบการพูดตามโครงร่างซึ่งนักวิจัยจำนวนหนึ่งได้สร้างเสียงปลั๊กอินที่ดีกว่ามาก คุณสามารถเหนือกว่าคุณภาพ pico2wave ในอูบุนตูได้อย่างง่ายดายเพราะหนึ่งในเสียงนั้นมีให้ใช้งานเป็นแพ็คเกจสำเร็จรูป
ในการทำให้เทศกาลเป็นเสียงที่เป็นธรรมชาติต่อไปนี้เป็นสิ่งที่ต้องทำ:
sudo apt-get install festival
sudo apt-get install festvox-us-slt-hts
festival -i
festival> (voice_cmu_us_slt_arctic_hts)
festival> (SayText "Don't hate me, I'm just doing my job!")
คุณสามารถทำได้จากบรรทัดคำสั่งโดยใช้-b
(หรือ--batch
) และวางแต่ละคำสั่งลงในเครื่องหมายคำพูดเดี่ยว:
festival -b '(voice_cmu_us_slt_arctic_hts)' \
'(SayText "The temperature is 22 degrees centigrade and there is a slight breeze from the west.")'
คุณสามารถรับเสียงอื่น ๆ ได้ค่อนข้างดีจากที่เก็บ Nitech แต่การติดตั้งเป็นเสียงสุดท้ายและเส้นทางเริ่มต้นเปลี่ยนไปดังนั้นชื่อไฟล์ที่อ้างอิงในไฟล์ชุดร่างอาจต้องแก้ไขด้วยตนเองเพื่อให้ทำงานบน Ubuntu ได้
อัปเดตจากหน้าโครงการ (2019-02) : โครงการนี้ไม่มีการระบายในปัจจุบันและจะยังคงอยู่ในอนาคตอันใกล้
เนื่องจากไม่มีทางเลือกที่ดีกว่านี้ฉันจึงเขียนสคริปต์ทุบตีที่เชื่อมต่อกับสคริปต์ Perl โดย Michal Fapsoเพื่อให้ TTS ผ่าน Google Translate จากคำอธิบายโครงการ:
ความตั้งใจคือการให้อินเทอร์เฟซที่ใช้งานง่ายเพื่อส่งออกข้อความเป็นคำพูดผ่านระบบสังเคราะห์เสียงพูดของ Google ตัวเลือกสำรองโดยใช้ pico2wave ให้การสังเคราะห์ TTS โดยอัตโนมัติในกรณีที่ไม่พบการเชื่อมต่ออินเทอร์เน็ต
wrapper รองรับการอ่านจากอินพุตมาตรฐานไฟล์ข้อความธรรมดาและการเลือก X (ข้อความที่เน้นสี)
คุณสมบัติหลักคือ:
การติดตั้งและการใช้งานที่ได้รับการบันทึกในหน้าโครงการ
ฉันจะดีใจถ้าคุณได้ลอง รายงานข้อผิดพลาดและข้อเสนอแนะอื่น ๆยินดีต้อนรับ!
ฉันดูสูงและต่ำสำหรับข้อความที่เป็นคำพูดสำหรับ Ubuntu ที่มีคุณภาพสูง ไม่มีเลย สายเสียงของฉันจะเป็นอัมพาตดังนั้นผมจึงจำเป็น TTS เพื่อเพิ่มคำแนะนำการใช้เสียงของฉันวิดีโออูบุนตู คุณจะได้รับข้อความที่มีคุณภาพสูงเชิงพาณิชย์ลินุกซ์ซอฟแวร์การพูดที่นี่ มันแพงจริงๆ ฉันลงเอยด้วยการซื้อ Natural Reader สำหรับ Windows (ไม่ทำงานใน Ubuntu ภายใต้ Wine) ในราคา $ 40 หลังจากนั้นฉันจะได้รับ Linux
ฉันได้ทำการวิจัยเกี่ยวกับเสียงที่ดีที่สุดและปรับข้อความเป็นเสียงพูดได้อย่างง่ายดาย ด้านล่างนี้เป็นรายการสิ่งที่ฉันคิดว่าเป็นผลิตภัณฑ์ 5 อันดับแรกตามลำดับคุณภาพเสียง เว็บไซต์ส่วนใหญ่ที่เกี่ยวข้องกับผลิตภัณฑ์เหล่านี้มีการสาธิตเชิงโต้ตอบที่จะช่วยให้คุณตัดสินใจได้เอง
ฉันพบเสียงของ Nitech HTS ในงานเทศกาลที่เป็นธรรมชาติมากและให้ความสะดวกสบายกับเสียงอื่น ๆ ที่ฉันเคยได้ยิน ดูลิงค์นี้เกี่ยวกับวิธีการตั้งค่า Nitech และเสียงอื่น ๆ ที่มีในงานเทศกาล ฉันไม่พบ gui ที่ดีที่ฉันสามารถใช้เพื่อกำหนดค่าเสียงเหล่านั้น แต่การตั้งค่าผ่านทาง festival.scm ยังคงใช้งานได้ โพสต์นั้นเก่ามากและคุณอาจต้องการค้นหาไดเรกทอรีการติดตั้งจริงโดยใช้คำสั่ง "ค้นหาเทศกาล"
รวมเครื่องมือ SVOX (pico) กับ LibreOffice:
เครื่องมือ SVOX (pico) ติดตั้งง่ายและนำเสียงคุณภาพดีมาใช้ใน Ubuntu ติดตั้ง:
sudo apt-get install libttspico0 libttspico-utils libttspico-data
คุณสามารถใช้ LibreOffice ร่วมกับเครื่องมือ SVOX (pico) โดยติดตั้งส่วนขยาย "อ่านข้อความ"และคุณได้รับ "GUI" สำหรับซอฟต์แวร์ TTS ที่ยอดเยี่ยมนี้:
ตั้งค่าตัวเลือก Read Text Extensionพร้อมเครื่องมือ - ส่วนเสริม - อ่านตัวเลือก ....ใช้/ usr / bin / pythonเป็นโปรแกรมภายนอก เลือกตัวเลือกบรรทัดคำสั่งที่มีโทเค็น(PICO_READ_TEXT_PY)คุณอาจต้องการทดลองใช้บางส่วน
ตอนนี้คุณต้องเลือกข้อความบางส่วนใน LO Writer, Calc, Impress หรือ Draw และคลิกบนไอคอนที่เพิ่มเป็นแถบเครื่องมือ (ใบหน้าที่มีความสุขกับลูกโป่ง)
นี่คือสิ่งที่ฉันทำเพื่อให้ได้เสียงพูดที่เป็นธรรมชาติอย่างแท้จริงสำหรับไฟล์ PDF และไฟล์ข้อความอื่น ๆ (โซลูชันอื่น ๆ นั้นไม่เป็นธรรมชาติหรือเป็นบริการชำระเงิน) อันที่จริงแล้วมันใช้งานได้กับโครเมียมหรือโครเมียม แต่ใช้งานได้ง่ายและรวดเร็ว
นอกจากนี้ยังมีวิธีการเปิดไฟล์อื่น ๆ เช่น. doc และ. txt ใน chrome และทำได้เช่นเดียวกัน มีส่วนขยายอื่นสำหรับ Chrome ที่ดูไฟล์ pdf ตรวจสอบว่าเหมาะกับคุณดีกว่าหรือไม่ นอกจากนี้คุณสามารถอัปโหลดข้อความทุกประเภทใน Google Drive และใช้ SpeakIt! เพื่ออ่านให้คุณฟัง ส่วนขยายอื่นที่เรียกว่า 'พูดข้อความ' ทำงานในลักษณะเดียวกันและมีคำพูดที่เป็นธรรมชาติ
เมื่อค้นหาเครื่องมือ tts ที่ดีกว่าเพื่อใช้กับโหมดการเล่าเรื่องใหม่ของfirefox 49ฉันพบpico tts (svox) - โปรแกรม TTS ที่ฉันโปรดปราน
sudo apt install espeak libttspico0 libttspico-data libttspico-utils
จะเปลี่ยนระบบเครื่องมือสังเคราะห์เสียงพูดที่เป็นค่าเริ่มต้นได้อย่างไร
ผู้คนที่ arch linuxพาฉันไปยังเส้นทางที่ถูกต้อง:
ยกเลิกการใส่ข้อคิดเห็นโมดูลที่คุณชอบและทำให้เป็นค่าเริ่มต้นในการตั้งค่าตัวถอดเสียงพูด:
# sudo vim /etc/speech-dispatcher/speechd.conf
[...]
# -----OUTPUT MODULES CONFIGURATION-----
# Each AddModule line loads an output module.
#AddModule "espeak" "sd_espeak" "espeak.conf"
AddModule "pico-generic" "sd_generic" "pico-generic.conf"
[...]
#DefaultModule espeak
DefaultModule pico-generic
รีสตาร์ท daemon:
# sudo systemctl restart speech-dispatcher.service
แต่เมื่อเริ่มต้น Firefox อีกครั้งไม่มีอะไรเกิดขึ้น ตามลิงค์ด้านบน (โพสต์ฟอรั่มโค้ง # 10 และ # 16) ทำงานร่วมกับเทศกาล (ไม่ได้ลอง) แต่ตัวเลือกคำพูดสำหรับ pico ไม่มีรายการเสียงที่พร้อมใช้งาน มันจะไม่ทำงาน
ความคิดใด ๆ ออกมาจะได้รับการชื่นชมอย่างมาก ;-)
โปรแกรมอ่านออกเสียงข้อความที่ชื่นชอบเรียกว่า Magic English แต่เช่นเดียวกับ Natural Reader ที่กล่าวถึงโดย Joe Steiger เป็นโปรแกรม Windows และฉันไม่แน่ใจว่าจะทำงานภายใต้ Wine หรือไม่
AT&T Natural Voicesพร้อมใช้งานออนไลน์เป็นตัวอย่าง แต่นั่นเป็นวิธีแก้ปัญหามากกว่าโซลูชัน ...
Pico, mbrola, cmu, เทศกาล, flite, SUCK ทั้งหมดในปี 2560 (พวกมันยอดเยี่ยมมากในช่วง 90s) คำพูดตามธรรมชาติของ AT&T (ซึ่งยอดเยี่ยมมาก) ไม่ใช่การใช้ร่วมกับ linux และไม่ฟรีดังนั้นเราจึงใช้ Google
git clone https://github.com/Glutanimate/simple-google-tts.git
sudo apt install xsel libnotify-bin libttspico0 libttspico-utils libttspico-data libwww-perl libwww-mechanize-perl libhtml-tree-perl so$
cd simple-google-tts
sudo ln -s `pwd`/simple_google_tts /usr/local/bin
simple_google_tts en "Text to speech is now installed"
cd -
gTTS ( Google Text-to-Speech ), ห้องสมุด Python และเครื่องมือ CLI เพื่อเชื่อมต่อกับ API ข้อความเป็นคำพูดของ Google Translate เขียนพูด
mp3
ข้อมูลไปยังแฟ้มวัตถุไฟล์เหมือน (bytestring)stdout
สำหรับการจัดการเสียงเพิ่มเติมหรือ
จุดด้อย : CLI เท่านั้น จำเป็นต้องออนไลน์เพราะต้องขอไปยังจุดปลายเปิดสาธารณะของ Google
sudo -H pip install gTTS # Install
การใช้
gtts-cli 'hello' --output hello.mp3
gtts-cli -l es 'Nadie es patria, todos lo somos' | play -t mp3 -
บางคนถูกกล่าวถึงแล้ว
sudo apt-get install gcc make pkg-config automake libtool libasound2-dev
git clone https://github.com/MycroftAI/mimic.git # take a while
cd mimic
./dependencies.sh --prefix="/usr/local" # take a while
./autogen.sh
./configure --prefix="/usr/local"
make # take a while
make check
eSpeak + Gespeaker (GUI) ( ซอร์สโค้ด Gespeaker )
จุดด้อย : เก่าและน่าเกลียด
sudo apt install espeak gespeaker
สำหรับสิ่งที่ฉันสร้างลำโพงอัจฉริยะ - ส่วนขยายสำหรับ Google Chrome มันสามารถอ่านหน้าได้โดยไม่ต้องเลือก (เมื่อการกักตัวข้อความถูกต้อง)