ข้อความที่ทำให้เกิดเสียงพูดเป็นธรรมชาติ?


85

ฉันกำลังมองหาซอฟต์แวร์ติดตั้งข้อความเป็นคำพูดที่ใช้งานง่ายสำหรับ Ubuntu ที่ฟังดูเป็นธรรมชาติ ฉันติดตั้งFestivalแล้วGespeakerฯลฯ แต่ไม่มีอะไรฟังดูเป็นธรรมชาติมาก ทั้งหมดสังเคราะห์มากและยากที่จะเข้าใจ

มีคำแนะนำอะไรบ้าง?


คำตอบ:


51

SVOX pico2wave

TTS ที่เรียบง่ายมากเสียงดีกว่า espeak หรือ mbrola (ในใจของฉัน) ข้อมูลบางอย่างที่นี่

ฉันไม่เข้าใจว่าทำไม pico2wave เทียบกับ espeak หรือ mbrola ไม่ค่อยพูดถึง มันเล็ก แต่ฟังดูดี (เป็นธรรมชาติ) คุณจะได้ยินเสียงผู้หญิงที่เป็นธรรมชาติ

และ ... เมื่อเปรียบเทียบกับ Mbrola จะรับรู้ยูนิตและพูดอย่างถูกต้อง!
ตัวอย่างเช่น:

  • 2 ° C →สององศา
  • 2m →สองเมตร
  • 2 กิโลกรัม→สองกิโลกรัม

หลังจากการติดตั้งฉันใช้มันในสคริปต์:

#!/bin/bash
pico2wave -w=/tmp/test.wav "$1"
aplay /tmp/test.wav
rm /tmp/test.wav

จากนั้นเรียกใช้ด้วยข้อความที่ต้องการ:

<scriptname>.sh "hello world"

หรืออ่านเนื้อหาของไฟล์ทั้งหมด:

<scriptname>.sh "$(cat <filename>)"

ทั้งหมดนี้คือ TTS ที่ใช้งานได้น้ำหนักเบาและเสถียรบน Ubuntu


1
เท่าที่ฉันเห็นมันใช้พารามิเตอร์ cli เป็นอินพุตเท่านั้น มีวิธีใดบ้างที่ฉันจะได้รับ pico2wave ในการอ่านข้อความจากชื่อไฟล์?
Carlos Eugenio Thompson Pinzón

13
pico2waveอยู่ในแพ็คเกจlibttspico-utilsใน Ubuntu รุ่นล่าสุด @ CarlosEugenioThompsonPinzóncat <filename> | xargs -I foo -0 pico2wave -w blah.wav foo
naught101

1
@ CarlosEugenioThompsonPinzón pico2wave -w a.wav "$(input.txt)"=) ยอมรับว่าอินเตอร์เฟซ CLI นี้คือการออกแบบที่ไม่ดี: แตกต่างจากคนส่วนใหญ่ของ CLIs และเป็นไปได้ที่จะไปถึงระบบปฏิบัติการความยาวสูงสุด CLI หาเรื่อง
Ciro Santilli 事件改造中心法轮功六四事件

1
@ เขินฉันไม่รู้! :-) เช่นเดียวกับปัญหาอื่น ๆ พยายามสร้างตัวอย่างเล็ก ๆ น้อย ๆ เช่นใช้echo {1..1000}
Ciro Santilli 事件事件改造中心法轮功六四事件

1
@ user49557 เราไม่ควรโกงคำถามของผู้อื่นดังนั้นคุณอาจสร้างคำถามใหม่อธิบายสิ่งที่คุณติดตั้งไว้และสิ่งที่ผิดพลาดและฉันสามารถพยายามช่วยเหลือคุณได้เสมอ (ไม่มีการรับประกันแม้ว่า , ฉันไม่ใช่ผู้เชี่ยวชาญ: P)
Koen

22

SpeakIt!

ฉันเชื่อว่าฉันได้พบซอฟต์แวร์ TTS ที่ดีที่สุดฟรีโดยใช้ส่วนขยายของ Google Chrome ที่ชื่อว่า "SpeakIt" ใช้งานได้เฉพาะในเบราว์เซอร์ Chrome สำหรับฉันบน Ubuntu ไม่ทำงานกับ Chromium ด้วยเหตุผลบางอย่าง SpeakIt มาพร้อมกับเสียงผู้หญิงสองคนซึ่งทั้งสองฟังดูสมจริงมากเมื่อเทียบกับทุกอย่างที่อยู่ในนั้น มีอย่างน้อยสี่เสียงชาย & หญิงในรายการส่วนขยายของ Chrome หากคุณค้นหา Chrome เว็บสโตร์โดยใช้ "TTS" เป็นข้อความค้นหาของคุณ

การใช้งาน : สำหรับใช้บนเว็บไซต์ คุณเน้นข้อความที่คุณต้องการอ่านและคลิกขวาและ "SpeakIt" หรือคลิกไอคอน SpeakIt ที่เชื่อมต่อกับแถบด้านบนของ Chrome


ผู้ใช้ Firefox มีสองตัวเลือก ในส่วนเสริมของ Firefox ทำการค้นหา TTSและคุณควรพบ "คลิกพูด" และ "ข้อความเป็นเสียง" เสียงไม่ดีเท่าเสียง Chrome SpeakIt แต่ใช้ได้อย่างแน่นอน

นามสกุล SpeakIt ใช้เทคโนโลยี iSpeech และราคา $ 20 ต่อปีเว็บไซต์สามารถแปลงข้อความเป็นไฟล์เสียง MP3 คุณสามารถป้อนข้อความ URL ฟีด RSS รวมถึงเอกสารเช่น TXT DOC และ PDF และส่งออกเป็น MP3 คุณสามารถสร้างพอดแคสต์ฝังเสียง ฯลฯนี่คือลิงก์และตัวอย่างเสียงของพวกเขา (ไม่ทราบว่าลิงก์จะมีอายุการใช้งานนานเท่าใด)


3
น่าเสียดายที่ตัวเลือกเบราว์เซอร์ไม่ทำงานสำหรับไฟล์ PDF คุณเจอคนที่ไม่? ฉันต้องการให้สามารถเลือกย่อหน้าเพื่ออ่านจาก PDF (เช่นไม่ต้องวางบิตไปยังเทอร์มินัลหรืออื่น ๆ )
James Owers

1
ส่วนขยายนี้ใช้ได้กับฉันในโครเมียม 50.0.2661.94 โดยใช้ Debian 8.4 และเยี่ยมยอดมาก! ฉันชอบเสียงผู้หญิงอังกฤษโดยเฉพาะ ข้อร้องเรียนเพียงอย่างเดียวของฉันคือมันใช้เวลาในเครื่องหมายจุลภาคนานเกินไป
mulllhausen

มันมักจะออกเสียงคำผิดและใช้เวลาในการส่งข้อความไปยังเซิร์ฟเวอร์อื่นแทนที่จะใช้ระบบของคุณเอง
ก็อดดาร์ด

14

Pico และ Espeak นั้นสนุกและง่ายต่อการทำงาน แต่มันก็ไม่ได้ดีทั้งหมด เสียงเริ่มต้นของเทศกาลก็ไม่ค่อยดีเช่นกัน อย่างไรก็ตาม Festival เป็นกรอบการพูดตามโครงร่างซึ่งนักวิจัยจำนวนหนึ่งได้สร้างเสียงปลั๊กอินที่ดีกว่ามาก คุณสามารถเหนือกว่าคุณภาพ pico2wave ในอูบุนตูได้อย่างง่ายดายเพราะหนึ่งในเสียงนั้นมีให้ใช้งานเป็นแพ็คเกจสำเร็จรูป

ในการทำให้เทศกาลเป็นเสียงที่เป็นธรรมชาติต่อไปนี้เป็นสิ่งที่ต้องทำ:

sudo apt-get install festival
sudo apt-get install festvox-us-slt-hts
festival -i
festival> (voice_cmu_us_slt_arctic_hts) 
festival> (SayText "Don't hate me, I'm just doing my job!")

คุณสามารถทำได้จากบรรทัดคำสั่งโดยใช้-b(หรือ--batch) และวางแต่ละคำสั่งลงในเครื่องหมายคำพูดเดี่ยว:

festival -b '(voice_cmu_us_slt_arctic_hts)' \
    '(SayText "The temperature is 22 degrees centigrade and there is a slight breeze from the west.")'

คุณสามารถรับเสียงอื่น ๆ ได้ค่อนข้างดีจากที่เก็บ Nitech แต่การติดตั้งเป็นเสียงสุดท้ายและเส้นทางเริ่มต้นเปลี่ยนไปดังนั้นชื่อไฟล์ที่อ้างอิงในไฟล์ชุดร่างอาจต้องแก้ไขด้วยตนเองเพื่อให้ทำงานบน Ubuntu ได้


2
Btw ใน Ubuntu 16.04 ดูเหมือนว่าแพ็คเกจนี้จะหายไป คุณสามารถดาวน์โหลดและติดตั้ง deb จาก Debian และมันจะทำงานได้ดี: packages.debian.org/sid/all/festvox-us-slt-hts/download sudo dpkg -i Downloads / festvox-us-slt-hts_0.2010.10 25-2_all.deb
Jon Watte

13

Google ™ TTS อย่างง่าย

อัปเดตจากหน้าโครงการ (2019-02) : โครงการนี้ไม่มีการระบายในปัจจุบันและจะยังคงอยู่ในอนาคตอันใกล้


เนื่องจากไม่มีทางเลือกที่ดีกว่านี้ฉันจึงเขียนสคริปต์ทุบตีที่เชื่อมต่อกับสคริปต์ Perl โดย Michal Fapsoเพื่อให้ TTS ผ่าน Google Translate จากคำอธิบายโครงการ:

ความตั้งใจคือการให้อินเทอร์เฟซที่ใช้งานง่ายเพื่อส่งออกข้อความเป็นคำพูดผ่านระบบสังเคราะห์เสียงพูดของ Google ตัวเลือกสำรองโดยใช้ pico2wave ให้การสังเคราะห์ TTS โดยอัตโนมัติในกรณีที่ไม่พบการเชื่อมต่ออินเทอร์เน็ต

wrapper รองรับการอ่านจากอินพุตมาตรฐานไฟล์ข้อความธรรมดาและการเลือก X (ข้อความที่เน้นสี)

คุณสมบัติหลักคือ:

  • การสังเคราะห์ TTS ออนไลน์ผ่าน Google แปล
  • การสังเคราะห์ TTS ออฟไลน์ผ่าน pico2wave
  • รองรับภาษาที่แตกต่างหลากหลาย
  • สามารถอ่านได้จาก CLI ไฟล์ข้อความและข้อความที่เน้นสี
  • รองรับการอ่านข้อความที่เน้นด้วยการจัดรูปแบบคงที่ (เช่นไฟล์ PDF)

การติดตั้งและการใช้งานที่ได้รับการบันทึกในหน้าโครงการ

ฉันจะดีใจถ้าคุณได้ลอง รายงานข้อผิดพลาดและข้อเสนอแนะอื่น ๆยินดีต้อนรับ!


นี่เป็นหนึ่งในโปรเจคที่ยอดเยี่ยมที่สุดที่ฉันเคยเห็น แค่ว้าว 😲

5
สิ่งนี้ไม่ได้ถูกดูแลรักษาอีกต่อไป
Goddard

8

ฉันดูสูงและต่ำสำหรับข้อความที่เป็นคำพูดสำหรับ Ubuntu ที่มีคุณภาพสูง ไม่มีเลย สายเสียงของฉันจะเป็นอัมพาตดังนั้นผมจึงจำเป็น TTS เพื่อเพิ่มคำแนะนำการใช้เสียงของฉันวิดีโออูบุนตู คุณจะได้รับข้อความที่มีคุณภาพสูงเชิงพาณิชย์ลินุกซ์ซอฟแวร์การพูดที่นี่ มันแพงจริงๆ ฉันลงเอยด้วยการซื้อ Natural Reader สำหรับ Windows (ไม่ทำงานใน Ubuntu ภายใต้ Wine) ในราคา $ 40 หลังจากนั้นฉันจะได้รับ Linux


เพื่อนมีและฉันใช้มันเหมือนเมื่อสัปดาห์ที่แล้วมีอย่างน้อย 5 หรือ 6 และฉันไม่สามารถสำหรับชีวิตของฉันพบใด ๆ ของพวกเขาตอนนี้ต้องรักชุมชนของเรา
mchid

Textaloud มีคำแนะนำในการทำให้ผลิตภัณฑ์ทำงานได้ภายใต้ไวน์ ดูnextup.com/forum/viewtopic.php?t=3349 ฉันเชื่อว่า cepstral มีพอร์ต linux ด้วย ฉันไม่สามารถทำให้ซอฟต์แวร์ที่โปรดปรานโปรดทำงานได้ ฉันติดตั้ง windows 10 เป็นส่วนใหญ่สำหรับการประมวลผล TTS MS David นั้นดีและคล้ายกับ cepstral david รุ่นก่อนหน้านี้ฟรีถ้าคุณมี windows 10
Bhikkhu Subhuti

6

ฉันได้ทำการวิจัยเกี่ยวกับเสียงที่ดีที่สุดและปรับข้อความเป็นเสียงพูดได้อย่างง่ายดาย ด้านล่างนี้เป็นรายการสิ่งที่ฉันคิดว่าเป็นผลิตภัณฑ์ 5 อันดับแรกตามลำดับคุณภาพเสียง เว็บไซต์ส่วนใหญ่ที่เกี่ยวข้องกับผลิตภัณฑ์เหล่านี้มีการสาธิตเชิงโต้ตอบที่จะช่วยให้คุณตัดสินใจได้เอง

  1. NeoSpeech
  2. IVONA
  3. Acapela
  4. เสียงที่เป็นธรรมชาติของ AT&T
  5. เสียง CereProc

1
จะมีให้สำหรับ linux หรือไม่ idn't คิดอย่างนั้น
Mehdi Khademloo

5

ฉันพบเสียงของ Nitech HTS ในงานเทศกาลที่เป็นธรรมชาติมากและให้ความสะดวกสบายกับเสียงอื่น ๆ ที่ฉันเคยได้ยิน ดูลิงค์นี้เกี่ยวกับวิธีการตั้งค่า Nitech และเสียงอื่น ๆ ที่มีในงานเทศกาล ฉันไม่พบ gui ที่ดีที่ฉันสามารถใช้เพื่อกำหนดค่าเสียงเหล่านั้น แต่การตั้งค่าผ่านทาง festival.scm ยังคงใช้งานได้ โพสต์นั้นเก่ามากและคุณอาจต้องการค้นหาไดเรกทอรีการติดตั้งจริงโดยใช้คำสั่ง "ค้นหาเทศกาล"


ดูเหมือนว่าจะดีมาก พบการสาธิตได้ที่นี่cstr.ed.ac.uk/projects/festival/onlinedemo.html
Iacchus

2
ใช่เสียงของ Nitech นั้นเป็นหัวและไหล่เหนือเสียงของเทศกาลอื่น ๆ (ยกเว้นเสียงของ CMU ซึ่งก็ดีมากเช่นกัน) แย่มากที่จะติดตั้งยาก มีหนึ่งเสียง CMU ที่ดีที่มีแพ็คเกจเริ่มต้นใน Ubunut เรียกว่า cmu_us_slt_arctic_hts และมาในแพ็คเกจ festvox-us-slt-hts มันดีกว่า pico หรือ espeak มาก!
Jon Watte

5

รวมเครื่องมือ SVOX (pico) กับ LibreOffice:

เครื่องมือ SVOX (pico) ติดตั้งง่ายและนำเสียงคุณภาพดีมาใช้ใน Ubuntu ติดตั้ง:

sudo apt-get install libttspico0 libttspico-utils libttspico-data

คุณสามารถใช้ LibreOffice ร่วมกับเครื่องมือ SVOX (pico) โดยติดตั้งส่วนขยาย "อ่านข้อความ"และคุณได้รับ "GUI" สำหรับซอฟต์แวร์ TTS ที่ยอดเยี่ยมนี้:

ตั้งค่าตัวเลือก Read Text Extensionพร้อมเครื่องมือ - ส่วนเสริม - อ่านตัวเลือก ....ใช้/ usr / bin / pythonเป็นโปรแกรมภายนอก เลือกตัวเลือกบรรทัดคำสั่งที่มีโทเค็น(PICO_READ_TEXT_PY)คุณอาจต้องการทดลองใช้บางส่วน

ตอนนี้คุณต้องเลือกข้อความบางส่วนใน LO Writer, Calc, Impress หรือ Draw และคลิกบนไอคอนที่เพิ่มเป็นแถบเครื่องมือ (ใบหน้าที่มีความสุขกับลูกโป่ง)


4

นี่คือสิ่งที่ฉันทำเพื่อให้ได้เสียงพูดที่เป็นธรรมชาติอย่างแท้จริงสำหรับไฟล์ PDF และไฟล์ข้อความอื่น ๆ (โซลูชันอื่น ๆ นั้นไม่เป็นธรรมชาติหรือเป็นบริการชำระเงิน) อันที่จริงแล้วมันใช้งานได้กับโครเมียมหรือโครเมียม แต่ใช้งานได้ง่ายและรวดเร็ว

  1. ติดตั้งSpeakIt! ส่วนขยายบนโครเมียมหรือโครเมียมของคุณ
  2. ติดตั้งโปรแกรมดู PDFหากคุณใช้โครเมียม (Chrome มีโปรแกรมดูไฟล์ PDF อยู่ฟรีแล้ว) และทำเครื่องหมายที่ตัวเลือก 'อนุญาตในโหมดไม่ระบุตัวตน' และ 'อนุญาตการเข้าถึง URL ไฟล์' ในการตั้งค่าส่วนขยายของ Chromium
  3. ลากและวางไฟล์ PDF ของคุณไปยังเบราว์เซอร์
  4. ตอนนี้เน้นข้อความและคลิกขวาและเลือก SpeakIt! เพื่อให้คุณสามารถฟังข้อความที่เป็นธรรมชาติบริสุทธิ์

นอกจากนี้ยังมีวิธีการเปิดไฟล์อื่น ๆ เช่น. doc และ. txt ใน chrome และทำได้เช่นเดียวกัน มีส่วนขยายอื่นสำหรับ Chrome ที่ดูไฟล์ pdf ตรวจสอบว่าเหมาะกับคุณดีกว่าหรือไม่ นอกจากนี้คุณสามารถอัปโหลดข้อความทุกประเภทใน Google Drive และใช้ SpeakIt! เพื่ออ่านให้คุณฟัง ส่วนขยายอื่นที่เรียกว่า 'พูดข้อความ' ทำงานในลักษณะเดียวกันและมีคำพูดที่เป็นธรรมชาติ


คุณสามารถอธิบายรายละเอียดเกี่ยวกับวิธีทำให้ SpeakIt อ่านไฟล์ PDF ได้ถูกบันทึกไว้ใน Google Drive หรือไม่?
Marco Lackovic

2

เมื่อค้นหาเครื่องมือ tts ที่ดีกว่าเพื่อใช้กับโหมดการเล่าเรื่องใหม่ของfirefox 49ฉันพบpico tts (svox) - โปรแกรม TTS ที่ฉันโปรดปราน

sudo apt install espeak libttspico0 libttspico-data libttspico-utils

จะเปลี่ยนระบบเครื่องมือสังเคราะห์เสียงพูดที่เป็นค่าเริ่มต้นได้อย่างไร

ผู้คนที่ arch linuxพาฉันไปยังเส้นทางที่ถูกต้อง:

ยกเลิกการใส่ข้อคิดเห็นโมดูลที่คุณชอบและทำให้เป็นค่าเริ่มต้นในการตั้งค่าตัวถอดเสียงพูด:

# sudo vim /etc/speech-dispatcher/speechd.conf

[...]
# -----OUTPUT MODULES CONFIGURATION-----
# Each AddModule line loads an output module.
#AddModule "espeak"       "sd_espeak"   "espeak.conf"
AddModule "pico-generic"  "sd_generic"   "pico-generic.conf"

[...]
#DefaultModule espeak
DefaultModule pico-generic

รีสตาร์ท daemon:

# sudo systemctl restart speech-dispatcher.service

แต่เมื่อเริ่มต้น Firefox อีกครั้งไม่มีอะไรเกิดขึ้น ตามลิงค์ด้านบน (โพสต์ฟอรั่มโค้ง # 10 และ # 16) ทำงานร่วมกับเทศกาล (ไม่ได้ลอง) แต่ตัวเลือกคำพูดสำหรับ pico ไม่มีรายการเสียงที่พร้อมใช้งาน มันจะไม่ทำงาน

ความคิดใด ๆ ออกมาจะได้รับการชื่นชมอย่างมาก ;-)


1

โปรแกรมอ่านออกเสียงข้อความที่ชื่นชอบเรียกว่า Magic English แต่เช่นเดียวกับ Natural Reader ที่กล่าวถึงโดย Joe Steiger เป็นโปรแกรม Windows และฉันไม่แน่ใจว่าจะทำงานภายใต้ Wine หรือไม่

AT&T Natural Voicesพร้อมใช้งานออนไลน์เป็นตัวอย่าง แต่นั่นเป็นวิธีแก้ปัญหามากกว่าโซลูชัน ...


1

Google ™ TTS อย่างง่าย

Pico, mbrola, cmu, เทศกาล, flite, SUCK ทั้งหมดในปี 2560 (พวกมันยอดเยี่ยมมากในช่วง 90s) คำพูดตามธรรมชาติของ AT&T (ซึ่งยอดเยี่ยมมาก) ไม่ใช่การใช้ร่วมกับ linux และไม่ฟรีดังนั้นเราจึงใช้ Google

git clone https://github.com/Glutanimate/simple-google-tts.git
sudo apt install xsel libnotify-bin libttspico0 libttspico-utils libttspico-data libwww-perl libwww-mechanize-perl libhtml-tree-perl so$
cd simple-google-tts
sudo ln -s `pwd`/simple_google_tts /usr/local/bin
simple_google_tts en "Text to speech is now installed"
cd -

นี่เป็นคำตอบที่ซ้ำกันของGlutanimate (ผู้แต่งโครงการนั้น) นอกจากนี้: "การอัปเดตสถานะ: โครงการนี้ไม่ได้ถูกทำลายในขณะนี้และจะยังคงอยู่ในอนาคตอันใกล้นี้" เขาแนะนำทางเลือกบางอย่าง
Pablo A

1

gtts

gTTS ( Google Text-to-Speech ), ห้องสมุด Python และเครื่องมือ CLI เพื่อเชื่อมต่อกับ API ข้อความเป็นคำพูดของ Google Translate เขียนพูดmp3ข้อมูลไปยังแฟ้มวัตถุไฟล์เหมือน (bytestring) stdoutสำหรับการจัดการเสียงเพิ่มเติมหรือ

จุดด้อย : CLI เท่านั้น จำเป็นต้องออนไลน์เพราะต้องขอไปยังจุดปลายเปิดสาธารณะของ Google

sudo -H pip install gTTS  # Install

การใช้

gtts-cli 'hello' --output hello.mp3
gtts-cli -l es 'Nadie es patria, todos lo somos' | play -t mp3 -

เอกสารและตัวอย่างเพิ่มเติม

คนอื่น ๆ

บางคนถูกกล่าวถึงแล้ว


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.