แอปรับรู้เสียงพูดเพื่อแปลง MP3 เป็นข้อความหรือไม่


27

มีใครรู้บ้างเกี่ยวกับแอปพลิเคชั่นที่สามารถแปลงเสียงเป็นข้อความได้หรือไม่? ฉันใช้ Ubuntu 12.04 LTS


ฉันคิดว่ามันเป็นข้อความที่พูด ข้อความนั้นเป็นภาษาอะไร
Martin Ueding

ข้อความคำพูดเป็นภาษาอังกฤษง่าย ๆ
Kopano

คำตอบ:


21

ซอฟต์แวร์ที่คุณสามารถใช้เป็นCMUSphinx ต่างจากคำแนะนำในคำตอบอื่น Julius ไม่เหมาะเพราะต้องใช้รุ่น แบบจำลองสำหรับการรู้จำเสียงพูดคำศัพท์ขนาดใหญ่ไม่สามารถใช้ได้สำหรับ Julius

คุณสามารถใช้pocketsphinxเพื่อแปลงไฟล์เสียง คำสั่งทั้งสองนั้นจะต้องทำงาน ก่อนอื่นคุณต้องแปลงไฟล์ให้อยู่ในรูปแบบที่กำหนดจากนั้นให้คุณจดจำได้:

ffmpeg -i file.mp3 -ar 16000 -ac 1 file.wav

เรียกใช้ pockets ฟิงซ์

pocketsphinx_continuous -infile file.wav 2> pocketsphinx.log > result.txt

ผลลัพธ์จะถูกเก็บไว้ใน result.txt


เช่นเดียวกับคำตอบนี้มีการสาธิตทั้งสองอย่างspeech recognitionและvoice commandเครื่องมือที่นี่: youtube.com/…
Daithí

คุณจะเพิ่มแบบอะคูสติกในระบบได้อย่างไร?
jarno

คุณเพิ่งดาวน์โหลดและแกะออกไม่มีสิ่งเช่น "เพิ่มในระบบ"
Nikolay Shmyrev

@NikolayShmyrev ฉันควรจะแกะกล่องออกที่ไหนเพื่อให้กระเป๋าเงินของฉันแตกต่างจากที่อื่น
jarno

4
ฉันได้ติดตั้ง pockets pocketsxx-utils, pocketsphinx-hmm-en-hub4wsj และ pocketsphinx-lm-en-hub4 ในที่เก็บข้อมูลจักรวาลของ Ubuntu 14.04 จากนั้นpocketsphinx_continuous -infile file.wav -hmm en_US/hub4wsj_sc_8k -lm en_US/hub4.5000.DMP 2> pocketsphinx.logทำงาน บางทีพวกเขาอาจไม่ใช่แพ็คเกจที่ดีที่สุด แต่มันตรงกับที่ฉันหาได้ในที่เก็บ
jarno

12

ฉันรู้ว่ามันเก่า แต่เพื่อขยายคำตอบของ Nikolay และหวังว่าจะช่วยคนบางคนในอนาคตเพื่อรับรุ่น pockets กระเป๋าที่ทันสมัยคุณต้องรวบรวมจาก github หรือ sourceforge repository (ไม่แน่ใจ ซึ่งได้รับการปรับปรุงให้ทันสมัยยิ่งขึ้น) หมายเหตุ -j8 หมายถึงเรียกใช้ 8 งานแยกกันถ้าเป็นไปได้ หากคุณมีแกน CPU มากขึ้นคุณสามารถเพิ่มจำนวนได้

git clone https://github.com/cmusphinx/sphinxbase.git
cd sphinxbase
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..
git clone https://github.com/cmusphinx/pocketsphinx.git
cd pocketsphinx
./autogen.sh
./configure
make -j8
make -j8 check
sudo make install
cd ..

จากนั้น: https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English/ ดาวน์โหลดรุ่นใหม่ล่าสุดของcmusphinx-en-us-....tar.gzและen-70k-....lm.gz

tar -xzf cmusphinx-en-us-....tar.gz
gunzip en-70k-....lm.gz

จากนั้นในที่สุดคุณสามารถดำเนินการตามขั้นตอนจากคำตอบของ Nikolay:

ffmpeg -i book.mp3 -ar 16000 -ac 1 book.wav
pocketsphinx_continuous -infile book.wav \
    -hmm cmusphinx-en-us-8khz-5.2 -lm en-70k-0.2.lm \
    2>pocketsphinx.log >book.txt

สฟิงซ์ทำงานได้ดี ฉันจะไม่พึ่งพามันเพื่อสร้างข้อความที่อ่านได้ แต่ก็ดีพอที่คุณจะสามารถค้นหาได้หากคุณกำลังมองหาคำพูดเฉพาะ ใช้งานได้ดีเป็นพิเศษหากคุณใช้อัลกอริธึมการค้นหาเช่น Xapian ( http://www.lesbonscomptes.com/recoll/ ) ซึ่งยอมรับ wildcard และไม่ต้องการการค้นหาที่แน่นอน

หวังว่านี่จะช่วยได้


4
ทุกอย่างทำงานได้เหมือนมีเสน่ห์ แต่ในกรณีของฉันฉันต้องเรียกใช้คำสั่งต่อไปนี้เพื่อแก้ไขpocketsphinx_continuous: error while loading shared libraries: libpocketsphinx.so.3: cannot open shared object file: No such file or directory-------> export LD_LIBRARY_PATH=/usr/local/lib------->export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
Vijay Dohare

นอกจากนี้ยังแนะนำที่cmusphinx.github.io/wiki/tutorialpocketsphinx/ ......
andrybak

11

ฉันต้องการแปลงคำพูดเป็นข้อความที่คุณสามารถลองเปิดศูนย์ซอฟต์แวร์ Ubuntu ของคุณและค้นหาJulius

ลักษณะ

"Julius" เป็นซอฟต์แวร์ถอดรหัสถอดรหัสเสียงพูดต่อเนื่อง (LVCSR) ที่มีประสิทธิภาพสูงสำหรับผู้วิจัยและนักพัฒนาที่เกี่ยวข้องกับการพูด

หรือตัวเลือกอื่นที่ไม่ได้อยู่ใน Software Center คือSimon

... เป็นโปรแกรมรู้จำเสียงพูดโอเพ่นซอร์สและแทนที่เมาส์และคีย์บอร์ด

ลิงค์อ้างอิง

http://julius.sourceforge.jp/en_index.php

http://sourceforge.net/projects/speech2text/

http://simon-listens.org/index.php?id=122&L=1


1

คุณสามารถใช้แผงการถอดเสียงspeechpad.pw

ดูวิดีโอการใช้การถอดความ


ดูดีแม้ว่าฉันไม่คิดว่าจะตอบคำถามที่ได้รับการถอดความของไฟล์ที่มีอยู่ ที่ถูกกล่าวว่าฉันเพิ่งลองสฟิงซ์และมันล้มเหลวอย่างน่าสังเวช ... การถอดความผิด 99.9%
Alexis Wilke
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.