ใช้การรู้จำเสียงของ YouTube ใน Google โดยไม่ต้องอัปโหลดวิดีโอไปยัง YouTube ได้อย่างไร


15

ฉันมีเนื้อหาวิดีโอบรรยายจำนวนมากที่ฉันต้องการมีคำบรรยาย YouTube สร้างคำบรรยายสำหรับวิดีโอโดยอัตโนมัติภายใต้เงื่อนไขบางประการ (เงื่อนไขเหล่านั้นยังเป็นเรื่องลึกลับสำหรับฉัน)

ฉันต้องการใช้เทคโนโลยีการรู้จำเสียงนี้นอก YouTube ฉันไม่ต้องการอัปโหลดวิดีโอทุกรายการเพื่อรับการถอดความ (ใช้เวลานานเกินไป) รวมทั้งฉันไม่คิดว่า YouTube จะทำวิดีโอที่มีความยาวเกินกว่า 30 นาที (ส่วนใหญ่เป็น) และต่อไปฉัน อย่าคิดว่ามันจะทำสำหรับวิดีโอที่ไม่เปิดเผยต่อสาธารณะ (ซึ่งเป็นปัญหาเพราะเป็นเนื้อหาพรีเมี่ยมที่ตั้งใจจะขาย)

สถานการณ์ที่สมบูรณ์แบบ: มีโปรแกรมที่ฉันสามารถเรียกใช้จากเดสก์ท็อปของฉันเพื่อรับการถอดเสียงจากวิดีโอเหล่านี้และมีคุณภาพเท่าเทียมกันหรือดีกว่าของ YouTube และมีรหัสเวลาคล้ายกับ SRT หรือ XML ที่ YouTube สร้าง [ วิธีการ รับคำบรรยาย YouTube ]

สถานการณ์ที่ยอมรับได้: มีเทคนิคบางอย่างที่ฉันสามารถทำได้เพื่อบังคับให้ YouTube ถอดความวิดีโอไม่ว่าจะตั้งเป็นส่วนตัวหรือสาธารณะและมีความยาว

สถานการณ์ที่เป็นไปได้: มีห้องสมุดหรือบางสิ่งที่ฉันสามารถใช้เพื่อเขียนโปรแกรมของตัวเอง ฉันใช้ C # ได้ดีและโอเคกับ C ++ (แต่ฉันชอบ C # มากกว่า)


2
ขอบคุณสำหรับลิงค์ขึ้น - จากมุมมองของคนหูหนวกสนใจมากที่ได้ยินว่ามันใช้งานอย่างไร ...
studiohack

@studiohack ไม่ได้ตั้งใจเล่น
287352

ฮ่า ๆ ฉันไม่รู้ด้วยซ้ำว่า! : P
studiohack

คำตอบ:


10

Google ใช้Web Speech API (ทั้งสำหรับการรู้จำเสียงและการสังเคราะห์เสียง) ใน Chrome ซึ่งคุณสามารถใช้หากคุณเป็นนักพัฒนาซอฟต์แวร์ นี่คือสิ่งที่ YouTube ใช้เพื่อสร้างคำบรรยายภาพอย่างใกล้ชิดในวิดีโอบางรายการ บางทีคุณอาจพบรหัสเพื่อโต้ตอบกับมัน

การไหลของข้อมูลอาจจะเป็น:

ไฟล์วิดีโอ => แยกและแปลงไฟล์เสียง => ส่งไปยัง Google API => รับข้อความ => เขียนลงใน SRT

แก้ไข:ดูเหมือนจะไม่มีหน้า API อย่างเป็นทางการนอกเหนือจากข้อกำหนด W3C ดังนั้นนี่คือลิงค์เพิ่มเติม:

ตัวอย่างเหล่านี้เกี่ยวกับการใช้ API จากใน Chrome แต่คุณสามารถสอบถามเครื่องมือรู้จำเสียงออนไลน์ของ Google ได้โดยตรง ตัวอย่างเช่นJasperผู้ช่วยส่วนตัวจำเสียงพูดสำหรับ Raspberrry Pi ให้คุณเลือก Googleเป็นเครื่องมือจดจำเสียง


ขอขอบคุณ! ฉันจะลองทำดู หากสามารถทำได้อย่างรวดเร็ว (ยกเว้นเวลาดำเนินการ) ฉันสามารถนำสิ่งนี้ไปใช้กับผลิตภัณฑ์ของฉันได้ สิ่งที่จะเป็นประโยชน์
287352

แหล่งที่มาอื่นของ API อาจเป็นสภาพแวดล้อมของ NodeWebkit
John Dvorak

1

มีเครื่องมือที่เรียกว่า "autosub" (ดู agermanidis / autosub บน github) ซึ่งทำสิ่งนี้ได้อย่างแม่นยำแม้ว่าจะใช้ API คำพูดของ Google รุ่นเก่า เครื่องมือนี้ใช้ ffmpeg เพื่อตัดเสียงเป็นไฟล์ FLAC แล้วส่งไฟล์ FLAC ไปยัง Google เพื่อทำการถอดความ มันสร้างไฟล์ SRT หรือ VTT

ส่วนหนึ่งมีความแม่นยำต่ำเนื่องจาก Google API รุ่นเก่า มี API ที่ใหม่กว่า ("Cloud Speech REST API" ที่https://cloud.google.com/speech/docs/apis ) API นี้ค่อนข้างเรียบง่ายและในบางครั้งฉันจะแยกออโต้เพื่อใช้งาน

อีกทางเลือกหนึ่งคืออัพโหลดไปยัง YouTube และดาวน์โหลดไฟล์ VTT เมื่อคำบรรยายภาพเสร็จสมบูรณ์ ความซับซ้อนของสิ่งนี้คือ YouTube ให้คำอธิบายภาพที่ละเอียดมาก (เช่นคำสองคำ) แทนที่จะเป็นประโยค ทำให้ยากต่อการตรวจสอบคำอธิบายภาพเมื่อทำการสแกนด้วยตนเอง


1

วิธีที่ง่ายที่สุดคือ: ไปที่ Google เอกสารเปิดเอกสารข้อความใหม่และเลือกจากเครื่องมือ "การพิมพ์ด้วยเสียง" จากนั้นเล่นเทปของคุณ ใช่. มันง่ายมาก! (และรองรับหลายภาษา)

มิฉะนั้นคุณสามารถใช้เว็บเพจท้องถิ่นด้วย HTML5 เช่นนี้: https://www.labnol.org/software/add-speech-recognition-to-website/19989/

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.