หมายเหตุแรก: ระบบข้อความเป็นคำพูดที่ทันสมัยที่สุดเช่นเดียวกับจาก AT&T ที่คุณเชื่อมโยงใช้การสังเคราะห์เสียงพูดแบบเรียงต่อกันการสังเคราะห์เสียงพูดการเชื่อมเทคนิคนี้ใช้ฐานข้อมูลขนาดใหญ่ของการบันทึกเสียงของคนคนหนึ่งโดยใช้ประโยคยาว ๆ - เลือกเพื่อให้มีการผสมฟอนิมจำนวนมากที่สุด การสังเคราะห์ประโยคสามารถทำได้เพียงแค่คบด้วยเซ็กเมนต์จากคลังข้อมูลนี้ - บิตที่ท้าทายคือการทำให้การร้อยเข้าด้วยกันราบรื่นและแสดงออก
มีอุปสรรคใหญ่สองอย่างถ้าคุณต้องการใช้เทคนิคนี้เพื่อทำให้ประธานาธิบดีโอบามาพูดคำที่น่าอาย:
- คุณต้องมีการเข้าถึงคอลเลกชันขนาดใหญ่ของเสียงของเป้าหมายบันทึกโดยเฉพาะอย่างยิ่งกับเงื่อนไขการบันทึกที่สม่ำเสมอและมีคุณภาพดี AT&T มีงบประมาณในการบันทึกเสียงลำโพงเดียวกันหลายสิบชั่วโมงในสตูดิโอเดียวกัน แต่ถ้าคุณต้องการปลอมเสียงของใครบางคนจากการบันทึกเพียง 5 นาทีมันจะยาก
- มีการจัดแนวแมนนวลและการประมวลผลล่วงหน้าจำนวนมากก่อนที่วัตถุดิบที่บันทึกจะอยู่ใน "รูปแบบ" ที่ถูกต้องเพื่อใช้ประโยชน์จากระบบการสังเคราะห์เสียงพูดแบบเรียงต่อกัน
สัญชาตญาณของคุณว่านี่เป็นวิธีแก้ปัญหาที่เป็นไปได้ถูกต้อง - หากคุณมีงบประมาณในการแก้ไขปัญหาทั้งสองนี้
โชคดีที่มีเทคนิคอื่น ๆ ที่สามารถทำงานกับการดูแลน้อยและข้อมูลน้อยลง ด้านการสังเคราะห์เสียงพูดที่สนใจในการ "แกล้ง" หรือ "เลียนแบบ" หนึ่งเสียงจากการบันทึกเป็นที่รู้จักกันเป็นแปลงเสียง คุณมีการบันทึก A1 ของลำโพงเป้าหมาย A บอกว่าประโยคที่ 1 และบันทึก B2 ของลำโพงต้นทาง B บอกว่าประโยคที่ 2 คุณตั้งเป้าที่จะสร้างลำโพงบันทึก A2 ของลำโพง A ประโยคที่ 2 ว่าประโยคที่ 2 อาจสามารถเข้าถึงการบันทึก B1 ของลำโพง B ด้วยเสียงพูดของเขา / เธอเหมือนกับลำโพงเป้าหมาย
โครงร่างของระบบแปลงเสียงเป็นดังนี้:
- คุณสมบัติด้านเสียงถูกดึงออกมาจากการบันทึก A1 และถูกรวมเข้าในคลาสอะคูสติก ในขั้นตอนนี้มันเป็นเหมือนการมีกระเป๋าจะเป็น "a" ของลำโพง A, "o" ทั้งหมดของลำโพง A ฯลฯ โปรดทราบว่านี่เป็นการดำเนินการที่ง่ายและหยาบกว่าการรู้จำเสียงพูดจริง - เราไม่สนใจ รู้จักคำที่ถูกต้อง - และเราไม่รู้ด้วยซ้ำว่ากระเป๋าใบใดมี "o" และกระเป๋าใบใดมี "a" - เราเพิ่งรู้ว่าเรามีเสียงเดียวกันหลายครั้งในแต่ละถุง
- กระบวนการเดียวกันนี้ใช้กับ B2
- คลาสอะคูสติกจาก A1 และ B2 ถูกจัดตำแหน่ง เพื่อดำเนินการต่อกับการเปรียบเทียบถุงนี่เท่ากับการจับคู่กระเป๋าจากขั้นตอนที่ 1 และ 2 เพื่อให้เสียงทั้งหมดที่เรามีในกระเป๋าใบนี้จากลำโพง A ควรตรงกับเสียงที่เรามีในกระเป๋าใบนั้นจากลำโพง B การจับคู่นี้คือ ง่ายกว่ามากถ้าใช้ B1 ในขั้นตอนที่ 2
- มีการประมาณฟังก์ชั่นการทำแผนที่สำหรับกระเป๋าแต่ละคู่ เนื่องจากเรารู้ว่ากระเป๋าใบนี้มีเสียงจากลำโพง A และกระเป๋าใบนั้นเป็นเสียงเดียวกัน แต่พูดโดยลำโพง B - เราสามารถหาการดำเนินการได้ (ตัวอย่างเช่นการคูณเมทริกซ์กับเวกเตอร์คุณลักษณะ) ที่ทำให้มันสอดคล้องกัน กล่าวอีกนัยหนึ่งตอนนี้เรารู้วิธีการทำเสียง "o" ของผู้พูด 2 เหมือน "ผู้พูด" 1
- ในขั้นตอนนี้เรามีการ์ดทั้งหมดในมือเพื่อทำการแปลงเสียง จากแต่ละส่วนของการบันทึก B2 เราใช้ผลลัพธ์ของขั้นตอนที่ 2 เพื่อหาว่าระดับเสียงของมันตรงกับที่ใด จากนั้นเราจะใช้ฟังก์ชั่นการทำแผนที่ประมาณขั้นตอนที่ 4 เพื่อเปลี่ยนชิ้น
ฉันยืนยันความจริงที่ว่าสิ่งนี้ทำงานในระดับที่ต่ำกว่าการรู้จำเสียงใน B2 และจากนั้นทำ TTS โดยใช้เสียงของ A1 เป็นคลังข้อมูล
มีการใช้เทคนิคทางสถิติที่หลากหลายสำหรับขั้นตอนที่ 1 และ 2 - GMM หรือ VQ ซึ่งเป็นเทคนิคที่พบบ่อยที่สุด อัลกอริทึมการจัดตำแหน่งที่หลากหลายถูกนำมาใช้สำหรับส่วนที่ 2 - นี่คือส่วนที่ยากที่สุดและเห็นได้ชัดว่าง่ายต่อการจัดตำแหน่ง A1 vs B1 มากกว่า A1 กับ B2 ในกรณีที่ง่ายกว่าวิธีการเช่นการแปรปรวนเวลาแบบไดนามิกสามารถใช้ในการจัดตำแหน่ง สำหรับขั้นตอนที่ 4 การแปลงที่พบมากที่สุดคือการแปลงเชิงเส้น (การคูณเมทริกซ์) บนเวกเตอร์คุณลักษณะ การแปลงที่ซับซ้อนมากขึ้นทำให้เกิดการลอกเลียนแบบที่เหมือนจริงมากขึ้น แต่ปัญหาการถดถอยเพื่อค้นหาการทำแผนที่ที่ดีที่สุดนั้นซับซ้อนกว่าที่จะแก้ ในที่สุดสำหรับขั้นตอนที่ 5 คุณภาพของการสังเคราะห์จะถูก จำกัด ด้วยคุณสมบัติที่ใช้ โดยทั่วไปแล้ว LPC จะจัดการกับวิธีการเปลี่ยนรูปแบบที่ง่ายกว่า (รับสัญญาณกรอบ -> ประมาณค่าส่วนที่เหลือและสเปกตรัม LPC -> หากจำเป็นต้องเปลี่ยนระดับเสียงส่วนที่เหลือ -> ใช้คลื่นความถี่ LPC ที่ได้รับการแก้ไขกับส่วนที่เหลือที่ได้รับการแก้ไข) การใช้การเป็นตัวแทนของคำพูดที่สามารถย้อนกลับไปยังโดเมนเวลาและที่ให้การแยกที่ดีระหว่างฉันทลักษณ์และหน่วยเสียงเป็นกุญแจสำคัญที่นี่! ท้ายที่สุดหากคุณสามารถเข้าถึงการบันทึกของผู้พูด A และ B ที่เรียงประโยคเดียวกันได้มีแบบจำลองทางสถิติที่จัดการกับขั้นตอนที่ 1, 2, 3 และ 4 พร้อมกันในขั้นตอนการประมาณค่าแบบเดียว
ฉันอาจกลับมาพร้อมกับบรรณานุกรมในภายหลัง แต่สถานที่ที่ดีมากที่จะเริ่มรู้สึกถึงปัญหาและกรอบการทำงานโดยรวมที่ใช้ในการแก้ปัญหาคือ Stylianou, Moulines และCappé "ระบบการแปลงเสียงตามการจัดประเภทน่าจะเป็นและฮาร์มอนิก บวกกับเสียงโมเดล "
มีความรู้ของฉันไม่มีชิ้นส่วนของซอฟแวร์ที่ดำเนินการแปลงเสียง - ซอฟต์แวร์เฉพาะการแก้ไขคุณสมบัติของเสียงต้นฉบับ - พารามิเตอร์ความยาวระดับเสียงและระดับเสียงพูด (เช่น IRCAM TRAX Transformer) ซึ่งคุณต้องยุ่งกับการหวังว่าจะทำให้คุณ บันทึกเสียงใกล้เคียงกับเสียงเป้าหมาย