คำถามติดแท็ก speech-recognition

3
ตัวกรองสัญญาณรบกวนเสียงพูดของมนุษย์
ไม่มีใครรู้ของตัวกรองเพื่อลดทอนคำพูด? ฉันกำลังเขียนซอฟต์แวร์รู้จำเสียงพูดและต้องการกรองทุกอย่างยกเว้นคำพูดของมนุษย์ สิ่งนี้จะรวมถึงเสียงพื้นหลังเสียงที่เกิดจากไมโครโฟนเส็งเคร็งหรือแม้แต่เพลงประกอบ ฉันได้ติดตั้งตัวกรองคำสั่งแรกแล้วซึ่งชดเชยการแผ่พลังงาน 6 เดซิเบล แต่ฉันยังคงได้ยินเสียงรบกวนอยู่ ฉันคิดว่าจะใช้ตัวกรอง low-pass แต่ฉันรู้สึกไม่ดีเกี่ยวกับการทำเช่นนั้นด้วยเหตุผลสองประการ: ฉันไม่ทราบว่า low-pass pre-filter จะรบกวนการประมวลผลคำพูดที่เหลือหรือไม่ แม้ว่าหูของมนุษย์จะสามารถตรวจจับเสียงที่ต่ำกว่า 20 kHz แต่ฉันไม่ต้องการที่จะกำจัดฮาร์มอนิกที่มีลำดับสูงขึ้นซึ่งอาจจำเป็นในการประมวลผลคำพูด (แม้ว่าฉันไม่รู้ว่านี่เป็นกรณีหรือไม่ก็ตาม) ฉันไม่ต้องการรับโอกาสใด ๆ ) ฉันเข้าใจว่าการกระตุ้นของพยัญชนะบางตัว (เช่น f, h และ s) เป็นเสียงสีขาวเกือบทั้งหมด ฉันไม่ต้องการใช้ตัวกรองเสียงรบกวนซึ่งจะขจัดเสียงรบกวนที่ดีดังนั้นพูด เป็นการดีที่ฉันต้องการจะเหลือเพียงคำพูดของคนที่พูดในไมโครโฟน หากคุณมีความคิดใด ๆ หรือมีบางอย่างที่ฉันขาดหายไปโปรดแจ้งให้เราทราบ ชื่นชมมาก!

1
การพิจารณาว่าเสียงที่คล้ายกันนั้นเกี่ยวกับคำพูดของมนุษย์
ในขณะที่กำลังมองหาคำตอบสำหรับปัญหานี้ฉันพบว่าบอร์ดนี้จึงตัดสินใจที่จะข้ามโพสต์คำถามของฉันนี้จาก Stack Overflow ฉันกำลังค้นหาวิธีการกำหนดความคล้ายคลึงกันระหว่างเซ็กเมนต์เสียงและเสียงของมนุษย์ซึ่งแสดงเป็นตัวเลข ฉันค้นหาค่อนข้างน้อย แต่สิ่งที่ฉันพบจนถึงขณะนี้ (รายละเอียดด้านล่าง) ไม่ตรงกับสิ่งที่ฉันต้องการ: วิธีหนึ่งคือการใช้ซอฟต์แวร์รู้จำเสียงพูดเพื่อให้ได้คำจากส่วนเสียง อย่างไรก็ตามวิธีนี้ไม่สามารถเกิดขึ้นได้ว่าเสียง "คล้ายกัน" นั้นเป็นอย่างไรสำหรับการพูดของมนุษย์ บ่อยครั้งที่สามารถบอกได้ว่ามีคำในเสียงหรือไม่ แต่ถ้าไม่มีคำที่ชัดเจนก็ไม่สามารถบอกได้ว่าเสียงนั้นมีคำดังกล่าวหรือไม่ ตัวอย่าง: CMU Sphinx , Dragonfly , SHoUT วิธีการที่มีแนวโน้มมากขึ้นเรียกว่าVoice Activity Detection (VAD) อย่างไรก็ตามสิ่งนี้มีปัญหาเหมือนกัน: อัลกอริธึม / โปรแกรมที่ใช้ VAD มักจะส่งคืนว่ากิจกรรมถึงขีด จำกัด หรือไม่และไม่มีค่า "ความคล้ายคลึงกัน" ก่อนหรือหลังเกณฑ์ดังกล่าว อีกทางเลือกหนึ่งคือมองหาปริมาณไม่คล้ายกับคำพูดของมนุษย์ ตัวอย่าง: Speex , Listener , FreeSWITCH ความคิดใด ๆ

1
การลดเสียงรบกวนสำหรับการรู้จำเสียงแตกต่างจากการลดเสียงรบกวนที่ควรทำให้คำพูด“ เข้าใจได้” สำหรับมนุษย์มากขึ้นอย่างไร
นี่เป็นคำถามที่ให้ความสนใจฉันมาระยะหนึ่งแล้วส่วนใหญ่เป็นเพราะฉันกำลังทำงานเกี่ยวกับการลดเสียงรบกวนสำหรับระบบรู้จำเสียงพูดที่มีอยู่ด้วยตัวเอง เอกสารส่วนใหญ่เกี่ยวกับเทคนิคการลดเสียงรบกวนดูเหมือนจะมุ่งเน้นไปที่การทำให้การพูดเข้าใจได้ง่ายขึ้นสำหรับมนุษย์หรือวิธีการปรับปรุงคำที่คลุมเครือเช่น "คุณภาพการพูด" ฉันแน่ใจว่าโดยใช้เกณฑ์เช่นนี้คุณสามารถระบุตัวกรองที่ทำให้สัญญาณเสียงพูดที่ฟังง่ายขึ้นสำหรับมนุษย์ อย่างไรก็ตามฉันไม่แน่ใจว่าสามารถปรับเกณฑ์เหล่านี้ได้อย่างง่ายดายเมื่อพยายามประเมินสัญญาณเสียงพูดที่ได้รับการแปลเพื่อปรับปรุงความแม่นยำของระบบรู้จำเสียง ฉันไม่พบเอกสารที่พูดถึงความแตกต่างนี้จริงๆ ความชัดเจนของเสียงพูดและคุณภาพเสียงพูดสัมพันธ์กับความแม่นยำของระบบรู้จำเสียงพูดหรือไม่? มีมาตรการวัตถุประสงค์ที่สามารถประเมินว่า "ดี" สัญญาณเสียงพูด denoised สำหรับระบบรู้จำเสียงพูดได้เช่นกันถ้าได้รับการพูดที่ชัดเจน หรือเป็นวิธีเดียวที่จะทราบว่าเทคนิคการลดเสียงรบกวนของคุณนั้นดีแค่ไหนในการฝึกอบรมระบบรู้จำเสียงพูดสำหรับข้อมูลที่ถูกแปลและดูความถูกต้อง? ฉันจะมีความสุขถ้ามีคนชี้ให้ฉันไปในทิศทางที่ถูกต้องหรืออาจมอบเอกสารบางอย่างเกี่ยวกับเรื่องนี้ ขอบคุณล่วงหน้า!

1
การออกแบบเวกเตอร์คุณสมบัติสำหรับการแยกแยะระหว่างรูปคลื่นเสียงที่แตกต่างกัน
พิจารณาสัญญาณรูปคลื่นที่ 4 ต่อไปนี้: signal1 = [4.1880 11.5270 55.8612 110.6730 146.2967 145.4113 104.1815 60.1679 14.3949 -53.7558 -72.6384 -88.0250 -98.4607] signal2 = [ -39.6966 44.8127 95.0896 145.4097 144.5878 95.5007 61.0545 47.2886 28.1277 -40.9720 -53.6246 -63.4821 -72.3029 -74.8313 -77.8124] signal3 = [-225.5691 -192.8458 -145.6628 151.0867 172.0412 172.5784 164.2109 160.3817 164.5383 171.8134 178.3905 180.8994 …

1
วิธีแบ่งเซ็กเมนต์เสียงโทรศัพท์ให้เป็นความเงียบ / ไม่เงียบ
ปัญหาของฉันคือฉันไม่รู้พลังงานของเสียงพื้นหลังดังนั้นฉันจึงไม่สามารถ จำกัด พลังงานได้ การประมวลผลเสร็จในเวลาจริงและฉันมีเวลาประมาณ 500 มิลลิวินาทีในการตัดสินใจ เป็นการดีที่ฉันต้องการพยัญชนะที่เงียบสงบซึ่งไม่ใช่ความเงียบ

2
วิธีการใช้การแปลง Hough แบบไล่ระดับสี
ฉันพยายามใช้การแปลง Hough สำหรับการตรวจจับขอบและต้องการใช้ภาพไล่ระดับสีเป็นพื้นฐาน สิ่งที่ฉันได้ทำเพื่อให้ห่างไกลได้รับภาพIที่มีขนาด[M,N]และอนุพันธ์บางส่วนของมันgx, คือการคำนวณมุมการไล่ระดับสีในแต่ละพิกเซลgy ในทำนองเดียวกันผมคำนวณขนาดการไล่ระดับสีเป็นthetas = atan(gy(x,y) ./ gxmagnitudes = sqrt(gx.^2+gy.^2) เพื่อสร้างการแปลง Hough ฉันใช้รหัส MATLAB ต่อไปนี้: max_rho = ceil(sqrt(M^2 + N^2)); hough = zeros(2*max_rho, 101); for x=1:M for y=1:N theta = thetas(x,y); rho = x*cos(theta) + y*sin(theta); rho_idx = round(rho)+max_rho; theta_idx = floor((theta + pi/2) / pi * 100) …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.