คำถามติดแท็ก audio

เสียงหรือในแง่ของการประมวลผลสัญญาณสัญญาณเสียงเป็นการแทนเสียงแบบอะนาล็อกหรือดิจิตอลโดยทั่วไปเป็นแรงดันไฟฟ้า

6
สิ่งใดที่ต้องรู้เพื่อสร้างตัวสังเคราะห์ซอฟต์แวร์
สำหรับคนที่มีประสบการณ์ในการพัฒนาซอฟต์แวร์รัก synth ของเขาและรู้พื้นฐาน [มาก] ของการเป็นตัวแทนเสียงดิจิตอลขั้นตอนแรกที่เขาควรทำคืออะไรเพื่อตั้งโปรแกรม synthesizer เพลง DSP-wise?
19 audio 

3
แสดงให้คนอื่นเห็นว่าฉันได้ยินตัวเองอย่างไร
Sooo .. ฉันคิดเกี่ยวกับสิ่งนี้ เราทุกคนรู้ว่าเราเสียงแตกต่างจากสิ่งที่เราได้ยินเสียงของเราเอง มันง่ายที่จะทราบว่าคนอื่นได้ยินเราโดยการบันทึกตนเองและฟัง แต่แล้ววิธีอื่น ๆ ล่ะ? มีวิธีที่จะเปลี่ยนเสียงของเราในแบบที่คนอื่นสามารถได้ยินเราเมื่อเรารับรู้เสียงของเราเองหรือไม่? ฉันคิดว่ามันเป็นคำถามที่น่าสนใจทีเดียว น่าเศร้าที่ฉันไม่พบสิ่งใดบนเว็บหลังจากค้นหา google สองสามครั้ง ไม่มีใครคิดเกี่ยวกับเรื่องนี้หรือเป็นไปไม่ได้เพราะเหตุผลบางอย่างที่ฉันไม่เห็น? ใด ๆ ที่นำไปสู่การนี้จะได้รับการชื่นชม :)

4
ไลบรารีสำหรับการตรวจหากิจกรรมเสียง (ไม่ใช่การจดจำเสียง)
ตามคำถามก่อนหน้านี้ฉันสงสัยว่ามีห้องสมุดตรวจจับเสียงพูดอยู่หรือไม่ โดยการตรวจจับเสียงฉันหมายถึงการส่งผ่านบัฟเฟอร์เสียงและกลับดัชนีซึ่งการพูดเริ่มและหยุด ดังนั้นหากฉันมีการสุ่มตัวอย่างเสียง 10 วินาทีที่ 44kHz ฉันคาดว่าจะมีอาร์เรย์ของตัวเลขเช่น: 44000 88000 123000 190334 ... สิ่งนี้จะบ่งบอกถึงตัวอย่างเช่นคำพูดเริ่มต้นหนึ่งวินาทีแล้วเสร็จที่จุดสองวินาทีเป็นต้น สิ่งที่ฉันไม่ต้องการคือการรู้จำเสียงพูดซึ่งเขียนข้อความจากคำพูด น่าเสียดายที่นี่เป็นสิ่งที่ฉันเห็นมากเมื่อฉัน 'ตรวจจับคำพูด' ของ Google คงจะดีถ้าห้องสมุดอยู่ใน C, C ++ หรือแม้แต่ Objective-C เพราะฉันเขียนแอพสำหรับ iPhone ขอบคุณ!
18 audio  speech 

3
ตัวกรองสัญญาณรบกวนเสียงพูดของมนุษย์
ไม่มีใครรู้ของตัวกรองเพื่อลดทอนคำพูด? ฉันกำลังเขียนซอฟต์แวร์รู้จำเสียงพูดและต้องการกรองทุกอย่างยกเว้นคำพูดของมนุษย์ สิ่งนี้จะรวมถึงเสียงพื้นหลังเสียงที่เกิดจากไมโครโฟนเส็งเคร็งหรือแม้แต่เพลงประกอบ ฉันได้ติดตั้งตัวกรองคำสั่งแรกแล้วซึ่งชดเชยการแผ่พลังงาน 6 เดซิเบล แต่ฉันยังคงได้ยินเสียงรบกวนอยู่ ฉันคิดว่าจะใช้ตัวกรอง low-pass แต่ฉันรู้สึกไม่ดีเกี่ยวกับการทำเช่นนั้นด้วยเหตุผลสองประการ: ฉันไม่ทราบว่า low-pass pre-filter จะรบกวนการประมวลผลคำพูดที่เหลือหรือไม่ แม้ว่าหูของมนุษย์จะสามารถตรวจจับเสียงที่ต่ำกว่า 20 kHz แต่ฉันไม่ต้องการที่จะกำจัดฮาร์มอนิกที่มีลำดับสูงขึ้นซึ่งอาจจำเป็นในการประมวลผลคำพูด (แม้ว่าฉันไม่รู้ว่านี่เป็นกรณีหรือไม่ก็ตาม) ฉันไม่ต้องการรับโอกาสใด ๆ ) ฉันเข้าใจว่าการกระตุ้นของพยัญชนะบางตัว (เช่น f, h และ s) เป็นเสียงสีขาวเกือบทั้งหมด ฉันไม่ต้องการใช้ตัวกรองเสียงรบกวนซึ่งจะขจัดเสียงรบกวนที่ดีดังนั้นพูด เป็นการดีที่ฉันต้องการจะเหลือเพียงคำพูดของคนที่พูดในไมโครโฟน หากคุณมีความคิดใด ๆ หรือมีบางอย่างที่ฉันขาดหายไปโปรดแจ้งให้เราทราบ ชื่นชมมาก!

1
ค้นหาเพลงที่คล้ายกันโดยใช้ FFT Spectrums
ฉันได้ทดลองหลายสัปดาห์เพื่อหาวิธีจับคู่ / ค้นหาเพลงที่คล้ายกันในห้องสมุดที่มีแนวดนตรีที่แตกต่างกัน ความพยายามครั้งแรกของฉันคือการตรวจสอบคุณสมบัติเช่น Tempo หรือเสียงเบสที่มีในเพลงที่รวมตัวกันเป็นกลุ่ม แต่ฉันไม่ได้ไปไกลกับวิธีนี้ (การตรวจจับจังหวะการเปลี่ยนแปลงตามปริมาณ) ตั้งแต่ประมาณ 20% ของเพลง Beat เสมอบางครั้ง 1/2 หรือ 1/3 ของพวกเขาและฉันไม่สามารถใช้มันได้ หลังจากพยายามล้มเหลวหลายสัปดาห์ฉันก็มีความคิดใหม่ซึ่งจะอธิบายต่อไปในโพสต์นี้ เพียงแค่ทำให้มันใช้งานได้โดยใช้ Spectrum Samples of Files ทำให้เป็นเหมือน "Average Spectrum" ของไฟล์เพื่อเปรียบเทียบ แนวคิดที่อยู่เบื้องหลังคือตัวอย่างเช่น Hardstyle มีเบสมากกว่าเพลงร็อคโดยเฉลี่ยฉันยังตรวจสอบเรื่องนี้ด้วยการดู Spectrums ใน Audacity ไฟล์ 1: นำไฟล์เต็ม FFT Spectrums (2048 ตัวอย่างขนาด ATM, สัดส่วนการบันทึก Amplitudes) รวมอาร์เรย์สเปกตรัมทั้งหมดใช้ค่าเฉลี่ยของแต่ละ Bin ทำเช่นเดียวกันกับไฟล์อื่นบางไฟล์จัดเก็บผลลัพธ์ทั้งหมด ทำรายการค่า FFT ความแตกต่างระหว่างไฟล์ 1 …
16 audio  fft  music 

2
จะแยกส่วนเสียงจากสัญญาณเสียงสเตอริโอได้อย่างไร?
ตอนนี้ฉันกำลังประมวลผลไฟล์ MP3 และพบปัญหานี้ MP3 ของฉันเข้ารหัสแบบสเตอริโอ สิ่งที่ฉันต้องการทำคือแยกส่วนที่เป็นเสียงร้องสำหรับการประมวลผลเพิ่มเติม (ไม่ว่าโหมดสัญญาณเอาท์พุตโมโนหรือสเตอริโอจะใช้ได้ทั้งคู่) เท่าที่ฉันรู้เสียงจะถูกเข้ารหัสเป็นวงย่อยย่อยที่แตกต่างกันใน MP3 ฉันคิดว่าฉันสามารถ จำกัด สัญญาณไปยังช่วงเสียงผ่านตัวกรอง high-pass / low-pass พร้อมชุดความถี่ตัดที่เหมาะสม อย่างไรก็ตามผลลัพธ์จะต้องมีบางส่วนของสัญญาณเพลงบริสุทธิ์ในกรณีนี้ หรือหลังจาก googling ฉันคิดว่าฉันอาจคำนวณสัญญาณพื้นหลังก่อน (โดยการย้อนกลับหนึ่งช่องเพิ่มด้วยสัญญาณจากอีกช่องหนึ่งโดยสมมติว่าส่วนเสียงเป็นศูนย์กลางในเสียงสเตอริโอที่เรียกว่าการยกเลิกเฟส) หลังจากการเปลี่ยนแปลงนี้สัญญาณจะเป็นแบบโมโน จากนั้นฉันควรรวมสเตอริโอต้นฉบับเข้ากับโมโนซึ่งแยกสัญญาณพื้นหลัง ให้ประสิทธิภาพซึ่งเป็นที่ต้องการ (หรือวิธีการแก้ปัญหาอื่น ๆ :)? หากช่องที่สองให้ช่องสัญญาณ A และ B สองช่อง (BA) หรือ (AB) จะใช้เมื่อคำนวณพื้นหลังหรือไม่ เช่นเดียวกับการรวมสองแชนเนลเลขคณิตมีความหมายเพียงพอหรือไม่ หรือฉันสามารถสุ่มตัวอย่างแต่ละช่องด้วยปัจจัยสองและแทรกสัญญาณ downsampled เป็นโมโนผลลัพธ์ ขอขอบคุณและขอแสดงความนับถือ.

4
ความถี่ที่ต่ำกว่าแข็งแกร่งใน FFT หรือไม่
ฉันกำลังคำนวณ FFT จากอินพุตไมโครโฟน ฉันสังเกตเห็นว่าความถี่ที่ต่ำกว่ามักจะมีพลังมากขึ้น (เดซิเบลที่สูงขึ้น) มากกว่าความถี่ที่สูงกว่า ฉันตัดข้อมูลออกเป็นเฟรมของ 24576 ไบต์ (4096 * 6) ใช้หน้าต่าง Hamming: input[i] *= (0.54d - 0.46d*(double) Math.Cos((2d*Math.PI*i)/fs)); เรียกใช้ผ่าน Process1D()FFTW แปลงจากจำนวนเชิงซ้อน: output[i] = 10.0 * Math.Log10((fout[i * 2] * fout[i * 2]) + (fout[i * 2 + 1] * fout[i * 2 + 1])); หาค่าเฉลี่ย 6 ค่าเพื่อรับ FFT …
15 audio  fft 

4
การแยกคุณลักษณะสำหรับการจำแนกเสียง
ฉันพยายามที่จะแยกคุณสมบัติออกจากไฟล์เสียงและจำแนกเสียงว่าเป็นของประเภทใดหมวดหนึ่ง (เช่น: เปลือกสุนัขเครื่องยนต์ยานพาหนะ ฯลฯ ) ฉันต้องการความชัดเจนในสิ่งต่อไปนี้: 1) สิ่งนี้เป็นไปได้หรือไม่? มีโปรแกรมที่สามารถรู้จำเสียงพูดและแยกแยะความแตกต่างระหว่างชนิดเปลือกสุนัข แต่เป็นไปได้หรือไม่ที่จะมีโปรแกรมที่สามารถรับตัวอย่างเสียงและเพียงแค่พูดว่าเป็นเสียงแบบใด (สมมติว่ามีฐานข้อมูลที่มีตัวอย่างเสียงจำนวนมากที่จะอ้างอิง) ตัวอย่างเสียงอินพุตอาจมีเสียงดังเล็กน้อย (อินพุตไมโครโฟน) 2) ฉันคิดว่าขั้นตอนแรกคือการแยกคุณสมบัติเสียง นี้บทความแสดงให้เห็นการแยก MFCCs และการให้อาหารพวกเขาไปยังขั้นตอนวิธีการเรียนรู้ของเครื่อง MFCC เพียงพอหรือไม่ มีคุณสมบัติอื่น ๆ ที่ใช้โดยทั่วไปสำหรับการจำแนกเสียงหรือไม่ ขอขอบคุณสำหรับเวลาของคุณ.

1
รับความดังของแทร็กด้วย RMS
ฉันพยายามคำนวณความดังของแทร็กเสียงที่ฉันเก็บไว้ในบัฟเฟอร์ บัฟเฟอร์ประกอบด้วยข้อมูล PCM ของสัญญาณและฉันต้องการทราบว่า 'ดัง' โดยใช้ Root Mean Squared ฉันคิดว่าฉันสามารถทำได้ในโดเมนเวลาแทนที่จะต้องเปลี่ยนไปใช้โดเมนความถี่ รหัสหลอกสำหรับการทำสิ่งนี้จะเป็นอย่างไร ฉันจะเพียงแค่ตัวอย่างหนึ่งวินาที (เสียง [0] - เสียง [44099], เสียง [44099] - เสียง [88199] ฯลฯ .. ) และคำนวณ RMS ของค่าเหล่านั้นหรือไม่ ตัวอย่างเช่นฉันจะทำสิ่งนี้: อาร์เอ็มS= audio [ 0 ]2+ เสียง[ 1 ]2+ เสียง[ 2 ]2. . . . . เสียง[ 44099 ]244100-----------------------------------------√RMS=เสียง[0]2+เสียง[1]2+เสียง[2]2.....เสียง[44099]244100RMS = \sqrt{\frac{\text{audio}[0]^2 + …

2
แทร็กหัวเราะเตะเมื่อไหร่?
หนึ่งในโครงการสุดสัปดาห์ของฉันได้นำฉันเข้าสู่น่านน้ำลึกของการประมวลผลสัญญาณ เช่นเดียวกับโครงการรหัสของฉันทั้งหมดที่ต้องใช้เลขคณิตหนัก ๆ ฉันมีความสุขมากกว่าที่คนจรจัดจะแก้ปัญหาแม้จะไม่มีพื้นฐานทางทฤษฎี แต่ในกรณีนี้ฉันไม่มีเลยและรักคำแนะนำเกี่ยวกับปัญหาของฉัน คือ: ฉันพยายามที่จะคิดออกว่าเมื่อผู้ชมสดหัวเราะระหว่างรายการโทรทัศน์ ฉันใช้เวลาอ่านบทความเกี่ยวกับวิธีการเรียนรู้ของเครื่องในการตรวจจับเสียงหัวเราะ แต่ก็รู้ว่ามันเป็นเรื่องเกี่ยวกับการตรวจจับเสียงหัวเราะของแต่ละคน สองร้อยคนที่หัวเราะพร้อมกันนั้นจะมีคุณสมบัติทางเสียงที่แตกต่างกันมากและสัญชาตญาณของฉันก็คือพวกเขาควรจะแยกแยะได้ด้วยเทคนิคการยั่วยุมากกว่าเครือข่ายประสาท ฉันอาจจะผิดอย่างสมบูรณ์ แต่! จะขอบคุณความคิดในเรื่อง นี่คือสิ่งที่ฉันได้พยายาม: ฉันตัดข้อความที่ตัดตอนมาห้านาทีจากตอนล่าสุดของ Saturday Night Live เป็นสองวินาที ฉันจึงระบุว่า "หัวเราะ" หรือ "ไม่หัวเราะ" เหล่านี้ ด้วยการใช้ตัวแยกฟีเจอร์ MFCC ของ Librosa ฉันใช้ K-หมายถึงการรวมกลุ่มกับข้อมูลและได้ผลลัพธ์ที่ดี - ทั้งสองกลุ่มทำแผนที่กับป้ายกำกับของฉันอย่างเรียบร้อย แต่เมื่อฉันพยายามวนซ้ำไฟล์ที่ยาวขึ้นการคาดคะเนไม่ได้เก็บน้ำไว้ สิ่งที่ฉันจะลองตอนนี้: ฉันจะต้องแม่นยำมากขึ้นเกี่ยวกับการสร้างคลิปเสียงหัวเราะเหล่านี้ แทนที่จะแยกและแยกคนตาบอดฉันจะแยกพวกมันออกด้วยตัวเองเพื่อที่ว่าจะไม่มีการสนทนาใดที่ทำให้เกิดมลพิษ จากนั้นฉันจะแบ่งพวกมันออกเป็นคลิปควอเตอร์ที่สองคำนวณ MFCC ของสิ่งเหล่านี้และใช้มันเพื่อฝึกฝน SVM คำถามของฉัน ณ จุดนี้: มีเหตุผลอย่างนี้ไหม? สถิติช่วยได้ที่นี่ไหม ฉันเลื่อนไปมาในโหมดดูสเปคโทรแกรมของ Audacity และฉันสามารถเห็นได้อย่างชัดเจนว่าเกิดขึ้นที่ใด ในสเปคโตรแกรมพลังงานการพูดมีลักษณะโดดเด่นมาก "มีรอยย่น" …

4
วิธีที่มีประสิทธิภาพมากที่สุดในการแยกส่วนประกอบความถี่ของสัญญาณเสียงด้วยความแม่นยำของมนุษย์ใกล้เคียงแบบเรียลไทม์
ฉันกำลังพยายามหาวิธีที่จะแยกส่วนประกอบความถี่ของตัวอย่างเสียงตามอำเภอใจ (โดยทั่วไปคือเพลง) ในลักษณะที่คล้ายกับ FFT แต่ในการวิจัยของฉันเกี่ยวกับอัลกอริทึม FFT ฉันได้เรียนรู้ว่ามันมีบางอย่าง ข้อ จำกัด รุนแรงสำหรับวัตถุประสงค์นี้ มี 3 ปัญหาที่ FFT กำลังนำเสนอ: เนื่องจากความละเอียดถังขยะ FFT เทียบเท่ากับขนาดหน้าต่างของคุณเพื่อให้ได้ความแม่นยำที่สมเหตุสมผล (พูด 1 Hz) คุณต้องมีหน้าต่างที่ยาวเกินสมควร (พูด 1 วินาที) ซึ่งหมายความว่าคุณไม่สามารถตรวจพบทรานแซคชันหรือความถี่ที่เพิ่งเปิดใหม่ได้อย่างรวดเร็ว นอกจากนี้ยังหมายความว่าปัญหาจะไม่สามารถแก้ไขได้ด้วย CPU ที่เร็วขึ้นและอัตราการสุ่มตัวอย่างที่สูงขึ้น - ข้อ จำกัด ถูกผูกติดอยู่กับเวลา มนุษย์รับรู้ความถี่ลอการิทึม แต่ถังขยะ FFT อยู่ห่างกันเป็นเส้นตรง เช่นความแตกต่างของ 20hz ที่จุดต่ำสุดของการได้ยินของเรามีขนาดใหญ่มากในขณะที่ความแตกต่างของ 20hz ที่ระดับสูงสุดนั้นไม่สามารถมองเห็นได้ ดังนั้นเพื่อให้ได้ความแม่นยำที่เราต้องการที่ความถี่ต่ำเราต้องคำนวณมากกว่าที่เราต้องการในความถี่สูง ปัญหาเหล่านี้บางอย่างสามารถแก้ไขได้โดยการสอดแทรกระหว่างถังขยะ FFT สิ่งนี้อาจใช้งานได้กับเสียงดนตรีมากเพราะความถี่มักจะอยู่ห่างกันมากและดังนั้นไม่เกิน 1 ความถี่จะรั่วไหลลงในถังขยะคู่ แต่นี่จะไม่เป็นเช่นนั้นเสมอไปโดยเฉพาะอย่างยิ่งสำหรับเสียงที่น่าสนใจเช่นเครื่องดนตรีประเภทเคาะ ดังนั้นการแก้ไขจึงเป็นการคาดเดาจริงๆ …

4
Scipy - การประมวลผลเสียง
ฉันกำลังมองหาเครื่องมือที่ดีสำหรับการประมวลผลสัญญาณเสียง เช่นการวิเคราะห์คำพูดและดนตรีการระบุภาษาอัตโนมัติ ฯลฯ ห้องสมุด Scipy มีฟังก์ชั่นสำหรับการประมวลผลเสียงหรือไม่? มันมีเครื่องมือที่ดีสำหรับการประมวลผลสัญญาณเสียงหรือไม่? คุณช่วยแนะนำเครื่องมือสำหรับสิ่งนี้ได้ไหม?

2
การออกแบบตัวกรอง bandpass ใดที่ให้การตอบสนองต่อแรงกระตุ้นที่สั้นที่สุด
การออกแบบตัวกรอง bandpass IIR แบบที่สองอย่างง่าย Buterworth ที่มีความถี่ศูนย์ 500 Hz และแบนด์วิดท์ 1 คู่จะให้การตอบสนองความถี่ต่อไปนี้ ... ทีนี้ถ้าฉันรับการตอบสนองแบบแรงกระตุ้นและทำให้เป็นมาตรฐานและแปลงเป็น dB เราสามารถสังเกตการสลายตัวของการตอบสนองแบบอิมพัลส์ได้ การสลายตัวของการตอบสนองแบบอิมพัลส์นั้นเป็นเชิงเส้นตรงกับเวลาเมื่อพล็อตในระดับนี้ทำให้เราสามารถกำหนดสถิติการสลายตัวของเวลา (เช่นเดียวกับอะคูสติกในห้องที่คุณสามารถกำหนดเวลาพัดโบก) เพื่อให้การตอบสนองต่อแรงกระตุ้นของตัวกรองนี้ลดลงต่ำกว่า 30 dB จะใช้เวลาประมาณ 11 ms เราพยายามที่จะลดเวลาการสลายตัวนี้ให้คงที่ต่อไปนี้: แบนด์วิดท์ -3 dB ลำดับตัวกรอง ฉันยินดีที่จะยอมรับ (ภายในขีด จำกัด ) passband และ stopband ripple และ / หรือประนีประนอมกับความชันของช่วงการเปลี่ยนภาพเพื่อให้ได้สิ่งนี้ ทุกคนสามารถแนะนำวิธีการกรองด้วยระยะเวลาตอบสนองต่อแรงกระตุ้นสั้นที่สุดเท่าที่เป็นไปได้ตามที่กำหนดไว้ข้างต้นหรือไม่

5
ระบุตำแหน่งที่การร้องเพลงเริ่มต้นในการบันทึกด้วยเสียงเท่านั้น
ฉันมีแอพคาราโอเกะเล็ก ๆ น้อย ๆ ที่ผู้ใช้ร้องเพลง 4 บรรทัดพร้อมช่องว่างหนึ่งวินาทีระหว่างแต่ละบรรทัด ไม่มีเพลงสำรองดังนั้นจึงเป็นเพียงเสียงเท่านั้นหวังว่าจะแก้ปัญหาได้ง่ายขึ้น ฉันกำลังมองหาวิธีที่มีประสิทธิภาพที่สุดในการตรวจสอบว่าที่ใดในการบันทึกของฉันที่ผู้ใช้เริ่มต้นและสิ้นสุดการร้องเพลงบรรทัดที่ 1 เริ่มต้นและสิ้นสุดการร้องเพลงบรรทัดที่ 2 เป็นต้น ฉันได้วนเวียนอัลกอริทึมแบบง่ายๆที่ทำงานเมื่อมีสัญญาณรบกวนพื้นหลังน้อยมากในการบันทึก (เช่นจะเกิดขึ้นเมื่อไหร่?) แต่มันตกไปเป็นชิ้นเล็กชิ้นน้อยต่อหน้าเสียงที่เล็กที่สุด ใครช่วยชี้ให้ฉันดูสิ่งที่แข็งแกร่งกว่านี้ได้ไหม

2
วิธีใดที่สามารถใช้เพื่อระบุและลบเสียงสะท้อนออกจากระบบเสียง
พื้นหลัง ฉันกำลังออกแบบระบบที่จะมีไมโครโฟนและลำโพงขนาดเล็กสำหรับใช้ในการตั้งค่าประเภทโทรศัพท์ ตัวอย่างที่ง่ายที่สุดที่ฉันสามารถให้ได้คือการสนทนาของ Skype ที่คุณใช้ลำโพงคอมพิวเตอร์และไมโครโฟนตั้งโต๊ะ ฉันกังวลเกี่ยวกับเสียงจากลำโพงที่รับโดยไมโครโฟนและส่งกลับไปยังบุคคลดั้งเดิม ฉันเคยได้ยินสิ่งนี้เกิดขึ้นตลอดเวลาในช่วงแรก ๆ ของการสนทนา VoIP แต่แทบจะไม่ได้ยินอีกเลย ข้อสันนิษฐานของฉันคือกลุ่มต่างๆมีวิธีในการยกเลิกเสียงสะท้อน แต่พวกเขาทำได้อย่างไร แนวทาง ความคิดแรกของฉันคือเพียงแค่ลบสัญญาณที่ส่งไปยังลำโพงจากสัญญาณไมโครโฟนยกเว้นด้วยวิธีนี้คุณต้องกังวลกับความล่าช้า ฉันไม่แน่ใจว่าจะทราบได้อย่างไรว่าการหน่วงเวลานั้นเกิดจากการสอบเทียบล่วงหน้าประเภทใดซึ่งฉันต้องการหลีกเลี่ยง นอกจากนี้ยังมีปัญหาว่าต้องปรับขนาดสัญญาณก่อนที่จะลบออก ฉันคิดต่อไปเกี่ยวกับการทำความสัมพันธ์บางอย่างระหว่างสัญญาณลำโพงและสัญญาณไมโครโฟนเพื่อกำหนดความน่าจะเป็นของสัญญาณไมโครโฟนที่เป็นเสียงสะท้อนรวมถึงความสามารถในการกำหนดความล่าช้าที่แท้จริง วิธีนี้สามารถทำงานได้ดีเมื่อฉันเล่นกับสัญญาณที่บันทึกไว้บางส่วน แต่ดูเหมือนว่าจะมีความล่าช้าในการคำนวณความสัมพันธ์ที่เป็นประโยชน์ในระบบเรียลไทม์ ระดับเสียงที่ปรับได้ของลำโพงทำให้ยากต่อการตรวจสอบว่ามีความสัมพันธ์กับสิ่งใดหรือไม่ ความคิดครั้งต่อไปของฉันต้องมีใครบางคนบนอินเทอร์เน็ตที่เคยทำสิ่งนี้มาก่อนด้วยความสำเร็จ แต่ไม่พบตัวอย่างที่ยอดเยี่ยม ดังนั้นฉันมาที่นี่เพื่อดูว่าวิธีใดที่สามารถใช้เพื่อแก้ไขปัญหาประเภทนี้
14 audio 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.