คำถามติดแท็ก audio

เสียงหรือในแง่ของการประมวลผลสัญญาณสัญญาณเสียงเป็นการแทนเสียงแบบอะนาล็อกหรือดิจิตอลโดยทั่วไปเป็นแรงดันไฟฟ้า

6
หากมนุษย์สามารถได้ยินเสียงความถี่สูงถึง 20 kHz เท่านั้นทำไมเสียงเพลงจึงถูกสุ่มตัวอย่างที่ 44.1 kHz
ฉันอ่านในบางสถานที่ว่าเพลงส่วนใหญ่มีการสุ่มตัวอย่างที่ 44.1 kHz ในขณะที่เราได้ยินได้มากถึง 20 kHz เท่านั้น ทำไมล่ะ

7
ฉันจะใช้การเชื่อมโยงข้ามกันเพื่อพิสูจน์ไฟล์เสียงสองไฟล์ที่เหมือนกันได้อย่างไร
ฉันต้องทำ cross correlation ของไฟล์เสียงสองไฟล์เพื่อพิสูจน์ว่ามันคล้ายกัน ฉันใช้ FFT ของไฟล์เสียงสองไฟล์และมีค่าสเปกตรัมพลังงานในอาร์เรย์แยกต่างหาก ฉันจะดำเนินการต่อเพื่อข้ามสหสัมพันธ์และพิสูจน์ว่าพวกเขาคล้ายกันได้อย่างไร มีวิธีที่ดีกว่าที่จะทำหรือไม่ แนวคิดพื้นฐานใด ๆ จะเป็นประโยชน์สำหรับฉันในการเรียนรู้และนำไปใช้

4
Analogous Library to OpenCV สำหรับการประมวลผล / วิเคราะห์เสียง
ฉันเข้าใจ OpenCV เป็นห้องสมุด de พฤตินัยสำหรับการเขียนโปรแกรมการประมวลผลภาพใน C / C ++; ฉันสงสัยว่ามีไลบรารี C หรือ C ++ เช่นนั้นสำหรับการประมวลผลเสียงหรือไม่ โดยทั่วไปฉันต้องการกรองคลื่นที่ไม่ต้องการจากไมโครโฟนและวิเคราะห์ด้วยอัลกอริทึมการเรียนรู้ของเครื่อง แต่ในที่สุดฉันก็อาจต้องการ: การจับเสียงหลายแพลตฟอร์มและการเล่นเสียง DSP - ฟิลเตอร์เสียง ตรวจจับเสียง การวิเคราะห์คุณสมบัติของวรรณยุกต์ การสังเคราะห์เสียง การรับรู้ที่ได้รับการรับรู้คลังและรูปแบบบางอย่าง การสังเคราะห์เสียงพูด / ดนตรี คำแนะนำใด ๆ ที่จะได้รับการชื่นชม.

10
อัลกอริทึมเพื่อผสมสัญญาณเสียงโดยไม่ต้องตัด
ฉันต้องการผสมผสานช่องสัญญาณเสียง PCM สองช่องขึ้นไป (เช่นตัวอย่างที่บันทึก) แบบดิจิทัลในลักษณะที่แสดงถึงความเชื่อทางเสียงโดยเฉพาะอย่างยิ่งในเวลาใกล้เคียงแบบเรียลไทม์ วิธีที่ "ถูกต้อง" ทางกายภาพในการทำเช่นนี้คือการสรุปตัวอย่าง อย่างไรก็ตามเมื่อคุณเพิ่มสองตัวอย่างโดยพลการค่าผลลัพธ์อาจเป็นค่าสูงสุดสองเท่า ตัวอย่างเช่นหากตัวอย่างของคุณมีค่า 16 บิตผลลัพธ์จะมากถึง 65536 * 2 ผลลัพธ์นี้ในรูปวาด ทางออกที่ไร้เดียงสาที่นี่คือการหารด้วย N โดยที่ N คือจำนวนช่องสัญญาณที่ถูกผสม อย่างไรก็ตามผลลัพธ์นี้ในแต่ละตัวอย่างมีค่า 1 / Nth ดังซึ่งไม่สมจริงอย่างสมบูรณ์ ในโลกแห่งความจริงเมื่อทั้งสองเครื่องดนตรีเล่นพร้อมกันแต่ละเครื่องดนตรีจะไม่กลายเป็นครึ่งดัง จากการอ่านรอบ ๆ วิธีการผสมทั่วไปคือ: result = A + B - AB โดยที่ A และ B เป็นสองตัวอย่างที่ถูกทำให้เป็นมาตรฐานและ AB เป็นคำศัพท์เพื่อให้แน่ใจว่าเสียงดังดังขึ้น อย่างไรก็ตามสิ่งนี้แนะนำการบิดเบือนของสัญญาณ ระดับการบิดเบือนนี้ยอมรับได้ในการสังเคราะห์เสียงคุณภาพสูงหรือไม่? มีวิธีอื่นใดอีกบ้างในการแก้ไขปัญหานี้ ฉันสนใจอัลกอริธึมที่มีคุณภาพต่ำกว่าและอัลกอริธึมคุณภาพสูงที่มีประสิทธิภาพน้อยลง ฉันกำลังถามคำถามของฉันในบริบทของการสังเคราะห์เพลงดิจิทัลเพื่อจุดประสงค์ในการผสมแทร็กที่หลากหลายเข้าด้วยกัน เพลงสามารถสังเคราะห์เสียงตัวอย่างที่บันทึกล่วงหน้าหรืออินพุตไมโครโฟนแบบเรียลไทม์

6
วิธีตรวจจับที่ง่ายที่สุดในการเริ่มและหยุดซองจดหมายเสียง
ด้านล่างเป็นสัญญาณที่แสดงถึงการบันทึกการพูดคุยของใครบางคน ฉันต้องการสร้างชุดสัญญาณเสียงขนาดเล็กตามนี้ แนวคิดในการตรวจจับเมื่อเสียง 'สำคัญ' เริ่มต้นและสิ้นสุดและใช้สิ่งเหล่านี้เป็นเครื่องหมายเพื่อสร้างตัวอย่างข้อมูลเสียงใหม่ กล่าวอีกนัยหนึ่งฉันต้องการใช้ความเงียบเป็นตัวบ่งชี้ว่าเมื่อใด 'เสียงอัน' เริ่มหรือหยุดและสร้างบัฟเฟอร์เสียงใหม่ตามสิ่งนี้ ตัวอย่างเช่นถ้ามีคนบันทึกตัวเองพูด Hi [some silence] My name is Bob [some silence] How are you? ฉันต้องการทำคลิปเสียงสามคลิปจากนี้ หนึ่งที่กล่าวว่าHiหนึ่งที่กล่าวว่าและหนึ่งที่กล่าวว่าMy name is BobHow are you? แนวคิดเริ่มต้นของฉันคือการเรียกใช้บัฟเฟอร์เสียงตรวจสอบอย่างสม่ำเสมอว่ามีพื้นที่ของแอมพลิจูดต่ำ บางทีฉันสามารถทำได้โดยการหาสิบตัวอย่างแรกโดยเฉลี่ยค่าและถ้าผลลัพธ์ต่ำแล้วติดป้ายว่าเงียบ ฉันจะลงบัฟเฟอร์ด้วยการตรวจสอบอีกสิบตัวอย่าง การเพิ่มขึ้นด้วยวิธีนี้ฉันสามารถตรวจจับได้ว่าซองจดหมายเริ่มต้นและหยุดที่ใด หากใครมีคำแนะนำใด ๆ เกี่ยวกับความดี แต่วิธีง่ายๆในการทำสิ่งนี้ก็คงจะดี สำหรับวัตถุประสงค์ของฉันการแก้ปัญหาสามารถเป็นพื้นฐานค่อนข้าง ฉันไม่ใช่มืออาชีพที่ DSP แต่เข้าใจแนวคิดพื้นฐานบางอย่าง นอกจากนี้ฉันจะทำสิ่งนี้ทางโปรแกรมดังนั้นควรพูดคุยเกี่ยวกับอัลกอริทึมและตัวอย่างดิจิทัล ขอบคุณสำหรับความช่วยเหลือ! แก้ไข 1 การตอบสนองยอดเยี่ยมจนถึงตอนนี้! แค่อยากจะอธิบายว่านี่ไม่ใช่เสียงสดและฉันจะเขียนอัลกอริธึมด้วยตัวเองใน C หรือ Objective-C ดังนั้นการแก้ปัญหาใด …

5
ความแตกต่างระหว่างความล่าช้าเฟสและความล่าช้าของกลุ่มคืออะไร?
ฉันกำลังศึกษา DSP บางอย่างและฉันมีปัญหาในการทำความเข้าใจความแตกต่างระหว่างความล่าช้าขั้นตอนและความล่าช้ากลุ่ม ดูเหมือนว่าพวกเขาทั้งคู่จะวัดเวลาหน่วงของไซนัสที่ส่งผ่านตัวกรอง ฉันถูกต้องในการคิดสิ่งนี้หรือไม่? ถ้าเป็นเช่นนั้นการวัดทั้งสองจะแตกต่างกันอย่างไร ใครช่วยยกตัวอย่างสถานการณ์ที่การวัดหนึ่งจะมีประโยชน์มากกว่าอีกสถานการณ์หนึ่ง? UPDATE อ่านหนังสือไปข้างหน้าในจูเลียสมิ ธรู้เบื้องต้นเกี่ยวกับตัวกรองดิจิตอลฉันได้พบสถานการณ์ที่ทั้งสองวัดอย่างน้อยให้ผลที่แตกต่างกัน: ฟิลเตอร์เลียนแบบเฟส นั่นเป็นคำตอบบางส่วนสำหรับคำถามของฉันฉันเดา

9
มีอัลกอริทึมสำหรับค้นหาความถี่ที่ไม่มี DFT หรือ FFT หรือไม่
ฉันกำลังค้นหาแอพสโตร์ Android สำหรับนักกีต้าร์ ฉันพบแอปเครื่องรับที่อ้างว่าเร็วกว่าแอปอื่น ๆ มันอ้างว่าสามารถหาความถี่ได้โดยไม่ต้องใช้ DFT (ฉันหวังว่าฉันจะยังมี URL ตามข้อกำหนดนี้) ฉันไม่เคยได้ยินเรื่องนี้ คุณสามารถรับสัญญาณเสียงและคำนวณความถี่โดยไม่ใช้อัลกอริทึม DFT หรือ FFT ได้หรือไม่?
34 audio  fft  frequency  dft 

4
วิธีที่ดีในการตรวจจับสัญญาณที่ถูกตัดออกในการบันทึกคืออะไร?
เมื่อได้รับการบันทึกฉันต้องตรวจสอบว่ามีการคลิปเกิดขึ้นหรือไม่ ฉันสามารถสรุปได้อย่างปลอดภัยว่ามีการตัดหากตัวอย่างใด (หนึ่ง) ถึงค่าตัวอย่างสูงสุดหรือฉันควรมองหาชุดตัวอย่างที่ตามมาที่ระดับสูงสุดหรือไม่ การบันทึกอาจจะนำมาจาก 16 หรือ 24 บิต A / D แปลงและจะถูกแปลงเป็นค่าจุดตั้งแต่ลอย 1 หากการแปลงนี้ใช้รูปแบบของการหารด้วยหรือจากนั้นสันนิษฐานว่าพีคเชิงลบอาจต่ำกว่า -1 และตัวอย่างที่มีค่า -1 ไม่ถูกตัด?2 15 - 1 2 23 - 1−1...1−1...1-1...1215−1215−12^{15}-1223−1223−12^{23}-1 เห็นได้ชัดว่ามีใครสามารถสร้างสัญญาณโดยเฉพาะเพื่อเอาชนะอัลกอริทึมการตรวจจับการคลิป แต่ฉันกำลังดูการบันทึกคำพูด, เพลง, คลื่นไซน์หรือเสียงสีชมพู / สีขาว
32 audio  algorithms 

4
Hilbert แปลงร่างเพื่อคำนวณซองจดหมายสัญญาณหรือไม่
ฉันได้ยินมาว่าการแปลงของฮิลแบร์ตนั้นสามารถใช้ในการคำนวณซองจดหมายของสัญญาณ มันทำงานอย่างไร และ "ซองจดหมาย Hilbert" นี้แตกต่างจากซองจดหมายที่ได้รับเพียงแค่แก้ไขสัญญาณได้อย่างไร ฉันสนใจเป็นพิเศษในการค้นหาวิธีคำนวณซองจดหมายสำหรับใช้ในการบีบอัดช่วงไดนามิก (เช่น "ลดระดับเสียง" ของส่วนที่ดังของสัญญาณเสียงโดยอัตโนมัติ)
27 audio 

5
วิธีสร้างเครื่องกำเนิดคลื่นไซน์ที่สามารถเปลี่ยนระหว่างความถี่ได้อย่างราบรื่น
ฉันสามารถเขียนเครื่องกำเนิดคลื่นไซน์พื้นฐานสำหรับเสียงได้ แต่ฉันต้องการให้สามารถเปลี่ยนจากความถี่หนึ่งไปเป็นอีกความถี่ได้อย่างราบรื่น หากฉันเพิ่งหยุดสร้างความถี่หนึ่งและเปลี่ยนไปใช้ความถี่อื่นทันทีจะมีความไม่ต่อเนื่องของสัญญาณและจะได้ยิน "คลิก" คำถามของฉันคืออะไรอัลกอริทึมที่ดีในการสร้างคลื่นที่เริ่มต้นคือพูด 250Hz แล้วเปลี่ยนเป็น 300Hz โดยไม่ต้องคลิกใด ๆ หากอัลกอริทึมมีเวลาร่อน / พอร์ตเสริมที่เป็นทางเลือกดังนั้นดีกว่ามาก ฉันสามารถนึกถึงวิธีที่เป็นไปได้สองสามอย่างเช่นการสุ่มตัวอย่างมากเกินไปตามด้วยตัวกรองความถี่ต่ำหรืออาจใช้ wavetable แต่ฉันแน่ใจว่านี่เป็นปัญหาที่พบได้บ่อยพอที่มีวิธีมาตรฐานในการแก้ปัญหา
27 audio 

6
การคำนวณ PDF ของรูปคลื่นจากตัวอย่าง
เมื่อไม่นานมานี้ฉันได้ลองวิธีต่างๆในการวาดรูปคลื่นดิจิตอลและหนึ่งในสิ่งที่ฉันได้ลองก็คือแทนที่จะเป็นภาพเงามาตรฐานของซองขนาดแอมพลิจูดเพื่อแสดงมันเหมือนออสซิลโลสโคป นี่คือลักษณะของไซน์และคลื่นสแควร์: วิธีที่ไร้เดียงสาในการทำเช่นนี้คือ: แบ่งไฟล์เสียงเป็นก้อนเดียวต่อพิกเซลแนวนอนในภาพออก คำนวณฮิสโตแกรมของแอมพลิจูดของตัวอย่างสำหรับแต่ละอัน พล็อตฮิสโตแกรมโดยความสว่างเป็นคอลัมน์ของพิกเซล มันสร้างบางสิ่งเช่นนี้ วิธีนี้ใช้งานได้ดีหากมีตัวอย่างจำนวนมากต่อชิ้นและความถี่ของสัญญาณไม่เกี่ยวข้องกับความถี่ในการสุ่มตัวอย่าง แต่ไม่เช่นนั้น หากความถี่สัญญาณเป็นตัวอย่างที่แน่นอนของความถี่การสุ่มตัวอย่างตัวอย่างจะเกิดขึ้นที่แอมพลิจูดเดียวกันในแต่ละรอบและฮิสโทแกรมจะมีเพียงไม่กี่จุดแม้ว่าสัญญาณที่สร้างขึ้นจริงจะอยู่ระหว่างจุดเหล่านี้ ชีพจรไซน์นี้ควรราบเรียบเท่าที่อยู่ด้านบนซ้าย แต่ไม่ใช่เพราะมันคือ 1 kHz และตัวอย่างจะเกิดขึ้นรอบ ๆ จุดเดียวกันเสมอ: ฉันพยายามอัปแซมปลิงเพื่อเพิ่มจำนวนคะแนน แต่มันไม่สามารถแก้ปัญหาได้เพียงช่วยให้สิ่งต่าง ๆ ราบรื่นในบางกรณี สิ่งที่ฉันชอบคือวิธีการคำนวณPDF ที่แท้จริง(ความน่าจะเป็นเทียบกับแอมพลิจูด) ของสัญญาณที่สร้างใหม่อย่างต่อเนื่องจากตัวอย่างดิจิทัล (แอมพลิจูดเทียบกับเวลา) ฉันไม่รู้ว่าจะใช้อัลกอริธึมอะไรสำหรับเรื่องนี้ โดยทั่วไปรูปแบบไฟล์ PDF ของฟังก์ชั่นเป็นอนุพันธ์ของฟังก์ชันผกผัน PDF ของ sin (x): ddxarcsinx=11−x2√ddxarcsin⁡x=11−x2\frac{d}{dx} \arcsin x = \frac{1}{\sqrt{1-x^2}} แต่ฉันไม่ทราบวิธีคำนวณสิ่งนี้สำหรับคลื่นที่อินเวอร์สเป็นฟังก์ชันหลายค่าหรือวิธีที่รวดเร็ว แยกมันออกเป็นกิ่งไม้และคำนวณค่าผกผันของแต่ละตัวนำอนุพันธ์มารวมกัน แต่มันค่อนข้างซับซ้อนและอาจเป็นวิธีที่ง่ายกว่า "PDF ของข้อมูลที่ถูกสอดแทรก" นี้ยังใช้กับความพยายามที่ฉันทำเพื่อประมาณความหนาแน่นของเคอร์เนลของแทร็ก GPS มันควรจะเป็นรูปวงแหวน แต่เนื่องจากมันเป็นเพียงการดูตัวอย่างและไม่พิจารณาจุดแทรกระหว่างตัวอย่าง KDE จึงดูคล้ายกับโคกมากกว่าวงแหวน หากตัวอย่างเป็นสิ่งที่เรารู้แล้วนี่คือสิ่งที่ดีที่สุดที่เราสามารถทำได้ …

5
สิ่งที่เทียบเท่าเสียงของภาพเช่น "Lena", "Mandrill" และ "Cameraman"?
ฉันไม่รู้ว่าจะเรียกรูปภาพเหล่านี้อย่างไร แต่บ่อยครั้งมักใช้ในโลกแห่งการประมวลผลภาพเป็นตัวอย่างมาตรฐานเพื่อแสดงผลลัพธ์ของการทำงานเฉพาะ นี่คือการเชื่อมโยงไปยังหน้าอธิบาย Lena เป็น "ภาพทดสอบมาตรฐาน" มีคลิปเสียง canonical ที่คล้ายกันที่ใช้ในการสาธิตผลกระทบของฟิลเตอร์เสียงหรือการทำงานบางอย่างหรือไม่?

6
ทำไมเราถึงเลือก 44.1 kHz เป็นอัตราการสุ่มตัวอย่าง?
หูของประชาชนจะได้ยินเสียงที่มีความถี่ตั้งแต่ 20 Hz ถึง 20 kHz ตามทฤษฎีของ Nyquist อัตราการบันทึกควรมีอย่างน้อย 40 kHz เป็นเหตุผลในการเลือก 44.1 kHz หรือไม่
21 audio  sampling 

3
การเรียงลำดับส่วน biquad สำหรับตัวกรองคำสั่งซื้อที่สูงขึ้นทำงานอย่างไร
ฉันกำลังพยายามใช้ตัวกรอง IIR อันดับที่ 8 และบันทึกย่อของแอปพลิเคชันและหนังสือทุกเล่มที่ฉันได้อ่านบอกว่ามันเป็นการดีที่สุดที่จะใช้ตัวกรองลำดับที่สองมากกว่านั้นเป็นส่วนที่สอง ฉันใช้tf2sosMATLAB เพื่อรับค่าสัมประสิทธิ์สำหรับส่วนที่สองซึ่งทำให้ฉันมีค่า 6x4 coeffs สำหรับส่วนของคำสั่งที่สอง 4 ตามที่คาดไว้ ก่อนการใช้งานเป็น SOS ตัวกรองลำดับที่ 8 จำเป็นต้องเก็บค่าตัวอย่าง 7 ค่าก่อนหน้า (และค่าเอาต์พุตด้วย) ตอนนี้เมื่อดำเนินการตามลำดับส่วนที่สองโฟลว์ทำงานอย่างไรจากอินพุตไปยังเอาต์พุตฉันต้องเก็บค่าตัวอย่างก่อนหน้านี้เพียง 2 ค่าหรือไม่ หรือผลลัพธ์ของตัวกรองตัวแรกป้อนเช่นเดียวx_inกับตัวกรองที่สองและอื่น ๆ ?
20 filters  filter-design  infinite-impulse-response  biquad  audio  image-processing  distance-metrics  algorithms  interpolation  audio  hardware  performance  sampling  computer-vision  dsp-core  music  frequency-spectrum  matlab  power-spectral-density  filter-design  ica  source-separation  fourier-transform  fourier-transform  sampling  bandpass  audio  algorithms  edge-detection  filters  computer-vision  stereo-vision  filters  finite-impulse-response  infinite-impulse-response  image-processing  blur  impulse-response  state-space  linear-systems  dft  floating-point  software-implementation  oscillator  matched-filter  digital-communications  digital-communications  deconvolution  continuous-signals  discrete-signals  transfer-function  image-processing  computer-vision  3d 

4
การสร้างสัญญาณเสียงจาก Spectrogram
ฉันมีชุดของเพลงที่สกัดสเปคโตรแกรมขนาดโดยใช้ Hamming Window ที่มีการทับซ้อน 50% หลังจากที่แยกสเปคโทรแกรมฉันได้ลดขนาดไปบ้างโดยใช้การวิเคราะห์ส่วนประกอบ (PCA) หลังจากลดมันลงไปสู่มิติที่ต่ำกว่าฉันสร้างสเปคตรัมใหม่จากมิติที่ต่ำกว่า ดังนั้นตอนนี้จะมีข้อผิดพลาดบางอย่างระหว่าง spectrogram ดั้งเดิมและ spectrogram ที่สร้างขึ้นใหม่ ฉันต้องการแปลง spectrogram นี้กลับไปเป็นสัญญาณเสียงและเล่นเพื่อที่ฉันจะได้รู้เมื่อสร้างขึ้นใหม่จากมิติที่ต่ำกว่าเสียงเสียงอย่างไร Matlab มีฟังก์ชั่นใด ๆ หรือไม่ การแปลงขนาด Spectrogram เป็นสัญญาณเสียง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.