แผนการเรียนรู้สำหรับผู้เริ่มต้นการประมวลผลสัญญาณเสียง

13

ฉันต้องการเริ่มเรียนรู้การประมวลผลสัญญาณเสียง มีหนังสือหลายเล่มที่ออนไลน์และเอกสารทางวิชาการซึ่งดูเหมือนว่าจะข้ามพื้นฐานของหัวข้อ

ฉันต้องการทราบแผนการทำงานอย่างคร่าวๆดังนั้นเพื่อพูดคุยเพื่อติดตามการเรียนรู้การประมวลผลสัญญาณเสียงได้สำเร็จ

ฉันได้อ่านแล้วว่าแคลคูลัสเป็นขั้นตอนแรกก่อนเริ่มต้นด้วยการวิเคราะห์สัญญาณ

ฉันรู้สึกว่าการวิเคราะห์สัญญาณเสียงเป็นเพียงส่วนหนึ่งของความรู้โดยรวมที่จำเป็น ในขณะที่หัวข้ออื่น ๆ คือทฤษฎีดนตรีวิศวกรรมเสียงและการเขียนโปรแกรม

หากฉันอาจขอให้ผู้ที่มีความรู้ในเรื่องนี้แนะนำขั้นตอนที่เป็นไปได้ในการทำความเข้าใจวิธีการวิเคราะห์และจัดการ / สร้างสัญญาณเสียง

audio

— Jarryd
แหล่งที่มา

ฉันจะยอมรับว่าพื้นหลังในแคลคูลัส (อย่างน้อย) เป็นสิ่งสำคัญสำหรับคุณที่จะมีโอกาสเข้าใจคณิตศาสตร์ที่คุณอาจพบในสัญญาณและระบบทฤษฎีข้อความหรือหลักสูตร ฉันจะทำให้แน่ใจว่าคุณจะได้กลิ่นก่อน

— Jason R

1

สไลด์เหล่านี้อาจช่วยได้ พวกเขาได้รับของคุณแม้ว่าบางส่วนของที่ไม่ใช่คณิตศาสตร์ / วิศวกรรมพื้นฐานของการประมวลผลเสียงและการเขียนโปรแกรมเสียง blog.bjornroche.com/2011/11/…

— Bjorn Roche

17

ผมขอแนะนำให้มีลักษณะที่ศ. จูเลียสทุมสมิ ธ ที่สามของทางกายภาพและเสียงการประมวลผลสัญญาณ สามารถออนไลน์ได้หรือสามารถซื้อผ่านบริการพิมพ์ตามต้องการของ Amazon

โดยเฉพาะอย่างยิ่งคำอธิบายในภาพรวมหนังสือชุดอาจคุ้มค่า

ป้อนคำอธิบายรูปภาพที่นี่

— ปีเตอร์เค
แหล่งที่มา

9

ฉันไม่คิดว่าจะมีประเด็นใดที่ดำดิ่งสู่ความซับซ้อนของ DFT / FFT / IIR / FIR และเวฟเล็ตโดยไม่ต้องทำความเข้าใจก่อนว่าเสียงนั้นเป็นพื้นฐานและอะไรคือวิธีการแสดงเสียงแบบดิจิทัล

เสียงทั่วไป (ในอากาศไม่ใช่น้ำหรือวัสดุอื่น ๆ ):

เสียงประกอบด้วยคลื่นความดันเสียง
พวกมันทำให้เกิดการบีบอัดและทำให้อากาศบริสุทธิ์
คลื่นเหล่านี้แพร่กระจายออกจากจุดกำเนิด
คลื่นสามารถรบกวนซึ่งกันและกันทำให้เกิดยอดเขาและราง
คลื่นสามารถดูดซับและสะท้อนโดยวัสดุ

เสียงมีการแสดงออกอย่างไรด้วยไฟฟ้า:

ไมโครโฟนและแอมพลิไฟเออร์ก่อนหน้าจะแปลงคลื่นความดันเสียงเป็นสัญญาณไฟฟ้า
โดยทั่วไปสัญญาณนี้มีทั้งแรงดันบวกและลบ (เช่นแรงดันไฟฟ้ากระแสสลับ)
เทปแม่เหล็กจัดเก็บความแตกต่างเหล่านี้ตามที่ปรากฏดังนั้นคำอะนาล็อก
ความอิ่มตัวเกิดขึ้นเมื่อความแรงของสัญญาณอินพุตเท่ากับขีด จำกัด ของระบบ (แรงดันไฟฟ้าเพิ่มขึ้นไม่สามารถแสดงได้อย่างถูกต้อง)
การตัดเกิดขึ้นเมื่อสัญญาณอินพุตสูงกว่าที่ระบบสามารถแสดงได้ดังนั้นสัญญาณจึงถูกตัด (หรือต่อยอดที่ปลายสุด)

เสียงถูกนำเสนอแบบดิจิทัลอย่างไร:

ต้องสุ่มตัวอย่างเสียงก่อนโดยใช้ ADC (ตัวแปลงสัญญาณอนาล็อกเป็นดิจิทัล)
การสุ่มตัวอย่างประกอบด้วยการวัดสัญญาณเสียงเป็นระยะ ๆ
ช่วงเวลานี้เรียกว่าอัตราตัวอย่างและกำหนดความถี่สูงสุดที่สามารถแสดงได้ (ขีด จำกัด nyquist)
ขีด จำกัด nyquist คืออัตราตัวอย่าง / 2 (ยิ่งเข้าใกล้ขีด จำกัด ยิ่งแสดงสัญญาณได้ไม่ดี)
ระดับเสียงกำหนดพื้นเสียง (-96dB สำหรับ 16 บิตเทียบกับ -48dB สำหรับ 8 บิต)
ตัวอย่างเสียง 16 บิตเดียวสามารถเป็นค่า (ลงนาม) ระหว่าง -32768 ถึง 32767 (ซึ่งสามารถเป็นตัวแทนของการแกว่งเชิงลบและบวกของสัญญาณอะนาล็อก)
มีเพียง 8 Bits ที่อนุญาตต่อไบต์ (ในแง่ของการจัดเก็บข้อมูลคอมพิวเตอร์) ดังนั้นตัวอย่าง 16 บิตจะต้องแสดงอย่างน้อย 2 ไบต์
ลำดับที่เก็บไบต์เหล่านี้เรียกว่าประเภท endian (ใหญ่หรือเล็ก)
ตัวอย่างสเตอริโอจำเป็นต้องมีตัวอย่างแยกกันสำหรับแต่ละช่องสัญญาณหนึ่งช่องทางซ้ายและอีกช่องทางขวา

มีวิธีต่าง ๆ ในการจัดเก็บเสียงดิจิทัล:

PCM (พัลส์รหัสมอดูเลต) เป็นวิธีที่ไม่มีการบีบอัดที่ใช้กันทั่วไปในการจัดเก็บเสียงแบบดิจิทัล
มีการบีบอัดข้อมูลจำนวนมากเพื่อลดจำนวนข้อมูลที่ใช้บางอันสูญเสียไปบางส่วนมีการสูญเสีย
ไฟล์ WAV จะไม่ถูกบีบอัดและสามารถเป็นแบบโมโนหรือสเตอริโอ (ตัวอย่างแบบแทรก)
ไฟล์ MP3 ถูกบีบอัดสูญหายและใช้ psychoacoustics เพื่อให้ได้อัตราการบีบอัดข้อมูลที่สูงมาก
แม้แต่ช่วงบิตต่ำสุด (1 บิต) ก็มีประโยชน์ขึ้นอยู่กับการใช้งานโดยทั่วไปการ์ดของขวัญที่เล่นเสียงที่เก็บไว้เป็น 1 บิต

วิธีทำความคุ้นเคยกับเสียงในขอบเขตดิจิตอลมากขึ้น:

ทำและทำมากขึ้น! ดาวน์โหลดโปรแกรมเช่นความกล้าและสร้างไฟล์เสียงที่แตกต่างกันโดยใช้อัตราตัวอย่างและช่วงบิตที่แตกต่างกัน
สร้างเสียงไซน์ / สามเหลี่ยม / สแควร์และฟันเลื่อยและได้ยินความแตกต่าง
เรียนรู้วิธีฟังความแตกต่างระหว่างประเภทเช่นไฟล์ 8 บิต 10KHz และไฟล์ 16 บิต 44.1KHz (คุณภาพซีดี)
ทดลองกับตัวกรอง high-pass / low-pass / band-pass และได้ยินความแตกต่าง
ส่งสัญญาณเกินขีด จำกัด ความอิ่มตัวเพื่อเข้าใจว่าการคลิปมีผลต่อสัญญาณเสียงอย่างไร
ใช้ซองจดหมายเพื่อส่งสัญญาณหากซอฟต์แวร์ของคุณมีความสามารถนี้
มีความแตกต่างระหว่างการบิดเบือนของฮาร์โมนิกและฮาร์มอนิกคือทำการทดลองกับทั้งสองอย่าง
ใช้ spectrogram (FFT) เพื่อดูสัญญาณเหล่านี้และสัญญาณอื่น ๆ เพื่อทำความคุ้นเคยกับมัน
ใช้พล็อตเชิงเส้นและลอการิทึมเพื่อดูความแตกต่าง
สัญญาณ Downsample และ Upsample และได้ยินว่าสิ่งนี้มีผลต่อเสียงอย่างไร
ใช้วิธีการที่แตกต่างกัน (เมื่อแปลงช่วงบิต) และได้ยินความแตกต่าง

หวังว่านี่จะให้ความรู้สึกถึงสิ่งที่เป็นตัวแทนของเสียงดิจิตอลและความแตกต่างของเสียงที่เหมือนก่อนที่จะลองใช้ DSP ใด ๆ มันง่ายกว่าที่จะรู้ว่ามีบางอย่างผิดปกติกับการวิเคราะห์ FFT ของคุณหากคุณสามารถจำได้ว่าคุณได้ป้อนสัญญาณ 8 บิตเทียบกับสัญญาณ 16 บิตหรือว่าอัตราตัวอย่างได้รับความเสียหายจากการคำนวณผิดพลาดในการแปลง

— ronnied
แหล่งที่มา

ขอบคุณสำหรับคำตอบ. ฉันตระหนักถึงสิ่งเหล่านี้แม้ว่าและต้องการเข้าด้าน dsp ของมันตอนนี้

— jarryd