แผนการเรียนรู้สำหรับผู้เริ่มต้นการประมวลผลสัญญาณเสียง


13

ฉันต้องการเริ่มเรียนรู้การประมวลผลสัญญาณเสียง มีหนังสือหลายเล่มที่ออนไลน์และเอกสารทางวิชาการซึ่งดูเหมือนว่าจะข้ามพื้นฐานของหัวข้อ

ฉันต้องการทราบแผนการทำงานอย่างคร่าวๆดังนั้นเพื่อพูดคุยเพื่อติดตามการเรียนรู้การประมวลผลสัญญาณเสียงได้สำเร็จ

ฉันได้อ่านแล้วว่าแคลคูลัสเป็นขั้นตอนแรกก่อนเริ่มต้นด้วยการวิเคราะห์สัญญาณ

ฉันรู้สึกว่าการวิเคราะห์สัญญาณเสียงเป็นเพียงส่วนหนึ่งของความรู้โดยรวมที่จำเป็น ในขณะที่หัวข้ออื่น ๆ คือทฤษฎีดนตรีวิศวกรรมเสียงและการเขียนโปรแกรม

หากฉันอาจขอให้ผู้ที่มีความรู้ในเรื่องนี้แนะนำขั้นตอนที่เป็นไปได้ในการทำความเข้าใจวิธีการวิเคราะห์และจัดการ / สร้างสัญญาณเสียง


ฉันจะยอมรับว่าพื้นหลังในแคลคูลัส (อย่างน้อย) เป็นสิ่งสำคัญสำหรับคุณที่จะมีโอกาสเข้าใจคณิตศาสตร์ที่คุณอาจพบในสัญญาณและระบบทฤษฎีข้อความหรือหลักสูตร ฉันจะทำให้แน่ใจว่าคุณจะได้กลิ่นก่อน
Jason R

1
สไลด์เหล่านี้อาจช่วยได้ พวกเขาได้รับของคุณแม้ว่าบางส่วนของที่ไม่ใช่คณิตศาสตร์ / วิศวกรรมพื้นฐานของการประมวลผลเสียงและการเขียนโปรแกรมเสียง blog.bjornroche.com/2011/11/…
Bjorn Roche

คำตอบ:


17

ผมขอแนะนำให้มีลักษณะที่ศ. จูเลียสทุมสมิ ธ ที่สามของทางกายภาพและเสียงการประมวลผลสัญญาณ สามารถออนไลน์ได้หรือสามารถซื้อผ่านบริการพิมพ์ตามต้องการของ Amazon

โดยเฉพาะอย่างยิ่งคำอธิบายในภาพรวมหนังสือชุดอาจคุ้มค่า

ป้อนคำอธิบายรูปภาพที่นี่


9

ฉันไม่คิดว่าจะมีประเด็นใดที่ดำดิ่งสู่ความซับซ้อนของ DFT / FFT / IIR / FIR และเวฟเล็ตโดยไม่ต้องทำความเข้าใจก่อนว่าเสียงนั้นเป็นพื้นฐานและอะไรคือวิธีการแสดงเสียงแบบดิจิทัล

เสียงทั่วไป (ในอากาศไม่ใช่น้ำหรือวัสดุอื่น ๆ ):

  • เสียงประกอบด้วยคลื่นความดันเสียง
  • พวกมันทำให้เกิดการบีบอัดและทำให้อากาศบริสุทธิ์
  • คลื่นเหล่านี้แพร่กระจายออกจากจุดกำเนิด
  • คลื่นสามารถรบกวนซึ่งกันและกันทำให้เกิดยอดเขาและราง
  • คลื่นสามารถดูดซับและสะท้อนโดยวัสดุ

เสียงมีการแสดงออกอย่างไรด้วยไฟฟ้า:

  • ไมโครโฟนและแอมพลิไฟเออร์ก่อนหน้าจะแปลงคลื่นความดันเสียงเป็นสัญญาณไฟฟ้า
  • โดยทั่วไปสัญญาณนี้มีทั้งแรงดันบวกและลบ (เช่นแรงดันไฟฟ้ากระแสสลับ)
  • เทปแม่เหล็กจัดเก็บความแตกต่างเหล่านี้ตามที่ปรากฏดังนั้นคำอะนาล็อก
  • ความอิ่มตัวเกิดขึ้นเมื่อความแรงของสัญญาณอินพุตเท่ากับขีด จำกัด ของระบบ (แรงดันไฟฟ้าเพิ่มขึ้นไม่สามารถแสดงได้อย่างถูกต้อง)
  • การตัดเกิดขึ้นเมื่อสัญญาณอินพุตสูงกว่าที่ระบบสามารถแสดงได้ดังนั้นสัญญาณจึงถูกตัด (หรือต่อยอดที่ปลายสุด)

เสียงถูกนำเสนอแบบดิจิทัลอย่างไร:

  • ต้องสุ่มตัวอย่างเสียงก่อนโดยใช้ ADC (ตัวแปลงสัญญาณอนาล็อกเป็นดิจิทัล)
  • การสุ่มตัวอย่างประกอบด้วยการวัดสัญญาณเสียงเป็นระยะ ๆ
  • ช่วงเวลานี้เรียกว่าอัตราตัวอย่างและกำหนดความถี่สูงสุดที่สามารถแสดงได้ (ขีด จำกัด nyquist)
  • ขีด จำกัด nyquist คืออัตราตัวอย่าง / 2 (ยิ่งเข้าใกล้ขีด จำกัด ยิ่งแสดงสัญญาณได้ไม่ดี)
  • ระดับเสียงกำหนดพื้นเสียง (-96dB สำหรับ 16 บิตเทียบกับ -48dB สำหรับ 8 บิต)
  • ตัวอย่างเสียง 16 บิตเดียวสามารถเป็นค่า (ลงนาม) ระหว่าง -32768 ถึง 32767 (ซึ่งสามารถเป็นตัวแทนของการแกว่งเชิงลบและบวกของสัญญาณอะนาล็อก)
  • มีเพียง 8 Bits ที่อนุญาตต่อไบต์ (ในแง่ของการจัดเก็บข้อมูลคอมพิวเตอร์) ดังนั้นตัวอย่าง 16 บิตจะต้องแสดงอย่างน้อย 2 ไบต์
  • ลำดับที่เก็บไบต์เหล่านี้เรียกว่าประเภท endian (ใหญ่หรือเล็ก)
  • ตัวอย่างสเตอริโอจำเป็นต้องมีตัวอย่างแยกกันสำหรับแต่ละช่องสัญญาณหนึ่งช่องทางซ้ายและอีกช่องทางขวา

มีวิธีต่าง ๆ ในการจัดเก็บเสียงดิจิทัล:

  • PCM (พัลส์รหัสมอดูเลต) เป็นวิธีที่ไม่มีการบีบอัดที่ใช้กันทั่วไปในการจัดเก็บเสียงแบบดิจิทัล
  • มีการบีบอัดข้อมูลจำนวนมากเพื่อลดจำนวนข้อมูลที่ใช้บางอันสูญเสียไปบางส่วนมีการสูญเสีย
  • ไฟล์ WAV จะไม่ถูกบีบอัดและสามารถเป็นแบบโมโนหรือสเตอริโอ (ตัวอย่างแบบแทรก)
  • ไฟล์ MP3 ถูกบีบอัดสูญหายและใช้ psychoacoustics เพื่อให้ได้อัตราการบีบอัดข้อมูลที่สูงมาก
  • แม้แต่ช่วงบิตต่ำสุด (1 บิต) ก็มีประโยชน์ขึ้นอยู่กับการใช้งานโดยทั่วไปการ์ดของขวัญที่เล่นเสียงที่เก็บไว้เป็น 1 บิต

วิธีทำความคุ้นเคยกับเสียงในขอบเขตดิจิตอลมากขึ้น:

  • ทำและทำมากขึ้น! ดาวน์โหลดโปรแกรมเช่นความกล้าและสร้างไฟล์เสียงที่แตกต่างกันโดยใช้อัตราตัวอย่างและช่วงบิตที่แตกต่างกัน
  • สร้างเสียงไซน์ / สามเหลี่ยม / สแควร์และฟันเลื่อยและได้ยินความแตกต่าง
  • เรียนรู้วิธีฟังความแตกต่างระหว่างประเภทเช่นไฟล์ 8 บิต 10KHz และไฟล์ 16 บิต 44.1KHz (คุณภาพซีดี)
  • ทดลองกับตัวกรอง high-pass / low-pass / band-pass และได้ยินความแตกต่าง
  • ส่งสัญญาณเกินขีด จำกัด ความอิ่มตัวเพื่อเข้าใจว่าการคลิปมีผลต่อสัญญาณเสียงอย่างไร
  • ใช้ซองจดหมายเพื่อส่งสัญญาณหากซอฟต์แวร์ของคุณมีความสามารถนี้
  • มีความแตกต่างระหว่างการบิดเบือนของฮาร์โมนิกและฮาร์มอนิกคือทำการทดลองกับทั้งสองอย่าง
  • ใช้ spectrogram (FFT) เพื่อดูสัญญาณเหล่านี้และสัญญาณอื่น ๆ เพื่อทำความคุ้นเคยกับมัน
  • ใช้พล็อตเชิงเส้นและลอการิทึมเพื่อดูความแตกต่าง
  • สัญญาณ Downsample และ Upsample และได้ยินว่าสิ่งนี้มีผลต่อเสียงอย่างไร
  • ใช้วิธีการที่แตกต่างกัน (เมื่อแปลงช่วงบิต) และได้ยินความแตกต่าง

หวังว่านี่จะให้ความรู้สึกถึงสิ่งที่เป็นตัวแทนของเสียงดิจิตอลและความแตกต่างของเสียงที่เหมือนก่อนที่จะลองใช้ DSP ใด ๆ มันง่ายกว่าที่จะรู้ว่ามีบางอย่างผิดปกติกับการวิเคราะห์ FFT ของคุณหากคุณสามารถจำได้ว่าคุณได้ป้อนสัญญาณ 8 บิตเทียบกับสัญญาณ 16 บิตหรือว่าอัตราตัวอย่างได้รับความเสียหายจากการคำนวณผิดพลาดในการแปลง


ขอบคุณสำหรับคำตอบ. ฉันตระหนักถึงสิ่งเหล่านี้แม้ว่าและต้องการเข้าด้าน dsp ของมันตอนนี้
jarryd
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.