ฉันไม่คิดว่าจะมีประเด็นใดที่ดำดิ่งสู่ความซับซ้อนของ DFT / FFT / IIR / FIR และเวฟเล็ตโดยไม่ต้องทำความเข้าใจก่อนว่าเสียงนั้นเป็นพื้นฐานและอะไรคือวิธีการแสดงเสียงแบบดิจิทัล
เสียงทั่วไป (ในอากาศไม่ใช่น้ำหรือวัสดุอื่น ๆ ):
- เสียงประกอบด้วยคลื่นความดันเสียง
- พวกมันทำให้เกิดการบีบอัดและทำให้อากาศบริสุทธิ์
- คลื่นเหล่านี้แพร่กระจายออกจากจุดกำเนิด
- คลื่นสามารถรบกวนซึ่งกันและกันทำให้เกิดยอดเขาและราง
- คลื่นสามารถดูดซับและสะท้อนโดยวัสดุ
เสียงมีการแสดงออกอย่างไรด้วยไฟฟ้า:
- ไมโครโฟนและแอมพลิไฟเออร์ก่อนหน้าจะแปลงคลื่นความดันเสียงเป็นสัญญาณไฟฟ้า
- โดยทั่วไปสัญญาณนี้มีทั้งแรงดันบวกและลบ (เช่นแรงดันไฟฟ้ากระแสสลับ)
- เทปแม่เหล็กจัดเก็บความแตกต่างเหล่านี้ตามที่ปรากฏดังนั้นคำอะนาล็อก
- ความอิ่มตัวเกิดขึ้นเมื่อความแรงของสัญญาณอินพุตเท่ากับขีด จำกัด ของระบบ (แรงดันไฟฟ้าเพิ่มขึ้นไม่สามารถแสดงได้อย่างถูกต้อง)
- การตัดเกิดขึ้นเมื่อสัญญาณอินพุตสูงกว่าที่ระบบสามารถแสดงได้ดังนั้นสัญญาณจึงถูกตัด (หรือต่อยอดที่ปลายสุด)
เสียงถูกนำเสนอแบบดิจิทัลอย่างไร:
- ต้องสุ่มตัวอย่างเสียงก่อนโดยใช้ ADC (ตัวแปลงสัญญาณอนาล็อกเป็นดิจิทัล)
- การสุ่มตัวอย่างประกอบด้วยการวัดสัญญาณเสียงเป็นระยะ ๆ
- ช่วงเวลานี้เรียกว่าอัตราตัวอย่างและกำหนดความถี่สูงสุดที่สามารถแสดงได้ (ขีด จำกัด nyquist)
- ขีด จำกัด nyquist คืออัตราตัวอย่าง / 2 (ยิ่งเข้าใกล้ขีด จำกัด ยิ่งแสดงสัญญาณได้ไม่ดี)
- ระดับเสียงกำหนดพื้นเสียง (-96dB สำหรับ 16 บิตเทียบกับ -48dB สำหรับ 8 บิต)
- ตัวอย่างเสียง 16 บิตเดียวสามารถเป็นค่า (ลงนาม) ระหว่าง -32768 ถึง 32767 (ซึ่งสามารถเป็นตัวแทนของการแกว่งเชิงลบและบวกของสัญญาณอะนาล็อก)
- มีเพียง 8 Bits ที่อนุญาตต่อไบต์ (ในแง่ของการจัดเก็บข้อมูลคอมพิวเตอร์) ดังนั้นตัวอย่าง 16 บิตจะต้องแสดงอย่างน้อย 2 ไบต์
- ลำดับที่เก็บไบต์เหล่านี้เรียกว่าประเภท endian (ใหญ่หรือเล็ก)
- ตัวอย่างสเตอริโอจำเป็นต้องมีตัวอย่างแยกกันสำหรับแต่ละช่องสัญญาณหนึ่งช่องทางซ้ายและอีกช่องทางขวา
มีวิธีต่าง ๆ ในการจัดเก็บเสียงดิจิทัล:
- PCM (พัลส์รหัสมอดูเลต) เป็นวิธีที่ไม่มีการบีบอัดที่ใช้กันทั่วไปในการจัดเก็บเสียงแบบดิจิทัล
- มีการบีบอัดข้อมูลจำนวนมากเพื่อลดจำนวนข้อมูลที่ใช้บางอันสูญเสียไปบางส่วนมีการสูญเสีย
- ไฟล์ WAV จะไม่ถูกบีบอัดและสามารถเป็นแบบโมโนหรือสเตอริโอ (ตัวอย่างแบบแทรก)
- ไฟล์ MP3 ถูกบีบอัดสูญหายและใช้ psychoacoustics เพื่อให้ได้อัตราการบีบอัดข้อมูลที่สูงมาก
- แม้แต่ช่วงบิตต่ำสุด (1 บิต) ก็มีประโยชน์ขึ้นอยู่กับการใช้งานโดยทั่วไปการ์ดของขวัญที่เล่นเสียงที่เก็บไว้เป็น 1 บิต
วิธีทำความคุ้นเคยกับเสียงในขอบเขตดิจิตอลมากขึ้น:
- ทำและทำมากขึ้น! ดาวน์โหลดโปรแกรมเช่นความกล้าและสร้างไฟล์เสียงที่แตกต่างกันโดยใช้อัตราตัวอย่างและช่วงบิตที่แตกต่างกัน
- สร้างเสียงไซน์ / สามเหลี่ยม / สแควร์และฟันเลื่อยและได้ยินความแตกต่าง
- เรียนรู้วิธีฟังความแตกต่างระหว่างประเภทเช่นไฟล์ 8 บิต 10KHz และไฟล์ 16 บิต 44.1KHz (คุณภาพซีดี)
- ทดลองกับตัวกรอง high-pass / low-pass / band-pass และได้ยินความแตกต่าง
- ส่งสัญญาณเกินขีด จำกัด ความอิ่มตัวเพื่อเข้าใจว่าการคลิปมีผลต่อสัญญาณเสียงอย่างไร
- ใช้ซองจดหมายเพื่อส่งสัญญาณหากซอฟต์แวร์ของคุณมีความสามารถนี้
- มีความแตกต่างระหว่างการบิดเบือนของฮาร์โมนิกและฮาร์มอนิกคือทำการทดลองกับทั้งสองอย่าง
- ใช้ spectrogram (FFT) เพื่อดูสัญญาณเหล่านี้และสัญญาณอื่น ๆ เพื่อทำความคุ้นเคยกับมัน
- ใช้พล็อตเชิงเส้นและลอการิทึมเพื่อดูความแตกต่าง
- สัญญาณ Downsample และ Upsample และได้ยินว่าสิ่งนี้มีผลต่อเสียงอย่างไร
- ใช้วิธีการที่แตกต่างกัน (เมื่อแปลงช่วงบิต) และได้ยินความแตกต่าง
หวังว่านี่จะให้ความรู้สึกถึงสิ่งที่เป็นตัวแทนของเสียงดิจิตอลและความแตกต่างของเสียงที่เหมือนก่อนที่จะลองใช้ DSP ใด ๆ มันง่ายกว่าที่จะรู้ว่ามีบางอย่างผิดปกติกับการวิเคราะห์ FFT ของคุณหากคุณสามารถจำได้ว่าคุณได้ป้อนสัญญาณ 8 บิตเทียบกับสัญญาณ 16 บิตหรือว่าอัตราตัวอย่างได้รับความเสียหายจากการคำนวณผิดพลาดในการแปลง