ฉันอ่านในบางสถานที่ว่าเพลงส่วนใหญ่มีการสุ่มตัวอย่างที่ 44.1 kHz ในขณะที่เราได้ยินได้มากถึง 20 kHz เท่านั้น ทำไมล่ะ
ฉันอ่านในบางสถานที่ว่าเพลงส่วนใหญ่มีการสุ่มตัวอย่างที่ 44.1 kHz ในขณะที่เราได้ยินได้มากถึง 20 kHz เท่านั้น ทำไมล่ะ
คำตอบ:
โปรดทราบว่าเหตุผลมีการเผยแพร่ในหลาย ๆ ที่: Wikipedia: ทำไมต้อง 44.1 kHz?
Sony ได้รับการคัดเลือก 44,100 รายการเพราะเป็นผลิตภัณฑ์ของสแควร์ของตัวเลขสี่ตัวแรก สิ่งนี้ทำให้หารด้วยจำนวนเต็มอื่น ๆซึ่งเป็นคุณสมบัติที่มีประโยชน์ในการสุ่มตัวอย่างแบบดิจิตอล
44100 = 2^2 * 3^2 * 5^2 * 7^2
เมื่อคุณได้เห็น, 44100 นอกจากนี้ยังอยู่เหนือขีด จำกัด ของการได้ยินของมนุษย์เป็นสองเท่า เหนือส่วนหนึ่งจะช่วยให้ฟิลเตอร์ที่คั่งค้างบางอย่างจึงทำให้พวกเขามีราคาแพงน้อยกว่า (ชิปน้อยปฏิเสธ)
ดังที่รัสเซลชี้ให้เห็นในการแสดงความคิดเห็นการหารด้วยจำนวนเต็มจำนวนอื่น ๆจะได้รับประโยชน์ทันทีเมื่อเลือกอัตราตัวอย่าง เสียงดิจิตอลก่อนถูกบันทึกไว้ในสื่อบันทึกวิดีโอแอนะล็อกที่มีอยู่ซึ่งรองรับขึ้นอยู่กับภูมิภาคทั้งข้อมูลจำเพาะของวิดีโอNTSCหรือPAL NTSC และ PAL มีเส้นที่แตกต่างกันต่อ Field และทุ่งต่ออัตราประการที่สองLCMซึ่ง (ร่วมกับตัวอย่างต่อเส้น) เป็น44100
อัตรา Nyquist สูงกว่าสองเท่าของ bandlimit ของสัญญาณเบสแบนด์ที่คุณต้องการถ่ายโดยไม่มีความกำกวม (เช่น aliasing)
ตัวอย่างในอัตราที่ต่ำกว่าสองเท่า 20kHz และคุณจะไม่สามารถแยกแยะความแตกต่างระหว่างความถี่ที่สูงมากกับความถี่ที่ต่ำมากเพียงแค่ดูจากตัวอย่างเนื่องจากมีนามแฝง
เพิ่มเติม: โปรดทราบว่าสัญญาณความยาวที่ จำกัด ใด ๆ ได้รับการสนับสนุนอย่างไม่ จำกัด ในโดเมนความถี่ดังนั้นจึงไม่ จำกัด วงอย่างเคร่งครัด นี่เป็นอีกเหตุผลว่าทำไมการสุ่มตัวอย่างแหล่งกำเนิดเสียงที่ไม่มีที่สิ้นสุดสักสองสามครั้งเหนือสเปกตรัมความถี่สูงสุด (ในสัญญาณเบสแบนด์) จะต้องหลีกเลี่ยงการใช้นามแฝงอย่างมีนัยสำคัญ
โดยทั่วไปแบนด์วิดท์สองเท่าเป็นข้อกำหนดทั่วไปสำหรับการสุ่มสัญญาณดังนั้น kHz จึงต่ำสุด จากนั้นน้อยมากที่จะเป็นประโยชน์ในการรับมือกับการกรองที่ไม่สมบูรณ์และควอน รายละเอียดดังนี้
สิ่งที่คุณต้องการในทางทฤษฎีไม่ใช่สิ่งที่จำเป็นในการปฏิบัติ สิ่งนี้ไปพร้อมกับคำพูด (ประกอบกับหลายคน):
ในทางทฤษฎีไม่มีความแตกต่างระหว่างทฤษฎีและการปฏิบัติ ในทางปฏิบัติมี
ฉันไม่ได้เป็นผู้เชี่ยวชาญด้านเสียง แต่ฉันได้รับการฝึกฝนโดยคนที่มีการสุ่มตัวอย่าง / บีบอัดเสียงคุณภาพสูง ความรู้ของฉันอาจเป็นสนิมใช้มันด้วยความระมัดระวัง
ก่อนทฤษฎีการสุ่มตัวอย่างมาตรฐานทำงานภายใต้สมมติฐานบางประการ: ระบบเชิงเส้นและความไม่แปรเปลี่ยนของเวลา ในทางทฤษฎีปรากฏการณ์ต่อเนื่องแบบไม่ จำกัด แบนด์วิดท์นั้นเป็นที่ทราบกันดีว่าในทางทฤษฎีอาจจะมีการสุ่มตัวอย่างที่แบนด์วิดท์ประมาณสองเท่า (หรือความถี่สูงสุดสองเท่าสำหรับสัญญาณเบสแบนด์) โดยไม่มีการสูญเสีย "อัตรา Nyquist" มักจะถูกกำหนดเป็น:
อัตราขั้นต่ำที่สัญญาณสามารถสุ่มตัวอย่างโดยไม่มีข้อผิดพลาดในการแนะนำ
นี่คือส่วนการวิเคราะห์ของ "ทฤษฎีบทการสุ่มตัวอย่าง" "สามารถ" เป็นสิ่งสำคัญ มีส่วนการสังเคราะห์: สัญญาณต่อเนื่อง " สามารถสร้างใหม่" แบบอะนาล็อกโดยใช้พระคาร์ดินัลไซน์ นี่ไม่ได้เป็นเพียงเทคนิคเดียวเท่านั้นและไม่ได้คำนึงถึงตัวกรองล่วงหน้าแบบ low-pass, non-linear (เช่น quantization, saturation) และปัจจัยเวลาอื่น ๆ
การได้ยินของมนุษย์ไม่ใช่เรื่องง่าย เป็นที่ยอมรับกันว่ามนุษย์ได้ยินความถี่ตั้งแต่ 20 Hz ถึง 20,000 Hz แต่ขอบเขตที่แม่นยำเช่นนี้ในเฮิร์ตซ์ไม่ได้เป็นลักษณะของธรรมชาติสำหรับมนุษย์ทุกคน การสูญเสียความไวไปทีละน้อยกับความถี่ที่สูงขึ้นนั้นเกิดขึ้นบ่อยเมื่ออายุ อีกด้านหนึ่ง:
ภายใต้เงื่อนไขของห้องปฏิบัติการในอุดมคติมนุษย์สามารถได้ยินเสียงที่ต่ำถึง 12 Hz และสูงถึง 28 kHz แม้ว่าเกณฑ์จะเพิ่มขึ้นอย่างรวดเร็วที่ 15 kHz ในผู้ใหญ่
ได้ยินไม่เป็นเชิงเส้น: มีออดิชั่นและความทุกข์ทรมานเกณฑ์ มันไม่คงที่เวลา มีเอฟเฟกต์กำบังในทั้งเวลาและความถี่
หากย่านความถี่ 20 Hz ถึง 20,000 Hz นั้นเป็นย่านที่ใช้กันทั่วไปและ 40,000 Hz ก็เพียงพอแล้วในทางทฤษฎีจำเป็นต้องมีส่วนเสริมเล็กน้อยเพื่อรับมือกับการบิดเบือนที่เพิ่มขึ้น กฎง่ายๆบอกว่าอีก 10% ก็โอเค ( แบนด์วิดธ์สัญญาณ ) และ44,100 เฮิร์ตซ์ทำได้ ย้อนกลับไปในช่วงปลายทศวรรษ 1970 ทำไมไม่ใช้ 44,000 Hz ส่วนใหญ่เป็นเพราะมาตรฐานที่กำหนดโดยความนิยมของซีดีที่มีเทคโนโลยีจะขึ้นอยู่กับการแลกเปลี่ยน นอกจากนี้ 44,100 เป็นผลคูณของกำลังสองของจำนวนเฉพาะสี่ตัวแรก (คูณคูณคูณ ) ดังนั้นจึงมีปัจจัยเล็ก ๆ ที่เป็นประโยชน์ต่อการคำนวณ (เช่น FFT)
ดังนั้นจากถึง (และทวีคูณ) เรามีความสมดุลในด้านความปลอดภัยการหาปริมาณการใช้งานการคำนวณและมาตรฐาน
ตัวเลือกอื่น ๆ ที่มีอยู่: รูปแบบ DAT สำหรับอินสแตนซ์ได้รับการปล่อยตัวด้วยการสุ่มตัวอย่าง 48 kHz ด้วยการแปลงที่ยากในตอนแรก พูดถึง 96 kHz เกี่ยวกับ quantization (หรือความลึกของบิต) ในอัตราตัวอย่างและความลึกบิตที่ฉันควรใช้? นี้เป็นเรื่องที่ถกเถียงกันดู96kHz 48kHz 24 บิตโองการ 24 บิต คุณสามารถตรวจสอบอัตราตัวอย่างกล้าเช่น
เหตุใดจึงได้รับคำตอบที่แน่นอน 44.1 kHz แล้ว แต่การมุ่งเน้นที่คำถามของคุณเกี่ยวกับขีด จำกัด ของการรับรู้ของมนุษย์เหตุผลนั้นค่อนข้างง่าย
ความละเอียดในเวลาจะต้องดีพอที่จะสามารถสร้างรูปแบบคลื่นที่เป็นไปได้ทั้งหมดจนถึงขีด จำกัด ที่สังเกตได้ ตามทฤษฎีการสุ่มตัวอย่างความละเอียดจะต้องเป็นเช่นนั้นความถี่การสุ่มตัวอย่างอย่างน้อยสองเท่าของความถี่นี้ ที่ความถี่สูงสุดโดยสังหรณ์ใจคุณต้องมีอย่างน้อย 2 จุดเพื่อแสดงสัญญาณสูงสุดและต่ำสุดของสัญญาณของคุณโดยให้คลื่นสี่เหลี่ยมแบบ Ascii-art นี้:
_ _
|_| |_
เพื่อให้สัญญาณเกิดซ้ำอย่างซื่อสัตย์อัตราการสุ่มตัวอย่างยิ่งเร็วยิ่งดี ได้รับเลือก ~ 40 kHz เพราะเป็นอัตราตัวอย่างต่ำที่คนส่วนใหญ่ไม่สามารถบอกความแตกต่างสำหรับ (เมื่อสร้างขึ้นใหม่) เมื่อมีการสุ่มตัวอย่างเสียงหน่วยความจำและที่เก็บข้อมูลมีราคาแพงและอัตราตัวอย่างที่สูงขึ้นนั้นเป็นไปไม่ได้
ที่สองขีด จำกัด สูงสุดของการได้ยินของมนุษย์สองตัวอย่างต่อรอบนั้นมีการสร้างใหม่ที่น่าสงสารมากแม้ว่ามันจะเป็นไปตามเกณฑ์ของ Nyquist สำหรับสัญญาณการสุ่มตัวอย่างแผนภูมิง่าย ๆ ที่แสดงคลื่นไซน์ที่มีสองตัวอย่างต่อรอบจะแสดงให้คุณเห็นว่า ในการทำซ้ำรูปคลื่น แท้จริงคุณสามารถเปลี่ยนคลื่นไซน์เป็นคลื่นสี่เหลี่ยม มันเป็นสิ่งที่ดีที่ 20 kHz ไม่มีใครสามารถบอกได้ ฉันพนันได้เลยว่าสุนัข