หากมนุษย์สามารถได้ยินเสียงความถี่สูงถึง 20 kHz เท่านั้นทำไมเสียงเพลงจึงถูกสุ่มตัวอย่างที่ 44.1 kHz

60

ฉันอ่านในบางสถานที่ว่าเพลงส่วนใหญ่มีการสุ่มตัวอย่างที่ 44.1 kHz ในขณะที่เราได้ยินได้มากถึง 20 kHz เท่านั้น ทำไมล่ะ

audio sampling nyquist

— Soham De
แหล่งที่มา

1

คนที่อายุน้อยกว่าสามารถได้ยินความถี่ที่สูงขึ้นได้ เทคนิคการบันทึกอื่น ๆ ใช้มากถึง 48 kHz

— Thorbjørn Ravn Andersen

15

ทฤษฎี Nyquist: คุณต้องการสองตัวอย่างทุกการแกว่งเพื่อบอกความถี่ของคลื่น

— mathreadler

เนื่องจากตัวประมวลผลเร็วกว่าหน่วยความจำราคาถูก แต่ตัวกรองแอนะล็อกที่ดียังคงยุ่งยากอัตราการสุ่มตัวอย่างที่สูงขึ้นสามารถทำให้รู้สึกได้เช่นกัน (96 หรือ 192 kHz)

— Nick T

2

@ ThorbjørnRavnAndersenฉันคิดว่า 48 kHz นั้นเป็นเรื่องธรรมดาเพราะมันแบ่งออกเป็น 24, 25 และ 30 fps ที่ใช้ในการผลิตวิดีโอ 24 เข้าไม่ถึง 44100 เท่านั่นคือสิ่งที่ Wikipedia กล่าวถึง

— Nick T

4

@SohamDe นี่เป็นเพราะถ้าคุณตัวอย่างสัญญาณเสียง 20 kHz ที่ 20 kHz ที่แน่นอนคุณจะไม่ได้ยินเสียงอะไรเลย ลองนึกภาพว่ามันเป็นคลื่นไซน์ที่จุดสูงสุดทุกๆ 1 / 20,000 วินาที ถ้าคุณลองชิมด้วยอัตราเดียวกันคุณก็จะลองชิมจุดสูงสุด (หรือโหนดหรือระดับใดก็ตามที่คุณลองชิมได้ที่) ดังนั้นเมื่อคุณสร้างสัญญาณจากดิจิตอลสิ่งที่คุณจะได้คือเส้นเรียบ แนวคิดนี้เรียกว่านามแฝงและทำให้คุณต้องทดลองอย่างน้อยสองเท่าของความถี่สูงสุดที่คุณต้องการจะได้ยิน 44 100 เฮิร์ตซ์สะดวกสบายเพราะหารด้วยกำลัง 2

— MichaelK

89

อัตราการสุ่มตัวอย่างของสัญญาณจริงจะต้องมากกว่าแบนด์วิดธ์ของสัญญาณสองเท่า เสียงเริ่มต้นที่ 0 Hz, ดังนั้นความถี่สูงสุดที่แสดงในเสียงที่บันทึกไว้ที่ 44.1 kHz คือ 22.05 kHz (แบนด์วิดธ์ 22.05 kHz)
ตัวกรองผนังอิฐที่สมบูรณ์แบบเป็นไปไม่ได้ทางคณิตศาสตร์ดังนั้นเราจึงไม่สามารถตัดความถี่ที่เกิน 20 kHz ได้อย่างสมบูรณ์แบบ เพิ่มอีก 2 kHz สำหรับการหมุนตัวกรอง มันเป็น "ห้องเลื้อย" ซึ่งเสียงสามารถนามแฝงได้เนื่องจากตัวกรองไม่สมบูรณ์ แต่เราไม่ได้ยิน
ค่าเฉพาะของ 44.1 kHz เข้ากันได้กับอัตราเฟรมวิดีโอ PAL และ NTSC ที่ใช้ในเวลานั้น

โปรดทราบว่าเหตุผลมีการเผยแพร่ในหลาย ๆ ที่: Wikipedia: ทำไมต้อง 44.1 kHz?

— endolith
แหล่งที่มา

9

สวัสดีฉันเห็นด้วยกับคำตอบของคุณจริงๆ แต่สิ่งที่ ".. พร้อมความถี่สูงสุด" ผู้เริ่มต้นจะกัดเร็ว ๆ นี้เพราะ Nyquist เป็นเรื่องเกี่ยวกับแบนด์วิดท์ไม่ใช่ความถี่สูงสุด ฉันไปข้างหน้าและแก้ไขคำตอบของคุณเล็กน้อย กรุณาตรวจสอบว่ามันโอเคกับคุณ

— Marcus Müller

2

@Ruslan: Wikipediaค่อนข้างดีสำหรับมัน

— jojek

2

@BrianDrummond ดังนั้นแก้ไขหรือไม่

— endolith

3

@ MarcusMüllerเริ่มต้นใครกัดโดย“Nyqvist จะได้รับอนุญาตความถี่สูงสุด” จะได้รับการกัดแล้วโดย aliasing สิ่งประดิษฐ์ ... หลังจากนั้นพวกเขาก็จะเข้าใจวิธีการใด ๆ ที่ช่วงความถี่ของแบนด์วิดธ์เป็น demodulated ให้เป็นหนึ่งระหว่างและ 2

Δ f

$Δf$

0

$0$

Δ f = f_{s} / 2

$Δf = f_s/2$

— leftaroundabout

1

บางคนอาจไม่สามารถบอกความแตกต่างระหว่างเสียง 19,999.9Hz ที่มีฮาร์โมนิกได้สิบเสียงหรือเสียง 20,000.1Hz ที่มีเก้าเสียงหากได้ยินแยกกัน แต่ไม่ได้หมายความว่าการเปลี่ยนระหว่างเสียงทั้งสองจะไม่ได้ยิน การมีตัวกรองที่มีการตัดออกทีละน้อยจะหลีกเลี่ยงปัญหาเช่น

— supercat

72

Sony ได้รับการคัดเลือก 44,100 รายการเพราะเป็นผลิตภัณฑ์ของสแควร์ของตัวเลขสี่ตัวแรก สิ่งนี้ทำให้หารด้วยจำนวนเต็มอื่น ๆซึ่งเป็นคุณสมบัติที่มีประโยชน์ในการสุ่มตัวอย่างแบบดิจิตอล

44100 = 2^2 * 3^2 * 5^2 * 7^2

เมื่อคุณได้เห็น, 44100 นอกจากนี้ยังอยู่เหนือขีด จำกัด ของการได้ยินของมนุษย์เป็นสองเท่า เหนือส่วนหนึ่งจะช่วยให้ฟิลเตอร์ที่คั่งค้างบางอย่างจึงทำให้พวกเขามีราคาแพงน้อยกว่า (ชิปน้อยปฏิเสธ)

ดังที่รัสเซลชี้ให้เห็นในการแสดงความคิดเห็นการหารด้วยจำนวนเต็มจำนวนอื่น ๆจะได้รับประโยชน์ทันทีเมื่อเลือกอัตราตัวอย่าง เสียงดิจิตอลก่อนถูกบันทึกไว้ในสื่อบันทึกวิดีโอแอนะล็อกที่มีอยู่ซึ่งรองรับขึ้นอยู่กับภูมิภาคทั้งข้อมูลจำเพาะของวิดีโอNTSCหรือPAL NTSC และ PAL มีเส้นที่แตกต่างกันต่อ Field และทุ่งต่ออัตราประการที่สองLCMซึ่ง (ร่วมกับตัวอย่างต่อเส้น) เป็น44100

— dotancohen
แหล่งที่มา

12

ตัวเลือกไม่เพียงเกี่ยวกับการรับปัจจัยสำคัญมากมาย แต่เป็นการใช้ประโยชน์จากอุปกรณ์บันทึกวิดีโอ NTSC และ PAL เพื่อเก็บต้นแบบดิจิตอลไว้อย่างดี en.wikipedia.org/wiki/44,100_Hz#Recording_on_video_equipment

— Russell Borogove

3

@RussellBorogove: ขอบคุณ เป็นต่อการเชื่อมโยงวิกิพีเดีย, 44100 เป็น LCM ของอัตราตัวอย่างของอัตรา นั่นเป็นผลโดยตรงจากการเป็นจำนวนที่มีปัจจัยหลายอย่างและฉันเชื่อว่าคุณพูดถูกว่าม้านำรถเข็นมาในสเป็คนี้

— dotancohen

1

หารด้วยตัวเลขจำนวนมาก แต่ไม่ใช่โดย 8 :)

— Bogdan Alexandru

(วิกิพีเดียบอกว่าอัตราต่าง ๆ จาก 40.5 ถึง 46.8 kHz จะเป็นไปตามเกณฑ์เหล่านี้และ 44.1 kHz ได้รับเลือกให้เป็นวงดนตรีช่วงเปลี่ยนผ่านสำหรับตัวกรองลดอุณหภูมิ)

— endolith

2

@BogdanAlexandru ยังไม่สามารถหารได้ด้วย 1 เฟรม USB USB: D

— endolith

13

อัตรา Nyquist สูงกว่าสองเท่าของ bandlimit ของสัญญาณเบสแบนด์ที่คุณต้องการถ่ายโดยไม่มีความกำกวม (เช่น aliasing)

ตัวอย่างในอัตราที่ต่ำกว่าสองเท่า 20kHz และคุณจะไม่สามารถแยกแยะความแตกต่างระหว่างความถี่ที่สูงมากกับความถี่ที่ต่ำมากเพียงแค่ดูจากตัวอย่างเนื่องจากมีนามแฝง

เพิ่มเติม: โปรดทราบว่าสัญญาณความยาวที่ จำกัด ใด ๆ ได้รับการสนับสนุนอย่างไม่ จำกัด ในโดเมนความถี่ดังนั้นจึงไม่ จำกัด วงอย่างเคร่งครัด นี่เป็นอีกเหตุผลว่าทำไมการสุ่มตัวอย่างแหล่งกำเนิดเสียงที่ไม่มีที่สิ้นสุดสักสองสามครั้งเหนือสเปกตรัมความถี่สูงสุด (ในสัญญาณเบสแบนด์) จะต้องหลีกเลี่ยงการใช้นามแฝงอย่างมีนัยสำคัญ

— hotpaw2
แหล่งที่มา

สวัสดีฉันเห็นด้วยกับคำตอบของคุณจริงๆ แต่สิ่งที่ ".. พร้อมความถี่สูงสุด" ผู้เริ่มต้นจะกัดเร็ว ๆ นี้เพราะ Nyquist เป็นเรื่องเกี่ยวกับแบนด์วิดท์ไม่ใช่ความถี่สูงสุด ฉันไปข้างหน้าและแก้ไขคำตอบของคุณเล็กน้อย กรุณาตรวจสอบว่ามันโอเคกับคุณ

— Marcus Müller

6

@ MarcusMüllerเนื่องจาก "ผู้เริ่มต้น" ถึงการสุ่มตัวอย่างเริ่มต้นด้วยการสุ่มตัวอย่างสัญญาณเบสแบนด์และไม่ใช่สัญญาณพาสพาสมันเป็นเรื่องของความถี่สูงสุด (บางครั้งเรียกว่า "bandlimit") และไม่ใช่แบนด์วิดท์ (ซึ่งมีความคลุมเครือเพิ่มเติมเกี่ยวกับด้านเดียวหรือสองด้าน แบนด์วิดธ์)

— robert bristow-johnson

@ robertbristow-johnson ยังไม่ได้ดูความกำกวมนั้น หืมมม; ฉันชอบวิธี bandlimit!

— Marcus Müller

3

ในบทความ Wikipediaเราเรียกมันว่า " " และถึงแม้ว่า Shannon พูดว่าก็เพียงพอแล้วเขากำลังสมมติพลังงาน จำกัด ดังนั้นไม่มีไซนัส (ซึ่งมีพลังงานไม่ จำกัด และยังสามารถใส่ dirac deltas ที่ ) ถ้าคุณอนุญาตให้มีสิทธิ sinusoid ที่ความถี่แล้วก็มากขึ้นผู้ทรงระบุf_

B

$B$

f_{s} \geq 2 B

$f_\text{s} \ge 2B$

\pm B

$\pm B$

B

$B$

f_{s} > 2 B

$f_\text{s}>2B$

— robert bristow-johnson

10

โดยทั่วไปแบนด์วิดท์สองเท่าเป็นข้อกำหนดทั่วไปสำหรับการสุ่มสัญญาณดังนั้น kHz จึงต่ำสุด จากนั้นน้อยมากที่จะเป็นประโยชน์ในการรับมือกับการกรองที่ไม่สมบูรณ์และควอน รายละเอียดดังนี้ $2\times 20 = 40$

สิ่งที่คุณต้องการในทางทฤษฎีไม่ใช่สิ่งที่จำเป็นในการปฏิบัติ สิ่งนี้ไปพร้อมกับคำพูด (ประกอบกับหลายคน):

ในทางทฤษฎีไม่มีความแตกต่างระหว่างทฤษฎีและการปฏิบัติ ในทางปฏิบัติมี

ฉันไม่ได้เป็นผู้เชี่ยวชาญด้านเสียง แต่ฉันได้รับการฝึกฝนโดยคนที่มีการสุ่มตัวอย่าง / บีบอัดเสียงคุณภาพสูง ความรู้ของฉันอาจเป็นสนิมใช้มันด้วยความระมัดระวัง

ก่อนทฤษฎีการสุ่มตัวอย่างมาตรฐานทำงานภายใต้สมมติฐานบางประการ: ระบบเชิงเส้นและความไม่แปรเปลี่ยนของเวลา ในทางทฤษฎีปรากฏการณ์ต่อเนื่องแบบไม่ จำกัด แบนด์วิดท์นั้นเป็นที่ทราบกันดีว่าในทางทฤษฎีอาจจะมีการสุ่มตัวอย่างที่แบนด์วิดท์ประมาณสองเท่า (หรือความถี่สูงสุดสองเท่าสำหรับสัญญาณเบสแบนด์) โดยไม่มีการสูญเสีย "อัตรา Nyquist" มักจะถูกกำหนดเป็น:

อัตราขั้นต่ำที่สัญญาณสามารถสุ่มตัวอย่างโดยไม่มีข้อผิดพลาดในการแนะนำ

นี่คือส่วนการวิเคราะห์ของ "ทฤษฎีบทการสุ่มตัวอย่าง" "สามารถ" เป็นสิ่งสำคัญ มีส่วนการสังเคราะห์: สัญญาณต่อเนื่อง " สามารถสร้างใหม่" แบบอะนาล็อกโดยใช้พระคาร์ดินัลไซน์ นี่ไม่ได้เป็นเพียงเทคนิคเดียวเท่านั้นและไม่ได้คำนึงถึงตัวกรองล่วงหน้าแบบ low-pass, non-linear (เช่น quantization, saturation) และปัจจัยเวลาอื่น ๆ

การได้ยินของมนุษย์ไม่ใช่เรื่องง่าย เป็นที่ยอมรับกันว่ามนุษย์ได้ยินความถี่ตั้งแต่ 20 Hz ถึง 20,000 Hz แต่ขอบเขตที่แม่นยำเช่นนี้ในเฮิร์ตซ์ไม่ได้เป็นลักษณะของธรรมชาติสำหรับมนุษย์ทุกคน การสูญเสียความไวไปทีละน้อยกับความถี่ที่สูงขึ้นนั้นเกิดขึ้นบ่อยเมื่ออายุ อีกด้านหนึ่ง:

ภายใต้เงื่อนไขของห้องปฏิบัติการในอุดมคติมนุษย์สามารถได้ยินเสียงที่ต่ำถึง 12 Hz และสูงถึง 28 kHz แม้ว่าเกณฑ์จะเพิ่มขึ้นอย่างรวดเร็วที่ 15 kHz ในผู้ใหญ่

ได้ยินไม่เป็นเชิงเส้น: มีออดิชั่นและความทุกข์ทรมานเกณฑ์ มันไม่คงที่เวลา มีเอฟเฟกต์กำบังในทั้งเวลาและความถี่

หากย่านความถี่ 20 Hz ถึง 20,000 Hz นั้นเป็นย่านที่ใช้กันทั่วไปและ 40,000 Hz ก็เพียงพอแล้วในทางทฤษฎีจำเป็นต้องมีส่วนเสริมเล็กน้อยเพื่อรับมือกับการบิดเบือนที่เพิ่มขึ้น กฎง่ายๆบอกว่าอีก 10% ก็โอเค ( แบนด์วิดธ์สัญญาณ ) และ44,100 เฮิร์ตซ์ทำได้ ย้อนกลับไปในช่วงปลายทศวรรษ 1970 ทำไมไม่ใช้ 44,000 Hz ส่วนใหญ่เป็นเพราะมาตรฐานที่กำหนดโดยความนิยมของซีดีที่มีเทคโนโลยีจะขึ้นอยู่กับการแลกเปลี่ยน นอกจากนี้ 44,100 เป็นผลคูณของกำลังสองของจำนวนเฉพาะสี่ตัวแรก (คูณคูณคูณ ) ดังนั้นจึงมีปัจจัยเล็ก ๆ ที่เป็นประโยชน์ต่อการคำนวณ (เช่น FFT) $2.2\times$ $2^2 \times 3^2 \times 5^2 \times 7^2$

ดังนั้นจากถึง (และทวีคูณ) เรามีความสมดุลในด้านความปลอดภัยการหาปริมาณการใช้งานการคำนวณและมาตรฐาน $2\times 20$ $44.1$

ตัวเลือกอื่น ๆ ที่มีอยู่: รูปแบบ DAT สำหรับอินสแตนซ์ได้รับการปล่อยตัวด้วยการสุ่มตัวอย่าง 48 kHz ด้วยการแปลงที่ยากในตอนแรก พูดถึง 96 kHz เกี่ยวกับ quantization (หรือความลึกของบิต) ในอัตราตัวอย่างและความลึกบิตที่ฉันควรใช้? นี้เป็นเรื่องที่ถกเถียงกันดู96kHz 48kHz 24 บิตโองการ 24 บิต คุณสามารถตรวจสอบอัตราตัวอย่างกล้าเช่น

— Laurent Duval
แหล่งที่มา

2

1. คำตอบสำหรับคำถามคือทฤษฎีบท Nyquist เป็นผู้กำหนด> 40kHz ไม่ใช่> 20kHz 2. การรับฟังของมนุษย์หรือรูปแบบซีดีไม่ จำกัด ที่ 20Hz ที่ระดับต่ำสุด ท่อที่มีขนาดใหญ่พอที่จะสามารถสร้างเสียง 16Hz และแผ่นซีดีก็สามารถสร้างเสียงได้อย่างง่ายดาย อวัยวะบางส่วนลดลงไปที่ 8Hz ซึ่งเริ่มมีการรับรู้ว่าการสั่นสะเทือนของแต่ละบุคคล แต่ซีดีที่สามารถทำซ้ำอีกครั้ง

— user207421

ฉันเห็นด้วยกับความคิดเห็นของคุณยกเว้น "คำสั่ง" (นี่เป็นเงื่อนไข "ถ้า") คุณช่วยชี้ให้ฉันเห็นว่าฉันเบี่ยงเบนไปจากไหนได้บ้าง?

— Laurent Duval

1

ฉันมีเพียงหนึ่งข้อมูลเพิ่มเติมในคำตอบของ @LaurentDuval เสียงพูดเพลงและเสียงโดยทั่วไปเป็นสัญญาณที่ไม่หยุดนิ่ง แม้ว่าสิ่งเหล่านี้จะถูก จำกัด อย่างมีประสิทธิภาพ แต่เรายังไม่ทราบว่าหูของมนุษย์ส่งสัญญาณเวลาอย่างต่อเนื่องไปสู่การเปล่งเสียงของเส้นประสาทซึ่งช่วยให้เรารับรู้เสียงได้อย่างไร มักจะเป็นที่ถกเถียงกันอยู่ว่าบางคนมี "หูทอง" และสามารถสร้างความแตกต่างระหว่าง 44.1 kHz กับการบันทึก 96 kHz นอกจากนี้ฉันยังไม่ได้ยืนยันในสิ่งต่อไปนี้ดูเหมือนว่าอัตราการสุ่มตัวอย่างที่สูงขึ้นจะเป็นประโยชน์ต่อการรับรู้ของตัวชี้นำเพิ่มเติมเช่นการแปลในการบันทึก binaural

— Neeks

0

เหตุใดจึงได้รับคำตอบที่แน่นอน 44.1 kHz แล้ว แต่การมุ่งเน้นที่คำถามของคุณเกี่ยวกับขีด จำกัด ของการรับรู้ของมนุษย์เหตุผลนั้นค่อนข้างง่าย

ความละเอียดในเวลาจะต้องดีพอที่จะสามารถสร้างรูปแบบคลื่นที่เป็นไปได้ทั้งหมดจนถึงขีด จำกัด ที่สังเกตได้ ตามทฤษฎีการสุ่มตัวอย่างความละเอียดจะต้องเป็นเช่นนั้นความถี่การสุ่มตัวอย่างอย่างน้อยสองเท่าของความถี่นี้ ที่ความถี่สูงสุดโดยสังหรณ์ใจคุณต้องมีอย่างน้อย 2 จุดเพื่อแสดงสัญญาณสูงสุดและต่ำสุดของสัญญาณของคุณโดยให้คลื่นสี่เหลี่ยมแบบ Ascii-art นี้:

_   _
 |_| |_

— meduz
แหล่งที่มา

-1

เพื่อให้สัญญาณเกิดซ้ำอย่างซื่อสัตย์อัตราการสุ่มตัวอย่างยิ่งเร็วยิ่งดี ได้รับเลือก ~ 40 kHz เพราะเป็นอัตราตัวอย่างต่ำที่คนส่วนใหญ่ไม่สามารถบอกความแตกต่างสำหรับ (เมื่อสร้างขึ้นใหม่) เมื่อมีการสุ่มตัวอย่างเสียงหน่วยความจำและที่เก็บข้อมูลมีราคาแพงและอัตราตัวอย่างที่สูงขึ้นนั้นเป็นไปไม่ได้

ที่สองขีด จำกัด สูงสุดของการได้ยินของมนุษย์สองตัวอย่างต่อรอบนั้นมีการสร้างใหม่ที่น่าสงสารมากแม้ว่ามันจะเป็นไปตามเกณฑ์ของ Nyquist สำหรับสัญญาณการสุ่มตัวอย่างแผนภูมิง่าย ๆ ที่แสดงคลื่นไซน์ที่มีสองตัวอย่างต่อรอบจะแสดงให้คุณเห็นว่า ในการทำซ้ำรูปคลื่น แท้จริงคุณสามารถเปลี่ยนคลื่นไซน์เป็นคลื่นสี่เหลี่ยม มันเป็นสิ่งที่ดีที่ 20 kHz ไม่มีใครสามารถบอกได้ ฉันพนันได้เลยว่าสุนัข

— ไมค์
แหล่งที่มา