ทำไมเราถึงเลือก 44.1 kHz เป็นอัตราการสุ่มตัวอย่าง?

21

หูของประชาชนจะได้ยินเสียงที่มีความถี่ตั้งแต่ 20 Hz ถึง 20 kHz ตามทฤษฎีของ Nyquist อัตราการบันทึกควรมีอย่างน้อย 40 kHz เป็นเหตุผลในการเลือก 44.1 kHz หรือไม่

audio sampling

— new_comer_forever
แหล่งที่มา

4

มันได้รับเลือกให้เข้ากันได้กับอัตราเฟรมวิดีโอ ดูen.wikipedia.org/wiki/44,100_Hz#Why_44.1_kHz.3F

— endolith

ความถี่ด้านบนประมาณ 12-15k เพิ่มค่าน้อยหรือไม่มีเลยดนตรี คนส่วนใหญ่ที่มีอายุมากกว่า 40 ปีจะมีประโยชน์เล็กน้อยความน่าเชื่อถือที่สูงกว่าระดับนั้น

— Chris Heath

32

มันเป็นความจริงที่เช่นเดียวกับการประชุมใด ๆ การเลือก 44.1 kHz เป็นอุบัติเหตุทางประวัติศาสตร์ มีเหตุผลทางประวัติศาสตร์อีกสองสามประการ

แน่นอนอัตราการสุ่มตัวอย่างจะต้องเกิน 40 kHz หากคุณต้องการเสียงคุณภาพสูงด้วยแบนด์วิดธ์ 20 kHz

มีการถกเถียงกันว่าทำให้มันเป็น 48.0 kHz (มันสอดคล้องกันอย่างมากกับภาพยนตร์ 24 เฟรม / วินาทีและ 30 เฟรม / วินาทีที่ชัดเจนในทีวีอเมริกาเหนือ) แต่ให้ขนาดร่างกาย 120 มม. มีข้อ จำกัด ว่า ซีดีสามารถถือและได้รับว่าการตรวจสอบข้อผิดพลาดและการแก้ไขรูปแบบที่ถูกต้องและที่ต้องใช้บางส่วนซ้ำซ้อนในข้อมูลปริมาณของข้อมูลเชิงตรรกะที่สามารถเก็บแผ่นซีดี (ประมาณ 700 ล้านบาท) เป็นประมาณครึ่งหนึ่งของปริมาณของข้อมูลทางกายภาพ จากทั้งหมดนี้ที่อัตรา 48 kHz เราได้รับการบอกว่ามันไม่สามารถถือ Beethoven's วันที่ 9 ทั้งหมดได้ แต่มันสามารถเก็บทั้ง 9 อันดับในหนึ่งแผ่นในอัตราที่ช้ากว่าเล็กน้อย ดังนั้น 48 kHz ออก

ยังเป็นเหตุผลทำไม 44.1 และไม่ใช่ 44.0 หรือ 45.0 kHz หรือตัวเลขกลมที่สวยงาม

จากนั้นในเวลานั้นมีผลิตภัณฑ์ในช่วงปลายทศวรรษ 1970 ที่เรียกว่าSony F1ที่ออกแบบมาเพื่อบันทึกเสียงดิจิตอลลงบนเทปวิดีโอที่มีวางจำหน่าย (Betamax ไม่ใช่ VHS) นั่นคือที่ 44.1 kHz (หรือมากกว่าแม่นยำ 44.056 kHz) ดังนั้นสิ่งนี้จะทำให้ง่ายต่อการถ่ายโอนการบันทึกโดยไม่มีการสุ่มใหม่และการแก้ไขจาก F1 ไปยัง CD หรือในทิศทางอื่น

ความเข้าใจของฉันเกี่ยวกับวิธีการที่มีคืออัตราการสแกนในแนวนอนของ NTSC TV คือ 15.750 kHz และ 44.1 kHz เท่ากับ 2.8 เท่า ฉันไม่แน่ใจทั้งหมด แต่ฉันเชื่อว่านั่นหมายความว่าคุณสามารถมีตัวอย่างสเตอริโอสามคู่ต่อเส้นแนวนอนและสำหรับทุก 5 บรรทัดโดยปกติคุณจะมี 15 ตัวอย่างมี 14 ตัวอย่างบวกอีกหนึ่งตัวอย่างสำหรับบางคน ตรวจสอบความเท่าเทียมกันหรือความซ้ำซ้อนใน F1 14 ตัวอย่างสำหรับ 5 บรรทัดเท่ากับ 2.8 ตัวอย่างต่อเส้นแนวนอนและ 15,750 บรรทัดต่อวินาทีซึ่งออกมาเป็น 44,100 ตัวอย่างต่อวินาที

ตอนนี้เนื่องจากมีการเปิดตัวโทรทัศน์สีพวกเขาต้องชนอัตราเส้นแนวนอนลงเล็กน้อยเป็น 15734 เส้นต่อวินาที การปรับดังกล่าวนำไปสู่ตัวอย่าง 44,056 ต่อวินาทีใน Sony F1

— โรเบิร์ตบริสโต - จอห์นสัน
แหล่งที่มา

8

ดูhttp://www1.cs.columbia.edu/~hgs/audio/44.1.htmlเป็นตัวอย่าง คุณควรใช้อัตราการสุ่มตัวอย่างมากกว่า 40 kHz เนื่องจากตัวกรองการลบรอยหยัก คุณควรมีความถี่สำรองเพื่อป้องกันการบิดเบือนสัญญาณเนื่องจากความชันของตัวกรองซ้ำ Sony Corp แนะนำให้ใช้ค่าจริงที่ 44.1 kHz เมื่อมาตรฐานการบันทึกเสียงอยู่ระหว่างการสนทนาในปี 1979 พวกเขาใช้อัตรานี้อย่างกว้างขวางในช่วงเวลานั้น

ดังนั้นจึงเป็นเหตุผลทางประวัติศาสตร์โดยทั่วไป

— Serj
แหล่งที่มา

6

ในการเปลี่ยนไปใช้รูปแบบดิจิตอลเสียงจะถูกเก็บไว้ในรูปแบบคลื่นหลอกวิดีโอที่สามารถมองเห็นเป็นสีดำหรือสีขาว (แทนรูปแบบไบนารี)

อัตราและโครงสร้างของฟิลด์ที่ใช้โดยมาตรฐานโทรทัศน์มีดังนี้สำหรับวิดีโอ 60 Hz: 245 บรรทัดต่อฟิลด์ (ยกเว้นบรรทัดว่าง 35 บรรทัดแรก) ด้วยสามตัวอย่างต่อบรรทัดที่ทำให้ 60 x 245 x 3 = 44100 = 44.1 KHz

การประชุมครั้งนี้ถูกนำมาใช้สำหรับรูปแบบซีดีเนื่องจากความเข้ากันได้ของอุปกรณ์ที่เกี่ยวข้อง (อุปกรณ์แรกที่ใช้ในการผลิตซีดีต้นแบบที่ใช้สำหรับการจำลองซีดีคือวิดีโอที่ใช้)

ที่มา: Art of Sound Reproduction, p. 228

— mhbuur
แหล่งที่มา

ถ้านั่นคือสิ่งที่ F1 ทำฉันต้องพูดว่า "ฉันยืนแก้ไข" ฉันสมมติว่า F1 กำลังใช้บรรทัดว่าง

— robert bristow-johnson

สวัสดีฉันเพิ่งอ่านที่นี่ว่า "การเข้ารหัสสี NTSC ใช้กับสัญญาณโทรทัศน์ System M ซึ่งประกอบด้วย 30 / 1.001 (ประมาณ 29.97) เฟรมแบบสอดประสานของวิดีโอต่อวินาทีแต่ละเฟรมประกอบด้วยสองฟิลด์แต่ละเฟรมประกอบด้วย 262.5 เส้นสแกนสำหรับเส้นสแกนทั้งหมด 525 เส้นเส้นสแกน 483 เส้นทำให้มองเห็นภาพแรสเตอร์ส่วนที่เหลือ (ช่วง blanking แนวตั้ง) ช่วยให้สามารถซิงโครไนซ์และย้อนรอยแนวตั้งได้ "

ดังนั้นแม้แต่ 490 บรรทัดใช้บรรทัดว่าง (ต้นฉบับ NTSC) บางส่วน

— robert bristow-johnson

0

ดูเหมือนว่าขีด จำกัด hearinig สำหรับมนุษย์อาจสูงกว่า 20kHz มากถ้ามองจากมุมมองการแก้ปัญหา "แบบไดนามิก" แทนที่จะเป็นคลื่นไซน์แบบคงที่ทั่วไป ความคิดเห็นที่น่าสนใจเกี่ยวกับระยะห่างระหว่าง 20kHz ถึง 22 kHz สำหรับการกรองการสร้างใหม่ อันที่จริงแล้วมีงานที่น่าสนใจจาก Peter Craven ในการกรองที่ได้รับการปรับเวลาให้เหมาะสมซึ่งระบุว่าอย่างน้อย 96kHz สำหรับการเล่น hi-fi

Pawel

— Pawel
แหล่งที่มา

มีวิธีที่จะค้นหาคือ ก็เรียกว่าคนตาบอด AB ทดสอบ ไม่จำเป็นต้องเป็นDouble-Blind (แต่โดยปกติแล้ว) และการทดสอบ AB นั้นดีกว่าการทดสอบ ABX ในความคิดของฉัน

— เบิร์ตบริสโตจอห์นสัน

0

https://en.wikipedia.org/wiki/44,100_Hz#Why_44.1_kHz.3F ทฤษฎีการสุ่มตัวอย่าง Nyquist – Shannon กล่าวว่าความถี่การสุ่มตัวอย่างต้องมากกว่าความถี่สูงสุดที่สองเท่าที่ต้องการทำซ้ำ เนื่องจากช่วงการได้ยินของมนุษย์อยู่ที่ประมาณ 20 Hz ถึง 20,000 Hz อัตราการสุ่มตัวอย่างต้องมากกว่า 40 kHz

นอกจากนี้สัญญาณต้องผ่านการกรองความถี่ต่ำก่อนการสุ่มตัวอย่างเพื่อหลีกเลี่ยงการใช้นามแฝง ในขณะที่ตัวกรอง low-pass ในอุดมคติจะผ่านความถี่ที่ต่ำกว่า 20 kHz (โดยไม่ต้องลดทอนความถี่) และตัดความถี่ที่สูงกว่า 20 kHz อย่างสมบูรณ์แบบตัวกรองในอุดมคตินั้นเป็นไปไม่ได้ในทางทฤษฎี (เป็น noncausal) ดังนั้น ในกรณีที่ความถี่ถูกลดทอนบางส่วน ยิ่งช่วงการเปลี่ยนภาพกว้างขึ้นเท่าไหร่ก็ยิ่งง่ายและประหยัดมากขึ้นเท่านั้นในการสร้างตัวกรองป้องกันรอยหยัก ความถี่การสุ่มตัวอย่าง 44.1 kHz อนุญาตให้ใช้ย่านความถี่การเปลี่ยนแปลง 2.05 kHz

นอกจากนี้ 44,100 เป็นผลคูณของกำลังสองของตัวเลขสี่ตัวแรก (2 ^ 2 * 3 ^ 2 * 5 ^ 2 * 7 ^ 2) และด้วยเหตุนี้จึงมีปัจจัยเล็ก ๆ ที่มีประโยชน์มากมาย

— Zhong
แหล่งที่มา

ดังนั้นถ้าเราเปลี่ยนเวลาหน่วยของเราจากวินาทีเป็น"farg"ซึ่งคือ 1.001 วินาทีแล้วนั่นทำอะไรกับ 44100 และปัจจัยเล็ก ๆ ที่มีประโยชน์มากมาย?

— robert bristow-johnson

-2

ดูคำอธิบาย[ http://batmobile.blogs.ilrt.org/audio-analysis-on-an-iphone ] . ทฤษฎีบทที่เรียกว่าทฤษฎีบทการสุ่มตัวอย่าง Nyquist ระบุว่าในการที่จะสุ่มตัวอย่างสัญญาณของ X Hz โดยไม่สูญเสียคุณภาพอย่างมีนัยสำคัญคุณจะต้องสุ่มตัวอย่างที่ความถี่ 2X ขีด จำกัด ของการได้ยินของมนุษย์อยู่ที่ประมาณ 20kHz ซึ่งต้องใช้อัตราตัวอย่างประมาณ 40KHz นี่คือสาเหตุที่ซีดีถูกสุ่มตัวอย่างที่ 44Khz คือแต่ละวินาทีของการบันทึกในแผ่นซีดีมีการวัด 44,000 ความถี่สูงสุดที่เป็นไปได้ที่มีอยู่ในการบันทึก

— aash ma
แหล่งที่มา

ไม่ใช่เพราะสิ่งนั้นจริง ๆ ...

— jojek

มันเป็นบางส่วนเพราะสิ่งนั้น เป็นเรื่องยากที่มนุษย์จะได้ยินได้สูงกว่า 20k ดังนั้นช่วงออดิโอไฟล์แบบนี้จะสูงกว่า 40kHz เล็กน้อยเช่น 42, 43, 44 ถ้าคุณระเบิดคนที่มีคลื่นไซน์ขนาดใหญ่ที่ 22k มีเพียงเด็กคนเดียวเท่านั้นที่มีโอกาสได้ยิน ค้างคาวเป็น 115kHz และโลมาบางตัวอยู่ที่ 150kHz ยกเว้นที่อยู่ในน้ำซึ่งฟังดูชัดเจนขึ้น ทดสอบการรับรู้ความถี่สูงของคุณทางออนไลน์ด้วยการบันทึก ... นั่นคือaudiocheck.net/audiotests_frequencycheckhigh.php

— com.prehensible