คำตอบง่ายๆคือระบบตอบสนองความถี่แบนที่สร้างขึ้นด้วย op-amps เพื่อแก้ไขการตอบสนองของผู้ขับขี่จำเป็นต้องมีการตอบสนองเฟสที่ไม่แบนในแถบความถี่ ความไม่แบนนี้หมายถึงความถี่ขององค์ประกอบเสียงชั่วคราวมีความล่าช้าไม่สม่ำเสมอทำให้เกิดความผิดเพี้ยนเล็กน้อยซึ่งจะป้องกันการรับรู้องค์ประกอบของเสียงที่เหมาะสมซึ่งหมายความว่าสามารถแยกแยะเสียงที่แตกต่างกันได้น้อยลง
ดังนั้นมันฟังดูน่ากลัว ราวกับว่าเสียงทั้งหมดนั้นมาจากลูกบอลที่คลุมเครืออยู่ตรงกลางระหว่างหูของพวกเขา
ปัญหา HRTF ในคำตอบข้างต้นเป็นเพียงส่วนหนึ่งของเรื่องนี้ - อื่น ๆ คือวงจรโดเมนแบบอะนาล็อกที่คาดว่าจะสามารถมีการตอบสนองเวลาสาเหตุและการแก้ไขไดรเวอร์อย่างถูกต้องหนึ่งต้องมีตัวกรองที่เกิดขึ้นจริง
สิ่งนี้สามารถประมาณแบบดิจิทัลได้ด้วยฟิลเตอร์ Finite Impulse Response ที่จับคู่กับไดรเวอร์ แต่ต้องใช้การหน่วงเวลาเล็กน้อยซึ่งเพียงพอที่จะทำให้ภาพยนตร์มีการซิงค์ที่ไม่ตรงกัน
และดูเหมือนว่ามันจะมาจากภายในหัวของคุณเว้นแต่ว่า HRTF จะถูกเพิ่มเข้าไปด้วย
ดังนั้นมันไม่ง่ายเลย
ในการสร้างระบบ "โปร่งใส" คุณไม่ต้องการเพียงแบนด์แบนด์ในช่วงการได้ยินของมนุษย์คุณยังต้องมีเฟสเชิงเส้นด้วย - พล็อตล่าช้ากลุ่มแบน - และมีหลักฐานบางอย่างที่บอกว่าเฟสเชิงเส้นนี้ต้องการ เพื่อดำเนินต่อไปจนถึงความถี่สูงอย่างน่าประหลาดใจเพื่อไม่ให้ตัวชี้นำทิศทางหายไป
สิ่งนี้ง่ายต่อการตรวจสอบโดยการทดสอบ: เปิด. wav ของเพลงบางเพลงที่คุณคุ้นเคยในโปรแกรมแก้ไขไฟล์เสียงเช่น Audacity หรือ snd และลบ 44100 Hz ตัวอย่างเดียวจากเพียงหนึ่งช่องสัญญาณและปรับช่องอื่นเพื่อให้ช่องแรกเป็นช่องแรก ตัวอย่างเกิดขึ้นกับช่องที่แก้ไขช่องที่สองแล้วเล่น
คุณจะได้ยินความแตกต่างที่เห็นได้ชัดเจนแม้ว่าความแตกต่างจะล่าช้าเพียง 1/44100 วินาทีเท่านั้น
พิจารณาสิ่งนี้: เสียงจะอยู่ที่ประมาณ 340 มม. / ms ดังนั้นที่ 20 kHz นี่เป็นข้อผิดพลาดเวลาบวกลบหนึ่งตัวอย่างล่าช้าหรือ 50 microseconds นั่นคือการเดินทางด้วยเสียง 17 มม. แต่คุณสามารถได้ยินความแตกต่างของ 22.17 microseconds ที่หายไปซึ่งเพียง 7.7 มม. การเดินทางด้วยเสียง
โดยทั่วไปแล้วการได้ยินของมนุษย์ถูกตัดขาดโดยทั่วไปถือว่าอยู่ที่ประมาณ 20 kHz ดังนั้นจะเกิดอะไรขึ้น?
คำตอบคือการทดสอบการได้ยินจะดำเนินการด้วยเสียงทดสอบซึ่งส่วนใหญ่ประกอบด้วยความถี่เพียงครั้งละหนึ่งครั้งเป็นเวลาค่อนข้างนานในแต่ละส่วนของการทดสอบ แต่หูชั้นในของเราประกอบด้วยโครงสร้างทางกายภาพที่ทำหน้าที่ FFT แปลก ๆ บนเสียงในขณะที่เผยเซลล์ประสาทให้กับมันดังนั้นเซลล์ประสาทในตำแหน่งที่ต่างกันมีความสัมพันธ์กับความถี่ที่แตกต่างกัน
เซลล์ประสาทส่วนบุคคลสามารถทำการยิงใหม่ได้อย่างรวดเร็วดังนั้นในบางกรณีมีการใช้เพียงไม่กี่ครั้งในการติดตาม ... แต่มันใช้งานได้ถึง 4 kHz หรือประมาณนั้น ... ซึ่งเป็นสิ่งที่ถูกต้องของเรา การรับรู้ของเสียงสิ้นสุด แต่มันไม่มีอะไรในสมองที่จะหยุดเซลล์ประสาทที่ยิงได้ทุกเวลาที่รู้สึกว่าเอียงดังนั้นความถี่สูงสุดที่สำคัญคืออะไร?
ประเด็นก็คือความแตกต่างของเฟสเล็ก ๆ ระหว่างหูนั้นเป็นสิ่งที่สังเกตได้ แต่แทนที่จะเปลี่ยนวิธีที่เราระบุเสียง (ซึ่ง HRTF ก็เปลี่ยนไป!) แม้ว่าดูเหมือนว่ามันควรจะ "กลิ้งออก" จากขอบเขตการได้ยินของเรา
คำตอบก็คือจุด -3dB หรือ -10dB นั้นยังต่ำเกินไป - คุณต้องไปที่จุด -80 dB เพื่อรับมันทั้งหมด และถ้าคุณต้องการที่จะจัดการกับเสียงที่ดังเช่นเดียวกับความเงียบคุณจะต้องดีจนถึง -100 dB ซึ่งการทดสอบการฟังด้วยน้ำเสียงแบบเดี่ยวนั้นไม่น่าจะเห็นได้บ่อยนักเนื่องจากความถี่เช่นนี้จะ "นับ" เมื่อพวกเขามาถึงเฟสพร้อมกับเสียงประสานอื่น ๆ ซึ่งเป็นส่วนหนึ่งของเสียงที่คมชัดชั่วคราว - พลังงานของพวกเขาในกรณีนี้รวมเข้าด้วยกัน เพื่อกระตุ้นการตอบสนองของระบบประสาทถึงแม้ว่าในแต่ละองค์ประกอบของการแยกสัญญาณจะมีขนาดเล็กเกินกว่าจะนับได้
อีกปัญหาหนึ่งคือเราถูกทิ้งระเบิดอย่างต่อเนื่องโดยแหล่งกำเนิดของคลื่นอัลตราโซนิกหลายต่อหลายครั้งซึ่งอาจมาจากเซลล์ประสาทที่แตกหักในหูชั้นในของเราเองได้รับความเสียหายจากระดับเสียงที่มากเกินไปในบางจุดในชีวิต มันจะยากที่จะแยกแยะเสียงเอาท์พุตที่แยกได้ของการทดสอบการฟังเสียงดังในระดับ "ดัง"!
สิ่งนี้ต้องการการออกแบบระบบ "โปร่งใส" เพื่อใช้ความถี่ต่ำผ่านที่สูงกว่ามากเพื่อให้มีที่ว่างสำหรับมนุษย์ต่ำผ่านหายไป (ด้วยการปรับเฟสของตัวเองซึ่งสมองของคุณถูก "ปรับเทียบ" เป็น) ก่อนระบบ การมอดูเลตเฟสเริ่มเปลี่ยนรูปร่างของภาวะชั่วครู่และขยับพวกมันไปรอบ ๆ ในเวลาที่สมองไม่สามารถรับรู้ได้ว่าเสียงนั้นเป็นของอะไรอีกต่อไป
ด้วยหูฟังมันง่ายกว่ามากที่จะสร้างขึ้นมาให้มีไดร์เวอร์บรอดแบรนด์เดี่ยวที่มีแบนด์วิดท์เพียงพอและพึ่งพาการตอบสนองความถี่ธรรมชาติที่สูงมากของไดรเวอร์ 'ไม่ถูกแก้ไข' เพื่อป้องกันความผิดเพี้ยนทางโลก ใช้งานได้ดีกว่ากับหูฟังเนื่องจากคนขับขนาดเล็กยืมตัวเองได้ดีกับสภาพนี้
เหตุผลสำหรับความต้องการเฟสเชิงเส้นจะถูกหยั่งรากลึกในความเป็นคู่ความถี่โดเมนเวลา - โดเมนเนื่องจากเป็นเหตุผลที่คุณไม่สามารถสร้างตัวกรอง zero-delay ที่สามารถ "แก้ไขระบบร่างกายจริงใด ๆ ได้อย่างสมบูรณ์แบบ
เหตุผลก็คือ "เฟสลิเนียริตี้" ที่สำคัญและไม่ใช่ "ความเรียบของเฟส" เนื่องจากความลาดชันโดยรวมของเฟสโค้งไม่สำคัญ - โดยความเป็นคู่ความชันเฟสใด ๆ นั้นเทียบเท่ากับการหน่วงเวลาคงที่
หูชั้นนอกของทุกคนมีรูปทรงที่แตกต่างกันดังนั้นฟังก์ชั่นการถ่ายโอนที่แตกต่างกันจึงเกิดขึ้นที่ความถี่ที่ต่างกันเล็กน้อย สมองของคุณเคยชินกับสิ่งที่มันมีอยู่ หากคุณใช้สิ่งที่ผิดมันจะฟังดูแย่ลงเพราะการแก้ไขที่สมองของคุณเคยทำจะไม่สอดคล้องกับฟังก์ชั่นการถ่ายโอนของหูฟังอีกต่อไปและคุณจะมีสิ่งที่แย่กว่าการขาดการยกเลิกการสั่นพ้อง คุณจะมีเสา / ศูนย์ที่ไม่สมดุลเป็นสองเท่าเพื่อถ่วงเวลาการเลื่อนเฟสของคุณและทำให้กลุ่มของคุณล่าช้ามากและความสัมพันธ์ของส่วนประกอบมาถึงเวลา
มันจะฟังดูไม่ชัดเจนและคุณจะไม่สามารถสร้างภาพถ่ายอวกาศที่เข้ารหัสด้วยการบันทึกได้
หากคุณทำแบบทดสอบการฟังของคนตาบอดทุกคนจะเลือกหูฟังที่ไม่ได้รับการแก้ไขซึ่งอย่างน้อยก็ไม่ทำให้กลุ่มล่าช้ามากดังนั้นสมองของพวกเขาจึงสามารถปรับตัวเข้ากับมันได้
และนี่คือสาเหตุที่หูฟังที่ใช้งานอยู่ไม่พยายามทำให้เท่าเทียมกัน มันยากเกินไปที่จะทำให้ถูกต้อง
นอกจากนี้ยังเป็นสาเหตุที่การแก้ไขห้องดิจิตอลเป็นช่อง: เพราะการใช้อย่างถูกต้องต้องมีการวัดบ่อยครั้งซึ่งเป็นเรื่องยาก / เป็นไปไม่ได้ที่จะแสดงสดและผู้บริโภคทั่วไปไม่ต้องการที่จะรู้
ส่วนใหญ่เป็นเพราะเสียงสะท้อนในห้องภายใต้การแก้ไขซึ่งส่วนใหญ่ของการตอบสนองเสียงเบสให้ขยับเล็กน้อยเป็นความดันอากาศอุณหภูมิและความชื้นเปลี่ยนแปลงทั้งหมดจึงเปลี่ยนความเร็วของเสียงเล็กน้อยจึงเปลี่ยนเสียงสะท้อนจากสิ่งที่พวกเขา เมื่อถูกวัด