การเปลี่ยนแปลงใดที่เลียนแบบระบบการได้ยินของมนุษย์มากที่สุด


12

การแปลงฟูริเยร์มักใช้สำหรับการวิเคราะห์ความถี่ของเสียง อย่างไรก็ตามมันมีข้อเสียเมื่อวิเคราะห์การรับรู้เสียงของมนุษย์ ยกตัวอย่างเช่นถังขยะความถี่เป็นเชิงเส้นในขณะที่หูมนุษย์ตอบสนองความถี่ลอการิทึมไม่เป็นเส้นตรง

การแปลงเวฟเล็ตสามารถแก้ไขความละเอียดสำหรับช่วงความถี่ที่แตกต่างกันซึ่งแตกต่างจากการแปลงฟูริเยร์ เวฟแปลงคุณสมบัติของช่วยให้การสนับสนุนชั่วคราวขนาดใหญ่สำหรับความถี่ต่ำในขณะที่รักษาความกว้างชั่วขณะสั้นสำหรับความถี่สูง

Morlet เวฟเกี่ยวข้องอย่างใกล้ชิดกับการรับรู้ของมนุษย์ในการได้ยิน สามารถใช้กับการถอดความเพลงและให้ผลลัพธ์ที่แม่นยำมากซึ่งไม่สามารถทำได้โดยใช้เทคนิคการแปลงฟูริเยร์ มีความสามารถในการจับภาพการบรรเลงเพลงสั้น ๆ ซ้ำ ๆ และสลับกันโดยมีเวลาเริ่มต้นและสิ้นสุดที่ชัดเจนสำหรับแต่ละโน้ต

คง-Q เปลี่ยน (ที่เกี่ยวข้องอย่างใกล้ชิดกับ Morlet แปลงเวฟเล็ต) นอกจากนี้ยังเหมาะกับข้อมูลดนตรี เนื่องจากเอาต์พุตของการแปลงเป็นแอมพลิจูด / เฟสอย่างมีประสิทธิภาพต่อความถี่ล็อกจึงจำเป็นต้องใช้ถังขยะสเปกตรัมน้อยกว่าเพื่อให้ครอบคลุมช่วงที่กำหนดได้อย่างมีประสิทธิภาพ

การแปลงรูปแบบนี้จะช่วยลดความละเอียดของความถี่ด้วยช่องเก็บความถี่ที่สูงขึ้นซึ่งเป็นที่ต้องการสำหรับการใช้งานด้านการได้ยิน มันสะท้อนระบบการได้ยินของมนุษย์โดยที่ความละเอียดสเปกตรัมที่ต่ำกว่าจะดีกว่าในขณะที่ความละเอียดของสัญญาณชั่วคราวจะเพิ่มขึ้นที่ความถี่สูงขึ้น

คำถามของฉันคือ: มีการเปลี่ยนแปลงอื่น ๆ ที่เลียนแบบระบบการได้ยินของมนุษย์อย่างใกล้ชิดหรือไม่? มีใครพยายามออกแบบการแปลงสภาพร่างกาย / ระบบประสาทที่ตรงกับระบบการได้ยินของมนุษย์ให้มากที่สุดหรือไม่?

ยกตัวอย่างเช่นมันเป็นที่รู้จักกันว่าหูของมนุษย์มีการตอบสนองลอการิทึมกับความเข้มเสียง นอกจากนี้ยังเป็นที่รู้จักกันว่ารูปทรงเท่ากันเสียงดังแตกต่างกันไม่เพียง แต่มีความรุนแรง แต่มีระยะห่างในความถี่ของส่วนประกอบสเปกตรัม เสียงที่มีองค์ประกอบของสเปกตรัมในช่วงคลื่นวิทยุที่สำคัญจะรับรู้ได้ดังกว่าแม้ว่าความดันเสียงทั้งหมดจะยังคงที่

สุดท้ายหูมนุษย์มีจำกัด มติชั่วขึ้นอยู่กับความถี่ บางทีนี่อาจถูกนำมาพิจารณาด้วยเช่นกัน


คุณกำหนดข้อ จำกัด ทางคณิตศาสตร์สำหรับ "การแปลง" หรือไม่?
Olli Niemitalo

2
รุ่งโรจน์สำหรับลิงก์ทั้งหมด!
Gilles

ไม่มีการแปลงเดี่ยวใดที่สามารถเลียนแบบระบบที่ซับซ้อนพอ ๆ กับระบบการได้ยินของมนุษย์ แบบจำลอง HAS ที่มีอยู่นั้นใช้สถาปัตยกรรมการประมวลสัญญาณที่ซับซ้อนและการแปลงหลายแบบแต่ละแบบจำลองการได้ยินอีกด้านหนึ่ง อาจเป็นคุณต้องการพิจารณาการสร้างแบบจำลองทีละชิ้น
Fat32

คำตอบ:


9

ในการออกแบบการเปลี่ยนแปลงดังกล่าวเราควรคำนึงถึงความสนใจในการแข่งขัน:

  • ความจงรักภักดีต่อระบบการได้ยินของมนุษย์ (แตกต่างกันไปตามผู้คน) รวมถึงลักษณะที่ไม่เป็นเชิงเส้นหรือไม่เป็นระเบียบ (หูอื้อ)
  • ความง่ายของสูตรทางคณิตศาสตร์สำหรับส่วนการวิเคราะห์
  • ความเป็นไปได้ที่จะแยกแยะมันหรืออนุญาตการใช้งานที่รวดเร็ว
  • การมีตัวผกผันของคอกที่เหมาะสม

การออกแบบล่าสุดทั้งสองได้จับหูของฉันเมื่อเร็ว ๆ นี้: การแปลงเวฟเล็ต Gammatone ที่ได้แรงบันดาลใจจากการประมวลผลสัญญาณ, 2014

ความสามารถในการแปลงเวฟเล็ตอย่างต่อเนื่อง (CWT) เพื่อให้ได้เวลาที่เหมาะสมและการแปลความถี่ทำให้เครื่องมือนี้เป็นเครื่องมือยอดนิยมในการวิเคราะห์สัญญาณเวลาและความถี่ เวฟเลตแสดงคุณสมบัติคงที่ -Q ซึ่งถูกครอบงำโดยตัวกรองเมมเบรนในระบบหูฟัง ตัวกรองเมมเบรน basilar หรือฟิลเตอร์หูมักจะถูกจำลองโดยฟังก์ชั่น Gammatone ซึ่งให้การประมาณที่ดีในการตอบสนองที่กำหนดโดยการทดลอง ตัวกรองที่ได้มาจากตัวกรองเหล่านี้เรียกว่า Gammatone filterbank โดยทั่วไปการวิเคราะห์เวฟเล็ตสามารถนำไปเปรียบเทียบกับการวิเคราะห์ฟิลเตอร์แบงก์ดังนั้นการเชื่อมโยงที่น่าสนใจระหว่างการวิเคราะห์เวฟเล็ตมาตรฐานและ Gammatone filterbank อย่างไรก็ตามฟังก์ชั่น Gammatone นั้นไม่ได้มีคุณสมบัติเหมือนเวฟเล็ตเพราะเวลาเฉลี่ยนั้นไม่เป็นศูนย์ เราแสดงให้เห็นว่าเวฟเล็ตที่แท้จริงสามารถสร้างขึ้นจากฟังก์ชั่น Gammatone เราวิเคราะห์คุณสมบัติต่างๆเช่นการยอมรับผลิตภัณฑ์เวลาแบนด์วิธเวลาที่หายไปซึ่งมีความเกี่ยวข้องโดยเฉพาะอย่างยิ่งในบริบทของเวฟเล็ต นอกจากนี้เรายังแสดงให้เห็นว่าการผลิตเวฟเล็ตที่นำเสนอนั้นเป็นการตอบสนองต่อแรงกระตุ้นของระบบเชิงเส้นและแบบกะ - คงที่ซึ่งควบคุมโดยสมการเชิงอนุพันธ์เชิงเส้นที่มีสัมประสิทธิ์คงที่ เราเสนอการประยุกต์ใช้วงจรแบบแอนะล็อกของ CWT ที่เสนอ นอกจากนี้เรายังแสดงให้เห็นว่าสามารถใช้เวฟเล็ตที่ได้จาก Gammatone สำหรับการตรวจจับเอกฐานและการวิเคราะห์ความถี่ - เวลาของสัญญาณชั่วคราว นอกจากนี้เรายังแสดงให้เห็นว่าการผลิตเวฟเล็ตที่นำเสนอนั้นเป็นการตอบสนองต่อแรงกระตุ้นของระบบเชิงเส้นและแบบกะ - คงที่ซึ่งควบคุมโดยสมการเชิงอนุพันธ์เชิงเส้นที่มีสัมประสิทธิ์คงที่ เราเสนอการประยุกต์ใช้วงจรแบบแอนะล็อกของ CWT ที่เสนอ นอกจากนี้เรายังแสดงให้เห็นว่าสามารถใช้เวฟเล็ตที่ได้จาก Gammatone สำหรับการตรวจจับเอกฐานและการวิเคราะห์ความถี่ - เวลาของสัญญาณชั่วคราว นอกจากนี้เรายังแสดงให้เห็นว่าการผลิตเวฟเล็ตที่นำเสนอนั้นเป็นการตอบสนองต่อแรงกระตุ้นของระบบเชิงเส้นและแบบกะ - คงที่ซึ่งควบคุมโดยสมการเชิงอนุพันธ์เชิงเส้นที่มีสัมประสิทธิ์คงที่ เราเสนอการประยุกต์ใช้วงจรแบบแอนะล็อกของ CWT ที่เสนอ นอกจากนี้เรายังแสดงให้เห็นว่าสามารถใช้เวฟเล็ตที่ได้จาก Gammatone สำหรับการตรวจจับเอกฐานและการวิเคราะห์ความถี่ - เวลาของสัญญาณชั่วคราว

การแปลง ERBlet: การแสดงความถี่ตามสัญญาณเสียงพร้อมการสร้างใหม่อย่างสมบูรณ์แบบ ICASSP 2013

บทความนี้จะอธิบายวิธีการที่จะได้รับแรงบันดาลใจจากการรับรู้เสียงและความถี่ของสัญญาณเสียง จากทฤษฎีเฟรมและการแปลง Gabor แบบไม่คงที่เมื่อเร็ว ๆ นี้การแสดงเชิงเส้นที่มีความละเอียดที่พัฒนาข้ามความถี่นั้นถูกกำหนดและนำไปใช้เป็นตัวกรองแบบไม่สม่ำเสมอ เพื่อให้ตรงกับความละเอียดของความถี่ของการได้ยินของมนุษย์การแปลงจะใช้หน้าต่างเกาส์เซียนเว้นระยะเท่ากันในระดับความถี่ของเสียง“ ERB” ของ psychoacoustic นอกจากนี้การแปลงคุณสมบัติความละเอียดที่ปรับได้และความซ้ำซ้อน การจำลองแสดงให้เห็นว่าการฟื้นฟูที่สมบูรณ์แบบสามารถทำได้โดยใช้วิธีการวนซ้ำอย่างรวดเร็วและการกำหนดเงื่อนไขล่วงหน้าแม้จะใช้ตัวกรองเดียวต่อ ERB และความซ้ำซ้อนต่ำมาก (1.08)

และฉันจะพูดถึงยัง:

การแปลงจากการได้ยินสำหรับการประมวลผลสัญญาณเสียง WASPAA 2009

บทความนี้นำเสนอการแปลงรูปแบบการได้ยิน ผ่านกระบวนการวิเคราะห์การแปลงสัญญาณโดเมนเวลาให้เป็นชุดของเอาต์พุตตัวกรองธนาคาร การตอบสนองความถี่และการแจกแจงของตัวกรองธนาคารจะคล้ายกับที่อยู่ในเมมเบรน basilar ของโคเคลีย การประมวลผลสัญญาณสามารถทำได้ในโดเมนสัญญาณที่สลายตัว ผ่านกระบวนการสังเคราะห์สัญญาณที่ถูกย่อยสลายสามารถสังเคราะห์กลับไปเป็นสัญญาณดั้งเดิมผ่านการคำนวณอย่างง่าย นอกจากนี้อัลกอริธึมที่รวดเร็วสำหรับสัญญาณไม่ต่อเนื่องจะถูกนำเสนอสำหรับการแปลงฟอร์เวิร์ดและอินเวอร์ส การแปลงได้รับการอนุมัติในทางทฤษฎีและตรวจสอบในการทดลอง ตัวอย่างเกี่ยวกับแอปพลิเคชั่นลดสัญญาณรบกวน การแปลงที่เสนอนั้นมีความทนทานต่อเสียงแบ็คกราวด์และเสียงคำนวณและปราศจากฮาร์โมนิกระดับเสียง


1
นี่คือสิ่งที่ฉันกำลังมองหา ขอบคุณ.
user76284
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.