MFCCs เป็นวิธีที่ดีที่สุดในการแสดงเพลงไปยังระบบดึงข้อมูลหรือไม่?


10

เทคนิคการประมวลสัญญาณที่Mel frequency Cepstrumมักใช้เพื่อดึงข้อมูลจากชิ้นดนตรีเพื่อใช้ในงานการเรียนรู้ของเครื่อง วิธีนี้ให้สเปกตรัมพลังงานระยะสั้นและค่าสัมประสิทธิ์ถูกใช้เป็นอินพุต

ในการออกแบบระบบดึงเพลงค่าสัมประสิทธิ์ดังกล่าวถือเป็นลักษณะของชิ้นส่วน (เห็นได้ชัดว่าไม่จำเป็นต้องเป็นเอกลักษณ์ แต่แตกต่าง) มีคุณสมบัติใดบ้างที่เหมาะกับการเรียนรู้กับเครือข่ายมากขึ้น? ลักษณะที่เปลี่ยนแปลงตามเวลาเช่นความก้าวหน้าของเสียงเบสของชิ้นส่วนที่ใช้ในบางอย่างเช่นเครือข่าย Elmanทำงานได้อย่างมีประสิทธิภาพมากขึ้นหรือไม่

ลักษณะใดที่จะก่อให้เกิดการจัดหมวดหมู่ที่ครอบคลุมพอที่จะเกิดขึ้น


คุณกำลังดึงข้อมูลอยู่ซึ่งคุณกำลังมองหาคุณภาพที่เป็นเอกลักษณ์ของคลิปเสียงที่ต้องการหรือไม่ หรือคุณต้องการระบุเพลงที่คล้ายกัน
Andrew Rosenberg

@AndrewRosenberg เพิ่มเติมตามแนวการระบุเพลงที่คล้ายกัน
jonsca

(ปีต่อมา) มีหลายวิธีในการคนจรจัดกับ MFCC; Kinunnen et al., การแปรปรวนความถี่และการตรวจสอบลำโพงที่ทนทาน: การเปรียบเทียบการแทน Mel-Scale ทางเลือก 2013, 5p, ใช้ 60 สัมประสิทธิ์ และเพิ่มประสิทธิภาพอะไร เกี่ยวกับฐานข้อมูลที่ไม่เปิดอะไร ดังนั้นฉันจะบอกว่า (ไม่ใช่ผู้เชี่ยวชาญ) ว่าคำถามนั้นกว้างเกินกว่าจะตอบได้
เดนิส

@denis ขอบคุณสำหรับข้อมูล สิ่งนี้มาจากการเรียนรู้ด้วยเครื่องที่ไม่ดี (เป็นครั้งแรก) ฉันขอขอบคุณที่มันค่อนข้างคลุมเครือ
jonsca

คำตอบ:


8

เราทำงานนี้ในจุดหนึ่ง ชุดคุณสมบัติที่เราแตกออกมามีอยู่ในกระดาษฝึกอบรมเชิงปฏิบัติการของ NIPSนี้ ฉันต้องยอมรับว่าเราไม่สามารถทำซ้ำผลลัพธ์ของผู้เขียนคนอื่น ๆ ในฟิลด์แม้ว่าจะมีข้อสงสัยเกี่ยวกับชุดข้อมูลที่ใช้ในสิ่งเหล่านี้ (โปรดทราบว่าชุดข้อมูลที่ผู้เขียนใช้ในสาขานี้มักจะเลือกด้วยมือและไม่เผยแพร่ ต่อสาธารณชนด้วยเหตุผลทางลิขสิทธิ์แม้ว่าจะไม่เป็นเช่นนั้นเสมอไป) โดยพื้นฐานแล้วพวกมันล้วนเป็นคุณสมบัติทางสเปกตรัมระยะสั้นด้วยค่าสัมประสิทธิ์ Autoregression เรากำลังดูการจัดประเภทของประเภทซึ่งเรารู้ว่าสามารถทำได้โดยมนุษย์ (แม้ว่าจะไม่ได้มีความแม่นยำที่ยอดเยี่ยมและไม่สอดคล้องกับข้อตกลง .... ) ใน timespans สั้นมาก (<1s) ซึ่งตรวจสอบการใช้คุณสมบัติระยะสั้น . หากคุณสนใจที่จะทำสิ่งที่ซับซ้อนกว่าประเภททั่วไปศิลปิน / อัลบั้ม / โปรดิวเซอร์คุณอาจต้องใช้คุณสมบัติระยะยาวมากขึ้นมิฉะนั้นคุณสมบัติสเปกตรัมระยะสั้นเหล่านี้มักจะทำงานได้ดีที่สุด


วัตถุประสงค์ของการขว้างปาในสัมประสิทธิ์ AR คืออะไร?
jonsca

1
@ jonsca เนื่องจากเราใช้วิธีการเพิ่มประสิทธิภาพซึ่งทำงานโดยการรวมผู้เรียนที่ "อ่อนแอ" จำนวนมากเราจึงตัดสินใจใช้คุณลักษณะใด ๆ ที่สามารถคำนวณได้ง่ายซึ่งอาจให้ประโยชน์บางอย่าง สิ่งที่จำเป็นสำหรับผู้เรียนที่อ่อนแอเพื่อให้มีประโยชน์คือสามารถจำแนกได้มากกว่าระดับโอกาส ค่าสัมประสิทธิ์ AR เท่ากับการบีบอัดของซองสเปกตรัมซึ่งให้ความเห็นเกี่ยวกับความซับซ้อนของข้อมูลระยะสั้นของเพลงในหน้าต่างนั้นแม้ว่าจะมีเพียงคับเท่านั้น
tdc

@tdc "ชุดข้อมูลมีแนวโน้มที่จะไม่เปิดเผยต่อสาธารณะ ... ": คุณจะรู้ชุดข้อมูลการพูดออนไลน์ฟรีใด ๆ
เดนิส

@denis สิ่งเดียวที่ฉันรู้คืออันนี้: orange.biolab.si/datasets/phoneme.htm
tdc

@tdc ขอบคุณ แต่นั่นเป็นเพียงสระ 11 สระจากองค์ประกอบการเรียนรู้ทางสถิติ ~ 1,000 x 11 คุณสมบัติ (LPC โบราณ)
เดนิส
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.