ฉันคิดว่าความแตกต่างที่คุณกำลังมองหาเป็นมากกว่าเชิงประจักษ์และเชิงทฤษฎี (ตรงข้ามกับการดูแลและไม่ได้รับการดูแล) แต่ฉันอาจผิดเกี่ยวกับเรื่องนั้น กล่าวอีกนัยหนึ่งสิ่งที่ดีที่สุดคือการให้คำจำกัดความทางทฤษฎีของประเภทต่าง ๆ มากกว่าเพียงแค่ข้อมูลทึบแสงซึ่งสามารถใช้เพื่อจัดประเภทเพลง [โดยไม่เข้าใจจริง ๆ ]
อย่างไรก็ตามสำหรับการจำแนกประเภททั่วไปคุณอาจติดอยู่กับการฝึกอบรมจากตัวอย่างเป็นอย่างน้อยแม้ว่าเพียงเพื่อสร้างคำจำกัดความของประเภทในตอนแรก ด้วยความเคารพต่อตัวอย่างของคุณพิจารณาว่าบ่อยครั้งที่คนจะเถียง [บน YouTube] มากกว่าว่าการติดตามให้มัน Dubstep (เช่นแทร็คที่ใด ๆ เพิ่มเติมDubbyและน้อยสั่นคลอนแม้ว่าประเภทเริ่มออกโดยไม่วอกแวกจริงใด ๆ ) ผู้คนกำหนดประเภทเมื่อเวลาผ่านไปตามตัวอย่างดังนั้นจึงมีเหตุผลที่จะคาดหวังว่าอัลกอริทึมที่ทำซ้ำพฤติกรรมนั้นจะต้องมีตัวอย่างบางส่วน วิธีที่ผู้คนอธิบายแนวเพลงเป็นเหมือนเวกเตอร์คุณลักษณะ อย่างไรก็ตาม - พวกเขาถามคำถามเกี่ยวกับเพลง (เช่นมันแตกหรือสั่นมากขึ้นหรือไม่มันมีเบสย่อยมากหรือไม่นานเท่าไหร่จังหวะคืออะไร?
แน่นอนคุณอาจเลือกรายการคุณลักษณะที่ให้ความเข้าใจที่เข้าใจง่ายเกี่ยวกับประเภท คุณลักษณะเช่น "ช่วงไดนามิก" เป็นสิ่งที่บุคคลสามารถตรวจจับได้ด้วยหู แต่สิ่งต่าง ๆ เช่น "Time Domain Zero Crossings" อาจไม่ง่ายนัก - แม้ว่ามันจะทำงานได้ดีสำหรับการจำแนกประเภทก็ตาม บทความต่อไปนี้มีคุณสมบัติบางอย่างที่คุณอาจสนใจ:
George Tzanetakis, Perry R. Cook: การจำแนกประเภทดนตรีของสัญญาณเสียง ธุรกรรมอีอีอีพูดและเสียงการประมวลผล 10 (5): 293-302 (2002) การเชื่อมโยง
สำหรับการวัดความหยาบความหยาบของPsychoacousticน่าจะเป็นจุดเริ่มต้นที่ดี แต่มันอาจไม่เพียงพอที่จะแยกแยะความแตกต่างระหว่างลีดดูสเต็ปกับลีดไฟฟ้า สำหรับความแตกต่างปลีกย่อยเม็ดเล็กสิ่งหนึ่งที่จะมองเข้าไปคือการรับรู้ต่ำ วิทยานิพนธ์ต่อไปนี้มีการสำรวจเทคนิคที่เหมาะสม:
TH Park“ สู่การจดจำเสียงเครื่องดนตรีโดยอัตโนมัติเวลาต่ำ” Ph.D. วิทยานิพนธ์มหาวิทยาลัยพรินซ์ตัน, นิวเจอร์ซีย์, ปี 2004 การเชื่อมโยง
นอกจากนี้ยังมีรูปแบบที่เกี่ยวข้องกับการรับรู้ความหยาบในTimbre, Tuning, Spectrum และ Scale ซึ่งใช้สำหรับการสร้างสเกลที่กำหนดเองสำหรับ timbres โดยพลการ แนวความคิดคือฮาร์โมนิกส์ที่อยู่ใกล้กันทำให้เกิดคลื่นความถี่ที่รับรู้ว่าไม่สอดคล้องกัน ถอดความจากภาคผนวก F และ E ,
Ff1,f2,...,fn
DF=1/2 ∑i=1n ∑j=1n d(|fi−fj|min(fi,fj))
โดยที่
d(x)=e−3.5x−e−5.75x
เป็นรูปแบบของการPlomp-Curve Levelt
มันใช้สำหรับวัดความพอใจของคอร์ดที่ได้รับจาก timbre (โดยการลดความไม่ลงรอยกัน) ฉันไม่รู้ว่าความหยาบของความหลากหลายทางจิตวิเคราะห์หรือความไม่ลงรอยกันที่แท้จริงจะมีผลมากสำหรับจุดประสงค์ของคุณเอง แต่อาจมีประโยชน์เมื่อใช้ร่วมกับการวัดอื่น ๆ
คุณอาจจะมีโชคในการจำแนก Timbres ทางคณิตศาสตร์มากกว่าแนวเพลง ตัวอย่างเช่นสตริงมีฮาร์มอนิกสม่ำเสมอและคี่ แต่คลาริเน็ตมีเพียงเสียงประสานที่แปลก (cf. Sawtooth wave , Square wave ) Dubstep โยกเยกมีแนวโน้มที่จะทำกับตัวกรองขับเคลื่อน LFO (ผ่านต่ำและ / หรือตัวกรอง formant) ดังนั้นบางอย่างเช่นSpectral Flux (ดู [Tzanetakis] ด้านบน) อาจเป็นจุดเริ่มต้นที่ดีเป็นคุณลักษณะ อย่างไรก็ตามฉันสงสัยว่าใครได้ศึกษาการจำแนกทางคณิตศาสตร์ของการโยกเยกยัง)