อัลกอริธึมการจัดกลุ่มและการลดขนาดแบบคลาสสิกส่วนใหญ่ (การจัดกลุ่มแบบลำดับชั้นการวิเคราะห์องค์ประกอบหลัก, k-mean, การจัดระเบียบแผนที่เอง ... ) ได้รับการออกแบบมาโดยเฉพาะสำหรับข้อมูลตัวเลขและข้อมูลอินพุตของพวกเขาถูกมองว่าเป็นจุด
นี่เป็นปัญหาแน่นอนเนื่องจากคำถามในโลกแห่งความเป็นจริงนั้นเกี่ยวข้องกับข้อมูลที่หลากหลาย: ตัวอย่างเช่นหากเราศึกษารถเมล์ความสูงและความยาวและขนาดมอเตอร์จะเป็นตัวเลข แต่เราอาจสนใจสีด้วย (ตัวแปรเด็ดขาด: สีน้ำเงิน / แดง / เขียว ... ) และคลาสความจุ (ตัวแปรที่สั่ง: ความจุขนาดเล็ก / กลาง / ใหญ่) โดยเฉพาะเราอาจต้องการศึกษาตัวแปรประเภทต่าง ๆ เหล่านี้พร้อมกัน
มีวิธีการหลายวิธีในการขยาย algos การจัดกลุ่มแบบคลาสสิกเป็นข้อมูลแบบผสมเช่นการใช้ Gower dissimilarity เพื่อเชื่อมต่อเข้ากับการจัดกลุ่มแบบลำดับชั้นหรือการปรับขนาดแบบหลายมิติหรือวิธีการอื่นที่ใช้เมทริกซ์ระยะทางเป็นอินพุต หรือเช่นวิธีการนี้เป็นส่วนเสริมของ SOM เพื่อผสมข้อมูล
คำถามของฉันคือทำไมเราไม่สามารถใช้ระยะทางแบบยุคลิดในตัวแปรผสมได้ หรือเพราะเหตุใดจึงไม่ดีที่จะทำเช่นนั้น? ทำไมเราไม่จำลองหุ่นตัวแปรที่เป็นหมวดหมู่ทำให้ตัวแปรทั้งหมดเป็นปกติเพื่อให้พวกมันมีน้ำหนักใกล้เคียงกันระหว่างการสังเกตและเรียกใช้ algos ปกติบนเมทริกซ์เหล่านี้
มันง่ายมากและไม่เคยทำเลยดังนั้นฉันคิดว่ามันผิดมาก แต่ทุกคนสามารถบอกฉันได้ว่าทำไม และ / หรือให้ฉันอ้างอิงบางอย่าง? ขอบคุณ