ฉันมีชุดข้อมูลประกอบด้วย 5 คุณสมบัติ: A, B, C, D, E พวกเขาทั้งหมดเป็นค่าตัวเลข แทนที่จะทำการจัดกลุ่มตามความหนาแน่นสิ่งที่ฉันต้องการทำคือการจัดกลุ่มข้อมูลในลักษณะคล้ายต้นไม้ตัดสินใจ
วิธีที่ฉันหมายถึงคือ:
อัลกอริทึมอาจแบ่งข้อมูลออกเป็นกลุ่มเริ่มต้น X ตามคุณลักษณะ C เช่นกลุ่ม X อาจมีขนาดเล็ก C ขนาดกลาง C ขนาดใหญ่และค่า C ที่มีขนาดใหญ่มากเป็นต้นถัดไปภายใต้โหนดคลัสเตอร์ X แต่ละโหนดอัลกอริธึมเพิ่มเติม ข้อมูลในคลัสเตอร์ Y ตามคุณลักษณะ A อัลกอริทึมจะดำเนินต่อไปจนกว่าจะใช้คุณลักษณะทั้งหมด
อัลกอริทึมที่ฉันอธิบายไว้ข้างต้นเป็นเหมือนอัลกอริธึมต้นไม้ตัดสินใจ แต่ฉันต้องการมันสำหรับการจัดกลุ่มแบบไม่ดูแลแทนการจัดกลุ่มแบบมีผู้ดูแล
คำถามของฉันมีดังต่อไปนี้:
- อัลกอริทึมดังกล่าวมีอยู่แล้วหรือไม่? ชื่อที่ถูกต้องสำหรับอัลกอริทึมดังกล่าวคืออะไร
- มีแพ็คเกจ / ไลบรารี R / python ที่มีการใช้อัลกอริทึมชนิดนี้หรือไม่?
CHAID
ต้นไม้เช่น คุณต้องเลือกตัวแปรตาม ปล่อยให้มันเป็น A อัลกอริทึมเลือกระหว่าง B, C, D, E ตัวแปรที่มีความสัมพันธ์มากที่สุดกับ A และ binns ที่ตัวแปร (พูดว่ามันทำนายถูก D) เป็นสองประเภทหรือมากกว่า "เหมาะสม" - เพื่อให้ความสัมพันธ์ (ระหว่างตัวแปรที่ถูกจัดหมวดหมู่ D และตัวแปร A นั้นถูกขยายให้ใหญ่ที่สุดบอกว่ามันเหลือ 3 กลุ่มคือ D1, D2, D3 ถัดไปจะมีการทำซ้ำขั้นตอนเดียวกันในแต่ละหมวดหมู่ (กลุ่ม) ของ D แยกจากกัน อีจะมองตาม binning มัน ฯลฯ อะไร. ว่าไม่เหมาะกับคุณที่นี่?
But I need it for unsupervised clustering, instead of supervised classification
วลีสำคัญนี้เพียงอย่างเดียวสั้นเกินไปและไม่ได้อธิบายสิ่งที่คุณต้องการอย่างชัดเจน ข้างต้นคุณอธิบายสิ่งที่ดูเหมือนว่าฉันจะเป็นต้นไม้ตัดสินใจ ตอนนี้คุณสามารถให้ข้อความที่คล้ายกันเกี่ยวกับอัลโกที่คุณต้องการได้หรือไม่?