เกี่ยวกับการวิเคราะห์ตะกร้าสินค้าฉันคิดว่าวัตถุประสงค์หลักคือการแยกแยะชุดค่าผสมที่พบบ่อยที่สุดของผลิตภัณฑ์ที่ลูกค้าซื้อ association rules
แทนวิธีธรรมชาติมากที่สุดที่นี่ (ที่จริงพวกเขาได้รับการพัฒนาจริงเพื่อการนี้) การวิเคราะห์การรวมกันของผลิตภัณฑ์ที่ลูกค้าซื้อและจำนวนครั้งที่มีการรวมกันซ้ำเหล่านี้นำไปสู่กฎประเภท 'หากเงื่อนไขแล้วส่งผล' ด้วยการวัดความน่าสนใจที่สอดคล้องกัน คุณอาจพิจารณาLog-linear models
เพื่อตรวจสอบความสัมพันธ์ระหว่างตัวแปรที่พิจารณา
ตอนนี้สำหรับการจัดกลุ่มต่อไปนี้เป็นข้อมูลที่อาจเป็นประโยชน์:
Variable clustering
ตอนแรกพิจารณา การทำคลัสเตอร์แบบแปรผันนั้นใช้สำหรับการประเมิน collinearity, ความซ้ำซ้อนและการแยกตัวแปรออกเป็นกลุ่มที่สามารถทำคะแนนให้เป็นตัวแปรเดียวได้ทำให้เกิดการลดข้อมูล มองหาvarclus
ฟังก์ชั่น (แพคเกจ Hmisc ใน R)
การประเมินความเสถียรของคลัสเตอร์: ฟังก์ชันclusterboot
{R package fpc}
สถิติที่อิงตามระยะทางสำหรับการตรวจสอบความถูกต้องของคลัสเตอร์: ฟังก์ชันcluster.stats
{R package fpc}
ตามที่ mbq ได้กล่าวไว้ให้ใช้ความกว้างของภาพเงาเพื่อประเมินจำนวนกลุ่มที่ดีที่สุด ชมนี้ เกี่ยวกับความกว้างของรูปเงาดำดูที่ฟังก์ชันoptsil
ประเมินจำนวนกลุ่มในชุดข้อมูลผ่านสถิติช่องว่าง
สำหรับการคำนวณดัชนีความแตกต่างและมาตรการระยะทางดูdsvdisและvegdist
อัลกอริทึมการจัดกลุ่ม EM สามารถตัดสินใจได้ว่าจะสร้างคลัสเตอร์กี่คลัสเตอร์โดยการตรวจสอบความถูกต้องไขว้ (ถ้าคุณไม่สามารถระบุ apriori ได้ว่าจะสร้างคลัสเตอร์จำนวนเท่าใด) แม้ว่าอัลกอริทึม EM นั้นรับประกันว่าจะมาบรรจบกันสูงสุด แต่นี่เป็นค่าสูงสุดในท้องถิ่นและอาจไม่จำเป็นต้องเหมือนกับค่าสูงสุดทั่วโลก เพื่อโอกาสที่ดีกว่าในการได้รับค่าสูงสุดทั่วโลกขั้นตอนทั้งหมดควรทำซ้ำหลายครั้งด้วยการคาดเดาเริ่มต้นที่แตกต่างกันสำหรับค่าพารามิเตอร์ ร่างเข้าสู่ระบบโดยรวมน่าจะสามารถนำมาใช้ในการเปรียบเทียบการกำหนดค่าสุดท้ายที่แตกต่างกันได้: เพียงเลือกที่ใหญ่ที่สุดของแม็กซิม่าท้องถิ่น คุณสามารถค้นหาการใช้งานของ clusterer EM ในโครงการโอเพ่นซอร์สWEKA
นี่เป็นลิงค์ที่น่าสนใจ
ค้นหาที่นี่ด้วยFinding the Right Number of Clusters in k-Means and EM Clustering: v-Fold Cross-Validation
สุดท้ายคุณอาจสำรวจผลลัพธ์การจัดกลุ่มโดยใช้clusterfly