เมื่อพยายามอธิบายการวิเคราะห์กลุ่มมันเป็นเรื่องปกติที่คนจะเข้าใจผิดเกี่ยวกับกระบวนการที่เกี่ยวข้องกับว่าตัวแปรมีความสัมพันธ์กันหรือไม่ วิธีหนึ่งที่จะทำให้ผู้คนสับสนได้ก็คือเรื่องแบบนี้:
สิ่งนี้แสดงความแตกต่างอย่างชัดเจนระหว่างคำถามที่ว่ามีกลุ่มและคำถามที่เกี่ยวข้องกับตัวแปรหรือไม่ อย่างไรก็ตามนี่แสดงให้เห็นถึงความแตกต่างสำหรับข้อมูลต่อเนื่องเท่านั้น ฉันมีปัญหาในการคิดแบบอะนาล็อกกับข้อมูลที่เป็นหมวดหมู่:
ID property.A property.B
1 yes yes
2 yes yes
3 yes yes
4 yes yes
5 no no
6 no no
7 no no
8 no no
เราจะเห็นได้ว่ามีกลุ่มชัดเจนสองกลุ่มคือคนที่มีทั้งคุณสมบัติ A และ B และกลุ่มที่ไม่มี อย่างไรก็ตามถ้าเราดูตัวแปร (เช่นด้วยการทดสอบไคสแควร์) พวกมันจะเกี่ยวข้องกันอย่างชัดเจน:
tab
# B
# A yes no
# yes 4 0
# no 0 4
chisq.test(tab)
# X-squared = 4.5, df = 1, p-value = 0.03389
ฉันพบว่าฉันสูญเสียวิธีสร้างตัวอย่างด้วยข้อมูลเด็ดขาดที่คล้ายคลึงกับข้อมูลต่อเนื่องข้างต้น เป็นไปได้ไหมที่จะมีกลุ่มข้อมูลที่จัดหมวดหมู่อย่างหมดจดโดยไม่มีตัวแปรที่เกี่ยวข้องด้วย? ถ้าตัวแปรมีมากกว่าสองระดับหรือตามที่คุณมีจำนวนตัวแปรมากขึ้น หากการรวมกลุ่มของการสังเกตไม่จำเป็นต้องเกี่ยวข้องกับความสัมพันธ์ระหว่างตัวแปรและในทางกลับกันนั่นหมายความว่าการจัดกลุ่มไม่คุ้มค่าที่จะทำเมื่อคุณมีข้อมูลที่เป็นหมวดหมู่เท่านั้น (เช่นคุณควรวิเคราะห์ตัวแปรแทน) หรือไม่?
อัปเดต:ฉันทิ้งคำถามเดิมไว้มากมายเพราะฉันต้องการเพียงแค่ให้ความสนใจกับแนวคิดที่ว่าสามารถสร้างตัวอย่างง่ายๆที่จะทำให้เข้าใจได้ง่ายในทันทีแม้กับคนที่ไม่คุ้นเคยกับการวิเคราะห์คลัสเตอร์เป็นส่วนใหญ่ อย่างไรก็ตามฉันตระหนักว่าการจัดกลุ่มจำนวนมากขึ้นอยู่กับการเลือกระยะทางและอัลกอริทึม ฯลฯ มันอาจช่วยได้หากฉันระบุเพิ่มเติม
ฉันรับรู้ว่าความสัมพันธ์ของ Pearson นั้นเหมาะสมสำหรับข้อมูลต่อเนื่องเท่านั้น สำหรับข้อมูลหมวดหมู่เราสามารถคิดถึงการทดสอบไคสแควร์ (สำหรับตารางฉุกเฉินแบบสองทาง) หรือโมเดลเชิงเส้นล็อก (สำหรับตารางสถานการณ์ฉุกเฉินหลายทาง) เป็นวิธีการประเมินความเป็นอิสระของตัวแปรเด็ดขาด
สำหรับอัลกอริทึมเราสามารถจินตนาการโดยใช้ k-medoids / PAM ซึ่งสามารถนำไปใช้กับทั้งสถานการณ์ต่อเนื่องและข้อมูลหมวดหมู่ (โปรดทราบว่าส่วนหนึ่งของความตั้งใจที่อยู่เบื้องหลังตัวอย่างต่อเนื่องคืออัลกอริธึมการจัดกลุ่มที่สมเหตุสมผลใด ๆ ควรจะสามารถตรวจจับกลุ่มเหล่านั้นได้และหากไม่สามารถทำได้ตัวอย่างที่รุนแรงกว่านั้นควรจะสร้างขึ้น)
เกี่ยวกับความคิดของระยะทาง ฉันถือว่า Euclidean เป็นตัวอย่างต่อเนื่องเพราะมันจะเป็นพื้นฐานที่สุดสำหรับผู้ดูที่ไร้เดียงสา ฉันคิดว่าระยะทางที่คล้ายคลึงกับข้อมูลที่เป็นหมวดหมู่ (ซึ่งมันจะเป็นวิธีที่เข้าใจง่ายที่สุดในทันที) ก็คือการจับคู่ที่ง่าย อย่างไรก็ตามฉันเปิดให้มีการอภิปรายในระยะทางอื่น ๆ ถ้านั่นนำไปสู่การแก้ปัญหาหรือเพียงแค่การสนทนาที่น่าสนใจ
[data-association]
แท็ก ฉันไม่แน่ใจว่าควรระบุสิ่งใดและไม่มีคำแนะนำในส่วนที่ตัดตอนมา / การใช้งาน พวกเราจำเป็นต้องใช้แท็กนี้หรือไม่? ดูเหมือนว่าจะเป็นผู้สมัครที่ดีสำหรับการลบ ถ้าเราต้องการใช้ CV และคุณรู้ว่ามันควรจะเป็นอะไรอย่างน้อยคุณสามารถเพิ่มข้อความที่ตัดตอนมาได้หรือไม่?