ในชุดข้อมูลของฉันเรามีทั้งตัวแปรต่อเนื่องและไม่ต่อเนื่องตามธรรมชาติ ฉันต้องการทราบว่าเราสามารถทำการจัดกลุ่มแบบลำดับชั้นโดยใช้ตัวแปรทั้งสองประเภทได้หรือไม่ และถ้าใช่มีการวัดระยะทางที่เหมาะสม?
ในชุดข้อมูลของฉันเรามีทั้งตัวแปรต่อเนื่องและไม่ต่อเนื่องตามธรรมชาติ ฉันต้องการทราบว่าเราสามารถทำการจัดกลุ่มแบบลำดับชั้นโดยใช้ตัวแปรทั้งสองประเภทได้หรือไม่ และถ้าใช่มีการวัดระยะทางที่เหมาะสม?
คำตอบ:
วิธีหนึ่งคือการใช้สัมประสิทธิ์ความคล้ายคลึงกันของโกเวอร์ซึ่งเป็นมาตรวัดคอมโพสิต1 ; มันต้องใช้ปริมาณ (เช่นมาตราส่วนการให้คะแนน), ไบนารี (เช่นปัจจุบัน / ขาด) และตัวแปรเล็กน้อย (เช่นคนงาน / ครู / เสมียน) ตัวแปร ภายหลัง Podani 2เพิ่มตัวเลือกในการใช้ตัวแปรลำดับเช่นกัน
สัมประสิทธิ์สามารถเข้าใจได้ง่ายแม้ไม่มีสูตร คุณคำนวณค่าความคล้ายคลึงกันระหว่างแต่ละบุคคลโดยแต่ละตัวแปรนำประเภทของตัวแปรมาพิจารณาแล้วเฉลี่ยทั่วทั้งตัวแปร โดยปกติแล้วโปรแกรมที่คำนวณ Gower จะช่วยให้คุณสามารถกำหนดน้ำหนักของตัวแปรซึ่งก็คือการมีส่วนร่วมในสูตรผสม อย่างไรก็ตามการถ่วงน้ำหนักที่เหมาะสมของตัวแปรประเภทต่าง ๆเป็นปัญหาไม่มีแนวทางที่ชัดเจนซึ่งทำให้โกเวอร์หรือดัชนี "คอมโพสิต" อื่น ๆ ของตัวดึงความใกล้ชิด
(มันเป็นเรื่องง่ายที่จะขยายรายการประเภทตัวอย่างเช่นหนึ่งสามารถเพิ่มสรุปสำหรับตัวแปรนับโดยใช้ระยะทางปกติไคสแควร์แปลงเป็นความคล้ายคลึงกัน)
ค่าสัมประสิทธิ์อยู่ระหว่าง 0 ถึง 1
ด้วยระยะทางแบบยุคลิด (ระยะทางรองรับพื้นที่แบบยุคลิด) เทคนิคการจัดกลุ่มแบบคลาสสิกแทบทุกอย่างจะทำ รวมทั้งK-หมายถึง (ถ้าโปรแกรม K-ของคุณหมายความว่าสามารถดำเนินการฝึกอบรมทางไกลของหลักสูตร) และรวมถึงวอร์ด, เซน, วิธีการเฉลี่ยของลำดับชั้นการจัดกลุ่ม ใช้ K-วิธีการหรือวิธีการอื่น ๆ เหล่านั้นขึ้นอยู่กับระยะทางยุคลิดที่ไม่ใช่แบบยุคลิดระยะทางยังคงเป็นตัวชี้วัดheuristicallyยอมรับบางที ด้วยระยะทางที่ไม่ใช่ตัวชี้วัดอาจไม่มีวิธีการดังกล่าว
พูดถึงย่อหน้าก่อนหน้าเกี่ยวกับกรณีที่ K-หมายหรือวอร์ดหรือการจัดกลุ่มดังกล่าวเป็นกฎหมายหรือไม่ได้อยู่กับระยะทางโกเวอร์ทางคณิตศาสตร์ (เรขาคณิต) จากมุมมองการวัด ("psychometric") มุมมองหนึ่งไม่ควรคำนวณค่าเฉลี่ยหรือการเบี่ยงเบนแบบยูคลิด - ระยะทางจากข้อมูลในหมวดหมู่ใด ๆ (เล็กน้อย, ไบนารี, เช่นเดียวกับลำดับ); ดังนั้นจากท่าทางนี้คุณอาจไม่สามารถประมวลผลสัมประสิทธิ์ Gower ด้วย K-หมายความว่าวอร์ด ฯลฯ มุมมองนี้เตือนว่าแม้ว่าจะมีพื้นที่ยูคลิดอยู่ก็อาจเป็นทรายไม่เรียบ ( ดูที่เกี่ยวข้อง )
ถ้าคุณได้เจอคำถามนี้และสงสัยว่าแพคเกจที่จะดาวน์โหลดสำหรับการใช้โกเวอร์ตัวชี้วัดในการวิจัยที่cluster
แพคเกจที่มีฟังก์ชั่นชื่อเดซี่ () , ซึ่งเริ่มต้นโดยใช้ตัวชี้วัดโกเวอร์เมื่อใดก็ตามที่ผสมประเภทของตัวแปรที่จะใช้ หรือคุณสามารถตั้งค่าด้วยตนเองเพื่อใช้ตัวชี้วัดของโกเวอร์
daisy(x, metric = c("euclidean", "manhattan", "gower"),
stand = FALSE, type = list(), weights = rep.int(1, p))
StatMatch
ชุดข้อมูลแล้วดูแพคเกจการ R