การจัดกลุ่มตามลำดับชั้นด้วยข้อมูลชนิดผสม - มีระยะทาง / ความคล้ายคลึงกันในการใช้งานอย่างไร

ในชุดข้อมูลของฉันเรามีทั้งตัวแปรต่อเนื่องและไม่ต่อเนื่องตามธรรมชาติ ฉันต้องการทราบว่าเราสามารถทำการจัดกลุ่มแบบลำดับชั้นโดยใช้ตัวแปรทั้งสองประเภทได้หรือไม่ และถ้าใช่มีการวัดระยะทางที่เหมาะสม?

— เบต้า
แหล่งที่มา

คุณใช้ซอฟต์แวร์อะไร

— rolando2

@ rolando2: ฉันใช้ R (แพ็คเกจ hclus)

— เบต้า

มีเหตุผลในการใช้การจัดกลุ่มแบบลำดับชั้นหรือไม่

— suncoolsu

นา ฉันแค่ถามคำถามนี้เพื่อความรู้ของฉัน เราสามารถทำลำดับชั้นได้เมื่อเรามีชนิดข้อมูลแบบผสม ถ้าใช่แล้วทำไม ถ้าไม่เช่นนั้นทำไม

— เบต้า

@ user4278 ดีสิ่งที่เป็นเป้าหมายของคุณในการปรับ ? คุณต้องการระบุกลุ่ม (ของบุคคล) หรือไม่

— chl

วิธีหนึ่งคือการใช้สัมประสิทธิ์ความคล้ายคลึงกันของโกเวอร์ซึ่งเป็นมาตรวัดคอมโพสิต ; มันต้องใช้ปริมาณ (เช่นมาตราส่วนการให้คะแนน), ไบนารี (เช่นปัจจุบัน / ขาด) และตัวแปรเล็กน้อย (เช่นคนงาน / ครู / เสมียน) ตัวแปร ภายหลัง Podani เพิ่มตัวเลือกในการใช้ตัวแปรลำดับเช่นกัน $^1$ $^2$

สัมประสิทธิ์สามารถเข้าใจได้ง่ายแม้ไม่มีสูตร คุณคำนวณค่าความคล้ายคลึงกันระหว่างแต่ละบุคคลโดยแต่ละตัวแปรนำประเภทของตัวแปรมาพิจารณาแล้วเฉลี่ยทั่วทั้งตัวแปร โดยปกติแล้วโปรแกรมที่คำนวณ Gower จะช่วยให้คุณสามารถกำหนดน้ำหนักของตัวแปรซึ่งก็คือการมีส่วนร่วมในสูตรผสม อย่างไรก็ตามการถ่วงน้ำหนักที่เหมาะสมของตัวแปรประเภทต่าง ๆเป็นปัญหาไม่มีแนวทางที่ชัดเจนซึ่งทำให้โกเวอร์หรือดัชนี "คอมโพสิต" อื่น ๆ ของตัวดึงความใกล้ชิด

$GS$

เมื่อตัวแปรทั้งหมดเป็นเชิงปริมาณ (ช่วงเวลา) ค่าสัมประสิทธิ์คือระยะทางแมนฮัตตันที่ได้รับการแปลงสภาพให้มีความคล้ายคลึงกัน เนื่องจากตัวแปรการทำให้ปกติของหน่วยต่าง ๆ อาจถูกใช้อย่างปลอดภัย อย่างไรก็ตามคุณไม่ควรลืมค่าผิดปกติ (คุณอาจตัดสินใจที่จะทำให้เป็นมาตรฐานโดยการวัดการแพร่กระจายมากกว่าช่วงอื่น) เนื่องจากการทำให้เป็นมาตรฐานดังกล่าวโดยสถิติเช่นช่วงซึ่งมีความอ่อนไหวต่อองค์ประกอบของบุคคลในชุดข้อมูลความคล้ายคลึงกันของ Gower ระหว่างบุคคลสองคนอาจเปลี่ยนค่าของมัน หากคุณลบหรือเพิ่มบุคคลอื่นในข้อมูล
เมื่อตัวแปรทั้งหมดเป็นอันดับจากนั้นพวกเขาจะถูกจัดอันดับครั้งแรกและจากนั้นแมนฮัตตันจะคำนวณเช่นเดียวกับตัวแปรเชิงปริมาณ แต่มีการปรับพิเศษสำหรับความสัมพันธ์
เมื่อตัวแปรทั้งหมดเป็นเลขฐานสอง (ที่มีความสำคัญไม่สมมาตรของหมวดหมู่: "ปัจจุบัน" กับ "ขาด" แอตทริบิวต์) ค่าสัมประสิทธิ์คือสัมประสิทธิ์การจับคู่Jaccard (สัมประสิทธิ์นี้ปฏิบัติเมื่อบุคคลทั้งสองขาดคุณลักษณะที่ไม่ตรงกันหรือไม่ตรงกัน)
เมื่อตัวแปรทั้งหมดมีค่าเล็กน้อย (รวมถึงที่นี่มีการแบ่งขั้วที่มีความสำคัญสมมาตร: "นี่" vs "ที่") ดังนั้นค่าสัมประสิทธิ์คือสัมประสิทธิ์การจับคู่ลูกเต๋าที่คุณได้รับจากตัวแปรที่ระบุถ้าคุณถอดรหัสเป็นตัวแปรจำลอง (ดูคำตอบนี้เพิ่มเติม) .

(มันเป็นเรื่องง่ายที่จะขยายรายการประเภทตัวอย่างเช่นหนึ่งสามารถเพิ่มสรุปสำหรับตัวแปรนับโดยใช้ระยะทางปกติไคสแควร์แปลงเป็นความคล้ายคลึงกัน)

ค่าสัมประสิทธิ์อยู่ระหว่าง 0 ถึง 1

$\sqrt{1-GS}$ $1-GS$ $\sqrt{1-GS}$ $1-GS$

ด้วยระยะทางแบบยุคลิด (ระยะทางรองรับพื้นที่แบบยุคลิด) เทคนิคการจัดกลุ่มแบบคลาสสิกแทบทุกอย่างจะทำ รวมทั้งK-หมายถึง (ถ้าโปรแกรม K-ของคุณหมายความว่าสามารถดำเนินการฝึกอบรมทางไกลของหลักสูตร) และรวมถึงวอร์ด, เซน, วิธีการเฉลี่ยของลำดับชั้นการจัดกลุ่ม ใช้ K-วิธีการหรือวิธีการอื่น ๆ เหล่านั้นขึ้นอยู่กับระยะทางยุคลิดที่ไม่ใช่แบบยุคลิดระยะทางยังคงเป็นตัวชี้วัดheuristicallyยอมรับบางที ด้วยระยะทางที่ไม่ใช่ตัวชี้วัดอาจไม่มีวิธีการดังกล่าว

พูดถึงย่อหน้าก่อนหน้าเกี่ยวกับกรณีที่ K-หมายหรือวอร์ดหรือการจัดกลุ่มดังกล่าวเป็นกฎหมายหรือไม่ได้อยู่กับระยะทางโกเวอร์ทางคณิตศาสตร์ (เรขาคณิต) จากมุมมองการวัด ("psychometric") มุมมองหนึ่งไม่ควรคำนวณค่าเฉลี่ยหรือการเบี่ยงเบนแบบยูคลิด - ระยะทางจากข้อมูลในหมวดหมู่ใด ๆ (เล็กน้อย, ไบนารี, เช่นเดียวกับลำดับ); ดังนั้นจากท่าทางนี้คุณอาจไม่สามารถประมวลผลสัมประสิทธิ์ Gower ด้วย K-หมายความว่าวอร์ด ฯลฯ มุมมองนี้เตือนว่าแม้ว่าจะมีพื้นที่ยูคลิดอยู่ก็อาจเป็นทรายไม่เรียบ ( ดูที่เกี่ยวข้อง )

$^1$

$^2$

— ttnphns
แหล่งที่มา

ขอบคุณ ttnphns! คุณช่วยบอกฉันหน่อยได้ไหมว่า "สัมประสิทธิ์ความคล้ายคลึงกันของโกเวอร์" รวมอยู่ในแพ็คเกจ hclus ใน R? มีแพ็คเกจใด ๆ ใน R ที่มีฟังก์ชั่นนี้

— เบต้า

ฉันไม่ใช่ผู้ใช้ R จึงไม่ทราบและไม่คิดว่าคุณจะพบใน hclus แต่ถ้าคุณ Google "Gower คล้ายคลึงกัน R" คุณแน่ใจว่าจะค้นหาสิ่งที่คุณต้องการ!

— ttnphns

user4278, ในกรณีที่คุณไม่ได้หลีกเลี่ยง SPSS, ฉันมีมาโครสำหรับความคล้ายคลึงกันของโกเวอร์บนหน้าเว็บของฉัน รับน้ำหนักและขาดข้อมูล

— ttnphns

@ user4278 เกี่ยวกับ R โดยเฉพาะเริ่มที่นี่: cran.r-project.org/web/views/Environmetrics.html

— chl

@ttnphns: ขอบคุณ! ฉันเคยเยี่ยมชมเว็บไซต์ของคุณและเป็นแหล่งข้อมูลที่ยอดเยี่ยมสำหรับ SPSS แต่น่าเสียดายที่ฉันไม่ได้ใช้ SPSS มากเกินไป แต่ฉันจะใช้มันแน่ ๆ ถ้าฉันไม่ได้อะไรเลยใน R. @ chl: ขอบคุณ! แต่มันเป็นรายการที่ยิ่งใหญ่ ฉันอ่านที่ไหนซักแห่งที่เดซี่ในแพ็คเกจคลัสเตอร์มีฟังก์ชั่นการใช้งานของ Gower

— เบต้า

ถ้าคุณได้เจอคำถามนี้และสงสัยว่าแพคเกจที่จะดาวน์โหลดสำหรับการใช้โกเวอร์ตัวชี้วัดในการวิจัยที่clusterแพคเกจที่มีฟังก์ชั่นชื่อเดซี่ () , ซึ่งเริ่มต้นโดยใช้ตัวชี้วัดโกเวอร์เมื่อใดก็ตามที่ผสมประเภทของตัวแปรที่จะใช้ หรือคุณสามารถตั้งค่าด้วยตนเองเพื่อใช้ตัวชี้วัดของโกเวอร์

daisy(x, metric = c("euclidean", "manhattan", "gower"),
      stand = FALSE, type = list(), weights = rep.int(1, p))

— Zhubarb
แหล่งที่มา

ต่อไปคำตอบของ Zhubarbถ้าคุณต้องการระยะทางระหว่างโกเวอร์ทุกคู่จากสองStatMatchชุดข้อมูลแล้วดูแพคเกจการ R

— James Hirschorn