ใช้ความสัมพันธ์เป็นตัวชี้วัดระยะทาง (สำหรับการจัดกลุ่มแบบลำดับชั้น)


22

ฉันต้องการจัดกลุ่มข้อมูลของฉันแบบลำดับชั้น แต่แทนที่จะใช้ระยะทางแบบยุคลิดฉันต้องการใช้ความสัมพันธ์ นอกจากนี้เนื่องจากค่าสัมประสิทธิ์สหสัมพันธ์มีค่าตั้งแต่ -1 ถึง 1 โดยที่ทั้ง -1 และ 1 แสดงถึง "การควบคุมร่วม" ในการศึกษาของฉันฉันจึงรักษาทั้ง -1 และ 1 เป็น d = 0 ดังนั้นการคำนวณของฉันคือ d=1-|R|

ผมอ่านในคำถามที่แยกต่างหาก (เกี่ยวกับ K-วิธีการจัดกลุ่ม) ที่คุณควรแปลงRเข้าจริง euclidean dใช้ทฤษฎีบทโคไซน์:d=2(1-R)

วิธีที่ถูกต้องที่สุดในการแปลงสหสัมพันธ์เป็นระยะทางสำหรับการจัดกลุ่มแบบลำดับชั้นคืออะไร


3
ใช่หนึ่งในวิธีที่เป็นไปได้ - และวิธีการทางเรขาคณิตที่แท้จริง - เป็นสูตรสุดท้าย แต่คุณอาจมองข้ามสัญลักษณ์ของถ้ามันทำให้รู้สึกสำหรับคุณเพื่อให้|) ในกรณีส่วนใหญ่คุณอาจลดลงอย่างปลอดภัยโดยไม่มีผลต่อผลลัพธ์การจัดกลุ่ม ระยะทางสามารถใช้เป็นยูคลิดกำลังสองได้ ในหัวข้อนี้มีการหารือกันว่าการวัดความสัมพันธ์แบบแปลงระยะทางเป็นระยะทางเมตริกหรือไม่ d 2 = 2 ( 1 - | r | ) 2Rd2=2(1-|R|)2
ttnphns

2
นอกจากนี้คุณไม่จำเป็นต้องแปลงเป็นความแตกต่างเชิงเส้นเช่นระยะทางยูคลิดเสมอ คนไม่ค่อยทำการจัดกลุ่มตามหรือมันเป็นความคล้ายคลึงเชิงมุมr | r |RR|R|
ttnphns

คำตอบ:


21

ข้อกำหนดสำหรับการทำคลัสเตอร์แบบลำดับชั้น

การจัดกลุ่มตามลำดับชั้นสามารถใช้กับความคล้ายคลึงกันและมาตรการที่แตกต่างกันโดยพลการ (เครื่องมือส่วนใหญ่คาดว่าจะมีความแตกต่างกัน แต่จะอนุญาตให้มีค่าลบ - มันขึ้นอยู่กับคุณเพื่อให้แน่ใจว่ามีค่าขนาดเล็กหรือขนาดใหญ่หรือไม่)

เฉพาะวิธีการที่ขึ้นอยู่กับ centroids หรือความแปรปรวน (เช่นวิธีของ Ward) เป็นพิเศษและควรใช้กับ Euclidean กำลังสอง (เพื่อให้เข้าใจว่าทำไมโปรดศึกษาการเชื่อมโยงเหล่านี้อย่างรอบคอบ)

Single-linkage, average-linkage, -linkage สมบูรณ์ไม่ได้รับผลกระทบมากนัก แต่จะยังคงเป็นค่าต่ำสุด / เฉลี่ย / สูงสุดของความแตกต่างแบบคู่

ความสัมพันธ์เป็นตัววัดระยะทาง

หากคุณประมวลผลข้อมูลล่วงหน้าของคุณ ( การสังเกตการณ์คุณสมบัติ ) เช่นนั้นคุณลักษณะแต่ละอย่างจะมีและ (ซึ่งปิดคุณสมบัติไม่คงที่!) ดังนั้นความสัมพันธ์จะลดลงเป็นโคไซน์:nพีμ=0σ=1

Corr(X,Y)=Cov(X,Y)σXσY=E[(X-μX)(Y-μY)]σXσY=E[XY]=1nX,Y

ภายใต้เงื่อนไขเดียวกันระยะทางแบบยุคลิดสแควร์สแควร์จะลดลงเป็นโคไซน์:

dEuclid2(X,Y)=Σ(Xผม-Yผม)2=ΣXผม2+ΣYผม2-2ΣXผมYผม=2n-2X,Y=2n[1-Corr(X,Y)]

ดังนั้นยกเว้นว่าข้อมูลของคุณจะแย่ลงการใช้ความสัมพันธ์สำหรับการจัดกลุ่มแบบลำดับชั้นควรจะโอเค เพียงประมวลผลล่วงหน้าตามที่อธิบายไว้ข้างต้นจากนั้นใช้ระยะทางแบบยุคลิดแบบสแควร์


1
Only ward's method is special, and should be used with squared Euclidean. ไม่เพียง แต่วอร์ดเท่านั้น วิธีคำนวณเซนทรอยด์หรือการเบี่ยงเบนจากเซนทรอยด์นั้นจะต้องใช้ยูคลิดหรือสแควร์ยูคลิด (ขึ้นอยู่กับการใช้งาน) เพื่อความแม่นยำทางเรขาคณิต ด้วยการสูญเสียการเตือนดังกล่าวและการเตือนที่ครบกำหนดพวกเขาสามารถใช้กับระยะทางเมตริกอื่น ๆ วิธีการเหล่านั้นคือเซนทรอยด์, "ค่ามัธยฐาน", วอร์ด, ความแปรปรวน (เพื่อไม่ให้สับสนกับวอร์ด!) และอื่น ๆ
ttnphns

ขอบคุณฉันทำให้ชัดเจนยิ่งขึ้น ฉันไม่ได้ตระหนักถึงความผันแปรเหล่านี้ฉันแค่คิดถึงเรื่องโสด / ปานกลาง / สมบูรณ์ / วอร์ด
Anony-Mousse

1
,dผมม.
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.