ความแตกต่างระหว่างอัลกอริธึมมาตรฐานและทรงกลม k-mean


28

ฉันต้องการเข้าใจว่าอะไรคือความแตกต่างที่สำคัญในการใช้งานระหว่างอัลกอริธึมการจัดกลุ่ม k-Mean แบบมาตรฐานและทรงกลม

ในแต่ละขั้นตอน k-หมายถึงคำนวณระยะทางระหว่างเวกเตอร์องค์ประกอบและเซนทรอยด์ของคลัสเตอร์และกำหนดเอกสารให้กับคลัสเตอร์นี้อีกครั้งซึ่งเซนทรอยด์อยู่ใกล้ที่สุด จากนั้นเซนทรอยด์ทั้งหมดจะถูกคำนวณใหม่

ในรูป k k- หมายถึงเวกเตอร์ทั้งหมดจะถูกทำให้เป็นมาตรฐานและการวัดระยะทางเป็นความแตกต่างของโคไซน์

นั่นคือทั้งหมดหรือมีอย่างอื่นหรือไม่

คำตอบ:


23

คำถามคือ:

อะไรคือความแตกต่างระหว่างคลาสสิคหมายถึง k และหมายถึงทรงกลม k- หมายถึง?

คลาสสิก K- หมายถึง:

ในคลาสสิกค่าเฉลี่ย k เราหมายถึงการลดระยะห่างแบบยุคลิดระหว่างศูนย์คลัสเตอร์กับสมาชิกของกลุ่ม สัญชาตญาณที่อยู่เบื้องหลังสิ่งนี้คือระยะรัศมีจากจุดศูนย์กลางคลัสเตอร์ไปยังตำแหน่งองค์ประกอบควร "มีความเหมือนกัน" หรือ "คล้ายกัน" สำหรับองค์ประกอบทั้งหมดของคลัสเตอร์นั้น

อัลกอริทึมคือ:

  • กำหนดจำนวนของกลุ่ม (หรือที่รู้จักในการนับกลุ่ม)
  • เริ่มต้นโดยการสุ่มกำหนดคะแนนในพื้นที่เพื่อดัชนีคลัสเตอร์
  • ทำซ้ำจนกระทั่งมาบรรจบกัน
    • สำหรับแต่ละจุดค้นหาคลัสเตอร์ที่ใกล้ที่สุดและกำหนดจุดให้กับคลัสเตอร์
    • สำหรับแต่ละคลัสเตอร์ค้นหาค่าเฉลี่ยของคะแนนสมาชิกและค่าเฉลี่ยของศูนย์อัพเดต
    • ข้อผิดพลาดคือบรรทัดฐานของระยะทางของกลุ่ม

K-Spherical หมายถึง:

ในรูปทรงกลม k- หมายถึงความคิดคือการกำหนดจุดศูนย์กลางของแต่ละกลุ่มเพื่อให้ทั้งมุมที่สม่ำเสมอและมุมระหว่างส่วนประกอบน้อยที่สุด สัญชาตญาณเป็นเหมือนการดูดาว - จุดควรมีระยะห่างที่สอดคล้องกัน การเว้นวรรคนั้นง่ายกว่าในการหาปริมาณเป็น "ความคล้ายคลึงกันของโคไซน์" แต่หมายความว่าไม่มีกาแลคซี "ทางช้างเผือก" ที่ก่อตัวเป็นแนวสว่างขนาดใหญ่ข้ามท้องฟ้าของข้อมูล (ใช่ฉันกำลังพยายามคุยกับคุณยายในส่วนนี้ของคำอธิบาย)

รุ่นทางเทคนิคเพิ่มเติม:

คิดถึงเวกเตอร์สิ่งที่คุณวาดเป็นลูกศรพร้อมการวางแนวและความยาวคงที่ สามารถแปลได้ทุกที่และเป็นเวกเตอร์เดียวกัน อ้าง

ป้อนคำอธิบายรูปภาพที่นี่

การวางแนวของจุดในพื้นที่ (มุมของมันจากเส้นอ้างอิง) สามารถคำนวณได้โดยใช้พีชคณิตเชิงเส้นโดยเฉพาะผลิตภัณฑ์จุด

ถ้าเราย้ายข้อมูลทั้งหมดเพื่อให้หางอยู่ในจุดเดียวกันเราสามารถเปรียบเทียบ "เวกเตอร์" ตามมุมของมันและจัดกลุ่มที่คล้ายกันไว้ในคลัสเตอร์เดียว

ป้อนคำอธิบายรูปภาพที่นี่

เพื่อความชัดเจนความยาวของเวกเตอร์จะถูกปรับอัตราส่วนเพื่อให้ง่ายต่อการเปรียบเทียบ "ลูกตา"

ป้อนคำอธิบายรูปภาพที่นี่

คุณอาจคิดว่ามันเป็นกลุ่มดาว ดวงดาวในกระจุกดาวหนึ่งอยู่ใกล้กันในบางแง่มุม นี่คือกลุ่มดาวลูกตาของฉัน

ป้อนคำอธิบายรูปภาพที่นี่

คุณค่าของวิธีการทั่วไปคือมันช่วยให้เราสามารถประดิษฐ์เวกเตอร์ซึ่งไม่มีมิติทางเรขาคณิตเช่นในวิธีการ tf-idf โดยที่เวกเตอร์เป็นความถี่ของคำในเอกสาร คำสองคำ "และ" ที่เพิ่มไม่เท่ากับ "the" คำไม่ต่อเนื่องและไม่เป็นตัวเลข พวกมันไม่ได้อยู่ในรูปทรงเรขาคณิต แต่เราสามารถประดิษฐ์พวกมันในเชิงเรขาคณิตแล้วใช้วิธีทางเรขาคณิตเพื่อจัดการพวกมัน K-Spherical สามารถใช้เพื่อจัดกลุ่มตามคำศัพท์

[x1y1x2y2group00.80.20130.7316B0.80.10.95240.3639A0.20.30.20610.1434C0.80.10.47870.153B0.70.20.72760.3825A0.90.90.7480.6793C]

บางจุด:

  • พวกมันฉายภาพไปยังทรงกลมหน่วยเพื่ออธิบายความแตกต่างของความยาวของเอกสาร

มาทำงานกันตามกระบวนการจริงและดูว่า "ดวงตา" ของฉันแย่แค่ไหน

ขั้นตอนคือ:

  1. (โดยนัยในปัญหา) เชื่อมต่อเวกเตอร์หางที่แหล่งกำเนิด
  2. ฉายลงบนหน่วยทรงกลม (เพื่ออธิบายความแตกต่างของความยาวของเอกสาร)
  3. ใช้การจัดกลุ่มเพื่อย่อ "ความแตกต่างของโคไซน์ "

J=id(xi,pc(i))

d(x,p)=1cos(x,p)=x,pxp

(มีการแก้ไขเพิ่มเติมในเร็ว ๆ นี้)

ลิงค์:

  1. http://epub.wu.ac.at/4000/1/paper.pdf
  2. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.111.8125&rep=rep1&type=pdf
  3. http://www.cs.gsu.edu/~wkim/index_files/papers/refinehd.pdf
  4. https://www.jstatsoft.org/article/view/v050i10
  5. http://www.mathworks.com/matlabcentral/fileexchange/32987-the-spherical-k-means-algorithm
  6. https://ocw.mit.edu/courses/sloan-school-of-management/15-097-prediction-machine-learning-and-statistics-spring-2012/projects/MIT15_097S12_proj1.pdf

ในไฟล์ข้อความฉันคิดว่าฟังก์ชั่น "diff" ที่เรียงตัวอักษรหรือบ่งชี้การเปลี่ยนแปลงด้วยน้ำหนักอาจเป็นประโยชน์ในการประมวลผลข้อความ "ใกล้กัน" เพื่อปรับปรุงการจัดกลุ่มที่มีความหมาย
EngrStudent - Reinstate Monica

ฉันได้รับ "การห้ามเข้าใช้" ที่ลิงค์ใน # 1 ( sci.utah.edu/~weiliu/research/clustering_fmri/ ...... )
David Doria

@ David - ฉันเช่นกัน ในการเคลื่อนไหวอยู่เสมอ ... อินเทอร์เน็ตหรือไม่ กรุณารอซักครู่.
EngrStudent - Reinstate Monica

1
หลังจากลังเลฉันเลือกที่จะลงคะแนนคำตอบนี้ในขณะนี้ ไม่เพียง แต่คำอธิบาย "ยาย" เท่านั้น แต่ยังไม่แน่ชัด radial distance from the cluster-center to the element location should "have sameness" or "be similar" for all elements of that clusterฟังดูไม่ถูกต้องหรือทื่อ ในboth uniform and minimal the angle between components"องค์ประกอบ" ไม่ได้กำหนดไว้ ฉันหวังว่าคุณจะสามารถปรับปรุงคำตอบที่ดีถ้าคุณทำมันอย่างเข้มงวดและขยาย
ttnphns
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.