คำถามคือ:
อะไรคือความแตกต่างระหว่างคลาสสิคหมายถึง k และหมายถึงทรงกลม k- หมายถึง?
คลาสสิก K- หมายถึง:
ในคลาสสิกค่าเฉลี่ย k เราหมายถึงการลดระยะห่างแบบยุคลิดระหว่างศูนย์คลัสเตอร์กับสมาชิกของกลุ่ม สัญชาตญาณที่อยู่เบื้องหลังสิ่งนี้คือระยะรัศมีจากจุดศูนย์กลางคลัสเตอร์ไปยังตำแหน่งองค์ประกอบควร "มีความเหมือนกัน" หรือ "คล้ายกัน" สำหรับองค์ประกอบทั้งหมดของคลัสเตอร์นั้น
อัลกอริทึมคือ:
- กำหนดจำนวนของกลุ่ม (หรือที่รู้จักในการนับกลุ่ม)
- เริ่มต้นโดยการสุ่มกำหนดคะแนนในพื้นที่เพื่อดัชนีคลัสเตอร์
- ทำซ้ำจนกระทั่งมาบรรจบกัน
- สำหรับแต่ละจุดค้นหาคลัสเตอร์ที่ใกล้ที่สุดและกำหนดจุดให้กับคลัสเตอร์
- สำหรับแต่ละคลัสเตอร์ค้นหาค่าเฉลี่ยของคะแนนสมาชิกและค่าเฉลี่ยของศูนย์อัพเดต
- ข้อผิดพลาดคือบรรทัดฐานของระยะทางของกลุ่ม
K-Spherical หมายถึง:
ในรูปทรงกลม k- หมายถึงความคิดคือการกำหนดจุดศูนย์กลางของแต่ละกลุ่มเพื่อให้ทั้งมุมที่สม่ำเสมอและมุมระหว่างส่วนประกอบน้อยที่สุด สัญชาตญาณเป็นเหมือนการดูดาว - จุดควรมีระยะห่างที่สอดคล้องกัน การเว้นวรรคนั้นง่ายกว่าในการหาปริมาณเป็น "ความคล้ายคลึงกันของโคไซน์" แต่หมายความว่าไม่มีกาแลคซี "ทางช้างเผือก" ที่ก่อตัวเป็นแนวสว่างขนาดใหญ่ข้ามท้องฟ้าของข้อมูล (ใช่ฉันกำลังพยายามคุยกับคุณยายในส่วนนี้ของคำอธิบาย)
รุ่นทางเทคนิคเพิ่มเติม:
คิดถึงเวกเตอร์สิ่งที่คุณวาดเป็นลูกศรพร้อมการวางแนวและความยาวคงที่ สามารถแปลได้ทุกที่และเป็นเวกเตอร์เดียวกัน อ้าง
การวางแนวของจุดในพื้นที่ (มุมของมันจากเส้นอ้างอิง) สามารถคำนวณได้โดยใช้พีชคณิตเชิงเส้นโดยเฉพาะผลิตภัณฑ์จุด
ถ้าเราย้ายข้อมูลทั้งหมดเพื่อให้หางอยู่ในจุดเดียวกันเราสามารถเปรียบเทียบ "เวกเตอร์" ตามมุมของมันและจัดกลุ่มที่คล้ายกันไว้ในคลัสเตอร์เดียว
เพื่อความชัดเจนความยาวของเวกเตอร์จะถูกปรับอัตราส่วนเพื่อให้ง่ายต่อการเปรียบเทียบ "ลูกตา"
คุณอาจคิดว่ามันเป็นกลุ่มดาว ดวงดาวในกระจุกดาวหนึ่งอยู่ใกล้กันในบางแง่มุม นี่คือกลุ่มดาวลูกตาของฉัน
คุณค่าของวิธีการทั่วไปคือมันช่วยให้เราสามารถประดิษฐ์เวกเตอร์ซึ่งไม่มีมิติทางเรขาคณิตเช่นในวิธีการ tf-idf โดยที่เวกเตอร์เป็นความถี่ของคำในเอกสาร คำสองคำ "และ" ที่เพิ่มไม่เท่ากับ "the" คำไม่ต่อเนื่องและไม่เป็นตัวเลข พวกมันไม่ได้อยู่ในรูปทรงเรขาคณิต แต่เราสามารถประดิษฐ์พวกมันในเชิงเรขาคณิตแล้วใช้วิธีทางเรขาคณิตเพื่อจัดการพวกมัน K-Spherical สามารถใช้เพื่อจัดกลุ่มตามคำศัพท์
⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢x 10- 0.80.20.8- 0.70.9Y1- 0.80.10.30.10.20.9x 2- 0.2013- 0.95240.20610.4787- 0.72760.748Y2- 0.73160.3639- 0.14340.1530.38250.6793ก.r o u pBACBAC⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥
บางจุด:
- พวกมันฉายภาพไปยังทรงกลมหน่วยเพื่ออธิบายความแตกต่างของความยาวของเอกสาร
มาทำงานกันตามกระบวนการจริงและดูว่า "ดวงตา" ของฉันแย่แค่ไหน
ขั้นตอนคือ:
- (โดยนัยในปัญหา) เชื่อมต่อเวกเตอร์หางที่แหล่งกำเนิด
- ฉายลงบนหน่วยทรงกลม (เพื่ออธิบายความแตกต่างของความยาวของเอกสาร)
- ใช้การจัดกลุ่มเพื่อย่อ "ความแตกต่างของโคไซน์ "
J= ∑ผมd( xผม, pc ( i ))
d( x , p ) = 1 - c o s ( x , p ) = ⟨ x , p ⟩∥ x ∥ ∥ พี∥
(มีการแก้ไขเพิ่มเติมในเร็ว ๆ นี้)
ลิงค์:
- http://epub.wu.ac.at/4000/1/paper.pdf
- http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.111.8125&rep=rep1&type=pdf
- http://www.cs.gsu.edu/~wkim/index_files/papers/refinehd.pdf
- https://www.jstatsoft.org/article/view/v050i10
- http://www.mathworks.com/matlabcentral/fileexchange/32987-the-spherical-k-means-algorithm
- https://ocw.mit.edu/courses/sloan-school-of-management/15-097-prediction-machine-learning-and-statistics-spring-2012/projects/MIT15_097S12_proj1.pdf