อะไรคือความแตกต่างที่สำคัญระหว่าง K-Mean และ K- เพื่อนบ้านที่ใกล้ที่สุด?


86

ฉันรู้ว่า k-mean ไม่ได้รับการสำรองและใช้สำหรับการทำคลัสเตอร์ ฯลฯ และ k-NN นั้นได้รับการดูแล แต่ฉันต้องการรู้ความแตกต่างที่เป็นรูปธรรมระหว่างสองสิ่งนี้หรือไม่


1
การเปรียบเทียบที่กระชับ: baoqiang.org/?p=579
Franck Dernoncourt

คำตอบ:


106

นี่เป็นวิธีการที่แตกต่างอย่างสิ้นเชิง ข้อเท็จจริงที่ว่าพวกเขาทั้งสองมีตัวอักษร K ในชื่อของพวกเขาเป็นเรื่องบังเอิญ

K- mean เป็นอัลกอริธึมการจัดกลุ่มที่พยายามแบ่งพาร์ติชันชุดของคะแนนออกเป็น K เซต (กลุ่ม) ซึ่งคะแนนในแต่ละคลัสเตอร์มักจะอยู่ใกล้กัน มันไม่ได้รับการดูแลเนื่องจากคะแนนไม่มีการจำแนกประเภทภายนอก

K- เพื่อนบ้านที่ใกล้ที่สุดคืออัลกอริธึมการจำแนก (หรือการถดถอย) ที่เพื่อกำหนดการจำแนกของจุดรวมการจำแนกประเภทของจุดที่ใกล้ที่สุด K มันอยู่ภายใต้การดูแลเนื่องจากคุณพยายามจำแนกจุดตามการจำแนกประเภทของจุดอื่น ๆ


6
ฉันคิดว่ามีความคล้ายคลึงกันมากกว่าผู้ชายคนนี้ที่ให้เครดิต พวกเขาทั้งสองใช้วิธีการทางไกลเพื่อจัดกลุ่มและจำแนกอินพุตตามลำดับ นี่คือสาเหตุที่พวกเขาได้รับการสอนด้วยกันและทำไมจึงมีการพูดถึงปัญหาเกี่ยวกับมิติที่เกี่ยวข้องกับพวกเขา วิธีการระยะทางที่หลากหลายสามารถนำไปใช้กับทั้งสอง ในความเป็นจริงมีความคล้ายคลึงกันมาก
eljusticiero67

@ eljusticiero67 แน่นอนว่าพวกมันถูกใช้เพื่อจำแนกอินพุตซึ่งถูกกล่าวถึงโดย OP และวิธีการเรียนรู้แบบคลาสสิกส่วนใหญ่นั้นอิงตามระยะทางดังนั้นจึงไม่น่าแปลกใจ โปรดทราบว่า OP มีความสนใจในความแตกต่าง ฉันก็เข้าใจเหมือนกันว่า OP หมายถึงอาจมีความคล้ายคลึงกันเนื่องจาก K ในทั้งสองชื่อ
Bitwise

12

ตามที่ระบุไว้โดยBitwiseในคำตอบของพวกเขา k-mean เป็นอัลกอริทึมการจัดกลุ่ม ถ้าเป็นเรื่องของ k- เพื่อนบ้านที่ใกล้ที่สุด (k-NN) คำศัพท์นั้นค่อนข้างคลุมเครือ:

  • ในบริบทของการจำแนกมันเป็นอัลกอริทึมการจำแนกตามที่ระบุไว้ในคำตอบดังกล่าว

  • โดยทั่วไปมันเป็นปัญหาซึ่งมีวิธีแก้ปัญหาต่าง ๆ (อัลกอริทึม) อยู่

ดังนั้นในบริบทแรกการพูดว่า "ตัวจําแนก k-NN" อาจหมายถึงอัลกอริธึมพื้นฐานที่หลากหลายที่แก้ปัญหา k-NN ได้และผลลัพธ์ของพวกมันถูกตีความเพื่อจุดประสงค์ในการจําแนก

เหล่านี้เป็นสองสิ่งที่แตกต่างกัน แต่คุณอาจพบว่ามันน่าสนใจที่อัลกอริทึม k หมายถึงเป็นหนึ่งในวิธีที่เป็นไปได้ต่าง ๆ สำหรับการแก้ปัญหาที่ K-NN (Marius Muja และเดวิดกรัมโลว์"Fast เพื่อนบ้านที่ใกล้ที่สุดโดยประมาณกับการกำหนดค่าขั้นตอนวิธีการอัตโนมัติ"ใน การประชุมระหว่างประเทศเกี่ยวกับทฤษฎีการมองเห็นคอมพิวเตอร์และการประยุกต์ (VISAPP'09), 2009 PDF )


0

คุณสามารถมีวิธี k- กำกับดูแล คุณสามารถสร้าง centroids (เช่นเดียวกับ k-mean) ตามข้อมูลที่มีป้ายกำกับของคุณ ไม่มีอะไรหยุดคุณ หากคุณต้องการปรับปรุงสิ่งนี้พื้นที่ของปริภูมิแบบยุคลิดและระยะทางแบบยุคลิดอาจจะไม่ให้ผลลัพธ์ที่ดีที่สุดแก่คุณ คุณจะต้องเลือกพื้นที่ของคุณ (อาจเป็นพื้นที่ของ Riemannian) และกำหนดระยะห่างระหว่างจุด (และแม้แต่กำหนด "จุด") สองหัวข้อสุดท้ายคือหัวข้อการวิจัยและยังขึ้นอยู่กับประเภท (คุณสมบัติ) ของข้อมูล (สัญญาณ) ที่คุณมี


-2

K-mean สามารถสร้างข้อมูลคลัสเตอร์สำหรับโหนดเพื่อนบ้านในขณะที่ KNN ไม่สามารถค้นหาคลัสเตอร์สำหรับโหนดเพื่อนบ้านที่กำหนด


-2

k หมายถึงสามารถใช้เป็นขั้นตอนการฝึกอบรมก่อนที่จะใช้งาน knn ในขั้นตอนการจัดหมวดหมู่จริง K หมายถึงสร้างคลาสที่แสดงโดยเซนทรอยด์และเลเบลคลาสของตัวอย่างที่เป็นของแต่ละคลาส knn ใช้พารามิเตอร์เหล่านี้เช่นเดียวกับหมายเลข k เพื่อจำแนกตัวอย่างที่มองไม่เห็นใหม่และกำหนดให้กับหนึ่งในคลาสk ที่สร้างโดย K หมายถึงอัลกอริทึม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.