เหตุใดเราจึงใช้วิธี k แทนค่าอัลกอริทึมอื่น


14

ฉันค้นคว้าเกี่ยวกับ k-mean และสิ่งเหล่านี้คือสิ่งที่ฉันได้รับ: k-mean เป็นหนึ่งในอัลกอริธึมที่ง่ายที่สุดที่ใช้วิธีการเรียนรู้แบบไม่ดูแลเพื่อแก้ปัญหาการจัดกลุ่มที่รู้จัก มันทำงานได้ดีกับชุดข้อมูลขนาดใหญ่

อย่างไรก็ตาม K-Means มีข้อเสียคือ:

  • ความไวสูงต่อค่าผิดปกติและเสียงรบกวน
  • ใช้งานไม่ได้กับรูปร่างของคลัสเตอร์ที่ไม่เป็นวงกลม - ต้องระบุจำนวนของคลัสเตอร์และค่าเริ่มต้นของเมล็ดก่อน
  • ความสามารถต่ำในการส่งผ่านที่เหมาะสมที่สุดในท้องถิ่น

มีอะไรที่ยอดเยี่ยมเกี่ยวกับ k-mean หรือไม่เพราะดูเหมือนว่าข้อเสียเปรียบอยู่เหนือสิ่งที่ดีเกี่ยวกับ k-mean

โปรดสอนฉัน


3
ไม่มีสิ่งใดที่เป็นวิธีการที่ดีหรืออัลกอริธึมที่ดีโดยปราศจากบริบทของปัญหาที่เกิดขึ้นดังนั้นเราจึงใช้วิธี k เนื่องจากวิธีการแก้ปัญหาที่ดีที่สุด (;

คำตอบ:


8

อัลกอริทึมการจัดกลุ่มอื่น ๆ ที่มีคุณสมบัติที่ดีกว่ามักจะมีราคาแพงกว่า ในกรณีนี้ k-mean กลายเป็นโซลูชั่นที่ยอดเยี่ยมสำหรับการทำคลัสเตอร์ล่วงหน้าลดพื้นที่ลงในการแบ่งพื้นที่ย่อยขนาดเล็กลงซึ่งสามารถใช้อัลกอริทึมการจัดกลุ่มอื่นได้


มีราคาแพงกว่าในค่าใช้จ่ายของโปรแกรมหรือไม่ หรือ ?
Skull Gold ที่มีลวดลาย

5
แพงกว่าในขณะที่ช้าและใช้หน่วยความจำมาก
Martin O'Leary

อ้อเข้าใจแล้ว. มีประโยชน์อื่นใดนอกเหนือจากที่รวดเร็วแข็งแกร่งและง่ายต่อการเข้าใจหรือไม่? และต่อไปขอบคุณสำหรับการตอบกลับ @ MartinO'Leary และ @ zeferino
Gold Skull with Pattern

6

K-mean เป็นวิธีที่ง่ายที่สุด เพื่อนำไปใช้และเพื่อให้ทำงานได้ สิ่งที่คุณต้องทำคือเลือก "k" แล้วเรียกใช้หลายครั้ง

อัลกอริทึมที่ฉลาดกว่า (โดยเฉพาะดี ๆ ) นั้นยากกว่าที่จะใช้อย่างมีประสิทธิภาพมากขึ้น (คุณจะเห็นปัจจัย 100x ในความแตกต่างของรันไทม์) และมีพารามิเตอร์ที่ตั้งไว้มากมาย

นอกจากนี้คนส่วนใหญ่ไม่จำเป็นต้องมีกลุ่มที่มีคุณภาพ พวกเขามีความสุขกับทุกสิ่งที่ทำงานให้กับพวกเขาจากระยะไกล นอกจากนี้พวกเขาไม่รู้จริงๆว่าต้องทำอย่างไรเมื่อมีกลุ่มที่ซับซ้อนมากขึ้น K-วิธีซึ่งรุ่นกลุ่มใช้รูปแบบที่ง่ายเลยทีเดียว - เซนทรอยด์ - เป็นสิ่งที่พวกเขาต้องการลดข้อมูลขนาดใหญ่เพื่อ centroids


0

K-mean เป็นเหมือนอัลกอริธึม Exchange Sort ง่ายต่อการเข้าใจช่วยให้เข้าสู่หัวข้อได้ แต่ไม่ควรนำไปใช้เพื่ออะไรที่เป็นความจริงตลอดไป ในกรณีของ Exchange Sort, แม้กระทั่ง Bubble Sort นั้นดีกว่าเพราะมันสามารถหยุดก่อนได้หากเรียงลำดับบางส่วน ในกรณีของ K-mean, อัลกอริทึม EM เป็นอัลกอริทึมเดียวกัน แต่ถือว่าการแจกแจงแบบเกาส์สำหรับกลุ่มแทนที่จะเป็นสมมติฐานการกระจายแบบสม่ำเสมอของ K-mean K-mean เป็นกรณีขอบของ EM เมื่อกลุ่มทั้งหมดมีเมทริกซ์ความแปรปรวนร่วมแนวทแยง โครงสร้างแบบเกาส์หมายความว่ากลุ่มหดตัวห่อหุ้มข้อมูลด้วยวิธีที่ดีมาก สิ่งนี้ทำให้เกิดการคัดค้านอย่างรุนแรงที่คุณตั้งคำถามอย่างถูกต้อง และอีเอ็มก็ไม่แพงกว่า K-mean จริงๆ (ฉันสามารถใช้ทั้งในสเปรดชีต Excel) แต่สำหรับแอปพลิเคชันการจัดกลุ่มที่ร้ายแรง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.