K- หมายถึง: มีการทำซ้ำหลายครั้งในสถานการณ์จริง


10

ฉันไม่ได้มีประสบการณ์ในอุตสาหกรรมในการขุดข้อมูลหรือข้อมูลขนาดใหญ่ดังนั้นชอบที่จะได้ยินคุณแบ่งปันประสบการณ์

ผู้คนใช้งาน k-mean, PAM, CLARA และอื่น ๆ ในชุดข้อมูลขนาดใหญ่จริง ๆ หรือไม่? หรือพวกมันสุ่มเลือกตัวอย่างจากมัน? หากพวกเขาใช้ตัวอย่างของชุดข้อมูลผลลัพธ์จะน่าเชื่อถือหากชุดข้อมูลนั้นไม่ได้รับการกระจายตามปกติ

ในสถานการณ์จริงเมื่อรันอัลกอริทึมเหล่านี้เราสามารถบอกได้ไหมว่าจะต้องทำซ้ำหลายครั้งจนกว่าจะเกิดการบรรจบกัน? หรือจำนวนการวนซ้ำมักเพิ่มขึ้นตามขนาดข้อมูลหรือไม่

ฉันถามสิ่งนี้เพราะฉันคิดว่าการพัฒนาวิธีการที่จะยุติอัลกอริทึมซ้ำก่อนการบรรจบกัน แต่ผลลัพธ์ยังคงเป็นที่ยอมรับ ฉันคิดว่ามันคุ้มค่าที่จะลองถ้าจำนวนการวนซ้ำพูดมากกว่า 1,000 ครั้งเพื่อให้เราสามารถประหยัดต้นทุนและเวลาในการคำนวณได้ คุณคิดอย่างไร?


number of iterations always grow with the data sizeไม่จำเป็น.
ttnphns

มีหลายเกณฑ์ในการหยุดการทำซ้ำใน K-mean ที่น่าสนใจเพียงเพื่อกำหนดจำนวนการทำซ้ำเป็นค่าคงที่ (พูด 10 หรือ 20) เป็นวิธีที่เหมาะสม K-mean ถูกจัดทำขึ้นเพื่อเป็นวิธีการที่รวดเร็วดังนั้นหากคุณต้องการให้มีการตรวจสอบเกณฑ์การลู่เข้าหลังจากการทำซ้ำทุกครั้งที่เกณฑ์นั้นจะต้องง่าย / เร็วในการคำนวณ
ttnphns

1
มีวิธี "ทางวิทยาศาสตร์" ในการกำหนดจำนวนการทำซ้ำสูงสุดที่จะดำเนินการหรือไม่?
foo

ความคิดเห็นสุดท้ายของคุณเป็นคำถามที่ดี สุจริตฉันไม่รู้ บางทีคนอื่นอาจจะตอบ
ttnphns

คำตอบ:


6
  1. K-mean ราคาถูก คุณสามารถที่จะเรียกใช้มันซ้ำหลาย

  2. มีอัลกอริธึมที่ไม่ดี (หนึ่งมาตรฐาน) และอัลกอริธึมที่ดี สำหรับอัลกอริธึมที่ดีการทำซ้ำในภายหลังจะมีราคาน้อยกว่า 1% ของการทำซ้ำครั้งแรก

  3. มีการนำไปใช้งานที่ช้ามาก ๆ อย่าใช้มัน

  4. K-mean สำหรับข้อมูล "ใหญ่" ไม่มีอยู่ เพราะมันใช้ได้กับข้อมูลเวกเตอร์ที่มีมิติต่ำเท่านั้น คุณจะไม่เกินหน่วยความจำของเซิร์ฟเวอร์ที่ทันสมัยด้วยข้อมูลดังกล่าว ใช่มีข้อมูลที่ใหญ่กว่า - แต่คุณไม่สามารถใช้ k-mean ในการพูดข้อมูล Twitter หนึ่งเดือนเพราะจะไม่ให้ประโยชน์อะไรกับคุณ

ด้วยการใช้งานที่ดีบนเซิร์ฟเวอร์ที่ทันสมัยชุดข้อมูลที่ใหญ่ที่สุดที่คุณสามารถค้นหาได้ว่า k-mean ยังให้ผลลัพธ์ที่มีประโยชน์อาจต้องใช้เวลาน้อยกว่า 1 นาทีในการคำนวณจนกระทั่งการบรรจบกัน เหตุใดจึงต้องกังวลกับขีด จำกัด การทำซ้ำ


1
ตกลง. ในบทความนี้ ( K-หมายถึงปรับขนาดได้โดยการดึงอันดับ ) ผู้เขียนระบุว่า K-หมายถึงมาบรรจบกันหลังจาก 20-50 ซ้ำในทุกสถานการณ์การปฏิบัติแม้ในชุดข้อมูลมิติสูงขณะที่พวกเขาทดสอบ นอกเหนือจากค่าเฉลี่ย K แล้วคุณรู้หรือไม่ว่าอัลกอริธึมที่ใช้การวนซ้ำจำนวนมากจนกระทั่งการบรรจบกัน?
foo

บางทีการฝึกอบรม SVM? ฉันเชื่อว่ามันซ้ำแล้วซ้ำอีกพยายามหาสิ่งที่ดีที่สุด (และเล็กที่สุดเนื่องจากการทำนายขึ้นอยู่กับสิ่งนี้!) ชุดเวกเตอร์สนับสนุน
จบแล้ว - Anony-Mousse

ทางออกที่ชัดเจนในการรัน k-mean บนชุดข้อมูลที่มีมิติสูงคือการรัน PCA หรือวิธีการลดขนาดอื่น ๆ ก่อนจากนั้นจึงรัน k-
mean
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.