ฉันไม่ได้มีประสบการณ์ในอุตสาหกรรมในการขุดข้อมูลหรือข้อมูลขนาดใหญ่ดังนั้นชอบที่จะได้ยินคุณแบ่งปันประสบการณ์
ผู้คนใช้งาน k-mean, PAM, CLARA และอื่น ๆ ในชุดข้อมูลขนาดใหญ่จริง ๆ หรือไม่? หรือพวกมันสุ่มเลือกตัวอย่างจากมัน? หากพวกเขาใช้ตัวอย่างของชุดข้อมูลผลลัพธ์จะน่าเชื่อถือหากชุดข้อมูลนั้นไม่ได้รับการกระจายตามปกติ
ในสถานการณ์จริงเมื่อรันอัลกอริทึมเหล่านี้เราสามารถบอกได้ไหมว่าจะต้องทำซ้ำหลายครั้งจนกว่าจะเกิดการบรรจบกัน? หรือจำนวนการวนซ้ำมักเพิ่มขึ้นตามขนาดข้อมูลหรือไม่
ฉันถามสิ่งนี้เพราะฉันคิดว่าการพัฒนาวิธีการที่จะยุติอัลกอริทึมซ้ำก่อนการบรรจบกัน แต่ผลลัพธ์ยังคงเป็นที่ยอมรับ ฉันคิดว่ามันคุ้มค่าที่จะลองถ้าจำนวนการวนซ้ำพูดมากกว่า 1,000 ครั้งเพื่อให้เราสามารถประหยัดต้นทุนและเวลาในการคำนวณได้ คุณคิดอย่างไร?
number of iterations always grow with the data size
ไม่จำเป็น.