โดยทั่วไปมีสองวิธีทั่วไปในการเรียนรู้กับชุดข้อมูลขนาดใหญ่ (เมื่อคุณเผชิญกับข้อ จำกัด ด้านเวลา / พื้นที่):
- การโกง :) - ใช้ชุดย่อยที่ "จัดการได้" เพื่อการฝึกอบรม การสูญเสียความถูกต้องอาจเล็กน้อยเนื่องจากกฎของผลตอบแทนลดลง - ประสิทธิภาพการทำนายของตัวแบบมักจะแบนนานก่อนที่ข้อมูลการฝึกอบรมทั้งหมดจะถูกรวมเข้าไป
- การคำนวณแบบขนาน - แบ่งปัญหาออกเป็นส่วนเล็ก ๆ และแก้ปัญหาแต่ละเรื่องด้วยเครื่อง / โปรเซสเซอร์ที่แยกต่างหาก คุณต้องใช้อัลกอริทึมรุ่นขนาน แต่ข่าวดีก็คือว่าอัลกอริทึมทั่วไปจำนวนมากนั้นขนานกันตามธรรมชาติ: เพื่อนบ้านที่ใกล้ที่สุดต้นไม้ตัดสินใจ ฯลฯ
มีวิธีอื่นไหม มีกฎของหัวแม่มือเมื่อใช้แต่ละ? ข้อเสียของแต่ละวิธีคืออะไร?