วิธีการเมื่อเรียนรู้จากชุดข้อมูลขนาดใหญ่?

10

โดยทั่วไปมีสองวิธีทั่วไปในการเรียนรู้กับชุดข้อมูลขนาดใหญ่ (เมื่อคุณเผชิญกับข้อ จำกัด ด้านเวลา / พื้นที่):

การโกง :) - ใช้ชุดย่อยที่ "จัดการได้" เพื่อการฝึกอบรม การสูญเสียความถูกต้องอาจเล็กน้อยเนื่องจากกฎของผลตอบแทนลดลง - ประสิทธิภาพการทำนายของตัวแบบมักจะแบนนานก่อนที่ข้อมูลการฝึกอบรมทั้งหมดจะถูกรวมเข้าไป
การคำนวณแบบขนาน - แบ่งปัญหาออกเป็นส่วนเล็ก ๆ และแก้ปัญหาแต่ละเรื่องด้วยเครื่อง / โปรเซสเซอร์ที่แยกต่างหาก คุณต้องใช้อัลกอริทึมรุ่นขนาน แต่ข่าวดีก็คือว่าอัลกอริทึมทั่วไปจำนวนมากนั้นขนานกันตามธรรมชาติ: เพื่อนบ้านที่ใกล้ที่สุดต้นไม้ตัดสินใจ ฯลฯ

มีวิธีอื่นไหม มีกฎของหัวแม่มือเมื่อใช้แต่ละ? ข้อเสียของแต่ละวิธีคืออะไร?

— andreister
แหล่งที่มา

10

การขุดสตรีมเป็นหนึ่งคำตอบ มันถูกเรียกว่า:

การขุดสตรีมข้อมูล
เรียนรู้ออนไลน์
การเรียนรู้ออนไลน์ครั้งยิ่งใหญ่

แทนที่จะใส่ชุดข้อมูลทั้งหมดในหน่วยความจำและการฝึกอบรม พวกเขาวางชิ้นส่วนของมันลงในหน่วยความจำและฝึกลักษณนาม / กลุ่มจากกระแสชิ้นนี้ ดูลิงค์ต่อไปนี้
Data_stream_miningจากวิกิพีเดีย
MOA: การวิเคราะห์ออนไลน์จำนวนมาก
- บทความ
- เครื่องมือเขียนด้วยภาษาจาวาสามารถใช้อัลกอริธึม weka
- หนังสือ
การขุดชุดข้อมูลขนาดใหญ่จากมหาวิทยาลัยสแตนฟอร์ด มันใช้ MapReduce เป็นเครื่องมือ
วิดีโอใน videolectures.net ค้นหาวิดีโอที่คล้ายกันนี้มีอยู่ในเว็บไซต์นั้น
- สุดยอดแห่งการขุดดาต้า
- การขุดชุดข้อมูลขนาดใหญ่

— Atilla Ozgur
แหล่งที่มา

ตกลงกล่องเครื่องมือ MOA จะเป็นจุดเริ่มต้นที่

— ดี

7

แทนที่จะใช้ชุดย่อยเพียงชุดเดียวคุณสามารถใช้ชุดย่อยหลายชุดได้เช่นเดียวกับการเรียนรู้แบบกลุ่มย่อย (เช่นการไล่ระดับสีแบบสุ่ม Stochastic) วิธีนี้คุณจะยังคงใช้ประโยชน์จากข้อมูลทั้งหมดของคุณ

— ลูคัส
แหล่งที่มา

Aha เป็นจุดที่ดี - ฉันชี้แจงคำถาม ฉันสนใจสถานการณ์เมื่อคุณเผชิญกับข้อ จำกัด ด้านเวลา / พื้นที่และ "ไม่สามารถจ่าย" การเรียนรู้แบบกลุ่มน้อย

— ทะเบียน

1

ตระการตาเช่นห่อหรือผสม - ไม่มีข้อมูลเสียปัญหาโดยอัตโนมัติจะกลายเป็นคู่ขนานเล็กน้อยและอาจมีความแม่นยำ / ความทนทานเพิ่มขึ้นอย่างมีนัยสำคัญ