วิธีการเมื่อเรียนรู้จากชุดข้อมูลขนาดใหญ่?


10

โดยทั่วไปมีสองวิธีทั่วไปในการเรียนรู้กับชุดข้อมูลขนาดใหญ่ (เมื่อคุณเผชิญกับข้อ จำกัด ด้านเวลา / พื้นที่):

  1. การโกง :) - ใช้ชุดย่อยที่ "จัดการได้" เพื่อการฝึกอบรม การสูญเสียความถูกต้องอาจเล็กน้อยเนื่องจากกฎของผลตอบแทนลดลง - ประสิทธิภาพการทำนายของตัวแบบมักจะแบนนานก่อนที่ข้อมูลการฝึกอบรมทั้งหมดจะถูกรวมเข้าไป
  2. การคำนวณแบบขนาน - แบ่งปัญหาออกเป็นส่วนเล็ก ๆ และแก้ปัญหาแต่ละเรื่องด้วยเครื่อง / โปรเซสเซอร์ที่แยกต่างหาก คุณต้องใช้อัลกอริทึมรุ่นขนาน แต่ข่าวดีก็คือว่าอัลกอริทึมทั่วไปจำนวนมากนั้นขนานกันตามธรรมชาติ: เพื่อนบ้านที่ใกล้ที่สุดต้นไม้ตัดสินใจ ฯลฯ

มีวิธีอื่นไหม มีกฎของหัวแม่มือเมื่อใช้แต่ละ? ข้อเสียของแต่ละวิธีคืออะไร?

คำตอบ:


10

การขุดสตรีมเป็นหนึ่งคำตอบ มันถูกเรียกว่า:

  • การขุดสตรีมข้อมูล
  • เรียนรู้ออนไลน์
  • การเรียนรู้ออนไลน์ครั้งยิ่งใหญ่

    แทนที่จะใส่ชุดข้อมูลทั้งหมดในหน่วยความจำและการฝึกอบรม พวกเขาวางชิ้นส่วนของมันลงในหน่วยความจำและฝึกลักษณนาม / กลุ่มจากกระแสชิ้นนี้ ดูลิงค์ต่อไปนี้

  • Data_stream_miningจากวิกิพีเดีย

  • MOA: การวิเคราะห์ออนไลน์จำนวนมาก

  • การขุดชุดข้อมูลขนาดใหญ่จากมหาวิทยาลัยสแตนฟอร์ด มันใช้ MapReduce เป็นเครื่องมือ

  • วิดีโอใน videolectures.net ค้นหาวิดีโอที่คล้ายกันนี้มีอยู่ในเว็บไซต์นั้น


ตกลงกล่องเครื่องมือ MOA จะเป็นจุดเริ่มต้นที่
ดี

7

แทนที่จะใช้ชุดย่อยเพียงชุดเดียวคุณสามารถใช้ชุดย่อยหลายชุดได้เช่นเดียวกับการเรียนรู้แบบกลุ่มย่อย (เช่นการไล่ระดับสีแบบสุ่ม Stochastic) วิธีนี้คุณจะยังคงใช้ประโยชน์จากข้อมูลทั้งหมดของคุณ


Aha เป็นจุดที่ดี - ฉันชี้แจงคำถาม ฉันสนใจสถานการณ์เมื่อคุณเผชิญกับข้อ จำกัด ด้านเวลา / พื้นที่และ "ไม่สามารถจ่าย" การเรียนรู้แบบกลุ่มน้อย
ทะเบียน

1

ตระการตาเช่นห่อหรือผสม - ไม่มีข้อมูลเสียปัญหาโดยอัตโนมัติจะกลายเป็นคู่ขนานเล็กน้อยและอาจมีความแม่นยำ / ความทนทานเพิ่มขึ้นอย่างมีนัยสำคัญ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.