การเรียนรู้ที่ล้ำสมัย

ฉันทำงานกับชุดข้อมูลขนาดใหญ่เมื่อเร็ว ๆ นี้และพบว่ามีเอกสารจำนวนมากเกี่ยวกับวิธีการสตรีม หากต้องการตั้งชื่อไม่กี่:

Follow-the-Regularized-Leader และ Mirror Descent: Equalence Theorems และ L1 Normalization ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf )
สตรีมการเรียนรู้: One-Pass SVMs ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf )
เพกาซัส: ซอฟท์แวร์ย่อย GrAdient โดยประมาณครั้งแรกสำหรับ SVM http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf
หรือที่นี่: SVM สามารถทำการสตรีมการเรียนรู้ทีละตัวอย่างได้หรือไม่
สตรีมมิ่งป่าสุ่ม ( http://research.cs.queensu.ca/home/cords2/ideas07.pdf )

อย่างไรก็ตามฉันไม่สามารถค้นหาเอกสารใด ๆ เกี่ยวกับวิธีเปรียบเทียบกับเอกสารอื่น ๆ ทุกบทความที่ฉันอ่านดูเหมือนจะทำการทดลองกับชุดข้อมูลที่แตกต่างกัน

ฉันรู้เกี่ยวกับ sofia-ml, vowpal wabbit แต่ดูเหมือนว่าจะใช้วิธีการน้อยมากเมื่อเทียบกับวิธีการที่มีอยู่จำนวนมาก!

อัลกอริธึมที่ใช้กันทั่วไปน้อยกว่านั้นมีประสิทธิภาพไม่เพียงพอหรือไม่? มีกระดาษพยายามทบทวนวิธีการให้มากที่สุดหรือไม่?

— RUser4512
แหล่งที่มา

ถ้าไม่มีคุณควรเขียนมันเอง :)

— คริสซี

คุณเข้าใจดีว่าคนในสถาบันการศึกษาต้องเขียนบทความ / คิดอัลกอริธึมใหม่และพวกเขาจะค้นหาชุดข้อมูลที่อัลกอริธึมทำงานได้ดีที่สุด ฉันขอแนะนำให้คุณตรวจสอบให้แน่ใจว่าคุณเข้าใจว่าไลบรารีหนึ่งรายการเช่น vowpal-wabbit นั้นทำงานอย่างไร (เช่นพารามิเตอร์ทั้งหมดเป็นต้น)

— seanv507

ตรงกันข้ามจริงๆ! ฉันเข้าใจว่าผู้คนเลือกชุดข้อมูลที่ดีที่สุดและค่อนข้างเงียบในวิธีที่พวกเขาตรวจสอบความถูกต้องของอัลกอริทึม (ทั้งของพวกเขาและวิธีการแข่งขัน) ฉันกำลังมองหารุ่นสตรีมมิ่งของjmlr.org/papers/volume15/delgado14a/delgado14a.pdf

— RUser4512

ชอบกระดาษ JMLR ที่คุณเชื่อมโยง ฉันเองจึงไม่ทราบว่ามีการเปรียบเทียบขั้นตอนวิธีการสตรีมมิ่งที่คล้ายกัน อาจเป็นเพราะสตรีมมิ่งเป็นโพรงมากกว่าและเพราะในขณะที่มันยากที่จะเปรียบเทียบตัวแยกประเภทสำหรับชุดข้อมูลแบบคงที่มันมีความซับซ้อนมากยิ่งขึ้นในการทำการเปรียบเทียบที่ยุติธรรมสำหรับข้อมูลสตรีมมิ่ง

— stats0007

แม้ว่าสิ่งเหล่านี้จะไม่ตอบคำถามของคุณโดยเฉพาะ แต่ทรัพยากรที่เกี่ยวข้องสองอย่างคือ: การประเมินอัลกอริทึมที่เรียนรู้จาก Data Streamsโดย Gama et al. ซึ่งกล่าวถึงเทคนิคการประเมินผลและMOA (การวิเคราะห์ออนไลน์จำนวนมาก)ซึ่งเป็นกรอบโอเพ่นซอร์ส ความสามารถในการประเมินประสิทธิภาพ

— user77876

การสำรวจอย่างเข้มงวดของอัลกอริทึมหลายอย่างที่คล้ายกับกระดาษเดลกาโดที่คุณเชื่อมโยงนั้นไม่สามารถทำได้เท่าที่ฉันรู้ แต่มีความพยายามรวบรวมผลลัพธ์สำหรับตระกูลอัลกอริทึม

นี่คือแหล่งข้อมูลที่ฉันพบว่ามีประโยชน์ (ข้อจำกัดความรับผิดชอบ: ฉันเผยแพร่ในพื้นที่ดังนั้นจึงเป็นไปได้ว่าฉันลำเอียงในการเลือกของฉัน):

การสำรวจการเรียนรู้ทั้งมวลสำหรับการจำแนกกระแสข้อมูล (การสำรวจ)
การเรียนรู้ออนไลน์และการเพิ่มประสิทธิภาพออนไลน์นูน (รายงานทางเทคนิค)
การเรียนรู้ของเครื่องออนไลน์ใน Big Data Streams (แบบสำรวจ)
การเรียนรู้ของเครื่องสำหรับ Data Streams (หนังสือ)
อัลกอริทึมสำหรับต้นไม้เรียนรู้การถดถอยและวงดนตรีบนกระแสข้อมูลการพัฒนา (วิทยานิพนธ์ปริญญาเอก)
การเรียนรู้ภายใต้แนวคิด Drift: ภาพรวม (สำรวจ)
การเรียนรู้ออนไลน์ที่ดีที่สุดและปรับตัว (วิทยานิพนธ์ปริญญาเอก)
การเรียนรู้ที่ปรับได้และการขุดเพื่อสตรีมข้อมูลและรูปแบบบ่อยครั้ง (วิทยานิพนธ์ปริญญาเอก)

แพคเกจซอฟต์แวร์บางอย่าง:

ฉันสามารถเพิ่มข้อมูลและแหล่งที่มาเพิ่มเติมหากจำเป็น ดังที่คนอื่น ๆ บอกว่าฟิลด์นี้สามารถใช้การสำรวจที่ครอบคลุม

— บาร์
แหล่งที่มา