ฉันทำงานกับชุดข้อมูลขนาดใหญ่เมื่อเร็ว ๆ นี้และพบว่ามีเอกสารจำนวนมากเกี่ยวกับวิธีการสตรีม หากต้องการตั้งชื่อไม่กี่:
- Follow-the-Regularized-Leader และ Mirror Descent: Equalence Theorems และ L1 Normalization ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf )
- สตรีมการเรียนรู้: One-Pass SVMs ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf )
- เพกาซัส: ซอฟท์แวร์ย่อย GrAdient โดยประมาณครั้งแรกสำหรับ SVM http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf
- หรือที่นี่: SVM สามารถทำการสตรีมการเรียนรู้ทีละตัวอย่างได้หรือไม่
- สตรีมมิ่งป่าสุ่ม ( http://research.cs.queensu.ca/home/cords2/ideas07.pdf )
อย่างไรก็ตามฉันไม่สามารถค้นหาเอกสารใด ๆ เกี่ยวกับวิธีเปรียบเทียบกับเอกสารอื่น ๆ ทุกบทความที่ฉันอ่านดูเหมือนจะทำการทดลองกับชุดข้อมูลที่แตกต่างกัน
ฉันรู้เกี่ยวกับ sofia-ml, vowpal wabbit แต่ดูเหมือนว่าจะใช้วิธีการน้อยมากเมื่อเทียบกับวิธีการที่มีอยู่จำนวนมาก!
อัลกอริธึมที่ใช้กันทั่วไปน้อยกว่านั้นมีประสิทธิภาพไม่เพียงพอหรือไม่? มีกระดาษพยายามทบทวนวิธีการให้มากที่สุดหรือไม่?