SVM สามารถทำการสตรีมการเรียนรู้ทีละตัวอย่างได้หรือไม่


33

ฉันมีชุดข้อมูลสตรีมมิ่งตัวอย่างสามารถใช้ได้ทีละชุด ฉันจะต้องทำการจำแนกประเภทหลายคลาสกับพวกเขา ทันทีที่ฉันป้อนตัวอย่างการฝึกอบรมให้กับกระบวนการเรียนรู้ฉันต้องทิ้งตัวอย่าง ในขณะเดียวกันฉันยังใช้รุ่นล่าสุดในการทำนายข้อมูลที่ไม่มีป้ายกำกับ

เท่าที่ฉันรู้เครือข่ายประสาทสามารถทำการเรียนรู้ด้วยการส่งตัวอย่างหนึ่งครั้งและดำเนินการแพร่กระจายไปข้างหน้าและการสนับสนุนการย้อนหลังในตัวอย่าง

SVM สามารถทำการสตรีมการเรียนรู้ทีละตัวอย่างและยกเลิกตัวอย่างได้ทันทีหรือไม่?


2
คำตอบที่ได้รับการยอมรับควรได้รับการปรับปรุง ดูเหมือนว่าขณะนี้มีห้องสมุดหลายแห่งที่สนับสนุนอัลกอริทึมการเรียนรู้ออนไลน์ SVM Vowpal wabbit มีการลด svm , ทางเลือกอื่น ๆ คือ: scikit-learning, sofia-ml และแพ็คเกจ kernlab ของ R มีตัวเลือกไม่กี่ตัวสำหรับการเรียนออนไลน์
marbel

คำตอบ:


22

การตั้งค่าการสตรีมในการเรียนรู้ของเครื่องเรียกว่า "การเรียนรู้ออนไลน์" ไม่มีเครื่องเวกเตอร์สนับสนุนที่แน่นอนในการตั้งค่าออนไลน์ (เนื่องจากนิยามของฟังก์ชันวัตถุประสงค์มีไว้สำหรับการตั้งค่าแบทช์) การวางนัยทั่วไปที่ตรงไปตรงมาที่สุดของ SVM กับการตั้งค่าออนไลน์นั้นเป็นอัลกอริธึมเชิงก้าวร้าว รหัสอยู่ที่นี่http://webee.technion.ac.il/people/koby/code-index.htmlและเอกสารที่เกี่ยวข้องอยู่ที่นี่http://eprints.pascal-network.org/archive/00002147/01/CrammerDeKeShSi06 รูปแบบไฟล์ PDF

แนวคิดพื้นฐานคือมีใครรับข้อมูลเป็นคู่กับจุดสอบถามxRโดยที่kคือจำนวนของฉลาก ขั้นตอนวิธีการรักษาเมทริกซ์น้ำหนักW TR k × dที่ซ้ำtขั้นตอนวิธี recieves จุดข้อมูลxเสื้อและคะแนนจากนั้นให้คาดการณ์Y T = W xที(x,y)Rd×[k]xRkWtRk×dtxty^t=Wxtสำหรับแต่ละฉลากและมันจะทำนายฉลากที่ให้คะแนนสูงสุดว่าเป็นฉลากจริง หากการทำนายผิดขั้นตอนวิธีจะทำการเปลี่ยนแปลงน้อยที่สุดเป็นเพื่อหลีกเลี่ยงข้อผิดพลาดในอนาคต การเปลี่ยนแปลงเล็กน้อยที่สุดถูกกำหนดไว้ที่นี่ในแง่ของมาตรฐาน FrobeniusWt


1
(+1) ยินดีต้อนรับสู่เว็บไซต์มาร์ค
พระคาร์ดินัล

11

ฉันพบกรอบการอัพเดทโดยนัยเสมอ (ซึ่งรวมถึงอัลกอริธึมเชิงก้าวร้าวที่กล่าวถึงในคำตอบอื่นที่นี่) เพื่อให้มีความซับซ้อนเกินกว่ากรอบการอัพเดทที่ชัดเจนโดยไม่จำเป็น (ไม่ต้องพูดถึงว่าการอัพเดตโดยนัย มีโซลูชันแบบปิดสำหรับการปรับปรุงโดยนัย)

การอัปเดตความสำคัญของน้ำหนักออนไลน์เป็นตัวอย่างของอัลกอริทึมการอัพเดทที่ทันสมัยซึ่งง่ายขึ้นเร็วขึ้นและมีความยืดหยุ่นมากขึ้น (รองรับฟังก์ชั่นการสูญเสียหลายอย่างบทลงโทษที่หลากหลาย กระดาษจะเกี่ยวข้องกับแบบจำลองเชิงเส้นเท่านั้น (Linear svm ตรงกับกรณีของฟังก์ชันการสูญเสียบานพับที่มีการปรับกำลังสอง)

เนื่องจากคุณต้องการการจำแนกประเภทหลายคลาสวิธีหนึ่งคือใช้ฟังก์ชัน "ลด" ของvowpal wabbit (สร้างจากส่วนบนของวิธีการจากกระดาษ) ซึ่งไม่ได้รับการบันทึกไว้อย่างน่าเสียดาย


8

LASVMเป็นหนึ่งในตัวแปรการเรียนรู้ออนไลน์ที่ได้รับความนิยมมากที่สุดของ SVM

Linear SVMs ยังสามารถฝึกโดยใช้การไล่ระดับสีแบบสุ่มสุ่มเช่นเดียวกับแบบจำลองเชิงเส้นใด ๆ


เพียงเพื่อให้สิ่งที่ชัดเจนไม่ได้จำลองเชิงเส้นใด ๆ ที่สามารถผ่านการฝึกอบรมการใช้ SGD หนึ่งความต้องการที่จะคิดอย่างน้อยรูปแบบเฉพาะของวัตถุประสงค์ (ฟังก์ชั่นการสูญเสียสารเติมแต่ง)
lejlot

6

โปรดดูที่กระดาษSVM การเรียนรู้ที่เพิ่มขึ้นการปรับตัวและการเพิ่มประสิทธิภาพซึ่งเสนอ SVM ออนไลน์สำหรับการจำแนกประเภทไบนารี

รหัสกระดาษดังกล่าวข้างต้นสามารถพบได้ที่นี่ ในรหัสนี้มีการฝึกอบรมออนไลน์สองวิธี:

  1. ฝึก SVM แบบเพิ่มขึ้นทีละตัวอย่างโดยโทรsvmtrain()และ
  2. ดำเนินการฝึกอบรมชุดที่เพิ่มขึ้นทุกตัวอย่างการฝึกอบรมในการแก้ปัญหาไปพร้อม ๆ svmtrain2()กันโดยการเรียก

กลับไปที่คำถามของคุณคำตอบคือใช่สำหรับการเรียนสตรีมทีละตัวอย่าง และรหัสยังสามารถจัดการกับตัวอย่างที่ไม่ได้เรียนรู้ (ละทิ้ง) เช่นการประมาณข้อผิดพลาดที่แน่นอนและโดยประมาณ (-OU) การประมาณการข้อผิดพลาดที่แน่นอนสามารถคำนวณได้อย่างมีประสิทธิภาพโดยการหาตัวอย่างหนึ่งครั้งและทดสอบตัวจําแนก ตัวอย่าง.


(+1) ยินดีต้อนรับสู่เว็บไซต์ของเรา!
whuber

0

การเรียนรู้ออนไลน์กับเมล็ดอธิบายการเรียนรู้ออนไลน์ในการตั้งค่าเคอร์เนลทั่วไป

ตัดตอนมาจากนามธรรม -

" อัลกอริทึมที่ใช้เคอร์เนลเช่นเครื่องสนับสนุนเวกเตอร์ประสบความสำเร็จอย่างมากในปัญหาต่าง ๆ ในการตั้งค่าแบทช์ซึ่งข้อมูลการฝึกอบรมทั้งหมดพร้อมใช้งานล่วงหน้าสนับสนุนเครื่องเวกเตอร์รวมกลอุบายเคอร์เนลที่เรียกว่ากับแนวคิดระยะขอบขนาดใหญ่ ใช้วิธีการเหล่านี้เพียงเล็กน้อยในการตั้งค่าออนไลน์ที่เหมาะสำหรับการใช้งานแบบเรียลไทม์ในบทความนี้เราจะพิจารณาการเรียนรู้ออนไลน์ใน Reproducing Kernel Hilbert Space โดยพิจารณาจากการไล่ระดับสีแบบสุ่มแบบคลาสสิกภายในพื้นที่คุณลักษณะ เราพัฒนาอัลกอริทึมที่เรียบง่ายและมีประสิทธิภาพสำหรับปัญหาที่หลากหลายเช่นการจำแนกการถดถอยและการตรวจจับที่แปลกใหม่ "

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.