ชุดฝึกกระจัดกระจายส่งผลเสียต่อ SVM หรือไม่?

ฉันพยายามแบ่งข้อความเป็นหมวดหมู่ต่างๆโดยใช้ SVM ฉันได้รวบรวมรายการคำ / สัญลักษณ์ที่ต้องการจากชุดฝึกอบรม

สำหรับเวกเตอร์แต่ละอันซึ่งแทนข้อความฉันจะตั้งค่าแถวที่เกี่ยวข้องเป็น1หากคำนั้นมีอยู่:

"corpus" คือ: [mary, little, lamb, star, twinkle]

ข้อความแรก: "mary มีลูกแกะน้อย" -> [1 1 1 0 0 0]

ข้อความที่สอง: "twinkle little star" -> [0 1 0 1 1]

ฉันคิดว่านี่เป็นการตั้งค่าทั่วไปของ SVM แต่คำถามของฉันคือมีหลายพันคำในชุดจะเกิดอะไรขึ้นถ้ามีเพียง 1-2 คำต่อข้อความที่ปรากฏขึ้นจริง การพึ่งพาเชิงเส้นของเซตเวกเตอร์การฝึกของฉันจะส่งผลเสียต่อความสามารถของอัลกอริธึมที่จะมาบรรจบกันหรือไม่?

classification svm sparse

— jonsca
แหล่งที่มา

คุณมีข้อมูลจำนวนมาก แต่มีข้อมูลที่ติดป้ายน้อยหรือไม่ ถ้าเป็นเช่นนั้นคุณอาจต้องการดูการเรียนรู้แบบกึ่งภายใต้การดูแล การใช้ข้อมูลที่ไม่มีป้ายกำกับบางส่วนของคุณควรเพิ่มความแม่นยำและลดความเสี่ยงของการมีข้อมูลส่วนเกิน

— เซลล์ประสาท

@ neuron ฉันคิดเกี่ยวกับการทำเช่นนั้น ตัวอย่างของสถาปัตยกรรมกึ่งภายใต้การดูแลคืออะไร?

— jonsca

ฉันใช้วิธีการ "แฮ็ค" ของแบบกึ่งกำกับ (อาคารถไฟจำลองบนชุดฝึกอบรมใช้แบบจำลองเพื่อทำนายข้อมูลดึงข้อมูลทั้งหมดด้วยความน่าจะเป็นการทำนาย> 0.5 และผสานกับชุดฝึกอบรมและสร้างชุดโมเสลใหม่ แต่ฉันเห็น flexmix พูดถึงสถานที่ไม่กี่แห่ง (ดูcran.r-project.org/web/packages/flexmix )

— เซลล์ประสาท

@ neuron เอาล่ะดีเพราะบทความที่ฉันเห็น (แม้ว่าจะมีการค้นหาแบบวิกิพีเดียอย่างรวดเร็ว) ไม่ได้เฉพาะเจาะจงมากเกี่ยวกับสถาปัตยกรรม ฉันจะเช็คเอาท์flexmix- แม้ว่าฉันจะมี "Learn R" ในปฏิทินของฉันเป็นเวลาสองปีแล้ว!

— jonsca

ทำเช่นนั้น R คือ AMAZING ห้องสมุดที่พร้อมให้คุณใช้งาน สิ่งที่ต้องการคาเร็ต, sqldf / rmysql, foreach (ขนานสำหรับ), ggplot2 และ googlevis เป็นเครื่องมือที่มีประโยชน์อย่างน่าอัศจรรย์ ตอนแรกฉันไม่ได้เป็นแฟนของภาษา แต่มันเติบโตขึ้นสำหรับฉันและฉันก็ชอบที่จะใช้ตอนนี้

— เซลล์ประสาท

Sparsity และการพึ่งพาเชิงเส้นเป็นสองสิ่งที่แตกต่างกัน การพึ่งพาเชิงเส้นหมายความว่าบางส่วนของคุณสมบัติเวกเตอร์เป็นทวีคูณที่เรียบง่ายของคุณสมบัติเวกเตอร์อื่น ๆ (หรือเหมือนกันนำไปใช้กับตัวอย่าง) ในการตั้งค่าที่คุณอธิบายไว้ฉันคิดว่าการพึ่งพาเชิงเส้นไม่น่าจะเป็นไปได้ (หมายถึงสองคำที่มีความถี่เท่ากัน (หรือทวีคูณของมัน) ในเอกสารทั้งหมด) เพียงแค่มีคุณสมบัติเบาบางไม่มีปัญหาใด ๆ สำหรับ SVM วิธีหนึ่งในการดูสิ่งนี้คือคุณสามารถทำการหมุนแบบสุ่มของแกนพิกัดซึ่งจะทำให้ปัญหาไม่เปลี่ยนแปลงและให้วิธีแก้ปัญหาแบบเดียวกัน แต่จะทำให้ข้อมูลไม่กระจัดกระจายอย่างสมบูรณ์ )

นอกจากนี้ยังปรากฏว่าคุณกำลังพูดถึง SVM ในครั้งแรก โปรดทราบว่าถ้าคุณใช้เคอร์เนล SVM เพียงเพราะคุณมีชุดข้อมูลกระจัดกระจายไม่ได้หมายความว่าเคอร์เนลเมทริกซ์จะกระจัดกระจาย อย่างไรก็ตามอาจมีอันดับต่ำ ในกรณีนี้คุณสามารถใช้ประโยชน์จากข้อเท็จจริงนี้เพื่อการฝึกอบรมที่มีประสิทธิภาพมากขึ้น (ดูตัวอย่างการฝึกอบรม SVM ที่มีประสิทธิภาพโดยใช้การเป็นตัวแทนเคอร์เนลระดับต่ำ )

— TDC
แหล่งที่มา

จริงฉันรวดเร็วและหลวมด้วยคำศัพท์ของฉัน มีเหตุผล.

— jonsca