ฉันต้องการจัดหมวดหมู่ข้อมูลข้อความของฉัน ฉันมี300 classes
200 เอกสารการฝึกอบรมต่อชั้นเรียน (ดังนั้น60000 documents in total
) และนี่น่าจะส่งผลให้ข้อมูลมิติสูงมาก (เราอาจมองเกินกว่า1 ล้านมิติ )
ฉันต้องการดำเนินการตามขั้นตอนต่อไปนี้ในไปป์ไลน์ (เพื่อให้คุณได้ทราบถึงความต้องการของฉัน):
- การแปลงแต่ละเอกสารเป็นฟีเจอร์เวกเตอร์ (
tf-idf
หรือvector space model
) Feature selection
(Mutual Information
โดยเฉพาะอย่างยิ่งหรือมาตรฐานอื่น ๆ )- การฝึกอบรมลักษณนาม (
SVM
,Naive Bayes
,Logistic Regression
หรือRandom Forest
) - การทำนายข้อมูลที่มองไม่เห็นตามตัวจําแนกรุ่นที่ผ่านการฝึกอบรม
ดังนั้นคำถามคือฉันใช้เครื่องมือ / กรอบการทำงานสำหรับจัดการข้อมูลมิติสูงเช่นนี้หรือไม่ ฉันตระหนักถึงผู้ต้องสงสัยตามปกติ (R, WEKA ... ) แต่เท่าที่ความรู้ของฉันไป (ฉันอาจผิด) อาจไม่มีใครสามารถจัดการข้อมูลขนาดใหญ่นี้ได้ มีเครื่องมือเก็บของอื่น ๆ ที่ฉันสามารถดูได้หรือไม่?
ถ้าฉันต้องขนานมันฉันควรจะดูApache Mahoutหรือไม่? ดูเหมือนว่ามันอาจจะไม่ได้มีฟังก์ชั่นที่ฉันต้องการ
ขอบคุณทุกคนล่วงหน้า
อัปเดต: ฉันดูเว็บไซต์นี้รายชื่อรับเมล R และอินเทอร์เน็ตโดยทั่วไป ฉันเห็นว่าปัญหาต่อไปนี้อาจเกิดขึ้นในสถานการณ์ของฉัน:
(1) การประมวลผลข้อมูลของฉันล่วงหน้าโดยใช้ R ( โดยเฉพาะอย่างยิ่งแพคเกจtm ) อาจใช้การไม่ได้เนื่องจากtm
จะช้าอย่างเด็ดขาด
(2) เนื่องจากฉันจะต้องใช้ชุดของแพ็กเกจ R (การประมวลผลก่อน, เมทริกซ์เบาบาง, ตัวแยกประเภท ฯลฯ ) การทำงานร่วมกันระหว่างแพ็กเกจอาจกลายเป็นปัญหาและฉันอาจมีค่าใช้จ่ายเพิ่มเติมในการแปลงข้อมูลจากรูปแบบหนึ่ง . ตัวอย่างเช่นถ้าฉันทำการประมวลผลล่วงหน้าโดยใช้tm
(หรือเครื่องมือภายนอกเช่น WEKA) ฉันจะต้องคิดหาวิธีแปลงข้อมูลนี้เป็นรูปแบบที่ไลบรารี HPC ใน R สามารถอ่านได้ และอีกครั้งมันไม่ชัดเจนสำหรับฉันหากแพ็กเกจตัวแยกประเภทจะใช้ข้อมูลโดยตรงตามที่มีให้ในไลบรารี HPC
ฉันกำลังติดตามใช่ไหม? และที่สำคัญกว่านั้นฉันกำลังเข้าท่า?
foreach
ไลบรารีเขียนโค้ดแบบขนานใน R ได้ผลดีโดยเฉพาะอย่างยิ่งเมื่อใช้ร่วมกับฟอเรสต์แบบสุ่มซึ่งง่ายต่อการขนาน