ฉันพยายามเพิ่มความเร็วให้สูงขึ้นด้วย R. ในที่สุดฉันก็ต้องการใช้ไลบรารี R สำหรับการจำแนกข้อความ ฉันแค่สงสัยว่าประสบการณ์ของผู้คนเกี่ยวข้องกับความสามารถในการปรับขนาดของ R เมื่อพูดถึงการจำแนกข้อความ
ฉันมีแนวโน้มที่จะพบข้อมูลมิติสูง (~ 300k มิติ) ฉันกำลังมองหาการใช้ SVM และ Random Forest โดยเฉพาะอย่างยิ่งเป็นอัลกอริทึมการจำแนกประเภท
ไลบรารี R จะปรับขนาดตามขนาดปัญหาของฉันหรือไม่
ขอบคุณ
แก้ไข 1: เพื่อชี้แจงชุดข้อมูลของฉันมีแนวโน้มที่จะมี 1,000-3,000 แถว (อาจเพิ่มอีกเล็กน้อย) และ 10 คลาส
แก้ไข 2: ตั้งแต่ฉันยังใหม่กับ R ฉันจะขอโปสเตอร์ให้เฉพาะเจาะจงมากที่สุดเท่าที่จะเป็นไปได้ ตัวอย่างเช่นหากคุณกำลังแนะนำเวิร์กโฟลว์ / ไปป์ไลน์โปรดตรวจสอบให้แน่ใจว่าได้ระบุถึงไลบรารี R ที่เกี่ยวข้องในแต่ละขั้นตอนถ้าเป็นไปได้ พอยน์เตอร์เพิ่มเติมบางอย่าง (สำหรับตัวอย่างโค้ดตัวอย่าง ฯลฯ ) จะเป็นไอซิ่งบนเค้ก
แก้ไข 3: ก่อนอื่นขอขอบคุณทุกคนสำหรับความคิดเห็นของคุณ และประการที่สองฉันขอโทษบางทีฉันควรจะให้บริบทมากขึ้นสำหรับปัญหา ฉันใหม่สำหรับ R แต่ไม่มากในการจัดประเภทข้อความ ฉันได้ทำการประมวลผลล่วงหน้า (การหยุดการลบคำหยุดการแปลง TF-idf และอื่น ๆ ) ในส่วนหนึ่งของข้อมูลของฉันโดยใช้แพคเกจtmเพียงเพื่อทำความเข้าใจกับสิ่งต่าง ๆ tm ช้ามากแม้จะมีเอกสารประมาณ 200 เรื่องที่ฉันกังวลเกี่ยวกับความสามารถในการขยาย จากนั้นฉันก็เริ่มเล่นกับ FSelector และมันก็ช้ามาก และนั่นคือจุดที่ฉันทำ OP ของฉัน
แก้ไข 4: มันเกิดขึ้นกับฉันว่าฉันมี 10 ชั้นเรียนและประมาณ 300 เอกสารการฝึกอบรมต่อชั้นเรียนและในความเป็นจริงฉันสร้าง termXdoc matrix จากชุดฝึกอบรมทั้งหมดส่งผลให้มีมิติที่สูงมาก แต่วิธีการเกี่ยวกับการลดปัญหาการจำแนก 1-out-of-k ทุกชุดเป็นปัญหาการจำแนกเลขฐานสอง นั่นจะลดจำนวนเอกสารการฝึกอบรมลงอย่างมาก (และด้วยเหตุนี้มิติ) ในแต่ละขั้นตอนของ k-1 อย่างมากใช่มั้ย ดังนั้นวิธีนี้เป็นวิธีที่ดีหรือไม่ มันเปรียบเทียบในแง่ของความแม่นยำกับการใช้งานหลายคลาสปกติได้อย่างไร