ตัวแยกประเภท Scikit ใช้เวลานานเท่าไรในการจำแนก?

10

ฉันวางแผนที่จะใช้ลักษณนามลักษณนามของเวกเตอร์สนับสนุนเชิงเส้น (SVM) ของ scikit สำหรับการจำแนกข้อความบนคลังข้อมูลซึ่งประกอบด้วยเอกสารที่มีป้ายกำกับ 1 ล้านฉบับ สิ่งที่ฉันกำลังวางแผนที่จะทำคือเมื่อผู้ใช้ป้อนคำหลักบางคำลักษณนามจะจัดประเภทไว้ในหมวดหมู่ก่อนแล้วแบบสอบถามการสืบค้นข้อมูลที่ตามมาจะเกิดขึ้นภายในเอกสารของหมวดหมู่หมวดหมู่นั้น ฉันมีคำถามสองสามข้อ:

ฉันจะยืนยันได้อย่างไรว่าการจำแนกประเภทจะใช้เวลาไม่นาน ฉันไม่ต้องการให้ผู้ใช้ต้องใช้เวลารอการจัดหมวดหมู่ให้เสร็จเพื่อให้ได้ผลลัพธ์ที่ดีขึ้น
การใช้ห้องสมุด scikit ของ Python สำหรับเว็บไซต์ / แอปพลิเคชันบนเว็บเหมาะสมกับเรื่องนี้หรือไม่?
ไม่มีใครรู้ว่า amazon หรือ flipkart ดำเนินการจัดหมวดหมู่ในการค้นหาของผู้ใช้หรือพวกเขาใช้ตรรกะที่แตกต่างอย่างสิ้นเชิง?

— user3498
แหล่งที่มา

คุณสามารถจำแนกคำหลักทั้งหมดไว้ล่วงหน้าแล้วเพียงดึงหมวดหมู่จากดัชนี

— แฟน

@ffriend ดูเหมือนจะเป็นคำตอบสำหรับการค้นหาคำเดียว แต่ถ้าคำค้นหาประกอบด้วยคำมากกว่านั้น .. หรือการรวมกันของคำ .. ฉันต้องสร้างดัชนีสำหรับชุดค่าผสมทั้งหมด !!!

— user3498

1

SVC นั้นเร็วดังนั้นหากคุณต้องการใช้สำหรับการจำแนกประเภทคิวรี่ในแอปพลิเคชันที่มีโหลดปานกลางมันจะทำงาน แต่การจัดหมวดหมู่ด้วยคำเดียว (หรือหลายคำ) เป็นความคิดที่ไม่ดีในกรณีส่วนใหญ่ ใช้คำที่ไม่ชัดเจนเช่น: ถ้าคำบางคำอยู่ใน 2 หมวดหมู่ที่มีความน่าจะเป็นต่างกันเล็กน้อย คุณจะทิ้งหมวดหมู่ที่น่าจะเป็นไปได้น้อยลงจากการค้นหาหรือไม่? สิ่งที่คุณต้องการมากที่สุดคือคำศัพท์เพิ่มเติมในการจัดอันดับสูตรในขณะที่ค้นหาไม่ปฏิเสธหมวดหมู่ที่น่าจะเป็นน้อย

— แฟน

3

วิธีเดียวที่เชื่อถือได้เพื่อดูว่าต้องใช้เวลานานแค่ไหนในการกำหนดโค้ดและให้ช็อต การฝึกอบรมจะใช้เวลามากขึ้นจากนั้นคุณสามารถบันทึกรุ่นของคุณ (ดอง) เพื่อใช้ในภายหลัง

— user1269942
แหล่งที่มา

3

ฉันไม่เห็นปัญหาใหญ่ที่นี่ ดังนั้นฉันจะพยายามตอบทุกคำถามของคุณจากมุมมองระดับการผลิต:

ฉันจะยืนยันได้อย่างไรว่าการจำแนกประเภทจะใช้เวลาไม่นาน

นำชุดย่อยของข้อมูลคลังข้อมูลที่คุณมี (คุณสามารถทำแบบสุ่มไม่ต้องสุ่มตัวอย่าง) และทดสอบอัลกอริทึมของคุณและพวกเขาประมาณ / วางลงในชุดข้อมูลโดยรวม

(SVM ค่อนข้างเร็วกว่าอย่างไรก็ตามทำกระบวนการข้างต้นเพื่อให้แน่ใจ)

และทดสอบในสภาพแวดล้อมการพัฒนาก่อนที่จะผลักดันการผลิต

การใช้ห้องสมุด scikit ของ Python สำหรับเว็บไซต์ / แอปพลิเคชันบนเว็บเหมาะสมกับเรื่องนี้หรือไม่?

ใช่มันเป็น มันถูกใช้โดยกลุ่ม บริษัท ที่ดีอยู่แล้ว

คำถามที่สามเกี่ยวกับ Amazon และ Flipkart ไม่สามารถตอบได้โดยบุคคลภายนอกทีม

นอกจากนี้ฉันขอแนะนำให้คุณใช้เทคนิค mapreduce สำหรับการฝึกอบรมแบบจำลองของคุณ และตามคำแนะนำแล้วดองรุ่นของคุณเพื่อที่คุณจะได้ไม่ต้องฝึกพวกมันทุกครั้ง

— Dawny33
แหล่งที่มา