ฉันต้องจัดการกับปัญหาการจำแนกข้อความ โปรแกรมรวบรวมข้อมูลเว็บรวบรวมข้อมูลหน้าเว็บของโดเมนบางโดเมนและสำหรับแต่ละหน้าเว็บฉันต้องการทราบว่าเป็นของชั้นเรียนเฉพาะหรือไม่ นั่นคือถ้าผมเรียกชั้นนี้บวกแต่ละหน้าเว็บรวบรวมข้อมูลเป็นอย่างใดอย่างหนึ่งในชั้นเรียนในเชิงบวกหรือไปเรียนไม่ใช่ในเชิงบวก
ฉันมีการฝึกอบรมชุดใหญ่ของหน้าเว็บสำหรับการเรียนในเชิงบวก แต่จะสร้างชุดการฝึกอบรมสำหรับชั้นเรียนNon-Positiveซึ่งเป็นตัวแทนได้อย่างไร ฉันหมายความว่าฉันสามารถใช้ทุกอย่างโดยพื้นฐานสำหรับชั้นเรียนนั้นได้ ฉันสามารถรวบรวมหน้าเว็บตามอำเภอใจบางอย่างที่ไม่ได้เป็นของPositive Positiveหรือไม่? ฉันแน่ใจว่าประสิทธิภาพของอัลกอริทึมการจัดหมวดหมู่ข้อความ (ฉันต้องการใช้อัลกอริทึม Naive Bayes) ขึ้นอยู่กับว่าฉันเลือกเว็บเพจแบบไหนสำหรับคลาสที่ไม่เป็นบวก
แล้วฉันจะทำยังไงดี? ใครช่วยกรุณาให้คำแนะนำกับฉันได้ไหม ขอบคุณมาก!