สำหรับผู้เริ่มต้น Naive Bayes อาจไม่เหมาะสมที่นี่ มันถือว่าเป็นอิสระในปัจจัยการผลิต (ดังนั้น "ไร้เดียงสา") และคำในประโยคจะขึ้นอยู่มาก
แต่สมมติว่าคุณต้องการใช้กับ NB เป็นอัลกอริทึมในการเริ่มต้นการทดสอบของคุณจริง ๆ มีสองตัวเลือกที่ฉันควรพิจารณา:
Ungraceful: ตัวแยกประเภท NB จำนวนมาก
นี่จะเป็นวิธีทางเลือก สร้าง corupus ของคำทั้งหมดที่สังเกตได้ว่าเป็นเวกเตอร์ของอินพุตของคุณ สร้างคลังข้อมูลจากแท็กทั้งหมดที่ถูกมองว่าเป็นเวกเตอร์ของเอาท์พุตของคุณ ตัวจําแนก NB ที่มีเอาต์พุตหลายตัวเทียบเท่ากับการมีตัวจําแนก NB หลายตัวที่มีเอาต์พุตเดียวแต่ละตัว (ดังนั้นควรดําเนินการอย่างใดอย่างหนึ่งเพื่อให้ติดตั้งได้ง่ายขึ้นในกรอบซอฟต์แวร์ใด ๆ ที่คุณใช้อยู่) ให้ถือว่าแต่ละองค์ประกอบเป็นตัวอย่างการฝึกอบรมที่มีการป้อนข้อมูลที่กำหนด (คำ) เป็น1
ถ้าคำนั้นมีอยู่และ0
ถ้าคำนั้นไม่อยู่ ใช้รูปแบบไบนารีที่เหมือนกันสำหรับการส่งออก
เดียรัจฉานนี้บังคับให้แอปพลิเคชั่นตัวแยกประเภทของ NB เข้ากับข้อมูลของคุณและปล่อยให้คุณค้นหาความหมายโดยยังคงดึงดูดความสนใจของตัวแยกประเภทจำนวนมากที่คุณจะทิ้งไว้
สง่างามยิ่งขึ้น: ประมวลผลข้อมูลของคุณ
นี่คือวิธีที่ฉันแนะนำถ้าคุณต้องการใช้กับตัวแยกประเภท NB หลายคลาส
เป้าหมายของคุณที่นี่คือการหาวิธีแมปชุดแท็กแต่ละชุดเข้ากับคลาสเดียว ฉันแน่ใจว่ามีรูปแบบการจัดกลุ่มหรือการวิเคราะห์เครือข่าย (บางที ["คนดัง"] ที่เชื่อมโยงกับ ["การฆาตกรรม"] อาจกลายเป็นส่วน ["การมึนเมา"]) ที่จะแมปแท็กของคุณกับคลัสเตอร์เดียว หากคุณปฏิบัติต่อแท็กเป็นโหนดและสองแท็กที่ได้รับพร้อมกันเป็นลิงก์คุณจะต้องมองเข้าไปในอัลกอริทึมการตรวจสอบชุมชน (ซึ่งเป็นที่ที่ฉันจะเริ่มต้น) แต่ถ้าคุณต้องการบางสิ่งบางอย่างทำงานแล้วแฮ็คบางอย่างในแท็กที่แปลงรายการของแท็กเป็นเฉพาะแท็กที่พบบ่อยที่สุดในชุดข้อมูลของคุณจะเพียงพอ
วิธีนี้โหลดการทำความสะอาดข้อมูลของคุณไว้ด้านหน้าและจะทำให้เอาต์พุตของตัวแยกประเภทของ NB ลักษณนามง่ายต่อการเข้าใจ