ฉันทำต้นแบบของ Naive Bayes bag model และฉันมีคำถามเกี่ยวกับการคำนวณความน่าจะเป็นของคุณลักษณะ
สมมติว่าฉันมีสองคลาสฉันจะใช้สแปมและไม่ใช่สแปมเพราะนั่นคือสิ่งที่ทุกคนใช้ และขอยกคำว่า "ไวอากร้า" เป็นตัวอย่าง ฉันมี 10 อีเมลในชุดการฝึกอบรมของฉัน 5 สแปมและ 5 ไม่ใช่สแปม "viagra" ปรากฏในเอกสารสแปมทั้ง 5 ฉบับ หนึ่งในเอกสารการฝึกอบรมปรากฏขึ้น 3 ครั้ง (นี่คือสิ่งที่คำถามของฉันเป็นเรื่องเกี่ยวกับ) ดังนั้นนั่นจึงเป็นลักษณะที่ปรากฏ 7 ประการในจดหมายขยะทั้งหมด ในชุดฝึกอบรมที่ไม่ใช่สแปมจะปรากฏขึ้น 1 ครั้ง
หากฉันต้องการประมาณ p (viagra | spam) เพียง:
p (viagra | spam) = 5 เอกสารสแปมประกอบด้วย viagra / 5 เอกสารสแปมทั้งหมด = 1
กล่าวอีกนัยหนึ่งความจริงที่ว่าเอกสารหนึ่งฉบับกล่าวถึงไวอากร้า 3 ครั้งแทนที่จะเป็นครั้งเดียวไม่สำคัญหรือไม่?
แก้ไข: นี่คือโพสต์บล็อกที่ผู้เขียนใช้วิธีที่ฉันเพิ่งวาง: http://ebiquity.umbc.edu/blogger/2010/12/07/naive-bayes-classifier-in-50-lines/
และนี่คือโพสต์บล็อกที่ผู้เขียนกล่าวว่า: p (viagra | spam) = 7 viagra spam mentions / 8 การกล่าวถึงทั้งหมด http://www.nils-haldenwang.de/computer-science/machine-learning/how-to-apply -naive-Bayes-ลักษณนามต่อการจำแนกปัญหาเอกสาร
จากนั้นหนึ่งในคำตอบด้านล่างบอกว่าควรจะเป็น: p (viagra | spam) = 7 ไวอากร้ากล่าวถึงในจดหมายขยะ / จำนวนคำทั้งหมดในจดหมายขยะ
ทุกคนสามารถเชื่อมโยงไปยังแหล่งที่ให้ความเห็นเกี่ยวกับเรื่องนี้ได้หรือไม่?