การใช้งาน Naive Bayes


10

ฉันใช้อัลกอริทึม Naive Bayes สำหรับการจัดหมวดหมู่ข้อความด้วยการปรับให้เรียบ Laplacian ปัญหาที่ฉันมีอยู่คือความน่าจะเป็นเป็นศูนย์เพราะฉันคูณเศษส่วนเล็ก ๆ จำนวนมาก ดังนั้นความน่าจะเป็นในที่สุดให้ผลเป็นศูนย์ เนื่องจากมีหลายคำในเอกสารและชุดฝึกอบรม

ด้วยเหตุนี้ฉันจึงไม่สามารถจัดหมวดหมู่ข้อความได้ มีวิธีที่ฉันสามารถแก้ไขปัญหานี้ได้หรือไม่? ฉันกำลังทำสิ่งผิดปกติในการติดตั้งหรือไม่?


... คุณสามารถหลีกเลี่ยงการคำนวณเลขทศนิยมได้

msdn.microsoft.com/en-us/magazine/jj891056.aspx คุณจะพบคำตอบง่ายๆได้ที่นี่
Roshan Mehta

คำตอบ:


14

กลอุบายทั่วไปเพื่อหลีกเลี่ยงอันเดอร์โฟล์นี้คือการคำนวณด้วยลอการิทึมโดยใช้ identity นั่นคือแทนที่จะใช้ความน่าจะเป็นคุณใช้ลอการิทึมของพวกเขา แทนที่จะเพิ่มพวกเขาคุณเพิ่มพวกเขา

เข้าสู่ระบบΠผม=1nพีผม=Σผม=1nเข้าสู่ระบบพีผม.

อีกวิธีหนึ่งซึ่งไม่ธรรมดาดังนั้นคือการทำให้ผลิตภัณฑ์เป็นมาตรฐานด้วยตนเอง แทนการรักษาเพียงหนึ่งลอยจำนวนจุด , คุณเก็บลอยจำนวนจุด (พูด) และลบสัญลักษณ์ดังกล่าวว่า x หลังจากการดำเนินการแต่ละครั้งคุณทำให้หมายเลขผลลัพธ์ปกติพีพี0[1,2)xพี=พี02x


2
นอกจากนี้ยังเป็นประโยชน์ในการบันทึกเคล็ดลับ logsumexp ในบริบทนี้: en.wikipedia.org/wiki/LogSumExp
Bitwise
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.