Naive Bayes ทำงานอย่างไรกับตัวแปรต่อเนื่อง


14

เพื่อความเข้าใจ (พื้นฐานมาก) ของฉัน Naive Bayes ประมาณการความน่าจะเป็นไปตามความถี่ของคลาสของแต่ละคุณสมบัติในข้อมูลการฝึก แต่มันคำนวณความถี่ของตัวแปรต่อเนื่องได้อย่างไร และเมื่อทำการคาดการณ์มันจะจำแนกการสังเกตใหม่ที่อาจไม่มีค่าเดียวกันของการสังเกตใด ๆ ในชุดฝึกอบรมอย่างไร มันใช้การวัดระยะทางบางอย่างหรือหา 1NN หรือไม่?


นี่คือการเปรียบเทียบแบบเคียงข้างกันระหว่างBayive ที่
Esmailian

คำตอบ:


10

มีหลายวิธีในการจำแนกความไร้เดียงสาของ Bayes (NBC) เทคนิคทั่วไปใน NBC คือการบันทึกค่าคุณสมบัติ (ตัวแปร) ลงในควอไทล์เช่นว่าค่าที่น้อยกว่าเปอร์เซนต์ไทล์ 25 ได้รับการกำหนด 1, 25 ถึง 50th a 2, 50th ถึง 75th a 3 และมากกว่า 75 เปอร์เซ็นไทล์ a 4 ดังนั้นวัตถุเดียวจะฝากหนึ่งการนับใน bin Q1, Q2, Q3 หรือ Q4 การคำนวณจะทำในถังขยะที่จัดหมวดหมู่เท่านั้น Bin counts (ความน่าจะเป็น) จะขึ้นอยู่กับจำนวนตัวอย่างที่ค่าตัวแปรตกอยู่ใน bin ที่กำหนด ตัวอย่างเช่นหากชุดของวัตถุมีค่าสูงมากสำหรับคุณสมบัติ X1 ดังนั้นสิ่งนี้จะส่งผลให้มีการนับจำนวน bin ในถังขยะสำหรับไตรมาสที่ 4 ของ X1 ในทางกลับกันถ้าชุดของวัตถุอื่นมีค่าต่ำสำหรับฟีเจอร์ X1 แล้ววัตถุเหล่านั้นจะฝากจำนวนมากไว้ในถังสำหรับ Q1 ของฟีเจอร์ X1

มันไม่ใช่การคำนวณที่ฉลาดจริงๆมันเป็นวิธีการแยกแยะค่าอย่างต่อเนื่องเพื่อแยกและใช้ประโยชน์หลังจากนั้น ดัชนี Gini และการได้รับข้อมูลสามารถคำนวณได้ง่าย ๆ หลังจากแยกย่อยเพื่อกำหนดว่าคุณลักษณะใดที่มีข้อมูลมากที่สุดคือ max (Gini)

อย่างไรก็ตามโปรดทราบว่ามีหลายวิธีในการแสดง NBC และหลาย ๆ วิธีนั้นค่อนข้างแตกต่างจากกัน ดังนั้นคุณเพียงแค่ต้องระบุว่าคุณนำไปใช้ในการพูดคุยหรือกระดาษ


2

หัวใจของ Naive Bayes เป็นข้อสมมุติที่มีเงื่อนไข:

P(xX,C)=P(xC)

ไม่ควรจะแยกยกตัวอย่างเช่นGaussian Naive Bayesถือว่าแต่ละประเภทมีแตกต่างค่าเฉลี่ยและความแปรปรวน: ความหนาแน่นของ2_i)xCp(xC=i)=ϕ(μi,σi2)

มีวิธีที่แตกต่างกันในการประมาณค่าพารามิเตอร์ แต่โดยทั่วไปแล้วหนึ่งอาจ:

  • ใช้โอกาสสูงสุดด้วยข้อมูลที่มีป้ายกำกับ (ในกรณีที่มีการแจกแจงแบบปกติการประมาณการความน่าจะเป็นสูงสุดของค่าเฉลี่ยและความแปรปรวนนั้นเป็นค่าเฉลี่ยตัวอย่างและความแปรปรวนตัวอย่าง)
  • บางอย่างเช่นอัลกอริทึม EM กับข้อมูลที่ไม่มีป้ายกำกับ
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.