การใช้งาน Naive Bayes แบบเสริมในหลาม

9

ปัญหา

ฉันได้ลองใช้ Naive Bayes กับชุดข้อมูลอาชญากรรมที่มีข้อความ แต่ได้ผลลัพธ์ที่แย่มาก (ความแม่นยำ 7%) Naive Bayes ทำงานเร็วกว่า alogorithms อื่น ๆ ที่ฉันใช้ดังนั้นฉันจึงอยากลองค้นหาสาเหตุที่คะแนนต่ำ

วิจัย

หลังจากอ่านฉันพบว่าควรใช้เบย์ Naive กับชุดข้อมูลที่สมดุลเพราะมันมีอคติสำหรับคลาสที่มีความถี่สูงกว่า เนื่องจากข้อมูลของฉันไม่สมดุลฉันจึงอยากลองใช้ Naive Bayes เพิ่มเติมเพราะทำขึ้นเป็นพิเศษสำหรับจัดการกับข้อมูลที่ลื่นไหล ในบทความที่อธิบายถึงกระบวนการแอปพลิเคชันสำหรับการจำแนกข้อความ แต่ฉันไม่เห็นว่าทำไมเทคนิคไม่ทำงานในสถานการณ์อื่น ๆ คุณสามารถค้นหากระดาษที่ผมหมายถึงที่นี่ ในระยะสั้นความคิดคือการใช้น้ำหนักตามเหตุการณ์ที่เกิดขึ้นที่ชั้นไม่ปรากฏขึ้น

หลังจากทำการวิจัยบางอย่างฉันสามารถค้นหาการนำไปใช้ใน Java แต่โชคไม่ดีที่ฉันไม่ทราบว่า Java และฉันไม่เข้าใจอัลกอริทึมที่ดีพอที่จะใช้ตัวเอง

คำถาม

ฉันสามารถหาการใช้งานในหลามได้ที่ไหน หากไม่มีอยู่ฉันควรดำเนินการด้วยตนเองอย่างไร

— ตั๊กแตน
แหล่งที่มา

5

Naive Bayes ควรสามารถจัดการชุดข้อมูลที่ไม่สมดุลได้ จำได้ว่าสูตร Bayes นั้น

P (Y | x) = \frac{P (x | Y) P (Y)}{P (x)} α P (x | Y) P (Y)

$P(y \mid x) = \cfrac{P(x \mid y) \, P(y)}{P(x)} \propto P(x \mid y) \, P(y)$

ดังนั้น $P(x \mid y) \, P(y)$ ใช้เวลาก่อน $P(y)$ เข้าบัญชี.

ในกรณีของคุณคุณอาจจะมีความเหมาะสมและต้องการปรับให้เรียบ? คุณสามารถเริ่มต้นด้วย +1 smoothing และดูว่ามีการปรับปรุงหรือไม่ ในไพ ธ อนเมื่อใช้ numpy ฉันจะใช้วิธีนี้ให้ราบรื่น:

table = # counts for each feature 
PT = (table + 1) / (table + 1).sum(axis=1, keepdims=1)

โปรดทราบว่านี่คือการให้ Multinomial Naive Bayes แก่คุณ - ซึ่งใช้กับข้อมูลเด็ดขาดเท่านั้น

ฉันยังสามารถแนะนำลิงค์ต่อไปนี้: http://www.itshared.org/2015/03/naive-bayes-on-apache-flink.html มันเกี่ยวกับการนำ Naive Bayes ไปใช้บน Apache Flink ในขณะที่เป็น Java มันอาจจะให้ทฤษฎีบางอย่างที่คุณต้องเข้าใจอัลกอริทึมให้ดีขึ้น

— Alexey Grigorev
แหล่งที่มา

คุณอาจแก้ไขให้ถูกต้องดูเหมือนว่าไร้เดียงสา Bayes เท่านั้นที่มีปัญหาความไม่สมดุลกับการจัดประเภทข้อความ คุณอธิบายได้ไหมว่าการปรับให้เรียบคืออะไร

— ตั๊กแตน

คุณเคยดูลิงค์หรือไม่ มันอธิบายไว้ที่นั่น ในระยะสั้นเมื่อประมาณ

P (x ∣ y)

$P(x \mid y)$ บางครั้ง

x

$x$ ไม่เคยพบเห็นระหว่างการฝึกซ้อมและการทำให้ราบลื่นทำให้มั่นใจได้ว่าจะไม่ทำลายประสิทธิภาพของตัวจําแนกโดยการเพิ่มการนับพิเศษ (ในกรณีของการหมุนรอบหรือการปรับให้เรียบ +1) กับคุณสมบัติทั้งหมด

— Alexey Grigorev

0

การดำเนินงานของฉัน Complement Naive Bayes ใน scikit การเรียนรู้ที่สามารถพบได้ที่นี่

— airalcorn2
แหล่งที่มา