ทำความเข้าใจกับ Naive Bayes

จากStatSoft, Inc. (2013), ตำราสถิติอิเล็กทรอนิกส์ , "Naive Bayes Classifier" :

เพื่อแสดงแนวคิดของการจำแนกประเภทNaïve Bayes ให้พิจารณาตัวอย่างที่แสดงในภาพประกอบด้านบน ตามที่ระบุไว้วัตถุสามารถจัดเป็นสีเขียวหรือสีแดง งานของฉันคือการจำแนกกรณีใหม่เมื่อพวกเขามาถึงคือตัดสินใจว่าพวกเขาอยู่ในระดับใดบนพื้นฐานของวัตถุที่กำลังออกไป

เนื่องจากมีวัตถุสีเขียวจำนวนมากเป็นสองเท่าของสีแดงจึงมีเหตุผลที่จะเชื่อว่ากรณีใหม่ (ซึ่งยังไม่ได้รับการสังเกต) จึงมีความเป็นไปได้ที่จะเป็นสมาชิก GREEN มากกว่าสองเท่า ในการวิเคราะห์แบบเบย์ความเชื่อนี้เรียกว่าความน่าจะเป็นก่อนหน้า ความน่าจะเป็นมาก่อนขึ้นอยู่กับประสบการณ์ก่อนหน้านี้ในกรณีนี้เปอร์เซ็นต์ของวัตถุสีเขียวและสีแดงและมักใช้เพื่อทำนายผลลัพธ์ก่อนที่จะเกิดขึ้นจริง

ดังนั้นเราสามารถเขียน:

เนื่องจากมีวัตถุทั้งหมด 60 ชิ้นซึ่ง 40 รายการเป็นสีเขียวและ 20 สีแดงความน่าจะเป็นก่อนหน้านี้สำหรับการเป็นสมาชิกชั้นเรียนคือ:

ด้วยการกำหนดความน่าจะเป็นก่อนหน้าของเราตอนนี้เราพร้อมที่จะจำแนกวัตถุใหม่ (วงกลมสีขาว) เนื่องจากวัตถุมีการรวมกลุ่มกันเป็นอย่างดีจึงมีเหตุผลที่จะสมมติว่ามีวัตถุสีเขียว (หรือสีแดง) จำนวนมากในบริเวณใกล้เคียงของ X ยิ่งมีโอกาสมากขึ้นที่กรณีใหม่จะเป็นของสีนั้น ในการวัดความเป็นไปได้นี้เราจะวาดวงกลมรอบ X ซึ่งครอบคลุมจำนวน (เพื่อเลือกนิรนัย) ของคะแนนโดยไม่คำนึงถึงฉลากระดับของพวกเขา จากนั้นเราคำนวณจำนวนคะแนนในวงกลมที่อยู่ในป้ายกำกับของแต่ละชั้นเรียน จากนี้เราจะคำนวณความน่าจะเป็น:

จากภาพประกอบด้านบนเป็นที่แน่ชัดว่าโอกาสของ X ที่ได้รับ GREEN นั้นน้อยกว่าความน่าจะเป็นของ X ที่ได้รับ RED เนื่องจากวงกลมล้อมรอบวัตถุ 1 GREEN และ 3 RED ดังนั้น:

แม้ว่าความน่าจะเป็นก่อนหน้านี้บ่งชี้ว่า X อาจเป็นของ GREEN (เนื่องจากมี GREEN มากเป็นสองเท่าเมื่อเทียบกับ RED) โอกาสที่จะระบุเป็นอย่างอื่น ความเป็นสมาชิกของคลาส X นั้นเป็นสีแดง (เนื่องจากมีวัตถุสีแดงอยู่ในบริเวณใกล้เคียงของ X มากกว่าสีเขียว) ในการวิเคราะห์แบบเบย์การจำแนกขั้นสุดท้ายถูกสร้างขึ้นโดยการรวมแหล่งข้อมูลทั้งคู่เช่นก่อนและโอกาสในการสร้างความน่าจะเป็นหลังโดยใช้กฎของเบย์ที่เรียกว่า

สุดท้ายเราจัดประเภท X เป็น RED เนื่องจากการเป็นสมาชิกของกลุ่มบรรลุความน่าจะเป็นหลังที่ใหญ่ที่สุด

นี่คือสิ่งที่ความยากลำบากในการทำความเข้าใจคณิตศาสตร์ของฉันเข้ามา

ป้อนคำอธิบายรูปภาพที่นี่

p (Cj | x1, x2, x ... , xd) คือความน่าจะเป็นด้านหลังของสมาชิกภาพในชั้นเรียนคือความน่าจะเป็นที่ X เป็นของ Cj แต่ทำไมเขียนแบบนี้

การคำนวณความเป็นไปได้หรือไม่

ป้อนคำอธิบายรูปภาพที่นี่

ความน่าจะเป็นหลัง

ป้อนคำอธิบายรูปภาพที่นี่

ฉันไม่เคยใช้คณิตศาสตร์ แต่ความเข้าใจของฉันเกี่ยวกับเรื่องไร้เดียงสาเป็นเรื่องปกติฉันคิดว่าเมื่อมันมาถึงวิธีการย่อยสลายเหล่านี้ทำให้ฉันสับสน บางคนสามารถช่วยในการมองเห็นวิธีการเหล่านี้และวิธีการเขียนคณิตศาสตร์ในทางที่เข้าใจ?

machine-learning naive-bayes

— ก. กรัม
แหล่งที่มา

(+1) ฉันชื่นชมวิธีการที่ชัดเจนและชัดเจนที่คุณตั้งคำถามของคุณไว้

— rolando2

@ rolando2: ตัวเลขทั้งหมดและข้อความเกือบทั้งหมดของคำถามนี้มาจากstatsoft.com/textbook/naive-bayes-classifier

— Franck Dernoncourt

กรุณาอย่าแก้ไขโพสต์นี้กับวัสดุแอตทริบิวต์อย่างเห็นได้ชัดจากที่อื่น ๆ ตามวิธีการวัสดุอ้างอิงที่เขียนโดยคนอื่น

— Scortchi - Reinstate Monica

การระบุแหล่งที่มาที่ถูกต้องของใบเสนอราคาโดยตรงนั้นเป็นข้อกำหนดสำหรับเว็บไซต์ Stack Exchange เสมอ อย่างไรก็ตามการละเลยนั้นแก้ไขได้ง่าย ฉันทำไปแล้ว ไม่จำเป็นต้องลบบัญชีของคุณ - โปรดพิจารณาอีกครั้ง

— Scortchi - Reinstate Monica

คำตอบ:

ฉันจะวิ่งผ่านกระบวนการ Naive Bayes ทั้งหมดตั้งแต่เริ่มต้นเพราะมันไม่ชัดเจนสำหรับฉันโดยที่คุณจะถูกวางสาย

เราต้องการหาความน่าจะเป็นที่ตัวอย่างใหม่เป็นของแต่ละคลาส: ) จากนั้นเราคำนวณความน่าจะเป็นสำหรับแต่ละชั้นเรียนและเลือกชั้นที่มีโอกาสมากที่สุด ปัญหาคือว่าเรามักจะไม่มีความน่าจะเป็นเหล่านั้น อย่างไรก็ตามทฤษฎีบทของเบย์ช่วยให้เราสามารถเขียนสมการนั้นในรูปแบบที่ง่ายกว่า $P(class|feature_1, feature_2,..., feature_n$

Bayes 'นั้นคือหรือในแง่ของปัญหาของเรา:

P (A | B) = \frac{P (B | A) \cdot P (A)}{P (B)}

$P(A|B)=\frac{P(B|A) \cdot P(A)}{P(B)}$

P (c l a s s | f e a t u r e s) = \frac{P (f e a t u r e s | c l a s s) \cdot P (c l a s s)}{P (f e a t u r e s)}

$P(class|features)=\frac{P(features|class) \cdot P(class)}{P(features)}$

เราสามารถลดความซับซ้อนนี้โดยการเอา(คุณสมบัติ) เราสามารถทำเช่นนี้เพราะเรากำลังจะไปที่ระดับสำหรับค่าของแต่ละ ; จะเหมือนกันทุกครั้ง - มันไม่ได้ขึ้นอยู่กับระดับสิ่งนี้ทำให้เรามี $P(features)$ $P(class|features)$ $class$ $P(features)$ $class$

P (c l a s s | f e a t u r e s) \propto P (f e a t u r e s | c l a s s) \cdot P (c l a s s)

$P(class|features) \propto P(features|class) \cdot P(class)$

ความน่าจะเป็นก่อนหน้านี้สามารถคำนวณได้ตามที่คุณอธิบายไว้ในคำถามของคุณ $P(class)$

ที่ใบclass) เราต้องการที่จะกำจัดขนาดใหญ่และอาจจะเบาบางมากน่าจะเป็นร่วมclass) หากคุณลักษณะแต่ละอย่างเป็นอิสระดังนั้นแม้ว่าพวกเขาจะไม่ได้เป็นอิสระจริง ๆ เราสามารถสันนิษฐานได้ว่าพวกเขาเป็น (นั่นคือ " ส่วนที่ไร้เดียงสาของ Bayes) ฉันคิดว่าเป็นการง่ายกว่าที่จะคิดเรื่องนี้สำหรับตัวแปรแยก (เช่นหมวดหมู่) ดังนั้นลองใช้ตัวอย่างรุ่นที่แตกต่างออกไปเล็กน้อย ที่นี่ฉันได้แบ่งมิติคุณลักษณะแต่ละอย่างออกเป็นสองตัวแปรหมวดหมู่ $P(features|class)$ $P(feature_1, feature_2, ..., feature_n|class)$

P (f e a t u r e_{1}, f e a t u r e_{2}, . . ., f e a t u r e_{n} | c l a s s) = \prod_{i} P (f e a t u r e_{i} | c l a s s)

$P(feature_1, feature_2, ..., feature_n|class) = \prod_i{P(feature_i|class})$

ข้อมูลตัวอย่างที่ไม่ต่อเนื่อง .

ตัวอย่าง: การฝึกอบรม classifer

ในการฝึกอบรม classifer เราจะนับคะแนนย่อย ๆ และใช้พวกเขาเพื่อคำนวณความน่าจะเป็นก่อนและมีเงื่อนไข

นักบวชผู้น่าสนใจ: มีทั้งหมดหกสิบคะแนนสี่สิบเป็นสีเขียวในขณะที่ยี่สิบเป็นสีแดง ดังนั้น

P (c l a s s = g r e e n) = \frac{40}{60} = 2 / 3 and P (c l a s s = r e d) = \frac{20}{60} = 1 / 3

$P(class=green)=\frac{40}{60} = 2/3 \text{ and } P(class=red)=\frac{20}{60}=1/3$

ต่อไปเราต้องคำนวณความน่าจะเป็นตามเงื่อนไขของแต่ละคุณสมบัติ - ค่าที่กำหนดให้กับคลาส ที่นี่มีคุณสมบัติสองประการ:และซึ่งแต่ละค่าใช้หนึ่งในสองค่า (A หรือ B สำหรับหนึ่ง, X หรือ Y สำหรับอีกอันหนึ่ง) เราจำเป็นต้องรู้สิ่งต่อไปนี้: $feature_1$ $feature_2$

$P(feature_1=A|class=red)$
$P(feature_1=B|class=red)$
$P(feature_1=A|class=green)$
$P(feature_1=B|class=green)$
$P(feature_2=X|class=red)$
$P(feature_2=Y|class=red)$
$P(feature_2=X|class=green)$
$P(feature_2=Y|class=green)$
(ในกรณีที่ไม่ชัดเจนนี่เป็นคู่ของคุณลักษณะและค่าคลาสที่เป็นไปได้ทั้งหมด)

สิ่งเหล่านี้ง่ายต่อการคำนวณโดยการนับและการหารด้วย ตัวอย่างเช่นสำหรับเรามองเฉพาะที่จุดสีแดงและนับจำนวนของพวกเขาอยู่ในภูมิภาค 'A' สำหรับfeature_1มียี่สิบจุดสีแดงทุกคนที่อยู่ในภูมิภาค 'A' ดังนั้น 1ไม่มีจุดสีแดงอยู่ในภูมิภาค B ดังนั้น 0 ต่อไปเราทำเช่นเดียวกัน แต่พิจารณาเฉพาะจุดสีเขียว นี้จะช่วยให้เราและ7/8 เราทำซ้ำกระบวนการนั้นสำหรับเพื่อปัดเศษตารางความน่าจะเป็น สมมติว่าฉันนับอย่างถูกต้องเราจะได้รับ $P(feature_1=A|class=red)$ $feature_1$ $P(feature_1=A|class=red)=20/20=1$ $P(feature_1|class=red)=0/20=0$ $P(feature_1=A|class=green)=5/40=1/8$ $P(feature_1=B|class=green)=35/40=7/8$ $feature_2$

$P(feature_1=A|class=red)=1$
$P(feature_1=B|class=red)=0$
$P(feature_1=A|class=green)=1/8$
$P(feature_1=B|class=green)=7/8$
$P(feature_2=X|class=red)=3/10$
$P(feature_2=Y|class=red)=7/10$
$P(feature_2=X|class=green)=8/10$
$P(feature_2=Y|class=green)=2/10$

ความน่าจะเป็นสิบสองอันนั้น (นักบวชสองคนบวกแปดเงื่อนไข) เป็นแบบจำลองของเรา

การจำแนกตัวอย่างใหม่

ลองจำแนกจุดสีขาวจากตัวอย่างของคุณ มันอยู่ใน "A" ภูมิภาคและ "Y" ภูมิภาคfeature_2เราต้องการหาความน่าจะเป็นที่อยู่ในแต่ละชั้นเรียน เริ่มจากสีแดงกันก่อน เมื่อใช้สูตรด้านบนเรารู้ว่า: Subbing ในความน่าจะเป็นที่ได้จากตารางเราจะได้ $feature_1$ $feature_2$

P (c l a s s = r e d | e x a m p l e) \propto P (c l a s s = r e d) \cdot P (f e a t u r e_{1} = A | c l a s s = r e d) \cdot P (f e a t u r e_{2} = Y | c l a s s = r e d)

$P(class=red|example) \propto P(class=red) \cdot P(feature_1=A|class=red) \cdot P(feature_2=Y|class=red)$

P (c l a s s = r e d | e x a m p l e) \propto \frac{1}{3} \cdot 1 \cdot \frac{7}{10} = \frac{7}{30}

$P(class=red|example) \propto \frac{1}{3} \cdot 1 \cdot \frac{7}{10} = \frac{7}{30}$ เราทำเช่นเดียวกันกับสีเขียว:

P (c l a s s = g r e e n | e x a m p l e) \propto P (c l a s s = g r e e n) \cdot P (f e a t u r e_{1} = A | c l a s s = g r e e n) \cdot P (f e a t u r e_{2} = Y | c l a s s = g r e e n)

$P(class=green|example) \propto P(class=green) \cdot P(feature_1=A|class=green) \cdot P(feature_2=Y|class=green)$

การซับไพล์ในค่าเหล่านั้นทำให้เราเป็น 0 ( ) ในที่สุดเราก็มาดูกันว่าคลาสไหนที่ให้โอกาสสูงสุดแก่เรา ในกรณีนี้เป็นคลาสสีแดงอย่างชัดเจนดังนั้นเราจึงกำหนดจุดนั้น $2/3 \cdot 0 \cdot 2/10$

หมายเหตุ

ในตัวอย่างดั้งเดิมของคุณฟีเจอร์นั้นต่อเนื่อง ในกรณีนั้นคุณต้องหาวิธีกำหนด P (feature = value | class) สำหรับแต่ละคลาส คุณอาจพิจารณาปรับให้เหมาะสมกับการแจกแจงความน่าจะเป็นที่รู้จัก (เช่น Gaussian) ในระหว่างการฝึกอบรมคุณจะพบความหมายและความแปรปรวนของแต่ละชั้นเรียนตามแต่ละมิติของคุณลักษณะ ในการจำแนกจุดคุณจะพบโดยการเสียบค่าเฉลี่ยและความแปรปรวนที่เหมาะสมสำหรับแต่ละคลาส การกระจายอื่น ๆ อาจเหมาะสมกว่าขึ้นอยู่กับข้อมูลของคุณ แต่ Gaussian จะเป็นจุดเริ่มต้นที่ดี $P(feature=value|class)$

ฉันไม่คุ้นเคยกับชุดข้อมูล DARPA แต่คุณต้องทำสิ่งเดียวกัน คุณอาจจะต้องคำนวณคอมพิวเตอร์บางอย่างเช่น P (โจมตี = TRUE | บริการ = นิ้ว), P (โจมตี = false | บริการ = นิ้ว), P (โจมตี = TRUE | บริการ = ftp) ฯลฯ จากนั้นรวมเข้าด้วยกันใน เช่นเดียวกับตัวอย่าง ในฐานะที่เป็นบันทึกย่อส่วนหนึ่งของเคล็ดลับที่นี่คือการมาพร้อมกับคุณสมบัติที่ดี ตัวอย่างเช่น IP ต้นทางอาจจะเบาบางอย่างสิ้นหวัง - คุณอาจมีเพียงหนึ่งหรือสองตัวอย่างสำหรับ IP ที่กำหนด คุณอาจทำได้ดีกว่าถ้าคุณระบุตำแหน่งทางภูมิศาสตร์และใช้ "Source_in_same_building_as_dest (จริง / เท็จ)" หรือบางสิ่งบางอย่างเป็นคุณลักษณะแทน

ฉันหวังว่าจะช่วยได้มากขึ้น หากมีสิ่งใดที่ต้องการคำชี้แจงฉันยินดีที่จะลองอีกครั้ง!

— แมตต์กรอส
แหล่งที่มา

แน่ใจ ถ้ามันไม่เป็นไรกับคุณฉันจะแก้ไขคำตอบของฉันเพื่อให้มีพื้นที่มากขึ้น (และฉันสามารถทำสิ่งที่ LaTex)

— Matt Krause

ฉันขยายส่วนการฝึกอบรมและทดสอบและทำให้เป็นส่วนของตนเอง ย่อหน้าคู่แรกจะเหมือนกัน ...

— แมตต์กรอส

แมตต์นี่ชัดเจนกว่าหนังสือนิยามของ Naive Bayes ที่ฉันเจอ นี่อาจเป็นคำตอบที่ดีที่สุดสำหรับคำถามใด ๆ ที่ฉันเคยเห็นในเว็บไซต์นี้

— Zhubarb

@Berkan ขอบคุณ; คุณเป็นคนที่ใจดีมาก ๆ (แม้ว่าจะมีคำตอบที่ยอดเยี่ยมอื่น ๆ อีกมากมายเช่นกัน!) หากคุณมีข้อเสนอแนะใด ๆ ฉันยินดีที่จะตอบคำถามเหล่านี้!

— Matt Krause

+ 1 และstackoverflow.com/questions/10059594/…ซึ่งมีคำอธิบายที่คล้ายกัน

— Drey

ลดความซับซ้อนของสัญกรณ์ด้วยแสดงถึงข้อมูลเราต้องการค้นหาว่าใดที่ใหญ่ที่สุด ตอนนี้สูตรของ Bayes ให้ ที่ตัวส่วนบน ที่เหมาะสมเป็นเหมือนกันทุกเจถ้าเราต้องการค้นหา ,นั้นใหญ่ที่สุดแน่นอนเราสามารถคำนวณและเปรียบเทียบค่า แต่โปรดทราบว่าการเปรียบเทียบจะไม่ได้รับผลกระทบจากมูลค่าของซึ่งเหมือนกันในทุกกรณี เราสามารถคำนวณ $D$ $P(C_j\mid D)$

P (C_{j} ∣ D) = \frac{P (D ∣ C_{j}) P (C_{j})}{P (D)}, j = 1, 2, \dots

$P(C_j\mid D) = \frac{P(D\mid C_j)P(C_j)}{P(D)}, ~ j = 1, 2, \ldots$

j

$j$

P (C_{1} ∣ D)

$P(C_1\mid D)$

P (C_{2} ∣ D), \dots

$P(C_2\mid D), \ldots$

P (C_{j} ∣ D)

$P(C_j\mid D)$

P (D)

$P(D)$

P (D ∣ C_{j}) P (C_{j})

$P(D\mid C_j)P(C_j)$ และเปรียบเทียบ (นั่นคือโดยไม่ต้องแยกแต่ละ โดยก่อนการเปรียบเทียบ) และเดียวกันจะถูกเลือกว่ามีความน่าจะเป็นหลังที่ใหญ่ที่สุด อีกวิธีหนึ่งความน่าจะเป็นหลังเป็น สัดส่วนกับความน่าจะเป็นกับความน่าจะเป็นก่อนหน้า ในที่สุดเมื่อข้อมูลเป็นชุดของการสังเกตแบบอิสระ (แบบมีเงื่อนไข)ให้กับ เรามีสิ่งนั้น

P (D ∣ C_{j}) P (C_{j})

$P(D\mid C_j)P(C_j)$

P (D)

$P(D)$

C_{j}

$C_j$

P (C_{j} ∣ D)

$P(C_j\mid D)$ $P(D\mid C_j)$

P (C_{j})

$P(C_j)$

P (C_{j} ∣ D) \propto P (D ∣ C_{j}) P (C_{j}) .

$P(C_j\mid D) \propto P(D\mid C_j)P(C_j).$

D

$D$

(x_{1}, x_{2}, \dots, x_{d})

$(x_1, x_2, \ldots, x_d)$

C_{j})

$C_j)$

\begin{aligned} P (D ∣ C_{j}) & = P (x_{1}, x_{2}, \dots, x_{d} ∣ C_{j}) \\ = P (x_{1} ∣ C_{j}) P (x_{2} ∣ C_{j}) \dots P (x_{d} ∣ C_{j}) \\ = \prod_{1 = 1}^{d} P (x_{i} ∣ C_{j}) \end{aligned}

$\begin{align*} P(D\mid C_j) &= P(x_1, x_2, \ldots, x_d\mid C_j)\\ &= P(x_1\mid C_j)P(x_2\mid C_j)\cdots P(x_d\mid C_j)\\ &= \prod_{1=1}^d P(x_i\mid C_j) \end{align*}$

— Dilip Sarwate
แหล่งที่มา

สมมติฐานหลักที่อยู่เบื้องหลังโมเดลไร้เดียงสาคือคุณลักษณะแต่ละอย่าง (x_i) เป็นเงื่อนไขที่ไม่ขึ้นอยู่กับคุณลักษณะอื่นทั้งหมดของคลาส สมมติฐานนี้เป็นสิ่งที่ช่วยให้เราสามารถเขียนความเป็นไปได้ในฐานะผลิตภัณฑ์ที่เรียบง่าย (ตามที่คุณแสดง)

นี่คือสิ่งที่ช่วยให้โมเดลไร้เดียงสาเบย์พูดคุยทั่วไปได้ดีในทางปฏิบัติ พิจารณาขั้นตอนการฝึกอบรม: หากเราไม่ได้ตั้งสมมติฐานนี้การเรียนรู้จะเกี่ยวข้องกับการประเมินการแจกแจงที่ซับซ้อนและมีมิติสูง: p (x1, x2, ... , xn, c) ซึ่งคุณสมบัติทั้งหมดนี้มีการแจกจ่ายร่วมกัน เราสามารถฝึกอบรมโดยการประมาณ p (x1, c), p (x2, c), ... , p (xn, c) เนื่องจากการรู้ค่า c ทำให้ค่าของคุณสมบัติอื่น ๆ ทั้งหมดไม่เกี่ยวข้อง (พวกเขาให้ ไม่มีข้อมูลเพิ่มเติมเกี่ยวกับ x_i)

ฉันไม่รู้วิธีที่ดีที่จะเห็นภาพนี้ (นอกเหนือจากสัญลักษณ์แบบกราฟิกมาตรฐาน) แต่เพื่อให้เป็นรูปธรรมมากขึ้นคุณสามารถเขียนโค้ดเพื่อเรียนรู้รูปแบบ Naive Bayes ( คุณสามารถดึงข้อมูลตัวอย่างบางส่วนได้ที่นี่ ) ฝึกอบรมและทดสอบ ตอนนี้ปล่อยสมมติฐานความเป็นอิสระตามเงื่อนไขและแก้ไขโค้ด ฝึกทดสอบและเปรียบเทียบกับรุ่นก่อนหน้า

— กรงขัง
แหล่งที่มา