ทำไมต้องแยกส่วนในทฤษฎีบทของเบย์


23

(ฉันเป็นมือใหม่ที่อยู่ในสถานะสถิติฉันเป็นนักคณิตศาสตร์และโปรแกรมเมอร์และฉันกำลังพยายามสร้างบางอย่างเช่นตัวกรองสแปมเบย์ไร้เดียงสา)

ฉันสังเกตเห็นในหลาย ๆ สถานที่ที่ผู้คนมักจะทำลายตัวหารในสมการจากทฤษฎีบทของเบย์ ดังนั้นแทนที่จะเป็นเช่นนี้:

P(A|B)P(B)P(A)

เรานำเสนอด้วยสิ่งนี้:

P(A|B)P(B)P(A|B)P(B)+P(A|¬B)P(¬B)

คุณจะเห็นว่าการประชุมนี้จะใช้ในบทความวิกิพีเดียนี้และในการนี้โพสต์ที่ชาญฉลาดโดยทิมปีเตอร์ส

ฉันงุนงงกับสิ่งนี้ เหตุใดตัวหารจึงถูกทำลายเช่นนี้ มันช่วยอะไรได้บ้าง? สิ่งที่มีความซับซ้อนมากเกี่ยวกับการคำนวณซึ่งในกรณีของตัวกรองสแปมจะเป็น?P(A)The probability that the word "cheese" appears in an email, regardless of whether it's spam or not


ฉันสงสัยว่าคำตอบคือเฉพาะโดเมน (เช่นเฉพาะสำหรับตัวกรองสแปม) หากคุณสามารถคำนวณส่วนประกอบ P (A | B) ฯลฯ คุณควรจะสามารถคำนวณ P (A) ที่ง่ายขึ้นตามที่ระบุไว้ หรืออาจเป็นคำตอบที่เกี่ยวข้องกับการสอนเพื่อให้ผู้อ่านเข้าใจความสัมพันธ์ระหว่าง P (A) และการสลายตัวในแง่ของ P (A | B), P (B) ฯลฯ

1
ฉันไม่ได้คำตอบที่แข็งแกร่ง แต่ฉันสามารถพูดได้ว่าฉันทำผิดพลาดโง่ ๆ ในการทดสอบที่ฉันสามารถเสียบ givens เข้ากับตัวส่วนชัดเจน แต่ฉันคิดว่าฉันรู้ P (A) และฉันผิด
เวย์น

คำตอบ:


16

คำตอบสั้น ๆ สำหรับคำถามของคุณคือ "ส่วนใหญ่เราไม่รู้ว่า P (ชีส) คืออะไรและบ่อยครั้งที่ค่อนข้างยากที่จะคำนวณ

คำตอบที่ยาวกว่าว่าทำไมกฎของเบย์ / ทฤษฎีบทที่กล่าวไว้ตามปกติในแบบที่คุณเขียนนั้นเป็นเพราะปัญหาของเบย์เรามี - นั่งอยู่บนตักของเรา - การแจกแจงก่อนหน้า (P (B) ด้านบน) และความน่าจะเป็น B), P (A | notB) ด้านบน) และมันเป็นเรื่องที่ค่อนข้างง่ายของการคูณเพื่อคำนวณหลัง (P (B | A)) การไปที่ปัญหาในการจัดส่งใหม่ P (A) ในรูปแบบสรุปของมันคือความพยายามที่สามารถใช้ในที่อื่น

มันอาจดูไม่ซับซ้อนนักในบริบทของอีเมลเพราะอย่างที่คุณพูดถูกมันเป็นแค่ P (ชีส) ใช่ไหม? ปัญหาคือมีปัญหาเกี่ยวกับ Bayesian ในสนามรบที่เกี่ยวข้องมากกว่าตัวหารเป็นส่วนที่ไม่น่าดูซึ่งอาจมีหรือไม่มีวิธีแก้ปัญหาแบบปิด ในความเป็นจริงบางครั้งเราต้องการวิธีการมอนติคาร์โลที่มีความซับซ้อนเพื่อประมาณค่าอินทิกรัลและการปั่นตัวเลขอาจเป็นความเจ็บปวดที่แท้จริงในด้านหลัง

แต่ยิ่งกว่านั้นเรามักจะไม่สนใจว่า P (ชีส) คืออะไร โปรดจำไว้ว่าเรากำลังพยายามที่จะฝึกฝนความเชื่อของเราเกี่ยวกับว่าอีเมลนั้นเป็นสแปมหรือไม่และไม่สนใจว่าจะกระจายข้อมูลส่วนน้อย (P (A) ด้านบน) หรือไม่ มันเป็นแค่ค่าคงที่การทำให้เป็นมาตรฐานแล้วซึ่งไม่ได้ขึ้นอยู่กับพารามิเตอร์ การกระทำของการรวมล้างข้อมูลใด ๆ ที่เรามีเกี่ยวกับพารามิเตอร์ ค่าคงที่เป็นสิ่งที่สร้างความรำคาญให้กับการคำนวณและท้ายที่สุดก็ไม่เกี่ยวข้องกับความเชื่อของเราเกี่ยวกับสแปมของอีเมลหรือไม่ บางครั้งเราจำเป็นต้องคำนวณมันซึ่งในกรณีนี้วิธีที่เร็วที่สุดในการทำเช่นนั้นคือข้อมูลที่เรามีอยู่แล้ว: ก่อนหน้าและโอกาส


ใครบางคนสามารถให้และเป็นตัวอย่างของ 'อินทิกรัลที่ไม่น่าดูซึ่งอาจมีหรือไม่มีวิธีแก้ปัญหาแบบปิด' ซึ่งจะใช้ในปัญหาบางอย่าง?
PaulG

8

เหตุผลหนึ่งในการใช้กฎความน่าจะเป็นโดยรวมคือเรามักจะจัดการกับความน่าจะเป็นขององค์ประกอบในการแสดงออกนั้นและมันก็ตรงไปตรงมาเพื่อค้นหาความน่าจะเป็นที่ขอบโดยเพียงแค่เสียบค่า สำหรับภาพประกอบนี้ดูตัวอย่างต่อไปนี้บน Wikipedia:

อีกเหตุผลหนึ่งคือตระหนักถึงรูปแบบที่เท่าเทียมกันของกฎของเบย์โดยจัดการกับการแสดงออก ตัวอย่างเช่น:

P(B|A)=P(A|B)P(B)P(A|B)P(B)+P(A|¬B)P(¬B)

หารผ่าน RHS ด้วยตัวเศษ:

P(B|A)=11+P(A|¬B)P(A|B)P(¬B)P(B)

ซึ่งเป็นรูปแบบที่เทียบเท่าที่ดีสำหรับกฎของเบย์ทำได้ง่ายขึ้นโดยการลบสิ่งนี้จากการแสดงออกเดิมเพื่อให้ได้:

P(¬B|A)P(B|A)=P(A|¬B)P(A|B)P(¬B)P(B)

นี่คือกฎของเบย์ที่ระบุไว้ในแง่ของอัตราต่อรองคืออัตราต่อรองหลังเทียบกับ B = ปัจจัยเบย์ต่อ B คูณอัตราต่อรองก่อนหน้านี้กับ B (หรือคุณสามารถสลับกลับเพื่อให้ได้แสดงออกในรูปของอัตราต่อรองสำหรับ B) อัตราส่วนของความน่าจะเป็นของโมเดลของคุณ เนื่องจากเราไม่แน่ใจเกี่ยวกับกลไกการสร้างข้อมูลพื้นฐานเราสังเกตข้อมูลและอัปเดตความเชื่อของเรา

ฉันไม่แน่ใจว่าคุณจะพบว่ามีประโยชน์ แต่หวังว่ามันจะไม่ทำให้ยุ่งเหยิง คุณควรทำงานกับนิพจน์ที่ดีที่สุดสำหรับสถานการณ์ของคุณอย่างชัดเจน บางทีคนอื่น ๆ อาจเข้าไปด้วยเหตุผลที่ดีกว่านี้ได้


คุณสามารถไปอีกขั้นหนึ่งแล้วจดบันทึก จากนั้นคุณจะมีอัตราส่วนล็อก - หลัง = อัตราส่วนล็อก - ก่อน + อัตราส่วนล็อก - โอกาส
ความน่าจะเป็น

6

P(A)

P(A)P(A|B)BP(A|B)P(A|¬B)B¬BP(A|B)P(A|¬B)P(B)P(¬B)

P(A)=P(A|B)P(B)+P(A|¬B)P(¬B)
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.