ทำไมตัวจําแนกแบบไร้เดียงสาเบย์จึงเหมาะสมที่สุดสําหรับการสูญเสีย 0-1


13

ตัวจําแนก Naive Bayes เป็นตัวจําแนกซึ่งกําหนดรายการให้กับคลาสCโดยใช้การเพิ่มหลังP ( C | x )สําหรับสมาชิกระดับสูงสุดและถือว่าคุณสมบัติของรายการนั้นเป็นอิสระxCP(C|x)

การสูญเสีย 0-1 คือการสูญเสียซึ่งกำหนดให้การสูญเสียประเภทใด ๆ ของการจำแนก "1" และการสูญเสีย "0" ไปยังการจำแนกประเภทที่ถูกต้อง

ฉันมักจะอ่าน (1) ว่าลักษณนาม "Naive Bayes" ดีที่สุดสำหรับการสูญเสีย 0-1 ทำไมเรื่องนี้ถึงเป็นจริง?

(1) แหล่งที่เป็นแบบอย่างหนึ่งแหล่ง: ตัวจําแนกBayes และข้อผิดพลาด Bayes


2
คุณสามารถให้การอ้างอิงสำหรับคำสั่งของคุณ " ฉันมักจะอ่านว่าลักษณนาม" Naive Bayes "เหมาะที่สุดสำหรับการสูญเสีย 0-1หรือไม่? เช่นที่คุณอาจเคยอ่านคำแถลงแบบนี้ที่ไหนในอดีต
จอน

1
แก้ไขเพิ่มแหล่งที่เป็นตัวอย่าง

คำตอบ:


16

อันที่จริงแล้วมันค่อนข้างง่าย: ตัวแยกประเภทของเบย์เลือกคลาสที่มีความน่าจะเป็นหลังเกิดขึ้นมากที่สุด(เรียกว่าการประมาณค่าสูงสุดหลัง ) 0-1 สูญเสียการทำงาน penalizes จำแนกคือมันกำหนดการสูญเสียที่มีขนาดเล็กที่สุดเพื่อแก้ปัญหาที่มีจำนวนมากที่สุดของการจำแนกประเภทที่ถูกต้อง ดังนั้นในทั้งสองกรณีเรากำลังพูดถึงการประเมินโหมด เรียกใช้โหมดนั้นว่าเป็นค่าที่พบได้บ่อยที่สุดในชุดข้อมูลหรือค่าที่เป็นไปได้มากที่สุดดังนั้นทั้งการเพิ่มความน่าจะเป็นด้านหลังและการลดความสูญเสีย 0-1 จะนำไปสู่การประมาณค่าโหมด

หากคุณต้องการหลักฐานที่เป็นทางการจะได้รับในบทความทฤษฎีการตัดสินใจเบื้องต้นแบบเบย์โดย Angela J. Yu:

ฟังก์ชันการสูญเสียไบนารี 0-1 มีแบบฟอร์มต่อไปนี้:

lx(s^,s)=1δs^s={1ifs^s0otherwise

δ

Lx(s^)=slx(s^,s)P(s=sx)=s(1δs^s)P(s=sx)=sP(s=sx)dssδs^sP(s=sx)=1P(s=sx)

นี่เป็นเรื่องจริงสำหรับการประมาณค่าด้านหลังโดยทั่วไป ดังนั้นถ้าคุณรู้ว่าการกระจายหลังแล้วสมมติ 0-1 สูญเสียที่เหมาะสมที่สุดกฎการจัดหมวดหมู่คือการใช้โหมดของการกระจายหลังที่เราเรียกสิ่งนี้ว่าดีที่สุด Bayes ลักษณนาม ในชีวิตจริงเรามักจะไม่รู้จักการกระจายของหลัง แต่เราประมาณไว้ ลักษณนามไร้เดียงสา Bayesประมาณลักษณนามที่ดีที่สุดโดยดูจากการกระจายเชิงประจักษ์และโดยการสมมติความเป็นอิสระของตัวทำนาย ดังนั้นตัวจําแนกเบส์ที่ไร้เดียงสาจึงไม่ได้ดีที่สุด แต่ก็ใกล้เคียงกับทางออกที่ดีที่สุด ในคำถามของคุณคุณดูสับสนทั้งสองอย่าง


ฉันคิดว่าฉันเข้าใจ: ดังนั้นการพิสูจน์อย่างเป็นทางการจะเป็นบางอย่างตามแนวของการสูญเสีย (action_1) = 1-P (action_2 | data) <--- เราต้องการลดสิ่งนี้ การลดขนาดให้เล็กลงนั้นเท่ากับการเพิ่มค่าก่อนหน้าของคลาสที่ถูกต้องอีกครั้ง (เช่นการเพิ่ม P (data_2 | data) ให้มากที่สุดสิ่งที่ทำให้ฉันสับสน แต่อย่างไรก็ตามทำไมลักษณนามทุกตัวจึงไม่เหมาะสมกับเรื่องนี้ สำหรับการกำหนดชุดข้อมูลให้กับคลาสดังนั้นหากเราเลือกที่จะกำหนดชุดข้อมูลของเราให้กับชั้นเรียนด้านหลังที่สูงกว่าเราจะไม่เติมเต็มการเพิ่มประสิทธิภาพนี้โดยอัตโนมัติหรือไม่

@TestGuest ตรวจสอบการแก้ไขของฉันเพื่อรับการพิสูจน์อย่างเป็นทางการ
ทิม

นั่นเป็นพิธีการที่ซับซ้อนที่สุดที่ฉันเคยเห็นเพื่อพิสูจน์ :)) ขอบคุณอย่างไรก็ตามฉันหวังว่ามันจะช่วยเหลือผู้อื่นเช่นกัน
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.