เหตุใดจึงใช้ตัวจําแนกเบส์เพื่อให้ได้ประสิทธิภาพที่ดีที่สุดที่สามารถทำได้ หลักฐาน / คำอธิบายอย่างเป็นทางการสำหรับสิ่งนี้คืออะไร?
โดยปกติชุดข้อมูลจะถูกพิจารณาว่าประกอบด้วยตัวอย่าง iidของการกระจายที่สร้างข้อมูลของคุณ จากนั้นคุณสร้างแบบจำลองการคาดการณ์จากข้อมูลที่ได้รับ: ได้รับตัวอย่างคุณคาดการณ์ระดับในขณะที่ระดับที่แท้จริงของกลุ่มตัวอย่างเป็น(x_i)Dnxixif^(xi)f(xi)
แต่ในทางทฤษฎีคุณสามารถตัดสินใจที่จะไม่เลือกหนึ่งในรูปแบบเฉพาะแต่พิจารณาทุกรุ่นที่เป็นไปได้ในครั้งเดียวและรวมพวกเขาอย่างใดเป็นหนึ่งใหญ่รุ่น .f^chosenf^F^
แน่นอนว่าจากข้อมูลแล้วmodells ขนาดเล็กจำนวนมากอาจไม่น่าจะเป็นไปได้หรือไม่เหมาะสม (ตัวอย่างเช่นแบบจำลองที่ทำนายค่าของเป้าหมายเพียงค่าเดียวแม้ว่าจะมีหลายค่าของเป้าหมายในชุดข้อมูล )D
ในกรณีใด ๆ คุณต้องการทำนายค่าเป้าหมายของตัวอย่างใหม่ซึ่งดึงมาจากการแจกแจงแบบเดียวกับ s เป็นมาตรการที่ดีของประสิทธิภาพการทำงานของรูปแบบของคุณจะเป็น
คือความน่าจะเป็นที่คุณคาดการณ์ ค่าเป้าหมายที่แท้จริงสำหรับสุ่มXxiee(model)=P[f(X)=model(X)],
X
เมื่อใช้สูตร Bayes คุณสามารถคำนวณความน่าจะเป็นที่กลุ่มตัวอย่างใหม่มีค่าเป้าหมายได้จากข้อมูล :xvD
P(v∣D)=∑f^P(v∣f^)P(f^∣D).
หนึ่งควรเน้นว่า
- มักจะเป็นหรือเนื่องจากเป็นหน้าที่ของ ,P(v∣f^)01f^x
- ไม่ปกติ แต่เกือบตลอดเวลามันเป็นไปไม่ได้ที่จะประมาณค่า (ยกเว้นกรณีเล็กน้อยดังกล่าวข้างต้น)P(f^∣D)
- ไม่ปกติ แต่เกือบตลอดเวลาจำนวนรุ่นที่เป็นไปได้ใหญ่เกินไปสำหรับการประเมินผลรวมf^
ดังนั้นจึงเป็นเรื่องยากมากที่จะได้รับ / ประเมินในกรณีส่วนใหญ่P(v∣D)
ตอนนี้เราไปยังลักษณนามของ Optimal Bayes สำหรับกำหนดจะทำนายค่า
ตั้งแต่นี้เป็นค่าที่น่าจะเป็นมากที่สุดในหมู่เป้าหมายเป็นไปได้ทั้งหมดค่า , ลักษณนามที่เหมาะสม Bayes เพิ่มมาตรการประสิทธิภาพ{F})xv^=argmaxv∑f^P(v∣f^)P(f^∣D).
ve(f^)
เนื่องจากเราใช้ตัวจําแนกเบส์เป็นเกณฑ์มาตรฐานเพื่อเปรียบเทียบประสิทธิภาพของตัวจําแนกอื่น ๆ ทั้งหมด
อาจเป็นไปได้ว่าคุณใช้ตัวจําแนกเบส์รุ่นซื่อๆ มันง่ายที่จะติดตั้งใช้งานได้ดีเวลาส่วนใหญ่ แต่คำนวณเพียงการประเมินไร้เดียงสาเท่านั้นP(v∣D)