มีมากมาย - และสิ่งที่ได้ผลดีที่สุดนั้นขึ้นอยู่กับข้อมูล นอกจากนี้ยังมีหลายวิธีในการโกง - ตัวอย่างเช่นคุณสามารถทำการปรับเทียบความน่าจะเป็นในผลลัพธ์ของตัวจําแนกใด ๆ ที่ให้คะแนนบางส่วน (เช่น: ผลิตภัณฑ์ดอทระหว่างเวกเตอร์น้ำหนักและอินพุต) ตัวอย่างที่พบบ่อยที่สุดของสิ่งนี้เรียกว่าการปรับขนาดของแพลต
นอกจากนี้ยังมีเรื่องของรูปร่างของแบบจำลองพื้นฐาน หากคุณมีการโต้ตอบพหุนามกับข้อมูลของคุณการถดถอยโลจิสติกวานิลลาจะไม่สามารถทำแบบจำลองได้ดี แต่คุณสามารถใช้การถดถอยโลจิสติกเวอร์ชันเคอร์เนลเพื่อให้โมเดลเหมาะกับข้อมูลที่ดีกว่า สิ่งนี้มักจะเพิ่ม "ความดี" ของผลลัพธ์ความน่าจะเป็นเนื่องจากคุณกำลังปรับปรุงความแม่นยำของตัวจําแนกด้วย
โดยทั่วไปแล้วโมเดลส่วนใหญ่ที่ให้ความน่าจะเป็นมักจะใช้ฟังก์ชันลอจิสติกดังนั้นจึงเป็นการยากที่จะเปรียบเทียบ มันมีแนวโน้มที่จะทำงานได้ดีในทางปฏิบัติเครือข่ายแบบเบย์เป็นทางเลือก Naive Bayes เพียงแค่ตั้งสมมติฐานง่ายเกินไปสำหรับความน่าจะเป็นที่จะดี - และสามารถสังเกตได้ง่ายในชุดข้อมูลที่มีขนาดพอสมควร
ในท้ายที่สุดมันมักจะง่ายขึ้นในการเพิ่มคุณภาพของการประมาณความน่าจะเป็นของคุณโดยเลือกแบบจำลองที่สามารถแสดงข้อมูลได้ดีกว่า ในแง่นี้มันไม่สำคัญว่าคุณจะได้รับความน่าจะเป็นมากเกินไป หากคุณสามารถได้รับความแม่นยำ 70% ด้วยการถดถอยโลจิสติกและ 98% กับ SVM - เพียงแค่ให้ความน่าจะเป็น "เต็มความมั่นใจ" เพียงอย่างเดียวจะทำให้คุณได้ผลลัพธ์ที่ "ดีกว่า" โดยวิธีการทำคะแนนส่วนใหญ่ จากนั้นคุณสามารถทำการสอบเทียบที่ฉันกล่าวถึงก่อนหน้านี้ทำให้ดีขึ้นจริง)
คำถามเดียวกันในบริบทของการไม่สามารถรับตัวจําแนกที่แม่นยำนั้นน่าสนใจยิ่งขึ้น แต่ฉันไม่แน่ใจว่ามีผู้ใดศึกษา / เปรียบเทียบในสถานการณ์ดังกล่าว