เราสามารถตีความความน่าจะเป็นหลังที่ได้จากตัวจําแนกที่ส่งออกค่าคลาสที่ทำนายไว้และความน่าจะเป็น (ตัวอย่างเช่นการถดถอยโลจิสติกหรือ Naive Bayes) เป็นคะแนนความเชื่อมั่นบางอย่างที่กำหนดให้กับค่า
เราสามารถตีความความน่าจะเป็นหลังที่ได้จากตัวจําแนกที่ส่งออกค่าคลาสที่ทำนายไว้และความน่าจะเป็น (ตัวอย่างเช่นการถดถอยโลจิสติกหรือ Naive Bayes) เป็นคะแนนความเชื่อมั่นบางอย่างที่กำหนดให้กับค่า
คำตอบ:
เมื่อคำตอบอื่น ๆ ระบุอย่างถูกต้องความน่าจะเป็นที่รายงานจากตัวแบบเช่นการถดถอยโลจิสติกและเบย์ไร้เดียงสาเป็นการประมาณความน่าจะเป็นของคลาส ถ้าแบบจำลองเป็นจริงความน่าจะเป็นน่าจะเป็นของการจำแนกประเภทที่ถูกต้อง
อย่างไรก็ตามมันค่อนข้างสำคัญที่จะต้องเข้าใจว่าสิ่งนี้อาจทำให้เข้าใจผิดเพราะโมเดลเป็นค่าประมาณและไม่ใช่โมเดลที่ถูกต้อง มีอย่างน้อยสามประเด็น
ความไม่แน่นอนเป็นเพียงความเป็นจริงในปัจจุบันทุกที่ว่าน่าจะเป็นเพียงการประมาณการ ช่วงความมั่นใจของความน่าจะเป็นของคลาสโดยประมาณสามารถให้แนวคิดเกี่ยวกับความไม่แน่นอน (ของความน่าจะเป็นของคลาสไม่ใช่การจำแนกประเภท)
หากรูปแบบเป็นสิ่งที่ผิด และหน้ามันเป็นความน่าจะเป็นระดับที่สามารถทำให้เข้าใจผิดค่อนข้างแม้ว่าการคาดการณ์ระดับที่ดี การถดถอยโลจิสติกสามารถทำให้คลาสน่าจะผิดสำหรับสองคลาสที่แยกจากกันได้ค่อนข้างดีหากบางจุดข้อมูลมีความสุดขั้วเล็กน้อย มันอาจยังทำงานได้ดีในแง่ของการจำแนก-
ถ้าขั้นตอนการประเมิน (โดยเจตนา) ให้การประมาณแบบลำเอียงความน่าจะเป็นของคลาสนั้นผิด นี่คือสิ่งที่ฉันเห็นด้วยวิธีการทำให้เป็นมาตรฐานเช่น lasso และ ridge สำหรับการถดถอยโลจิสติก ในขณะที่ตัวเลือกการตรวจสอบความถูกต้องแบบข้ามถูกนำไปสู่แบบจำลองที่มีประสิทธิภาพที่ดีในแง่ของการจำแนกประเภทความน่าจะเป็นของคลาสที่เกิดขึ้นจะถูกประเมินอย่างชัดเจนต่ำกว่า (มากเกินไปถึง 0.5) ในกรณีทดสอบ สิ่งนี้ไม่ได้เลวร้าย แต่สำคัญที่ต้องระวัง
สำหรับกรณีทดสอบ (อินพุตเฉพาะ) คลาส (พูดถึงเลเบล 1 สำหรับเอาต์พุตไบนารี) ความน่าจะเป็นที่คาดการณ์ได้คือโอกาสที่ตัวอย่างทดสอบจะเป็นของคลาสนั้น จากกรณีทดสอบจำนวนมากสัดส่วนของกลุ่มที่ 1 จะมีแนวโน้มที่จะเป็นไปได้ ความมั่นใจ มีนัยยะของช่วงความมั่นใจซึ่งเป็นสิ่งที่แตกต่างกันมาก
ถ้าลักษณนามทำนายคลาสที่แน่นอนด้วยความน่าจะเป็นจำนวนนั้นสามารถใช้เป็นพร็อกซีสำหรับระดับความเชื่อมั่นในการจำแนกประเภทนั้น เพื่อไม่ให้สับสนกับช่วงความมั่นใจ ตัวอย่างเช่นถ้าลักษณนาม P ทำนายสองกรณีเป็น +1 & -1 ที่มีความน่าจะเป็น 80% และ 60% มันถูกต้องที่จะบอกว่ามันมั่นใจในการจำแนก +1 มากกว่าการจำแนกประเภท -1 ความแปรปรวนที่วัดโดย p (1-p) ก็เป็นตัวชี้วัดความไม่แน่นอนเช่นกัน หมายเหตุความเชื่อมั่นพื้นฐานคือ 50% ไม่ใช่ 0
ให้ลักษณนามที่มี 2 คลาส (เช่น discriminant linear discriminant หรือ classist regression ลอจิสติก 2 คลาส) ค่า discriminant สำหรับทั้งสองคลาสสามารถนำไปใช้กับฟังก์ชัน softmax เพื่อประเมินความน่าจะเป็นหลังสำหรับคลาสนั้น:
P1 = exp (d1) / (exp (d1) + exp (d2))
ที่ P1 คือการประมาณความน่าจะเป็นหลังสำหรับคลาส 1, d1 และ d2 เป็นค่าที่จำแนกสำหรับคลาส 1 และ 2 ตามลำดับ ในกรณีนี้ความน่าจะเป็นด้านหลังสำหรับชั้นเรียนที่กำหนดสามารถใช้เป็นระดับความเชื่อมั่นในชั้นเรียนสำหรับกรณีที่กำหนดเนื่องจาก P1 จะเท่ากับ 1 - P2