สามารถทำนายความน่าจะเป็นของการถดถอยโลจิสติกสามารถตีความเป็นความเชื่อมั่นในการจัดหมวดหมู่


12

เราสามารถตีความความน่าจะเป็นหลังที่ได้จากตัวจําแนกที่ส่งออกค่าคลาสที่ทำนายไว้และความน่าจะเป็น (ตัวอย่างเช่นการถดถอยโลจิสติกหรือ Naive Bayes) เป็นคะแนนความเชื่อมั่นบางอย่างที่กำหนดให้กับค่า

คำตอบ:


8

เมื่อคำตอบอื่น ๆ ระบุอย่างถูกต้องความน่าจะเป็นที่รายงานจากตัวแบบเช่นการถดถอยโลจิสติกและเบย์ไร้เดียงสาเป็นการประมาณความน่าจะเป็นของคลาส ถ้าแบบจำลองเป็นจริงความน่าจะเป็นน่าจะเป็นของการจำแนกประเภทที่ถูกต้อง

อย่างไรก็ตามมันค่อนข้างสำคัญที่จะต้องเข้าใจว่าสิ่งนี้อาจทำให้เข้าใจผิดเพราะโมเดลเป็นค่าประมาณและไม่ใช่โมเดลที่ถูกต้อง มีอย่างน้อยสามประเด็น

  • ความไม่แน่นอนของการประมาณ
  • การสะกดผิดรูปแบบ
  • อคติ

ความไม่แน่นอนเป็นเพียงความเป็นจริงในปัจจุบันทุกที่ว่าน่าจะเป็นเพียงการประมาณการ ช่วงความมั่นใจของความน่าจะเป็นของคลาสโดยประมาณสามารถให้แนวคิดเกี่ยวกับความไม่แน่นอน (ของความน่าจะเป็นของคลาสไม่ใช่การจำแนกประเภท)

หากรูปแบบเป็นสิ่งที่ผิด และหน้ามันเป็นความน่าจะเป็นระดับที่สามารถทำให้เข้าใจผิดค่อนข้างแม้ว่าการคาดการณ์ระดับที่ดี การถดถอยโลจิสติกสามารถทำให้คลาสน่าจะผิดสำหรับสองคลาสที่แยกจากกันได้ค่อนข้างดีหากบางจุดข้อมูลมีความสุดขั้วเล็กน้อย มันอาจยังทำงานได้ดีในแง่ของการจำแนก-

ถ้าขั้นตอนการประเมิน (โดยเจตนา) ให้การประมาณแบบลำเอียงความน่าจะเป็นของคลาสนั้นผิด นี่คือสิ่งที่ฉันเห็นด้วยวิธีการทำให้เป็นมาตรฐานเช่น lasso และ ridge สำหรับการถดถอยโลจิสติก ในขณะที่ตัวเลือกการตรวจสอบความถูกต้องแบบข้ามถูกนำไปสู่แบบจำลองที่มีประสิทธิภาพที่ดีในแง่ของการจำแนกประเภทความน่าจะเป็นของคลาสที่เกิดขึ้นจะถูกประเมินอย่างชัดเจนต่ำกว่า (มากเกินไปถึง 0.5) ในกรณีทดสอบ สิ่งนี้ไม่ได้เลวร้าย แต่สำคัญที่ต้องระวัง


2

สำหรับกรณีทดสอบ (อินพุตเฉพาะ) คลาส (พูดถึงเลเบล 1 สำหรับเอาต์พุตไบนารี) ความน่าจะเป็นที่คาดการณ์ได้คือโอกาสที่ตัวอย่างทดสอบจะเป็นของคลาสนั้น จากกรณีทดสอบจำนวนมากสัดส่วนของกลุ่มที่ 1 จะมีแนวโน้มที่จะเป็นไปได้ ความมั่นใจ มีนัยยะของช่วงความมั่นใจซึ่งเป็นสิ่งที่แตกต่างกันมาก


1

ถ้าลักษณนามทำนายคลาสที่แน่นอนด้วยความน่าจะเป็นจำนวนนั้นสามารถใช้เป็นพร็อกซีสำหรับระดับความเชื่อมั่นในการจำแนกประเภทนั้น เพื่อไม่ให้สับสนกับช่วงความมั่นใจ ตัวอย่างเช่นถ้าลักษณนาม P ทำนายสองกรณีเป็น +1 & -1 ที่มีความน่าจะเป็น 80% และ 60% มันถูกต้องที่จะบอกว่ามันมั่นใจในการจำแนก +1 มากกว่าการจำแนกประเภท -1 ความแปรปรวนที่วัดโดย p (1-p) ก็เป็นตัวชี้วัดความไม่แน่นอนเช่นกัน หมายเหตุความเชื่อมั่นพื้นฐานคือ 50% ไม่ใช่ 0


1

ให้ลักษณนามที่มี 2 คลาส (เช่น discriminant linear discriminant หรือ classist regression ลอจิสติก 2 คลาส) ค่า discriminant สำหรับทั้งสองคลาสสามารถนำไปใช้กับฟังก์ชัน softmax เพื่อประเมินความน่าจะเป็นหลังสำหรับคลาสนั้น:

P1 = exp (d1) / (exp (d1) + exp (d2))

ที่ P1 คือการประมาณความน่าจะเป็นหลังสำหรับคลาส 1, d1 และ d2 เป็นค่าที่จำแนกสำหรับคลาส 1 และ 2 ตามลำดับ ในกรณีนี้ความน่าจะเป็นด้านหลังสำหรับชั้นเรียนที่กำหนดสามารถใช้เป็นระดับความเชื่อมั่นในชั้นเรียนสำหรับกรณีที่กำหนดเนื่องจาก P1 จะเท่ากับ 1 - P2


1
คำตอบนี้ดูเหมือนจะถือเป็น "ความน่าจะเป็น" กับ "ความมั่นใจ" ในขณะที่คำตอบของ @ Yoda (อย่างถูกต้อง) จะแยกความแตกต่างทั้งสองอย่าง
whuber

@ โฮเบอร์ฉันคิดว่าในแง่ทั่วไปความมั่นใจสามารถถูกมองว่าเป็นความแข็งแกร่ง ด้วยวิธีนี้มันก็เหมือนความน่าจะเป็น ช่วงความเชื่อมั่นและความมั่นใจเป็นสองสิ่งที่แตกต่างกัน อย่างไรก็ตามแม้สำหรับช่วงความเชื่อมั่นของคำว่าระดับความมั่นใจคือความน่าจะเป็นความครอบคลุมสำหรับช่วงเวลาแบบสุ่ม
Michael R. Chernick

ฉันไม่เห็นด้วยกับคำพูดของคุณ @Michael ในแง่ที่ว่าคำว่า "คะแนนความเชื่อมั่น" อาจหมายถึงเกือบทุกอย่าง (แต่บางทีการใช้งานนั้นควรถูกคัดค้านด้วยเหตุผลนั้น) แต่คุณค่าที่เหมาะสมจากการถดถอยแบบโลจิสติกส์คือ ข้อเสนอที่คุณใช้ "ความเชื่อมั่น" เป็นจุดแข็งของความเชื่อทำให้มีความหมายเหมือนกันกับ "ความน่าจะเป็นแบบอัตนัย" หรือยังคงมีความแตกต่างอยู่บ้างหรือไม่? (ถ้าเป็นเช่นนั้นเป็นอย่างไร)
whuber

1
@ โฮเบอร์ฉันคิดว่าคุณจะลึกเข้าไปในเรื่องนี้มากกว่าที่ฉันตั้งใจด้วยคำพูดของฉัน ฉันแค่อยากจะบอกว่าเพียงเพราะเรามักจะเชื่อมโยงคำว่า "ความมั่นใจ" กับช่วงความมั่นใจมันไม่ได้หมายความว่าคะแนนความเชื่อมั่นของคำว่า OPs ไม่สามารถนำมาใช้เพื่อหมายถึงความน่าจะเป็น (อาจจะเหมือนกับมุมมองความเป็น ของความเชื่อ แต่ไม่จำเป็น)
Michael R. Chernick

1
@ โฮเบอร์ฉันหมายถึงความมั่นใจในฉลากระดับในแง่ของ 'ความแข็งแกร่งของความเชื่อ' นั่นคือยิ่งค่าความน่าจะเป็นด้านหลังสำหรับชั้นเรียนที่ใหญ่ขึ้นเท่าใดความมั่นใจที่คุณมีต่อฉลากระดับที่คาดการณ์ไว้ ยินดีที่จะลบคำตอบนี้อย่างไรก็ตาม
BGreene
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.