จะได้รับการตีความความน่าจะเป็นของ AUC อย่างไร


14

ทำไมพื้นที่ภายใต้ ROC โค้งความน่าจะเป็นที่ตัวจําแนกจะจัดอันดับอินสแตนซ์ "บวก" ที่เลือกแบบสุ่ม (จากการทำนายที่ดึงมา) สูงกว่าแบบสุ่ม "บวก" ที่เลือกโดยสุ่ม (จากชั้นบวกดั้งเดิม) เราจะพิสูจน์คำแถลงนี้ได้อย่างไรในเชิงคณิตศาสตร์โดยใช้อินทิกรัลโดยให้ CDFs และ PDF ของการแจกแจงคลาสที่เป็นบวกและลบจริง


2
ฉันเขียนหลักฐานเบื้องต้นเกี่ยวกับเรื่องนี้ที่นี่: madrury.github.io/jekyll/update/statistics/2017/06/21/…
Matthew Drury

คำตอบ:


10

อย่างแรกลองกำหนดพื้นที่ใต้เส้นโค้ง ROC อย่างเป็นทางการ สมมติฐานและคำจำกัดความบางประการ:

  • เรามีลักษณนามน่าจะเป็นที่เอาท์พุท "คะแนน" s (x) โดยที่ x เป็นคุณลักษณะและ s คือฟังก์ชันโมโนโทนิกที่เพิ่มขึ้นทั่วไปของความน่าจะเป็นโดยประมาณ p (class = 1 | x)

  • , ด้วย k = { 0 , 1 } : = pdf ของคะแนนสำหรับคลาส k, ด้วย CDF F k ( s )fk(s)k={0,1}Fk(s)

  • การจำแนกประเภทของการสังเกตใหม่นั้นได้มาจากคะแนนsถึงขีด จำกัดt

นอกจากนี้เพื่อความสะดวกทางคณิตศาสตร์ลองพิจารณาคลาสบวก (ตรวจพบเหตุการณ์) k = 0 และลบ k = 1 ในการตั้งค่านี้เราสามารถกำหนด:

  • เรียกคืน (aka Sensitivity, aka TPR) : (สัดส่วนของผู้ป่วยที่เป็นบวกแยกเป็นบวก)F0(t)
  • ความเฉพาะเจาะจง (aka TNR) : (สัดส่วนของผู้ติดลบที่จำแนกเป็นลบ)1F1(t)
  • FPR (aka Fall-out) : 1 - TNR = F1(t)

เส้นโค้ง ROC แล้วพล็อตของ กับ F 1 ( T ) การตั้งค่าv = F 1 ( s )เราสามารถกำหนดพื้นที่อย่างเป็นทางการภายใต้เส้นโค้ง ROC เป็น: A U C = 1 0 F 0 ( F - 1 1 ( v ) ) d v การเปลี่ยนตัวแปร ( d v = f 1 ( s ) d sF0(t)F1(t)v=F1(s)

AUC=01F0(F11(v))dv
dv=f1(s)ds): U C = - F 0 ( s ) 1 ( s ) d s
AUC=F0(s)f1(s)ds

สูตรนี้สามารถเห็นได้ง่ายว่าเป็นความน่าจะเป็นที่สมาชิกสุ่มที่ดึงของคลาส 0 จะผลิตคะแนนต่ำกว่าคะแนนของสมาชิกที่วาดแบบสุ่มของคลาส 1

หลักฐานนี้นำมาจาก: https://pdfs.semanticscholar.org/1fcb/f15898db36990f651c1e5cdc0b405855de2c.pdf


5

คำตอบของ @ alebu นั้นยอดเยี่ยม แต่สัญกรณ์มันไม่เป็นมาตรฐานและใช้ 0 สำหรับคลาสบวกและ 1 สำหรับคลาสลบ ด้านล่างนี้เป็นผลของสัญกรณ์มาตรฐาน (0 สำหรับคลาสลบและ 1 สำหรับคลาสบวก):

f0(s)F0(s)

f1(s)F1(s)

x(s)=1F0(s)

y(s)=1F1(s)

AUC=01y(x)dx=01y(x(τ))dx(τ)=+y(τ)x(τ)dτ=+(1F1(τ))(f0(τ))dτ=+(1F1(τ))f0(τ)dτ

τ


1

τ

  1. A
  2. BA
  3. τ

P(A>τ)P(B>τ)

τAUC

เราได้รับ:

AUC=01TPR(x)dx=01P(A>τ(x))dx
xxTPR

(1)AUC=Ex[P(A>τ(x))]
xU[0,1)

xFPR

x=FPR=P(B>τ(x))
x

P(B>τ(x))U
=>P(B<τ(x))(1U)U
(2)=>FB(τ(x))U

XFX(Y)UYX

FX(X)=P(FX(x)<X)=P(X<FX1(X))=FXFX1(X)=X

τ(x)B

แทนสิ่งนี้เป็นสมการ (1) เราได้:

AUC=Ex(P(A>B))=P(A>B)

กล่าวอีกนัยหนึ่งพื้นที่ใต้เส้นโค้งคือความน่าจะเป็นที่ตัวอย่างบวกแบบสุ่มจะมีคะแนนสูงกว่าตัวอย่างเชิงลบแบบสุ่ม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.