ค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบคืออะไร?


20

ความแม่นยำหมายถึง:

p = true positives / (true positives + false positives)

มันถูกต้องหรือไม่ที่ในฐานะtrue positivesและfalse positivesวิธีที่ 0 ความแม่นยำเข้าใกล้ 1?

คำถามเดียวกันสำหรับการเรียกคืน:

r = true positives / (true positives + false negatives)

ขณะนี้ฉันกำลังใช้การทดสอบทางสถิติที่ฉันต้องการคำนวณค่าเหล่านี้และบางครั้งมันก็เกิดขึ้นที่ตัวส่วนเป็น 0 และฉันสงสัยว่าจะคืนค่าใดให้กับกรณีนี้

PS: ขอโทษแท็กที่ไม่เหมาะสมผมอยากจะใช้recall, precisionและlimitแต่ฉันไม่สามารถสร้างแท็กใหม่ ๆ

precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

ฉันไม่คิดว่าเราต้องการแท็ก จำกัด

สมมุติว่าคุณกำลังพยายามหาปริมาณประสิทธิภาพของกระบวนการวินิจฉัยบางอย่าง มีเหตุผลใดบ้างที่คุณไม่ได้ใช้เมตริกทฤษฎีการตรวจจับสัญญาณที่เหมาะสมเช่น d ', A' หรือพื้นที่ภายใต้เส้นโค้ง ROC
Mike Lawrence

3
@ ไมค์ความแม่นยำและการเรียกคืนเป็นตัวชี้วัดการประเมินทั่วไปเช่นการดึงข้อมูลที่ ROC หรือโดยเฉพาะอย่างยิ่งเป็นเรื่องที่น่าอึดอัดใจที่จะใช้เพราะคุณคาดว่าจะมีผลบวกปลอมจำนวนมาก
user979

คำตอบ:


17

รับเมทริกซ์ความสับสน:

            predicted
            (+)   (-)
            ---------
       (+) | TP | FN |
actual      ---------
       (-) | FP | TN |
            ---------

เรารู้ว่า:

Precision = TP / (TP + FP)
Recall = TP / (TP + FN)

ให้พิจารณากรณีที่ตัวส่วนเป็นศูนย์:

  • TP + FN = 0: หมายถึงไม่มีกรณีที่เป็นค่าบวกในข้อมูลอินพุต
  • TP + FP = 0: หมายความว่าอินสแตนซ์ทั้งหมดถูกคาดการณ์ว่าเป็นค่าลบ

9
การขยายคำตอบของคุณ: หาก TP = 0 (ในทั้งสองกรณี) การเรียกคืนคือ 1 เนื่องจากวิธีการค้นพบผลบวกจริงทั้งหมด ความแม่นยำคือ 0 ถ้ามี FP และ 1 เป็นอย่างอื่น

11

คำตอบคือใช่ กรณีขอบที่ไม่ได้กำหนดเกิดขึ้นเมื่อ true positives (TP) เป็น 0 เนื่องจากนี่เป็นตัวส่วนของทั้ง P & R ในกรณีนี้

  • เรียกคืน = 1 เมื่อ FN = 0 ตั้งแต่ค้นพบ 100% ของ TP
  • ความแม่นยำ = 1 เมื่อ FP = 0 เนื่องจากไม่มีผลลัพธ์ที่ไม่น่าเกรงขาม

นี่คือการปฏิรูปความคิดเห็นของ @ mbq


3

ฉันคุ้นเคยกับคำศัพท์ที่แตกต่างกัน สิ่งที่คุณเรียกว่าความแม่นยำฉันจะให้ค่าพยากรณ์ที่เป็นบวก (PPV) และสิ่งที่คุณเรียกว่าการเรียกคืนฉันจะเรียกความไว (Sens) :

http://en.wikipedia.org/wiki/Receiver_operating_characteristic

ในกรณีของความไว (การเรียกคืน) ถ้าตัวหารเป็นศูนย์ (ตามที่แอมโรชี้ให้เห็น) จะไม่มีกรณีที่เป็นบวกดังนั้นการจำแนกประเภทจึงไม่มีความหมาย (นั่นไม่ได้หยุดทั้ง TP หรือ FN เป็นศูนย์ซึ่งจะส่งผลให้มีความไว จำกัด 1 หรือ 0 จุดเหล่านี้ตามลำดับที่มุมขวาบนและล่างซ้ายของเส้นโค้ง ROC - TPR = 1 และ TPR = 0 )

ขีด จำกัด ของ PPV นั้นมีความหมาย มีความเป็นไปได้ที่การทดสอบการตัดจะถูกตั้งค่าสูงมาก (หรือต่ำ) เพื่อให้ทุกกรณีถูกคาดการณ์ว่าเป็นค่าลบ นี่คือจุดเริ่มต้นของเส้นโค้ง ROC ค่า จำกัด ของ PPV ก่อนถึงจุดเริ่มต้นของการตัดสามารถประมาณได้โดยการพิจารณาส่วนสุดท้ายของเส้นโค้ง ROC ก่อนการกำเนิด (สิ่งนี้อาจจะดีกว่าในการสร้างแบบจำลองเนื่องจากเส้นโค้งของ ROC นั้นเสียงดังมาก)

ตัวอย่างเช่นหากมี 100 ผลบวกจริงและ 100 ลบจริงและ segnemt สุดท้ายของแนวทางโค้ง ROC จาก TPR = 0.08, FPR = 0.02 ดังนั้น PPV ที่ จำกัด จะเป็น PPR ~ 0.08 * 100 / (0.08 * 100 + 0.02 * 100 ) = 8/10 = 0.8 ie ความน่าจะเป็น 80% ของการเป็นค่าบวกที่แท้จริง

ในการปฏิบัติแต่ละตัวอย่างจะถูกแทนด้วยเซ็กเมนต์บนเส้นโค้ง ROC - แนวนอนสำหรับค่าลบจริงและแนวตั้งสำหรับค่าบวกจริง เราสามารถประมาณ PPV ที่ จำกัด โดยเซ็กเมนต์สุดท้ายก่อนต้นกำเนิด แต่นั่นจะให้ PPV ที่ จำกัด ประมาณ 1, 0 หรือ 0.5 ขึ้นอยู่กับว่าตัวอย่างสุดท้ายเป็นบวกจริงเท็จบวก (ลบจริง) หรือทำ ของ TP และ FP เท่ากัน วิธีการสร้างแบบจำลองจะดีกว่าอาจสันนิษฐานว่าข้อมูลเป็นแบบ binormal ซึ่งเป็นสมมติฐานทั่วไปเช่น: http://mdm.sagepub.com/content/8/3/197.short


1

ซึ่งจะขึ้นอยู่กับสิ่งที่คุณหมายถึงโดย "วิธีการ 0" หากทั้งบวกและลบเท็จเข้าหาศูนย์ด้วยอัตราที่เร็วกว่าบวกจริงถ้าใช่ทั้งสองคำถาม แต่อย่างอื่นไม่จำเป็นต้อง


ฉันไม่รู้อัตราจริงๆ ความซื่อสัตย์ทั้งหมดที่ฉันรู้คือโปรแกรมของฉันหยุดทำงานโดยแบ่งเป็นศูนย์และฉันต้องจัดการกับกรณีดังกล่าว
Björn Pollex
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.