ค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบคืออะไร?

20

ความแม่นยำหมายถึง:

p = true positives / (true positives + false positives)

มันถูกต้องหรือไม่ที่ในฐานะtrue positivesและfalse positivesวิธีที่ 0 ความแม่นยำเข้าใกล้ 1?

คำถามเดียวกันสำหรับการเรียกคืน:

r = true positives / (true positives + false negatives)

ขณะนี้ฉันกำลังใช้การทดสอบทางสถิติที่ฉันต้องการคำนวณค่าเหล่านี้และบางครั้งมันก็เกิดขึ้นที่ตัวส่วนเป็น 0 และฉันสงสัยว่าจะคืนค่าใดให้กับกรณีนี้

PS: ขอโทษแท็กที่ไม่เหมาะสมผมอยากจะใช้recall, precisionและlimitแต่ฉันไม่สามารถสร้างแท็กใหม่ ๆ

precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

— Björn Pollex
แหล่งที่มา

ฉันไม่คิดว่าเราต้องการแท็ก จำกัด

สมมุติว่าคุณกำลังพยายามหาปริมาณประสิทธิภาพของกระบวนการวินิจฉัยบางอย่าง มีเหตุผลใดบ้างที่คุณไม่ได้ใช้เมตริกทฤษฎีการตรวจจับสัญญาณที่เหมาะสมเช่น d ', A' หรือพื้นที่ภายใต้เส้นโค้ง ROC

— Mike Lawrence

3

@ ไมค์ความแม่นยำและการเรียกคืนเป็นตัวชี้วัดการประเมินทั่วไปเช่นการดึงข้อมูลที่ ROC หรือโดยเฉพาะอย่างยิ่งเป็นเรื่องที่น่าอึดอัดใจที่จะใช้เพราะคุณคาดว่าจะมีผลบวกปลอมจำนวนมาก

— user979

17

รับเมทริกซ์ความสับสน:

            predicted
            (+)   (-)
            ---------
       (+) | TP | FN |
actual      ---------
       (-) | FP | TN |
            ---------

เรารู้ว่า:

Precision = TP / (TP + FP)
Recall = TP / (TP + FN)

ให้พิจารณากรณีที่ตัวส่วนเป็นศูนย์:

TP + FN = 0: หมายถึงไม่มีกรณีที่เป็นค่าบวกในข้อมูลอินพุต
TP + FP = 0: หมายความว่าอินสแตนซ์ทั้งหมดถูกคาดการณ์ว่าเป็นค่าลบ

— Amro
แหล่งที่มา

9

การขยายคำตอบของคุณ: หาก TP = 0 (ในทั้งสองกรณี) การเรียกคืนคือ 1 เนื่องจากวิธีการค้นพบผลบวกจริงทั้งหมด ความแม่นยำคือ 0 ถ้ามี FP และ 1 เป็นอย่างอื่น

11

คำตอบคือใช่ กรณีขอบที่ไม่ได้กำหนดเกิดขึ้นเมื่อ true positives (TP) เป็น 0 เนื่องจากนี่เป็นตัวส่วนของทั้ง P & R ในกรณีนี้

เรียกคืน = 1 เมื่อ FN = 0 ตั้งแต่ค้นพบ 100% ของ TP
ความแม่นยำ = 1 เมื่อ FP = 0 เนื่องจากไม่มีผลลัพธ์ที่ไม่น่าเกรงขาม

นี่คือการปฏิรูปความคิดเห็นของ @ mbq

— John Lehmann
แหล่งที่มา

3

ฉันคุ้นเคยกับคำศัพท์ที่แตกต่างกัน สิ่งที่คุณเรียกว่าความแม่นยำฉันจะให้ค่าพยากรณ์ที่เป็นบวก (PPV) และสิ่งที่คุณเรียกว่าการเรียกคืนฉันจะเรียกความไว (Sens) :

http://en.wikipedia.org/wiki/Receiver_operating_characteristic

ในกรณีของความไว (การเรียกคืน) ถ้าตัวหารเป็นศูนย์ (ตามที่แอมโรชี้ให้เห็น) จะไม่มีกรณีที่เป็นบวกดังนั้นการจำแนกประเภทจึงไม่มีความหมาย (นั่นไม่ได้หยุดทั้ง TP หรือ FN เป็นศูนย์ซึ่งจะส่งผลให้มีความไว จำกัด 1 หรือ 0 จุดเหล่านี้ตามลำดับที่มุมขวาบนและล่างซ้ายของเส้นโค้ง ROC - TPR = 1 และ TPR = 0 )

ขีด จำกัด ของ PPV นั้นมีความหมาย มีความเป็นไปได้ที่การทดสอบการตัดจะถูกตั้งค่าสูงมาก (หรือต่ำ) เพื่อให้ทุกกรณีถูกคาดการณ์ว่าเป็นค่าลบ นี่คือจุดเริ่มต้นของเส้นโค้ง ROC ค่า จำกัด ของ PPV ก่อนถึงจุดเริ่มต้นของการตัดสามารถประมาณได้โดยการพิจารณาส่วนสุดท้ายของเส้นโค้ง ROC ก่อนการกำเนิด (สิ่งนี้อาจจะดีกว่าในการสร้างแบบจำลองเนื่องจากเส้นโค้งของ ROC นั้นเสียงดังมาก)

ตัวอย่างเช่นหากมี 100 ผลบวกจริงและ 100 ลบจริงและ segnemt สุดท้ายของแนวทางโค้ง ROC จาก TPR = 0.08, FPR = 0.02 ดังนั้น PPV ที่ จำกัด จะเป็น PPR ~ 0.08 * 100 / (0.08 * 100 + 0.02 * 100 ) = 8/10 = 0.8 ie ความน่าจะเป็น 80% ของการเป็นค่าบวกที่แท้จริง

ในการปฏิบัติแต่ละตัวอย่างจะถูกแทนด้วยเซ็กเมนต์บนเส้นโค้ง ROC - แนวนอนสำหรับค่าลบจริงและแนวตั้งสำหรับค่าบวกจริง เราสามารถประมาณ PPV ที่ จำกัด โดยเซ็กเมนต์สุดท้ายก่อนต้นกำเนิด แต่นั่นจะให้ PPV ที่ จำกัด ประมาณ 1, 0 หรือ 0.5 ขึ้นอยู่กับว่าตัวอย่างสุดท้ายเป็นบวกจริงเท็จบวก (ลบจริง) หรือทำ ของ TP และ FP เท่ากัน วิธีการสร้างแบบจำลองจะดีกว่าอาจสันนิษฐานว่าข้อมูลเป็นแบบ binormal ซึ่งเป็นสมมติฐานทั่วไปเช่น: http://mdm.sagepub.com/content/8/3/197.short

— Thylacoleo
แหล่งที่มา

1

ซึ่งจะขึ้นอยู่กับสิ่งที่คุณหมายถึงโดย "วิธีการ 0" หากทั้งบวกและลบเท็จเข้าหาศูนย์ด้วยอัตราที่เร็วกว่าบวกจริงถ้าใช่ทั้งสองคำถาม แต่อย่างอื่นไม่จำเป็นต้อง

— Rob Hyndman
แหล่งที่มา

ฉันไม่รู้อัตราจริงๆ ความซื่อสัตย์ทั้งหมดที่ฉันรู้คือโปรแกรมของฉันหยุดทำงานโดยแบ่งเป็นศูนย์และฉันต้องจัดการกับกรณีดังกล่าว

— Björn Pollex