คำถามติดแท็ก precision-recall

P&R เป็นวิธีการวัดความเกี่ยวข้องของชุดอินสแตนซ์ที่ดึงมา ความแม่นยำคือ% ของอินสแตนซ์ที่ถูกต้องจากการดึงอินสแตนซ์ทั้งหมด ความเกี่ยวข้องคือ% ของอินสแตนซ์ที่แท้จริงที่ดึงมา ค่าเฉลี่ยฮาร์มอนิกของ P&R คือคะแนน F1 P&R ใช้ในการขุดข้อมูลเพื่อประเมินตัวแยกประเภท

3
ROC กับเส้นโค้งความแม่นยำและความทรงจำ
ฉันเข้าใจความแตกต่างอย่างเป็นทางการระหว่างพวกเขาสิ่งที่ฉันอยากรู้ก็คือเมื่อมันเกี่ยวข้องกับการใช้อย่างใดอย่างหนึ่งกับอีก พวกเขาให้ข้อมูลเชิงลึกที่สมบูรณ์เกี่ยวกับประสิทธิภาพของระบบการจำแนกประเภท / การตรวจจับที่ให้มาหรือไม่? เมื่อใดที่มีเหตุผลที่จะให้พวกเขาทั้งสองพูดในกระดาษ? แทนที่จะเป็นเพียงหนึ่ง? มีคำอธิบายอื่น ๆ (อาจทันสมัยกว่า) ที่จับประเด็นที่เกี่ยวข้องของทั้ง ROC และการเรียกคืนที่แม่นยำสำหรับระบบการจำแนกประเภทหรือไม่? ฉันสนใจในการโต้แย้งสำหรับทั้งสองกรณีและไบนารี (เช่นเดียวกับทุกกรณี)

3
คุณคำนวณความแม่นยำและเรียกคืนการจำแนกประเภทหลายคลาสโดยใช้เมตริกซ์ความสับสนได้อย่างไร
ฉันสงสัยว่าจะคำนวณความแม่นยำและเรียกคืนได้อย่างไรโดยใช้เมตริกซ์ความสับสนสำหรับปัญหาการจำแนกประเภทหลายชั้น โดยเฉพาะการสังเกตสามารถกำหนดให้กับคลาส / ฉลากที่เป็นไปได้มากที่สุดเท่านั้น ฉันต้องการคำนวณ: ความแม่นยำ = TP / (TP + FP) เรียกคืน = TP / (TP + FN) สำหรับแต่ละชั้นเรียนจากนั้นคำนวณค่า F-micro เฉลี่ย

8
วิธีคำนวณความแม่นยำ / การเรียกคืนสำหรับการจำแนกประเภทมัลติคลาส / มัลติลาเบล
ฉันสงสัยว่าจะคำนวณความแม่นยำและมาตรการการเรียกคืนสำหรับการจำแนกประเภทหลายคลาสแบบหลายป้ายกำกับได้อย่างไรเช่นการจำแนกที่มีป้ายกำกับมากกว่าสองป้ายและแต่ละกรณีสามารถมีป้ายกำกับได้หลายป้าย

9
จะตีความค่า F-measure ได้อย่างไร?
ฉันต้องการทราบวิธีตีความความแตกต่างของค่าการวัดค่า ฉันรู้ว่าการวัดค่า f เป็นค่าเฉลี่ยที่สมดุลระหว่างความแม่นยำและการเรียกคืน แต่ฉันถามถึงความหมายที่ใช้งานได้จริงของความแตกต่างในการวัดค่า F ตัวอย่างเช่นถ้าลักษณนาม C1 มีความแม่นยำ 0.4 และลักษณนาม C2 อีกตัวหนึ่งมีความแม่นยำ 0.8 เราสามารถพูดได้ว่า C2 ได้จำแนกตัวอย่างทดสอบสองเท่าอย่างถูกต้องเมื่อเปรียบเทียบกับ C1 อย่างไรก็ตามถ้าลักษณนาม C1 มีค่า F- วัด 0.4 สำหรับบางคลาสและลักษณนามอีก C2 ค่า F เป็น 0.8 เราจะระบุอะไรเกี่ยวกับความแตกต่างของประสิทธิภาพของตัวแยกประเภท 2? เราสามารถพูดได้ว่า C2 ได้จำแนกอินสแตนซ์ X ที่ถูกต้องมากขึ้นแล้วหรือไม่?

4
ปรับให้เหมาะสมสำหรับเส้นโค้ง Precision-Recall ภายใต้ความไม่สมดุลของคลาส
ฉันมีงานการจัดหมวดหมู่ที่ฉันมีตัวทำนายจำนวนหนึ่ง (หนึ่งในนั้นมีข้อมูลมากที่สุด) และฉันใช้แบบจำลองMARSเพื่อสร้างตัวจําแนกของฉัน (ฉันสนใจในแบบจําลองง่าย ๆ และใช้ glms เพื่อจุดประสงค์ในการอธิบาย ดีเกินไป). ตอนนี้ฉันมีความไม่สมดุลระดับมากในข้อมูลการฝึกอบรม (ประมาณ 2700 ตัวอย่างลบสำหรับตัวอย่างบวกแต่ละตัวอย่าง) เช่นเดียวกับงานสืบค้นข้อมูลฉันมีความกังวลมากขึ้นเกี่ยวกับการทำนายตัวอย่างการทดสอบเชิงบวกอันดับสูงสุด ด้วยเหตุนี้ประสิทธิภาพในการโค้งแม่นยำของ Recall จึงเป็นสิ่งสำคัญสำหรับฉัน ก่อนอื่นฉันเพียงแค่ฝึกฝนโมเดลข้อมูลการฝึกอบรมของฉันเพื่อรักษาความไม่สมดุลของคลาสเหมือนเดิม ฉันเห็นรูปแบบการฝึกของฉันเป็นสีแดงและอินพุตที่สำคัญที่สุดเป็นสีน้ำเงิน การฝึกอบรมเกี่ยวกับข้อมูลที่ไม่สมดุลการประเมินข้อมูลที่ไม่สมดุล : การคิดว่าความไม่สมดุลในชั้นเรียนกำลังลดลงของแบบจำลองเนื่องจากการเรียนรู้ตัวอย่างเชิงบวกอันดับสูงสุดเป็นส่วนสั้น ๆ ของชุดข้อมูลทั้งหมดฉันเพิ่มจุดฝึกอบรมเชิงบวกเพื่อให้ได้ชุดข้อมูลการฝึกอบรมที่สมดุล เมื่อฉันวางแผนการแสดงในชุดการฝึกอบรมที่สมดุลฉันจะได้รับประสิทธิภาพที่ดี ทั้งในส่วนโค้ง PR และ ROC แบบจำลองที่ผ่านการฝึกอบรมของฉันทำได้ดีกว่าอินพุต การฝึกอบรมเกี่ยวกับข้อมูลที่สมดุล (อัปแซมปิน) การประเมินบนข้อมูลที่สมดุล (อัปแซมปิน): อย่างไรก็ตามหากฉันใช้โมเดลนี้ที่ได้รับการฝึกอบรมเกี่ยวกับข้อมูลที่สมดุลเพื่อคาดการณ์ชุดฝึกอบรมที่ไม่สมดุลแบบดั้งเดิมฉันยังคงได้รับประสิทธิภาพที่ไม่ดีบนกราฟเส้นโค้ง การฝึกอบรมเรื่องข้อมูลที่สมดุล (อัปตัวอย่าง), การประเมินข้อมูลที่ไม่สมดุลเดิม: ดังนั้นคำถามของฉันคือ: เหตุผลที่การสร้างภาพข้อมูลของเส้นโค้ง PR แสดงถึงประสิทธิภาพที่ด้อยกว่าของรุ่นที่ได้รับการฝึกอบรมของฉัน (สีแดง) ในขณะที่เส้นโค้ง ROC แสดงการปรับปรุงเนื่องจากความไม่สมดุลของคลาส? วิธี resampling / up-sampling …

1
ตัวเลขในรายงานการจำแนกประเภทของ sklearn หมายถึงอะไร
ฉันมีตัวอย่างด้านล่างที่ดึงมาจากเอกสาร sklearn.metrics.classification_report ของ sklearn สิ่งที่ฉันไม่เข้าใจคือเหตุผลที่มีค่า f1 คะแนนความแม่นยำและการเรียกคืนค่าสำหรับแต่ละชั้นที่ฉันเชื่อว่าระดับเป็นป้ายตัวทำนาย? ฉันคิดว่าคะแนน f1 บอกคุณถึงความแม่นยำโดยรวมของโมเดล นอกจากนี้คอลัมน์สนับสนุนบอกอะไรเรา ฉันไม่พบข้อมูลใด ๆ print(classification_report(y_true, y_pred, target_names=target_names)) precision recall f1-score support class 0 0.50 1.00 0.67 1 class 1 0.00 0.00 0.00 1 class 2 1.00 0.67 0.80 3 avg / total 0.70 0.60 0.61 5

2
พื้นที่ภายใต้ Precision-Recall Curve (AUC ของ PR-curve) และ Average Precision (AP)
Average Precision (AP) เป็นพื้นที่ภายใต้ Precision-Recall Curve (AUC ของ PR-curve) หรือไม่ แก้ไข: นี่คือความคิดเห็นเกี่ยวกับความแตกต่างใน PR AUC และ AP AUC นั้นได้มาจากการประมาณค่าความแม่นยำสี่เหลี่ยมคางหมู อีกทางเลือกหนึ่งและมักจะเทียบเท่ากับตัวชี้วัดคือ Average Precision (AP) ซึ่งส่งคืนเป็น info.ap นี่คือค่าเฉลี่ยของความแม่นยำที่ได้รับทุกครั้งที่มีการเรียกคืนตัวอย่างบวกใหม่ มันเป็นเช่นเดียวกับ AUC หากความแม่นยำถูกแก้ไขโดยส่วนคงที่และเป็นคำจำกัดความที่ใช้โดย TREC บ่อยที่สุด http://www.vlfeat.org/overview/plots-rank.html นอกจากนี้ผลลัพธ์ aucและaverage_precision_scoreไม่เหมือนกันใน scikit-Learn นี่เป็นเรื่องแปลกเพราะในเอกสารที่เรามี: คำนวณความแม่นยำเฉลี่ย (AP) จากคะแนนการทำนายคะแนนนี้สอดคล้องกับพื้นที่ใต้กราฟความแม่นยำในการจำ นี่คือรหัส: # Compute Precision-Recall and plot curve precision, recall, thresholds = precision_recall_curve(y_test, …

1
F1 / Dice-Score เทียบกับ IoU
ฉันสับสนเกี่ยวกับความแตกต่างระหว่างคะแนน F1, คะแนนลูกเต๋าและ IoU (จุดตัดผ่านสหภาพ) ตอนนี้ฉันพบว่า F1 และลูกเต๋าหมายถึงสิ่งเดียวกัน (ใช่ไหม) และ IoU มีสูตรที่คล้ายกันมากกับอีกสองรายการ F1 / ลูกเต๋า: 2 TP2 TP+ FP+ Fยังไม่มีข้อความ2TP2TP+FP+Fยังไม่มีข้อความ\frac{2TP}{2TP+FP+FN} IoU / Jaccard: TPTP+ FP+ Fยังไม่มีข้อความTPTP+FP+Fยังไม่มีข้อความ\frac{TP}{TP+FP+FN} มีความแตกต่างในทางปฏิบัติหรือสิ่งอื่น ๆ ที่ควรค่าแก่การสังเกตยกเว้น F1 นั้นให้น้ำหนักจริงที่สูงกว่าหรือไม่ มีสถานการณ์ที่ฉันจะใช้ แต่ไม่ใช่อีกสถานการณ์หนึ่งหรือไม่?

3
การจำแนกประเภท / การประเมินผลสำหรับข้อมูลที่มีความไม่สมดุลสูง
ฉันจัดการกับปัญหาการตรวจจับการฉ้อโกง (เหมือนการให้คะแนนเครดิต) ดังนั้นจึงมีความสัมพันธ์ที่ไม่สมดุลระหว่างการสังเกตการณ์ที่เป็นการฉ้อโกงและไม่หลอกลวง http://blog.revolutionanalytics.com/2016/03/com_class_eval_metrics_r.htmlให้ภาพรวมที่ดีของตัวชี้วัดการจำแนกประเภทที่แตกต่างกัน Precision and Recallหรือkappaทั้งคู่ดูเหมือนจะเป็นทางเลือกที่ดี: วิธีหนึ่งที่จะพิสูจน์ผลลัพธ์ของตัวแยกประเภทดังกล่าวคือการเปรียบเทียบพวกเขากับตัวแยกประเภทพื้นฐานและแสดงให้เห็นว่าพวกเขาดีกว่าการทำนายโอกาสแบบสุ่ม เท่าที่ผมเข้าใจkappaอาจเป็นทางเลือกที่ดีกว่าเล็กน้อยที่นี่เป็นโอกาสสุ่มถูกนำเข้าบัญชี จากคัปปาของโคเฮนในภาษาอังกฤษธรรมดาฉันเข้าใจว่าkappaเกี่ยวข้องกับแนวคิดของการได้รับข้อมูล: [... ] ความแม่นยำที่สังเกตได้ 80% นั้นน่าประทับใจน้อยกว่ามากด้วยความแม่นยำที่คาดหวัง 75% เทียบกับความแม่นยำที่คาดหวัง 50% [... ] ดังนั้นคำถามของฉันจะเป็น: ถูกต้องหรือไม่ที่จะถือว่าkappaเป็นตัวชี้วัดการจำแนกประเภทที่เหมาะสมกว่าสำหรับปัญหานี้ เพียงใช้kappaป้องกันผลกระทบเชิงลบของความไม่สมดุลในอัลกอริทึมการจำแนกประเภทหรือไม่? การเรียนรู้แบบสุ่มตัวอย่างหรือการเรียนรู้แบบใช้ต้นทุนเป็นเรื่องที่จำเป็นหรือไม่(ดูที่http://www.icmc.usp.br/~mcmonard/public/laptec2002.pdf )

4
ค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบคืออะไร?
ความแม่นยำหมายถึง: p = true positives / (true positives + false positives) มันถูกต้องหรือไม่ที่ในฐานะtrue positivesและfalse positivesวิธีที่ 0 ความแม่นยำเข้าใกล้ 1? คำถามเดียวกันสำหรับการเรียกคืน: r = true positives / (true positives + false negatives) ขณะนี้ฉันกำลังใช้การทดสอบทางสถิติที่ฉันต้องการคำนวณค่าเหล่านี้และบางครั้งมันก็เกิดขึ้นที่ตัวส่วนเป็น 0 และฉันสงสัยว่าจะคืนค่าใดให้กับกรณีนี้ PS: ขอโทษแท็กที่ไม่เหมาะสมผมอยากจะใช้recall, precisionและlimitแต่ฉันไม่สามารถสร้างแท็กใหม่ ๆ
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

3
ROC vs Curve ความแม่นยำในการจำบนชุดข้อมูลที่ไม่สมดุล
ฉันเพิ่งอ่านการสนทนานี้เสร็จแล้ว พวกเขายืนยันว่า PR AUC นั้นดีกว่า ROC AUC ในชุดข้อมูลที่ไม่สมดุล ตัวอย่างเช่นเรามี 10 ตัวอย่างในชุดข้อมูลทดสอบ 9 ตัวอย่างเป็นค่าบวกและ 1 เป็นค่าลบ เรามีโมเดลที่น่ากลัวซึ่งทำนายทุกอย่างในเชิงบวก ดังนั้นเราจะมีการวัดที่ TP = 9, FP = 1, TN = 0, FN = 0 จากนั้นความแม่นยำ = 0.9, เรียกคืน = 1.0 ความแม่นยำและการเรียกคืนมีทั้งสูงมาก แต่เรามีลักษณนามไม่ดี ในทางกลับกัน TPR = TP / (TP + FN) = 1.0, FPR = FP …

3
พื้นที่ใต้เส้นโค้ง ROC หรือพื้นที่ใต้เส้นโค้ง PR สำหรับข้อมูลที่ไม่สมดุล?
ฉันมีข้อสงสัยเกี่ยวกับการวัดประสิทธิภาพที่จะใช้พื้นที่ภายใต้เส้นโค้ง ROC (TPR เป็นฟังก์ชันของ FPR) หรือพื้นที่ใต้เส้นโค้งความแม่นยำ - การเรียกคืน (ความแม่นยำเป็นฟังก์ชันการเรียกคืน) ข้อมูลของฉันไม่สมดุลนั่นคือจำนวนอินสแตนซ์เชิงลบมีขนาดใหญ่กว่าอินสแตนซ์บวกมาก ฉันกำลังใช้การทำนายผลลัพธ์ของ weka ตัวอย่างคือ: inst#,actual,predicted,prediction 1,2:0,2:0,0.873 2,2:0,2:0,0.972 3,2:0,2:0,0.97 4,2:0,2:0,0.97 5,2:0,2:0,0.97 6,2:0,2:0,0.896 7,2:0,2:0,0.973 และฉันใช้ห้องสมุด pROC และ ROCR

5
การเพิ่มข้อมูลการฝึกอบรมมีผลกระทบต่อความแม่นยำของระบบโดยรวมอย่างไร
บางคนสามารถสรุปให้ฉันด้วยตัวอย่างที่เป็นไปได้ในสถานการณ์ใดที่เพิ่มข้อมูลการฝึกอบรมจะช่วยปรับปรุงระบบโดยรวมได้ เมื่อใดที่เราตรวจพบว่าการเพิ่มข้อมูลการฝึกอบรมมากขึ้นอาจเป็นข้อมูลที่เกินความเหมาะสมและไม่ให้ความแม่นยำที่ดีกับข้อมูลการทดสอบ นี่เป็นคำถามที่ไม่เฉพาะเจาะจงมาก แต่ถ้าคุณต้องการที่จะตอบเฉพาะสถานการณ์ที่เฉพาะเจาะจงโปรดทำเช่นนั้น

3
อะไรคือค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนเมื่อตัวส่วนเท่ากับ 0
ความแม่นยำหมายถึง: p = จริงบวก / (บวกจริง + บวกเท็จ) ค่าของความแม่นยำคืออะไร ((บวกจริงบวกเท็จบวก) = 0? มันเป็นเพียงไม่ได้กำหนด? คำถามเดียวกันสำหรับการเรียกคืน: r = จริงบวก / (บวกจริง + ลบเท็จ) ในกรณีนี้มูลค่าของการเรียกคืนคืออะไรถ้า (บวกจริง + เชิงลบเท็จ) = 0? ป.ล. คำถามนี้คล้ายกับคำถามอะไรคือค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบ? .

4
การเพิ่มความแม่นยำของเครื่องไล่ระดับสีจะลดลงเมื่อจำนวนการทำซ้ำเพิ่มขึ้น
ฉันกำลังทดลองกับอัลกอริทึมของเครื่องเร่งการไล่ระดับสีผ่านcaretแพ็คเกจใน R ใช้ชุดข้อมูลการรับสมัครวิทยาลัยขนาดเล็กฉันใช้รหัสต่อไปนี้: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.