ค้นหาสูงและต่ำและไม่สามารถค้นหาว่า AUC ใดที่เกี่ยวข้องกับการทำนายหมายถึงหรือหมายถึง
ค้นหาสูงและต่ำและไม่สามารถค้นหาว่า AUC ใดที่เกี่ยวข้องกับการทำนายหมายถึงหรือหมายถึง
คำตอบ:
AUC ใช้เวลาส่วนใหญ่ในการหมายถึง AUROC ซึ่งเป็นการปฏิบัติที่ไม่ดีเนื่องจาก Marc Claesen ชี้ให้เห็นว่า AUC นั้นคลุมเครือ (อาจเป็นเส้นโค้งใด ๆ ) ในขณะที่ AUROC ไม่ใช่
AUROC มีการตีความที่เทียบเท่าหลายประการ :
ดำเนินการต่อไป: จะได้รับการตีความความน่าจะเป็นของ AUROC อย่างไร
สมมติว่าเรามีความน่าจะเป็นลักษณนามของไบนารีเช่นการถดถอยโลจิสติก
ก่อนที่จะนำเสนอเส้นโค้ง ROC (= เส้นโค้งลักษณะการทำงานของตัวรับสัญญาณ) แนวคิดของเมทริกซ์ความสับสนจะต้องเข้าใจ เมื่อเราทำการทำนายแบบไบนารี่สามารถมีผลลัพธ์ได้ 4 ประเภท:
ในการรับเมทริกซ์ความสับสนเราจะไปตามการคาดการณ์ทั้งหมดของแบบจำลองและนับจำนวนผลลัพธ์ที่เกิดขึ้นแต่ละประเภท 4 ประเภทดังนี้:
ในตัวอย่างของเมทริกซ์ความสับสนนี้ในบรรดา 50 data data ที่ได้รับการจัดประเภทนั้น 45 จำแนกอย่างถูกต้องและ 5 ถูกจำแนกผิด
เนื่องจากเพื่อเปรียบเทียบแบบจำลองที่แตกต่างกันสองแบบมันมักจะสะดวกกว่าที่จะมีตัวชี้วัดเดียวมากกว่าตัวแบบหลายตัวเราจึงคำนวณตัวชี้วัดสองตัวจากเมทริกซ์ความสับสนซึ่งเราจะรวมกันเป็นหนึ่ง:
รูปต่อไปนี้แสดงให้เห็นถึง AUROC แบบกราฟิก:
ในรูปนี้พื้นที่สีน้ำเงินตรงกับพื้นที่ภายใต้โค้งของลักษณะการดำเนินงานของเครื่องรับ (AUROC) เส้นประในแนวทแยงเรานำเสนอเส้นโค้ง ROC ของตัวทำนายแบบสุ่ม: มันมี AUROC 0.5 ตัวทำนายแบบสุ่มมักใช้เป็นข้อมูลพื้นฐานเพื่อดูว่าแบบจำลองนั้นมีประโยชน์หรือไม่
หากคุณต้องการได้รับประสบการณ์โดยตรง:
แม้ว่าฉันจะสายไปงานปาร์ตี้ แต่นี่คือ 5 เซ็นต์ของฉัน @FranckDernoncourt (+1) ได้กล่าวถึงการตีความที่เป็นไปได้ของ AUC ROC และสิ่งที่ฉันชอบที่สุดคือรายการแรกในรายการของเขา (ฉันใช้ถ้อยคำต่างกัน แต่ก็เหมือนกัน):
ลองพิจารณาตัวอย่างนี้ (auc = 0.68):
ลองเลียนแบบ: วาดตัวอย่างบวกและลบแบบสุ่มแล้วคำนวณสัดส่วนของกรณีเมื่อผลบวกมีคะแนนมากกว่าเชิงลบ
cls = c('P', 'P', 'N', 'P', 'P', 'P', 'N', 'N', 'P', 'N', 'P',
'N', 'P', 'N', 'N', 'N', 'P', 'N', 'P', 'N')
score = c(0.9, 0.8, 0.7, 0.6, 0.55, 0.51, 0.49, 0.43, 0.42, 0.39, 0.33,
0.31, 0.23, 0.22, 0.19, 0.15, 0.12, 0.11, 0.04, 0.01)
pos = score[cls == 'P']
neg = score[cls == 'N']
set.seed(14)
p = replicate(50000, sample(pos, size=1) > sample(neg, size=1))
mean(p)
และเราได้ 0.67926 ค่อนข้างใกล้ใช่มั้ย
โดยวิธีการใน RI มักจะใช้แพคเกจROCRสำหรับการวาดเส้นโค้ง ROC และการคำนวณ AUC
library('ROCR')
pred = prediction(score, cls)
roc = performance(pred, "tpr", "fpr")
plot(roc, lwd=2, colorize=TRUE)
lines(x=c(0, 1), y=c(0, 1), col="black", lwd=1)
auc = performance(pred, "auc")
auc = unlist(auc@y.values)
auc
ข้อพิจารณาสำคัญไม่รวมอยู่ในการสนทนาใด ๆ เหล่านี้ ขั้นตอนที่กล่าวถึงข้างต้นเป็นการเชิญการกำหนดเกณฑ์ขั้นต่ำที่ไม่เหมาะสมและใช้กฎการให้คะแนนความแม่นยำที่ไม่เหมาะสม (สัดส่วน) ที่ปรับให้เหมาะสมโดยการเลือกคุณสมบัติที่ไม่ถูกต้องและให้น้ำหนักที่ไม่ถูกต้อง
การแยกขั้วของการทำนายแบบต่อเนื่องจะต้องเผชิญกับทฤษฎีการตัดสินใจที่ดีที่สุด เส้นโค้งของ ROC ไม่ทำให้เกิดความเข้าใจที่ลึกซึ้ง พวกเขามีความรับผิดชอบโดยไม่ต้องมีนักวิจัยตรวจสอบประโยชน์ พวกเขามีหมึกขนาดใหญ่มาก: อัตราส่วนข้อมูล
การตัดสินใจที่เหมาะสมไม่พิจารณา "ผลบวก" และ "เชิงลบ" แต่จะเป็นความน่าจะเป็นโดยประมาณของผลลัพธ์ ฟังก์ชั่นยูทิลิตี้ / ต้นทุน / การสูญเสียซึ่งไม่มีบทบาทในการก่อสร้าง ROC ดังนั้นความไร้ประโยชน์ของ ROCs จะใช้ในการแปลการประเมินความเสี่ยงเป็นการตัดสินใจที่เหมาะสมที่สุด (เช่นการสูญเสียที่คาดหวังต่ำสุด)
เป้าหมายของแบบจำลองทางสถิติมักจะทำการคาดการณ์และนักวิเคราะห์ควรหยุดที่นั่นเพราะนักวิเคราะห์อาจไม่ทราบว่าฟังก์ชั่นการสูญเสีย ส่วนประกอบที่สำคัญของการทำนายเพื่อตรวจสอบ unbiasedly (เช่นการใช้บูต) จะเลือกปฏิบัติทำนาย (ขาเดียวกึ่งดีในการวัดนี้น่าจะเป็นความสอดคล้องที่เกิดขึ้นจะเท่ากับพื้นที่ภายใต้ร็อค แต่สามารถเข้าใจได้ง่ายมากขึ้นถ้าคุณดอน ไม่ต้องวาด ROC) และกราฟการปรับเทียบ การตรวจสอบความถูกต้องของการสอบเทียบเป็นสิ่งที่จำเป็นจริงๆหากคุณใช้การคาดการณ์ในระดับที่สมบูรณ์
ดูบทการสูญเสียข้อมูลในชีวสถิติเพื่อการวิจัยทางการแพทย์และบทอื่น ๆ สำหรับข้อมูลเพิ่มเติม
AUC เป็น abbrevation สำหรับพื้นที่ใต้เส้นโค้ง มันถูกใช้ในการวิเคราะห์การจำแนกเพื่อกำหนดว่าโมเดลใดที่ใช้ทำนายคลาสที่ดีที่สุด
ตัวอย่างการใช้งานคือ ROC curves ที่นี่อัตราบวกที่แท้จริงถูกพล็อตเทียบกับอัตราบวกปลอม ตัวอย่างด้านล่าง ยิ่ง AUC ที่ใกล้เคียงสำหรับแบบจำลองมาถึง 1 ยิ่งดีเท่าไหร่ ดังนั้นโมเดลที่มี AUC สูงกว่าจึงเป็นที่ต้องการมากกว่าโมเดลที่มี AUC ต่ำกว่า
โปรดทราบว่านอกจากนี้ยังมีวิธีการอื่น ๆ นอกเหนือจาก ROC curves แต่ก็มีความสัมพันธ์กับอัตราการบวกและเท็จที่แท้จริงเช่นความแม่นยำในการจำ, คะแนน F1 หรือคะแนนลอเรนซ์
เราได้รับ:
แทนสิ่งนี้เป็นสมการ (1) เราได้:
กล่าวอีกนัยหนึ่งพื้นที่ใต้เส้นโค้งคือความน่าจะเป็นที่ตัวอย่างบวกแบบสุ่มจะมีคะแนนสูงกว่าตัวอย่างเชิงลบแบบสุ่ม
auc
แท็กที่คุณใช้: stats.stackexchange.com/questions/tagged/auc