วิธีการกำหนดเกณฑ์ที่เหมาะสมที่สุดสำหรับลักษณนามและสร้างเส้นโค้ง ROC?


27

สมมติว่าเรามีตัวจําแนก SVM เราจะสร้าง ROC curve ได้อย่างไร (เหมือนในทางทฤษฎี) (เพราะเราสร้าง TPR และ FPR ด้วยแต่ละเกณฑ์) และเราจะกำหนดเกณฑ์ที่เหมาะสมที่สุดสำหรับตัวจําแนก SVM นี้ได้อย่างไร


2

คำตอบ:


14

ใช้ตัวจําแนก SVM เพื่อจัดกลุ่มชุดของตัวอย่างที่มีคำอธิบายประกอบและ "หนึ่งจุด" บนพื้นที่ ROC โดยอ้างอิงจากการทำนายหนึ่งตัวอย่างสามารถระบุได้ สมมติว่าจำนวนตัวอย่างคือ 200 ก่อนอื่นให้นับจำนวนตัวอย่างของสี่กรณี

ล.aอีล.อีdเสื้อRยูอีล.aอีล.อีdaล.sอีพีRอีdผมเสื้ออีdเสื้อRยูอี7128พีRอีdผมเสื้ออีdaล.sอี5744


จากนั้นคำนวณ TPR (True Positive Rate) และ FPR (False Positive Rate) TPR=71/(71+57)=0.5547และFPR=28/(28+44)=0.3889ในพื้นที่ ROC แกน x คือ FPR และแกน y คือ TPR ดังนั้นจุด(0.3889,0.5547)จะได้รับ

ในการวาดเส้นโค้ง ROC เพียง
(1) ปรับค่าเกณฑ์ที่ควบคุมจำนวนตัวอย่างที่ระบุว่าเป็นจริงหรือเท็จ
ตัวอย่างเช่นหากความเข้มข้นของโปรตีนบางชนิดที่สูงกว่าα% หมายถึงโรคค่าที่แตกต่างของαให้ผล TPR และค่า FPR สุดท้ายที่แตกต่างกัน สามารถกำหนดค่าขีด จำกัด ได้ในลักษณะที่คล้ายคลึงกับการค้นหากริด ตัวอย่างการฝึกอบรมฉลากที่มีค่าขีด จำกัด ที่แตกต่างกันตัวจําแนกรถไฟที่มีชุดตัวอย่างที่แตกต่างกันเรียกใช้ตัวจําแนกบนข้อมูลการทดสอบคำนวณค่า FPR และเลือกค่าขีด จำกัด ที่ครอบคลุมต่ำ (ใกล้ 0) และสูง (ใกล้ 1) FPR ค่าเช่นใกล้กับ 0, 0.05, 0.1, ... , 0.95, 1

(2) สร้างตัวอย่างที่มีคำอธิบายประกอบหลายชุด
(3) เรียกใช้ตัวจําแนกในชุดของตัวอย่าง
(4) คํานวณ a (FPR, TPR) สำหรับแต่ละคน
(5) วาดเส้นโค้ง ROC สุดท้าย

รายละเอียดบางอย่างสามารถตรวจสอบได้ในhttp://en.wikipedia.org/wiki/Receiver_operating_characteristic

นอกจากนี้ลิงก์ทั้งสองนี้มีประโยชน์เกี่ยวกับวิธีกำหนดเกณฑ์ที่เหมาะสม วิธีง่ายๆคือการหาวิธีที่มีผลรวมสูงสุดของอัตราการบวกที่เป็นบวกและเท็จที่แท้จริง เกณฑ์ปลีกย่อยอื่น ๆ อาจรวมถึงตัวแปรอื่น ๆ ที่เกี่ยวข้องกับเกณฑ์ที่แตกต่างกันเช่นค่าใช้จ่ายทางการเงินเป็นต้น
http://www.medicalbiostatistics.com/roccurve.pdf
http://www.kovcomp.co.uk/support/XL-Tut/life-ROC -curves รับสัญญาณ-ปฏิบัติการ characteristic.html


5
ขอบคุณสำหรับคำอธิบายของคุณสิ่งที่เกี่ยวกับเกณฑ์ที่ดีที่สุด?
RockTheStar

1
ขออภัยฉันเรียนรู้ว่าเกณฑ์ที่เหมาะสมเป็นคำพิเศษก่อนหน้านี้ หลังจากการค้นหาฉันพบว่าบทที่ "3.5 การเลือกเกณฑ์ที่เหมาะสมที่สุด" ของหนังสือ "การวิเคราะห์เส้นโค้งลักษณะการทำงานของตัวรับสัญญาณกับ SAS" ใน Google Book มีคำอธิบายโดยละเอียดเกี่ยวกับการเลือกเกณฑ์ที่เหมาะสม สองวิธีที่ใช้กันอย่างแพร่หลายตามที่อธิบายไว้คือการเลือกเกณฑ์ที่จะทำให้การทำนายแบบไบนารีผลลัพธ์ (1) ใกล้เคียงกับตัวทำนายที่สมบูรณ์ที่สุดเท่าที่จะเป็นไปได้ (2) อยู่ห่างจากตัวทำนายที่ไม่มีข้อมูลมากที่สุดเท่าที่จะเป็นไปได้
Tom

เยี่ยมฉันสามารถหาข้อมูลอ้างอิงได้จากที่ไหน ขอบคุณ!
RockTheStar

2
ใช่ "ไกลจากคำทำนายที่ไม่ให้ข้อมูล" หมายถึงอะไร? กรุณาเพิ่มการอ้างอิง
Simone

1
นอกจากนี้ฉันเพิ่งอ่านจากที่มีเกณฑ์มากมายในการกำหนดเกณฑ์ที่เหมาะสม ตัวอย่างเช่นเกณฑ์ง่าย ๆ คือในบรรดาเกณฑ์ทั้งหมดให้เลือกเกณฑ์ที่มีผลรวมสูงสุดของค่าบวกจริงและค่าลบลบ นอกจากนี้ยังมีเกณฑ์ที่ซับซ้อนอื่น ๆ อีกมากมาย
Tom

3

วิธีที่ง่ายที่สุดในการเลือกเกณฑ์คือการใช้ค่าที่คาดคะเนจากค่ามัธยฐานของเคสที่เป็นบวกสำหรับชุดทดสอบ นี่กลายเป็นเกณฑ์ของคุณ

เกณฑ์มาใกล้กับเกณฑ์เดียวกันกับที่คุณจะได้รับโดยใช้เส้นโค้ง roc ที่อัตราบวกจริง (tpr) และ 1 - อัตราบวกเท็จ (fpr) ทับซ้อนกัน tpr (cross) 1-fpr cross นี้ให้ผลบวกสูงสุดอย่างแท้จริงในขณะที่ลดเชิงลบที่ผิดพลาดให้น้อยที่สุด


ฉันเห็น. ค่ามัธยฐานทำนาย ขอบคุณสำหรับคำแนะนำ
RockTheStar

2
มีแหล่งที่มาสำหรับวิธีนี้หรือไม่?
JEquihua

1
นี่เทียบเท่ากับการเลือกจุดด้วย TPR = 0.5 ในกราฟ ROC ซึ่งฟังดูเป็นเรื่องจริง
Bananin

ค่ามัธยฐานทำนาย? และจะเกิดอะไรขึ้นถ้าคุณมีคลาสที่ไม่สมดุล 1,000: 1
ldmtwo

3

เลือกจุดที่ใกล้กับมุมซ้ายบนของพื้นที่ ROC ของคุณ ตอนนี้เกณฑ์ที่ใช้ในการสร้างจุดนี้ควรเป็นเกณฑ์ที่ดีที่สุด


2
วิธีการทำเช่นนี้โดยอัตโนมัติ?
ldmtwo

1

ตัวเลือกของเกณฑ์ขึ้นอยู่กับความสำคัญของปัญหาการจำแนกประเภท TPR และ FPR ตัวอย่างเช่นหากผู้จําแนกของคุณจะตัดสินใจว่าผู้ต้องสงสัยทางอาญาคนใดจะได้รับโทษประหารชีวิตผลบวกปลอมนั้นเลวร้ายมาก (ผู้บริสุทธิ์จะถูกฆ่า!) ดังนั้นคุณจะเลือกเกณฑ์ที่ให้ FPR ต่ำในขณะที่รักษา TPR ที่เหมาะสม (ดังนั้นคุณจึงจับอาชญากรตัวจริงได้จริง) หากไม่มีข้อกังวลภายนอกเกี่ยวกับ TPR ต่ำหรือ FPR สูงตัวเลือกหนึ่งคือให้น้ำหนักเท่า ๆ กันโดยเลือกเกณฑ์ที่เพิ่มได้มากที่สุดTPR-FPR

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.