วิธีสร้างเส้นโค้ง Precision-Recall เมื่อฉันมีเพียงค่าเดียวสำหรับ PR?


12

ฉันมีการกำหนด data mining ที่ฉันทำระบบดึงภาพตามเนื้อหา ฉันมี 20 ภาพจาก 5 สัตว์ ดังนั้นทั้งหมด 100 ภาพ

ระบบของฉันคืนค่า 10 ภาพที่เกี่ยวข้องมากที่สุดไปยังภาพอินพุต ตอนนี้ฉันต้องประเมินประสิทธิภาพของระบบของฉันด้วยเส้นโค้ง Precision-Recall อย่างไรก็ตามฉันไม่เข้าใจแนวคิดของเส้นโค้ง Precision-Recall สมมติว่าระบบของฉันส่งคืนรูปภาพ 10 ภาพสำหรับภาพลิงกอริลลา แต่มี 4 ภาพเท่านั้นเป็นภาพลิงกอริลลา อีก 6 รูปที่ส่งคืนเป็นสัตว์อื่น ' ดังนั้น,

  • ความแม่นยำคือ4/10 = 0.4(กลับมาที่เกี่ยวข้อง) / (คืนทั้งหมด)
  • การเรียกคืนคือ4/20 = 0.2(คืนที่เกี่ยวข้อง) / (ที่เกี่ยวข้องทั้งหมด)

ดังนั้นฉันจึงมีเพียงจุด<0.2,0.4>ไม่ใช่เส้นโค้ง ฉันจะมีเส้นโค้งอย่างไร (เช่นชุดของคะแนน) ฉันควรเปลี่ยนจำนวนภาพที่ส่งคืน (กรณีนี้กำหนดไว้ที่ 10 ในกรณีของฉัน) หรือไม่


2
โมเดลส่วนใหญ่จะกำหนดความน่าจะเป็นของคลาสนั้นไม่ใช่คลาสเอง - หรือคุณบีบหนึ่งตัวจากลักษณนาม เส้นโค้งนั้นมาจากการเปลี่ยนความน่าจะเป็นที่ถูกตัดออก คุณอาจได้รับคำตอบที่ละเอียดกว่านี้หากคุณพูดถึงตัวจําแนกของคุณ
charles

ฉันคำนวณเวกเตอร์คุณลักษณะ (สีพื้นผิวและรูปร่าง) และรับคะแนนความคล้ายคลึงกันสำหรับแต่ละข้อสรุปรวมคะแนนความคล้ายคลึงทั้งหมดแล้วเรียงลำดับจากมากไปน้อย ดัชนีรูปภาพ 10 อันดับแรกเป็นดัชนีที่เกี่ยวข้องมากที่สุด ฉันสามารถขอรับดัชนีคลาสจากดัชนีรูปภาพได้เนื่องจากรูปภาพได้รับคำสั่ง (20 กอริลล่า, 20 ยีราฟ ฯลฯ ) ฉันหวังว่าฉันจะทำให้ตัวเองชัดเจนเพราะฉันไม่เข้าใจแนวคิดลักษณนาม / อธิบายอื่น ๆ
ฟ์

ตระหนักว่าฉันอ่านคำถามไม่ดี คิดว่าคุณมีปัญหาสองระดับ (กอริลลา / ไม่มีกอริลลา) ด้วยวิธีการเรียนเพิ่มเติมนอกเหนือจากฉันนี้อาจเป็นประโยชน์: stats.stackexchange.com/questions/2151/…
charles

คำตอบ:


11

การสร้างเส้นโค้ง PR นั้นคล้ายคลึงกับการสร้างเส้นโค้ง ROC ในการวาดพล็อตดังกล่าวคุณต้องมีการจัดอันดับเต็มชุดทดสอบ ในการจัดอันดับนี้คุณต้องมีตัวจําแนกซึ่งส่งออกค่าการตัดสินใจมากกว่าคำตอบแบบไบนารี ค่าการตัดสินใจเป็นตัวชี้วัดความเชื่อมั่นในการทำนายซึ่งเราสามารถใช้เพื่อจัดอันดับอินสแตนซ์การทดสอบทั้งหมด เป็นตัวอย่างค่าการตัดสินใจของการถดถอยโลจิสติกและ SVM เป็นความน่าจะเป็นและระยะทาง (ลงนาม) เพื่อแยกไฮเปอร์เพลนตามลำดับ

หากคุณทิ้งค่าการตัดสินใจคุณจะต้องกำหนดชุดของเกณฑ์การตัดสินใจในค่าการตัดสินใจดังกล่าว เกณฑ์เหล่านี้เป็นการตั้งค่าที่แตกต่างกันของลักษณนาม: เช่นคุณสามารถควบคุมระดับของการอนุรักษ์ สำหรับการถดถอยโลจิสติกเกณฑ์การเริ่มต้นจะเป็นแต่คุณสามารถไปมากกว่าทั้งช่วงของ1) โดยทั่วไปแล้วเกณฑ์จะถูกเลือกให้เป็นค่าการตัดสินใจที่ไม่ซ้ำกันซึ่งโมเดลของคุณให้สำหรับชุดทดสอบ( 0 , 1 )(x)=0.5(0,1)

ที่แต่ละตัวเลือกของขีด จำกัด แบบจำลองของคุณให้ผลลัพธ์การคาดการณ์ที่แตกต่างกัน (เช่นจำนวนการคาดการณ์ในเชิงบวกและเชิงลบที่แตกต่างกัน) เป็นเช่นนี้คุณจะได้รับชุดของ tuples ที่มีความแม่นยำที่แตกต่างกันและการเรียกคืนในทุกเกณฑ์ชุดเช่นของ tuplesR_i) เส้นโค้ง PR ถูกวาดตามคู่( P i , R i )(Tผม,Pผม,Rผม)(Pผม,Rผม)

หากฉันเข้าใจความคิดเห็นของคุณถูกต้องคะแนนความเหมือนกันทั้งหมดที่คุณคำนวณสามารถใช้เป็นค่าการตัดสินใจได้


ยังไม่ชัดเจนสำหรับฉันคุณสามารถทำงานกับตัวอย่างที่มีรายละเอียดคล้ายกับสถานการณ์การดึงภาพสัตว์ของ OP ได้หรือไม่?
MR
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.