เกณฑ์ที่เหมาะสมที่สุดของ F1 คืออะไร จะคำนวณอย่างไร?


13

ฉันใช้ h2o.glm () ฟังก์ชันใน R ซึ่งให้ตารางฉุกเฉินในผลลัพธ์พร้อมกับสถิติอื่น ๆ ตารางฉุกเฉินจะนำไปสู่ ​​" Cross Tab ตามเกณฑ์ที่เหมาะสมที่สุดของ F1 "

Wikipediaกำหนดคะแนน F1 หรือคะแนน F เป็นค่าเฉลี่ยฮาร์มอนิกของความแม่นยำและการเรียกคืน แต่ไม่พบความแม่นยำและการเรียกคืนเฉพาะเมื่อผลลัพธ์ของค่าที่คาดการณ์ไว้ของการถดถอยโลจิสติก (ตัวอย่าง) ถูกแปลงเป็นไบนารีโดยใช้การตัดยอด

ตอนนี้จากการตัดออกฉันจำได้ว่าอะไรคือความเชื่อมโยงระหว่างคะแนน F1 และเกณฑ์ที่เหมาะสม เกณฑ์ที่เหมาะสมที่สุดคำนวณอย่างไร เกณฑ์ที่เหมาะสมที่สุดของ F1 คำนวณอย่างไร

ขออภัยถ้าฉันพลาดบางอย่างฉันยังใหม่ต่อสถิติที่นี่

คำตอบ:


22

ฉันเขียนบทความแรกของฉันในการเรียนรู้ของเครื่องในหัวข้อนี้ ในนั้นเราระบุว่าเมื่อตัวจําแนกของคุณแสดงผลความน่าจะเป็นที่ปรับเทียบแล้ว (เท่าที่ควรสำหรับการถดถอยโลจิสติก) เกณฑ์ที่เหมาะสมคือประมาณ 1/2 คะแนน F1 ที่ทำได้ สิ่งนี้จะช่วยให้คุณมีสัญชาตญาณ เกณฑ์ที่เหมาะสมจะไม่เกิน 0.5 หาก F1 ของคุณคือ 0.5 และเกณฑ์เป็น 0.5 คุณควรคาดหวังว่าจะปรับปรุง F1 โดยลดเกณฑ์ ในทางตรงกันข้ามถ้า F1 เป็น. 5 และเกณฑ์เป็น. 1 คุณอาจเพิ่มขีด จำกัด เพื่อปรับปรุง F1

กระดาษที่มีรายละเอียดทั้งหมดและการอภิปรายว่าทำไม F1 อาจหรืออาจไม่ใช่มาตรการที่ดีในการเพิ่มประสิทธิภาพ

https://arxiv.org/abs/1402.1892

ขออภัยที่ต้องใช้เวลา 9 เดือนสำหรับโพสต์นี้จะมาถึงความสนใจของฉัน หวังว่าคุณจะยังคงพบข้อมูลที่เป็นประโยชน์!


1
F1 สามารถเป็น 1 หรือไม่ หากคุณมี 90% A และ 10% ~ A ฉันคิดว่าคุณต้องการเกณฑ์> .5
gung - Reinstate Monica

1
สวัสดี @gung ไม่ตามคำจำกัดความ F1 = 2 * p * r / (p + r) และเช่นเดียวกับการวัด F-beta ทั้งหมดมีช่วง [0,1] ความไม่สมดุลของคลาสไม่เปลี่ยนช่วงของคะแนน F1 สำหรับบางแอปพลิเคชันคุณอาจต้องการการคาดคะเนที่มีเกณฑ์สูงกว่า 0.5 โดยเฉพาะสิ่งนี้จะเกิดขึ้นเมื่อใดก็ตามที่คุณคิดว่าผลบวกปลอมนั้นแย่กว่าเชิงลบที่ผิดพลาด แต่เกณฑ์ดังกล่าวจะไม่ปรับคะแนน F1 ให้เหมาะสม เพื่อทำความเข้าใจว่าทำไมคะแนน F1 จึงถูกพัฒนาขึ้นในบริบทของการดึงข้อมูล ในการตั้งค่าเหล่านี้คลาสในเชิงบวกนั้นหายากและโดยทั่วไปแล้วผลบวกที่ผิดจะไม่แพงเท่าเชิงลบ
Zachary Chase Lipton

@ ZacharyChaseLipton สมมติว่าฉันมีชุดข้อมูลแยกออกเป็น Train / val / test สำหรับตัวจําแนกที่ส่งออกความน่าจะเป็นฉันจะเลือกเกณฑ์ F1 ที่ดีที่สุดในการตรวจสอบความถูกต้องที่กำหนดโดยการตรวจสอบเกณฑ์ที่ให้ผลลัพธ์ F1 ที่ดีที่สุด สิ่งนี้ดูสมเหตุสมผลเนื่องจากการเลือกเกณฑ์ดูเหมือนกับการเลือกรุ่นที่ดีที่สุด นั่นเป็นสิ่งที่ถูกต้องหรือไม่
pir

นอกจากนี้สมมติว่าฉันมีลักษณนามที่ไม่มีความน่าจะเป็นผลลัพธ์ (เช่น SVM) คุณจะปรับ F1 ให้เหมาะสมในชุดการตรวจสอบแล้วอย่างไร
pir

ฉันได้ทำให้เป็นคำถาม: stats.stackexchange.com/questions/283931/ …
pir
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.