จะตีความค่า F-measure ได้อย่างไร?


41

ฉันต้องการทราบวิธีตีความความแตกต่างของค่าการวัดค่า ฉันรู้ว่าการวัดค่า f เป็นค่าเฉลี่ยที่สมดุลระหว่างความแม่นยำและการเรียกคืน แต่ฉันถามถึงความหมายที่ใช้งานได้จริงของความแตกต่างในการวัดค่า F

ตัวอย่างเช่นถ้าลักษณนาม C1 มีความแม่นยำ 0.4 และลักษณนาม C2 อีกตัวหนึ่งมีความแม่นยำ 0.8 เราสามารถพูดได้ว่า C2 ได้จำแนกตัวอย่างทดสอบสองเท่าอย่างถูกต้องเมื่อเปรียบเทียบกับ C1 อย่างไรก็ตามถ้าลักษณนาม C1 มีค่า F- วัด 0.4 สำหรับบางคลาสและลักษณนามอีก C2 ค่า F เป็น 0.8 เราจะระบุอะไรเกี่ยวกับความแตกต่างของประสิทธิภาพของตัวแยกประเภท 2? เราสามารถพูดได้ว่า C2 ได้จำแนกอินสแตนซ์ X ที่ถูกต้องมากขึ้นแล้วหรือไม่?


2
ผมไม่แน่ใจว่าคุณสามารถพูดได้มากตั้งแต่ F-วัดเป็นหน้าที่ของทั้งความแม่นยำและการเรียกคืน: en.wikipedia.org/wiki/F1_score คุณสามารถทำคณิตศาสตร์และค้างไว้หนึ่งคงที่ (ทั้งความแม่นยำหรือจำ) และพูดอะไรบางอย่างเกี่ยวกับอื่น ๆ
Nick

คำตอบ:


41

ฉันไม่สามารถนึกถึงความหมายที่เข้าใจได้ง่ายของการวัดค่า F เพราะเป็นเพียงการวัดแบบรวม แน่นอนว่าสิ่งที่ใช้งานได้ง่ายกว่า F-mesure นั้นคือความแม่นยำและการเรียกคืน

แต่การใช้ค่าสองค่าเรามักไม่สามารถระบุได้ว่าอัลกอริทึมหนึ่งดีกว่าค่าอื่นหรือไม่ ตัวอย่างเช่นหากอัลกอริทึมหนึ่งมีความแม่นยำสูง แต่เรียกคืนได้ต่ำกว่าอัลกอริทึมคุณจะบอกได้อย่างไรว่าอัลกอริทึมใดดีกว่า

หากคุณมีเป้าหมายเฉพาะในใจเช่น 'ความแม่นยำคือราชา ฉันไม่สนใจมากนักเกี่ยวกับการเรียกคืน 'จากนั้นไม่มีปัญหา ความแม่นยำสูงกว่าดีกว่า แต่ถ้าคุณไม่มีเป้าหมายที่แข็งแกร่งเช่นนี้คุณจะต้องการเมตริกรวม นั่นคือการวัด F เมื่อใช้มันคุณจะเปรียบเทียบความแม่นยำและการเรียกคืนบางอย่าง

เส้นโค้ง ROC มักจะถูกวาดระบุการวัด F คุณอาจพบว่าบทความนี้น่าสนใจเนื่องจากมีคำอธิบายเกี่ยวกับมาตรการหลายอย่างรวมถึง ROC curves: http://binf.gmu.edu/mmasso/ROC101.pdf


23

ความสำคัญของคะแนน F1 นั้นแตกต่างกันไปตามสถานการณ์ ให้ถือว่าตัวแปรเป้าหมายเป็นป้ายกำกับไบนารี

  • ระดับที่สมดุล: ในสถานการณ์นี้คะแนน F1 สามารถถูกละเว้นได้อย่างมีประสิทธิภาพอัตราการจำแนกผิดพลาดเป็นกุญแจสำคัญ
  • คลาสที่ไม่สมดุล แต่คลาสทั้งสองมีความสำคัญ: หากการกระจายคลาสเบ้สูง (เช่น 80:20 หรือ 90:10) ตัวแยกประเภทจะได้รับอัตราการจำแนกผิดพลาดต่ำโดยการเลือกคลาสส่วนใหญ่ ในสถานการณ์เช่นนี้ฉันจะเลือกลักษณนามที่ได้รับคะแนน F1 สูงทั้งสองคลาสรวมถึงอัตราการจำแนกผิดพลาดต่ำ ลักษณนามที่ได้รับคะแนน F1 ต่ำควรมองข้าม
  • คลาสที่ไม่สมดุล แต่คลาสหนึ่งถ้าสำคัญกว่านั้นอีกคลาสนั้น ยกตัวอย่างเช่นในการตรวจจับการฉ้อโกงสิ่งสำคัญคือการติดฉลากอินสแตนซ์ที่เป็นการฉ้อโกงให้ถูกต้อง ในกรณีนี้ฉันจะเลือกลักษณนามที่มีคะแนน F1 ที่ดีในคลาสที่สำคัญเท่านั้น จำได้ว่าคะแนน F1 มีให้บริการในแต่ละชั้นเรียน

9

F-measure มีความหมายที่เข้าใจง่าย มันจะบอกคุณว่าลักษณนามของคุณนั้นแม่นยำแค่ไหน (มันมีการจำแนกอย่างถูกต้องว่าเป็นตัวจำแนกประเภทอย่างไร) รวมถึงความแข็งแกร่งของมัน

ด้วยความแม่นยำสูง แต่การเรียกคืนต่ำตัวจําแนกของคุณนั้นมีความถูกต้องอย่างมาก แต่ก็ไม่ได้มีอินสแตนซ์จํานวนมากที่ยากต่อการจําแนก มันมีประโยชน์ไม่มาก

ดูฮิสโตแกรมนี้ ป้อนคำอธิบายรูปภาพที่นี่ไม่สนใจวัตถุประสงค์ดั้งเดิม

ไปทางขวาคุณจะได้รับความแม่นยำสูง แต่การเรียกคืนต่ำ หากฉันเลือกอินสแตนซ์ที่มีคะแนนสูงกว่า 0.9 เท่านั้นอินสแตนซ์ที่จำแนกของฉันจะแม่นยำมาก แต่ฉันจะพลาดอินสแตนซ์จำนวนมาก การทดลองระบุว่าจุดหวานที่นี่อยู่ที่ประมาณ 0.76 โดยที่ F-measure เท่ากับ 0.87


5

F-measure เป็นค่าเฉลี่ยฮาร์โมนิกของความแม่นยำและการเรียกคืนของคุณ ในสถานการณ์ส่วนใหญ่คุณมีการแลกเปลี่ยนระหว่างความแม่นยำและการเรียกคืน หากคุณปรับตัวจําแนกของคุณให้ดีที่สุดเพื่อเพิ่มหนึ่งและไม่ชอบสิ่งอื่นค่าเฉลี่ยฮาร์มอนิกจะลดลง มันยิ่งใหญ่ที่สุดเมื่อทั้งความแม่นยำและการเรียกคืนเท่ากัน

ด้วยการวัดค่า F-0.4 และ 0.8 สำหรับตัวแยกประเภทของคุณคุณสามารถคาดหวังได้ว่าสิ่งเหล่านี้ซึ่งค่าสูงสุดที่ทำได้เมื่อชั่งน้ำหนักความแม่นยำเมื่อเทียบกับการเรียกคืน

สำหรับการอ้างอิงด้วยภาพลองดูรูปนี้จากWikipedia :

ป้อนคำอธิบายรูปภาพที่นี่

F-measure คือH , AและBคือการเรียกคืนและความแม่นยำ คุณสามารถเพิ่มได้หนึ่งอัน แต่อีกอันก็ลดลง


ฉันพบว่าการแสดงข้อมูลแบบ "ข้ามบันได" นั้นค่อนข้างตรงไปตรงมา - สำหรับฉันมันทำให้ความเท่าเทียมกันของ A = B ส่งผลให้ H ยิ่งใช้งานง่ายยิ่งขึ้น
Coruscate5

3

สูตรสำหรับการวัดค่า F (F1 กับเบต้า = 1) จะเหมือนกับสูตรที่ให้ค่าความต้านทานเทียบเท่าซึ่งประกอบด้วยความต้านทานสองค่าที่วางขนานกันในฟิสิกส์ (ลืมเกี่ยวกับปัจจัย 2)

สิ่งนี้อาจให้การตีความที่เป็นไปได้และคุณสามารถคิดถึงความต้านทานทางอิเล็กทรอนิกส์หรือทางความร้อน การเปรียบเทียบนี้จะนิยามการวัดแบบ F เป็นความต้านทานเทียบเท่าที่เกิดขึ้นจากความไวและความแม่นยำที่วางขนาน

สำหรับการวัดแบบ F ค่าสูงสุดที่เป็นไปได้คือ 1 และคุณจะต้านทานการหลุดออกทันทีที่หนึ่งในนั้นมีค่าความต้านทานลดลงเช่นกัน หากคุณต้องการที่จะเข้าใจปริมาณและพลวัตของมันให้ดีขึ้นลองคิดถึงปรากฏการณ์ทางฟิสิกส์ ตัวอย่างเช่นปรากฏว่า F-measure <= max (ความไวความแม่นยำ)


3

Fβ1/β2

P=TPTP+FP
R=TPTP+FN
α
α1RR+1PP.
αFββ2

1

Fβ=1/((β2/(β2+1))1/r+(1/(β2+1))1/p)
β2<1F βpFβ )

0

ความหมายที่เข้าใจง่ายที่สุดของคะแนน f1 นั้นถูกมองว่าเป็นค่าเฉลี่ยของการระลึกถึงและความแม่นยำ ขอให้ชัดเจนสำหรับคุณ:

ในงานการจัดหมวดหมู่คุณอาจวางแผนที่จะสร้างตัวจําแนกด้วยความแม่นยำสูงและเรียกคืน ตัวอย่างเช่นตัวจําแนกที่บอกว่าคนซื่อสัตย์หรือไม่

เพื่อความแม่นยำคุณมักจะสามารถบอกได้อย่างถูกต้องว่ามีคนซื่อสัตย์อยู่ในกลุ่มใด ในกรณีนี้เมื่อดูแลเกี่ยวกับความแม่นยำสูงคุณคิดว่าคุณสามารถจัดประเภทคนโกหกให้สัตย์ซื่อได้ แต่ไม่บ่อยนัก กล่าวอีกนัยหนึ่งที่นี่คุณพยายามระบุคนโกหกจากความซื่อสัตย์โดยรวมเป็นกลุ่ม

อย่างไรก็ตามสำหรับการเรียกคืนคุณจะต้องกังวลมากถ้าคุณคิดว่าคนโกหกเป็นคนซื่อสัตย์ สำหรับคุณนี่จะเป็นการสูญเสียครั้งใหญ่และเป็นความผิดพลาดครั้งใหญ่และคุณไม่ต้องการทำมันอีก นอกจากนี้มันก็โอเคถ้าคุณจำแนกคนที่ซื่อสัตย์ว่าเป็นคนโกหก แต่โมเดลของคุณไม่ควร (หรือส่วนใหญ่ไม่ให้) อ้างว่าคนที่โกหกนั้นเป็นคนซื่อสัตย์ กล่าวอีกนัยหนึ่งที่นี่คุณกำลังมุ่งเน้นไปที่ชั้นเรียนที่เฉพาะเจาะจงและคุณกำลังพยายามที่จะไม่ทำผิดเกี่ยวกับมัน

ตอนนี้ให้นำกรณีที่คุณต้องการให้แบบจำลองของคุณเป็น (1) ระบุความซื่อสัตย์จากคนโกหก (แม่นยำ) (2) ระบุแต่ละคนจากทั้งสองคลาส (จำได้) อย่างแม่นยำ ซึ่งหมายความว่าคุณจะเลือกรูปแบบที่จะทำงานได้ดีทั้งบนเมตริก

การตัดสินใจเลือกรูปแบบของคุณนั้นจะพยายามประเมินแต่ละโมเดลตามค่าเฉลี่ยของสองเมตริก F-Score ดีที่สุดที่สามารถอธิบายสิ่งนี้ได้ ลองมาดูสูตร:

เรียกคืน: p = tp / (tp + fp)

เรียกคืน: r = tp / (tp + fn)

คะแนน F: fscore = 2 / (1 / r + 1 / p)

ตามที่คุณเห็นการเรียกคืนและความแม่นยำสูงกว่าคะแนน F สูงขึ้น


0

เมื่อทราบว่าคะแนน F1 เป็นค่าเฉลี่ยความแม่นยำและความสอดคล้องกันด้านล่างนี้เป็นเพียงข้อมูลสั้น ๆ

ผมจะบอกว่าจำได้มากขึ้นเกี่ยวกับการปลอมเนกาทีฟ .ie มีสูงหมายถึงการเรียกคืนมีน้อยปลอมเนกาทีฟ

Recall=tptp+fn

มากเท่ากับ FN หรือ Zero FN ที่น้อยกว่าการทำนายแบบจำลองของคุณนั้นดีมาก

ในขณะที่มีความแม่นยำสูงกว่าหมายความว่ามีPOSITIVES FALSEน้อยกว่า

Precision=tptp+fp

เหมือนกันที่นี่ Less or False False Positives หมายถึงการทำนายแบบจำลองนั้นดีจริงๆ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.