ทำไมผลรวมของความแม่นยำและเรียกคืนการวัดที่คุ้มค่าไม่ได้


12

เป็นวิธีที่ดีที่สุดที่จะอธิบายว่าทำไมสิ่งที่คือไม่ได้เป็นมาตรการที่ดีการพูดเมื่อเทียบกับ F1?Precision+Recall


มันหมายความว่าอะไร? คุณจะตีความมันอย่างไร มันจะบอกอะไรคุณจริง ๆ
Matthew Drury

1
คุณควรเปลี่ยนชื่อโดยแทนที่ "ความแม่นยำ + เรียกคืน" โดย "ผลรวมของความแม่นยำและการเรียกคืน" เพื่อให้ชัดเจนสิ่งที่คุณต้องการ
g3o2

@ g3o2 เรากำลังพูดถึงไวยากรณ์ที่นี่หรือฉันขาดอะไรมากกว่านี้?
matt

ไม่จริงเพียงแค่สังเกตว่าสามารถอ่าน Precision & Recall ได้โดยเฉพาะเมื่ออ่านชื่อเท่านั้น
g3o2

คำตอบ:


18

ไม่ใช่ว่าเป็นการวัดที่ไม่ดีต่อ se เพียงแค่นั้นเองจำนวนผลลัพธ์ที่ได้ไม่ได้แสดงถึงความหมายใด ๆ คุณอยู่ในเส้นทางที่ถูกต้อง แต่ ... สิ่งที่เรากำลังมองหาคือการรวมกันของค่าเฉลี่ยของสองมาตรการประสิทธิภาพเนื่องจากเราไม่ต้องการเลือกระหว่างพวกเขาPrecision+Recall

จำได้ว่าความแม่นยำและการเรียกคืนถูกกำหนดเป็น:

จำ=True บวก

Precision=True PositivePredicted Positive
Recall=True PositiveActual Positive

เนื่องจากทั้งคู่มีตัวส่วนต่างกันการรวมผลลัพธ์เข้าด้วยกันในลักษณะนี้: ... ซึ่งไม่มีประโยชน์อย่างยิ่ง

True Positive(Predicted Positive+Actual Positive)Predicted Positive×Actual Positive

ช่วยให้กลับไปเพิ่มพวกเขาร่วมกันและทำให้บิด: คูณพวกเขาโดยเพื่อให้พวกเขาเข้าพักในระดับที่ถูกต้อง[0-1]นี่คือค่าเฉลี่ยที่คุ้นเคยของพวกเขา [0-1]12[01]

12×(True PositivePredicted Positive+True PositiveActual Positive)

เรามีสองปริมาณซึ่งมีตัวเศษเดียวกัน แต่ส่วนที่ต่างกันและเราอยากหาค่าเฉลี่ยของมัน พวกเราทำอะไร? ทีนี้เราสามารถพลิกมันกลับได้ใช้อินเวอร์สของพวกมัน จากนั้นคุณสามารถเพิ่มพวกเขาเข้าด้วยกัน ดังนั้นพวกเขาจึง "หงายขึ้น" คุณจะกลับด้านอีกครั้ง

กระบวนการของการกลับด้านแล้วการสลับกลับอีกครั้งจะเปลี่ยนค่า "ปกติ" ไปเป็นค่าเฉลี่ยฮาร์มอนิก มันเกิดขึ้นเพียงอย่างเดียวว่าค่าเฉลี่ยฮาร์โมนิกของความแม่นยำและการเรียกคืนคือสถิติ F1 โดยทั่วไปจะใช้ค่าเฉลี่ยฮาร์มอนิกแทนค่าเฉลี่ยเลขคณิตมาตรฐานเมื่อจัดการกับอัตราตามที่เราทำอยู่ที่นี่

ในท้ายที่สุดสถิติ F1 เป็นเพียงค่าเฉลี่ยของความแม่นยำและการเรียกคืนและคุณใช้เพราะคุณไม่ต้องการเลือกอย่างใดอย่างหนึ่งเพื่อประเมินประสิทธิภาพของโมเดล


2
ขอบคุณมากสำหรับการพัฒนาค่าเฉลี่ยฮาร์มอนิกจากค่าเฉลี่ยเชิงพีชคณิต! แต่สิ่งที่อาจไม่ได้นั่งกับฉันอย่างแน่นหนาเป็นส่วนที่คุณพูดว่า "ซึ่งไม่มีประโยชน์อย่างยิ่ง" ในหลอดเลือดดำนั้นฉันได้แสดงความคิดเห็นด้านล่างอีกสองคำตอบตอนนี้ ในกรณีที่คุณจะก้าวต่อไปอีกหนึ่งอย่างเช่นนึกว่าฉันต้องการเลือกลักษณนามที่ดีที่สุดในกลุ่มของตัวแยกประเภทที่ผ่านการทดสอบในชุดข้อมูลเดียวกัน
matt

@ แมทการใช้การวัดร่วมใด ๆ จะทำให้แบบจำลองของคุณเป็นที่ต้องการ แต่ไม่เกิน สองรุ่นที่มีค่า F1 เท่ากันอาจแสดงค่า Recall และ Precision ตรงข้ามอย่างสมบูรณ์ ดังนั้นสำหรับ F1 ที่เหมือนกันคุณจะต้องเลือกระหว่าง Recall และ Precision
g3o2

4

คำตอบสั้น ๆ คือคุณไม่คาดหวังว่าผลรวมของสองเปอร์เซ็นต์ที่มีตัวส่วนต่างกันสองตัวจะมีความหมายเฉพาะ ดังนั้นวิธีการวัดค่าเฉลี่ยเช่น F1, F2 หรือ F0.5 หลังคงคุณสมบัติของเปอร์เซ็นต์อย่างน้อย แล้วความหมายของพวกเขาล่ะ?

ความงามของความแม่นยำและการเรียกคืนเป็นมาตรการแยกต่างหากคือความง่ายในการตีความและความจริงที่ว่าพวกเขาสามารถเผชิญหน้ากับวัตถุประสงค์ทางธุรกิจของโมเดลได้อย่างง่ายดาย ความแม่นยำวัดเปอร์เซ็นต์ของtrue positivesผู้ป่วยที่จำแนกpositiveตามโมเดล เรียกคืนการวัดเปอร์เซ็นต์ของการtrue positivesค้นพบโดยโมเดลจากทุกtrueกรณี สำหรับปัญหามากมายคุณจะต้องเลือกระหว่างการเพิ่มประสิทธิภาพความแม่นยำหรือการเรียกคืน

การวัดโดยเฉลี่ยใด ๆ จะสูญเสียการตีความข้างต้นและทำให้การวัดที่คุณชอบมากที่สุด F1 หมายความว่าคุณไม่รู้ว่าคุณชอบ Recall หรือ Precision หรือคุณให้น้ำหนักเท่ากัน หากคุณคิดว่าการเรียกคืนมีความสำคัญมากกว่าความแม่นยำคุณควรจัดสรรน้ำหนักที่สูงกว่าให้กับการคำนวณโดยเฉลี่ย (เช่น F2) และในทางกลับกัน (เช่น F0.5)


3

การเพิ่มทั้งสองเป็นมาตรการที่ไม่ดี คุณจะได้รับคะแนนอย่างน้อย 1 ถ้าคุณตั้งค่าสถานะทุกอย่างเป็นบวกเนื่องจากเป็นการเรียกคืน 100% ตามคำจำกัดความ และคุณจะได้ความแม่นยำเล็กน้อยจากด้านบน ค่าเฉลี่ยเรขาคณิตที่ใช้ใน F1 เน้นการเชื่อมโยงที่อ่อนแอเนื่องจากเป็นแบบทวีคูณ อย่างน้อยก็ต้องโอเคกับความแม่นยำและการจำเพื่อให้ได้คะแนน F1 ที่เหมาะสม


ที่จริงแล้วมันคือการเน้นย้ำจุดอ่อนที่แน่นอนซึ่งฉันได้พบว่าไม่จำเป็นเมื่อความแม่นยำและการเรียกคืนมีความสมเหตุสมผลมากกว่าที่จะหงุดหงิด เมื่อพวกเขาทั้งสองไม่หงุดหงิดฉันไม่แน่ใจว่าฉันเห็นมูลค่าเพิ่มของตัวชี้วัดที่เน้นความคล้ายคลึงกันระหว่างพวกเขาหรือวางโทษที่แตกต่างกันตามขนาดของความแตกต่าง สถานที่ให้บริการที่แน่นอนนี้มีส่วนกระตุ้นคำถามเดิมของฉันที่นี่
matt

ฟังดูเหมือนงานพิเศษสำหรับฉัน หากคุณให้คะแนนเปอร์เซ็นต์ของการเรียกคืนเท่ากับความแม่นยำเพียงหนึ่งเดียวจากนั้นฉันเดาว่าการวัดของคุณคือสิ่งที่ต้องใช้ แต่ฉันไม่สามารถนึกภาพคุณได้ การเรียกคืนอาจจะมีอิทธิพลแม้ว่าคุณจะลดช่วง คุณสามารถปรับขนาดการเรียกคืนให้เป็นแอปเปิ้ลต่อแอปเปิ้ลอย่างแม่นยำ แต่นั่นเป็นการทำงานอีกครั้งและทำให้การตีความชัดเจนน้อยลง
Ben Ogorek

1
ไม่แน่ใจว่าทำไมการเรียกคืนควรจะครอง (?) แต่การปรับการเรียกคืนเป็นแอปเปิ้ลต่อแอปเปิ้ลที่มีความแม่นยำอาจเป็นการสนทนาที่เกี่ยวข้องที่น่าสนใจที่นี่หรือที่อื่น ๆ - ตัวชี้ในทิศทางที่ถูกต้อง
matt

3

คะแนน F1 มีประโยชน์อย่างยิ่งในกรณีที่มีความไม่สมดุลอย่างรุนแรง

ลองพิจารณาตัวอย่างต่อไปนี้: เราทดสอบการเจ็บป่วยที่หายาก แต่อันตราย สมมติว่าในเมืองที่มีประชากร 1,000,000 คนติดเชื้อ 100 คนเท่านั้น

ทดสอบ A ตรวจจับผลบวกทั้งหมด 100 รายการ อย่างไรก็ตามมันก็มีอัตราบวกที่ผิด ๆ 50%: มันผิดพลาดแสดงให้เห็นว่ามีผู้ป่วยอีก 500,000 คนที่ไม่ถูกต้อง

ในขณะเดียวกันการทดสอบ B คิดถึง 10% ของผู้ติดเชื้อ แต่ให้ผลบวกเท็จเพียง 1.000 เท่านั้น (อัตราบวกเป็นเท็จ 0.1%)

ลองคำนวณคะแนน สำหรับการทดสอบ A ความแม่นยำจะเป็น 0 อย่างมีประสิทธิภาพ การเรียกคืนจะตรงกับ 1 สำหรับการทดสอบ B ความแม่นยำจะยังค่อนข้างเล็กประมาณ 0.01 การเรียกคืนจะเท่ากับ 0.9

หากเราหาผลรวมเฉลี่ยหรือหาค่าเฉลี่ยเลขคณิตของความแม่นยำและการเรียกคืนสิ่งนี้จะให้ 1 (0.5) สำหรับการทดสอบ A และ 0.91 (0.455) สำหรับการทดสอบ B ดังนั้นการทดสอบ A จะดูดีขึ้นเล็กน้อย

อย่างไรก็ตามถ้าเรามองจากมุมมองที่เป็นไปได้จริงการทดสอบ A นั้นไม่มีค่าถ้าคนที่ถูกทดสอบเป็นบวกโอกาสของเขาที่จะป่วยอย่างแท้จริงจะอยู่ที่ 1 ใน 50,000! การทดสอบ B มีความสำคัญในทางปฏิบัติมากขึ้น: คุณอาจพาคนไปโรงพยาบาลแล้ว 1.100 คนและสังเกตอย่างใกล้ชิด สิ่งนี้สะท้อนให้เห็นอย่างแม่นยำด้วยคะแนน F1: สำหรับการทดสอบ A จะใกล้เคียงกับ 0.0002 สำหรับการทดสอบ B: (0.01 * 0.9) / (0.01 + 0.9) = 0.0098 ซึ่งยังค่อนข้างแย่ แต่ดีกว่าประมาณ 50 เท่า

การจับคู่ระหว่างค่าคะแนนและความสำคัญเชิงปฏิบัตินี้คือสิ่งที่ทำให้คะแนน F1 มีค่า


ขอบคุณ บางทีฉันอาจไม่ได้ดื่มด่ำกับตัวเองอย่างเพียงพอ แต่การชี้แจงนี้ไม่ได้ขึ้นอยู่กับข้อได้เปรียบเชิงปฏิบัติของการจัดสรรทรัพยากรให้กับ "ผลบวก" ในโดเมนชีวิตจริงที่ตรวจจับผลลัพธ์หนึ่งรายการ (บวก) เป็นเป้าหมายหรือไม่? นี่ไม่ใช่กรณีเสมอไปที่เป้าหมายกำลังตรวจจับผลลัพธ์เดียวใช่ไหม บางครั้งคุณแค่อยากรู้ว่ามันเป็นแอปเปิ้ลหรือเป็นคู่และข้อผิดพลาดทั้งสองประเภทมีค่าใช้จ่ายจริงในโลกเดียวกัน
matt

เหนือสิ่งอื่นใดสิ่งที่ฉันล้มเหลวในการมองเห็นก็คือคุณสมบัติของการเป็น "ดีกว่า" นี้แตกต่างจากกรณีที่ความแตกต่างระหว่างความแม่นยำและการเรียกคืนมีค่าทางพยาธิวิทยาน้อยกว่า บางทีสัญชาตญาณเป็นอย่างโดยเนื้อแท้มี แต่ผมไม่ได้มี แต่ ...
แมตต์

1

โดยทั่วไปการเพิ่มค่าเฉลี่ยเรขาคณิตให้เน้นค่าที่ใกล้เคียงกันมากที่สุด ตัวอย่างเช่นถ่ายสองรุ่น: รุ่นแรกมี (ความแม่นยำการเรียกคืน) = (0.8, 0.8) และรุ่นที่สองมี (ความแม่นยำการเรียกคืน) = (0.6, 1.0) ใช้ค่าเฉลี่ยพีชคณิตทั้งสองโมเดลจะเท่ากัน การใช้ค่าเฉลี่ยเรขาคณิตแบบแรกดีกว่าเพราะมันไม่แลกเปลี่ยนความแม่นยำในการเรียกคืน


1
ขอบคุณมาก. อย่างไรก็ตามในแง่ปฏิบัติฉันไม่เห็นการตั้งค่าใด ๆ ที่ใช้ได้ในระดับสากลเช่น (0.8, 0.8) และ (0.7, 0.9) บางทีคุณอาจมีบางสิ่งที่ลึกซึ้งกว่าใน "การซื้อขายเพื่อความแม่นยำในการจำ" - ซึ่งฉันยังไม่ได้ไปรับตัวเอง (ยัง) สำหรับฉันโดยเฉลี่ยเกี่ยวกับพีชคณิตความผิดพลาดสองประเภทนั้นให้ค่าเฉลี่ยที่ง่ายที่สุดโดยไม่มีอคติใด ๆ ที่คล้ายคลึงกัน เช่นฉันอาจใช้การสรุปอย่างง่ายของความแม่นยำและการเรียกคืนเพื่อพิจารณาว่าตัวแยกประเภทสองตัวใดที่ทำให้ฉันมีข้อผิดพลาดน้อยลง
matt

เราสามารถนำสิ่งนี้ไปสุดขั้ว สมมติว่าคุณมีหนึ่งระบบที่มี (ความแม่นยำการเรียกคืน) = (0.6, 0.6) ซึ่งหมายความว่าเมื่อมีการระบุว่า "ใช่" ถูกต้อง 60% ของเวลาและจะจับเหตุการณ์ 60% ของ "ใช่" ได้อย่างถูกต้อง ทีนี้ลองเปรียบเทียบสิ่งนี้กับระบบที่มี (0.3, 1) นี่มีค่าเฉลี่ยพีชคณิตที่ดีกว่า แต่มันทำอะไรอยู่? มันกำลังจับเหตุการณ์ "ใช่" ทั้งหมด แต่ก็พูดว่า "ใช่" มากเกินไป เป็นสิ่งที่ดีหรือไม่? มันแย่ใช่ไหม ขึ้นอยู่กับสาเหตุที่คุณสร้างระบบ คุณจะทำอะไรเมื่อเห็นคำทำนายว่า "ใช่" ผลลัพธ์ของเหตุการณ์ "ใช่" หายไปคืออะไร
roundsquare

1
มาตรการเหล่านี้ไม่มีมาตรการการให้คะแนนที่ถูกต้องแม่นยำ
Frank Harrell

@roundquare ขอบคุณมาก แต่สำหรับกรณีที่ไม่ใช่พยาธิวิทยา - ที่ทั้งคู่ไม่ใกล้ 0 และ 1 - ฉันอาจต้องการความช่วยเหลือในการเห็นประโยชน์ของการเน้นความคล้ายคลึงกันระหว่างสองในขั้นตอนสุดท้าย!
matt

@ FrankHarrell ขอบคุณที่ชี้ไปที่ "ช้างในห้อง"
แมตต์
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.