เป็นวิธีที่ดีที่สุดที่จะอธิบายว่าทำไมสิ่งที่คือไม่ได้เป็นมาตรการที่ดีการพูดเมื่อเทียบกับ F1?
เป็นวิธีที่ดีที่สุดที่จะอธิบายว่าทำไมสิ่งที่คือไม่ได้เป็นมาตรการที่ดีการพูดเมื่อเทียบกับ F1?
คำตอบ:
ไม่ใช่ว่าเป็นการวัดที่ไม่ดีต่อ se เพียงแค่นั้นเองจำนวนผลลัพธ์ที่ได้ไม่ได้แสดงถึงความหมายใด ๆ คุณอยู่ในเส้นทางที่ถูกต้อง แต่ ... สิ่งที่เรากำลังมองหาคือการรวมกันของค่าเฉลี่ยของสองมาตรการประสิทธิภาพเนื่องจากเราไม่ต้องการเลือกระหว่างพวกเขา
จำได้ว่าความแม่นยำและการเรียกคืนถูกกำหนดเป็น:
จำ=True บวก
เนื่องจากทั้งคู่มีตัวส่วนต่างกันการรวมผลลัพธ์เข้าด้วยกันในลักษณะนี้: ... ซึ่งไม่มีประโยชน์อย่างยิ่ง
ช่วยให้กลับไปเพิ่มพวกเขาร่วมกันและทำให้บิด: คูณพวกเขาโดยเพื่อให้พวกเขาเข้าพักในระดับที่ถูกต้อง[0-1]นี่คือค่าเฉลี่ยที่คุ้นเคยของพวกเขา [0-1]
เรามีสองปริมาณซึ่งมีตัวเศษเดียวกัน แต่ส่วนที่ต่างกันและเราอยากหาค่าเฉลี่ยของมัน พวกเราทำอะไร? ทีนี้เราสามารถพลิกมันกลับได้ใช้อินเวอร์สของพวกมัน จากนั้นคุณสามารถเพิ่มพวกเขาเข้าด้วยกัน ดังนั้นพวกเขาจึง "หงายขึ้น" คุณจะกลับด้านอีกครั้ง
กระบวนการของการกลับด้านแล้วการสลับกลับอีกครั้งจะเปลี่ยนค่า "ปกติ" ไปเป็นค่าเฉลี่ยฮาร์มอนิก มันเกิดขึ้นเพียงอย่างเดียวว่าค่าเฉลี่ยฮาร์โมนิกของความแม่นยำและการเรียกคืนคือสถิติ F1 โดยทั่วไปจะใช้ค่าเฉลี่ยฮาร์มอนิกแทนค่าเฉลี่ยเลขคณิตมาตรฐานเมื่อจัดการกับอัตราตามที่เราทำอยู่ที่นี่
ในท้ายที่สุดสถิติ F1 เป็นเพียงค่าเฉลี่ยของความแม่นยำและการเรียกคืนและคุณใช้เพราะคุณไม่ต้องการเลือกอย่างใดอย่างหนึ่งเพื่อประเมินประสิทธิภาพของโมเดล
คำตอบสั้น ๆ คือคุณไม่คาดหวังว่าผลรวมของสองเปอร์เซ็นต์ที่มีตัวส่วนต่างกันสองตัวจะมีความหมายเฉพาะ ดังนั้นวิธีการวัดค่าเฉลี่ยเช่น F1, F2 หรือ F0.5 หลังคงคุณสมบัติของเปอร์เซ็นต์อย่างน้อย แล้วความหมายของพวกเขาล่ะ?
ความงามของความแม่นยำและการเรียกคืนเป็นมาตรการแยกต่างหากคือความง่ายในการตีความและความจริงที่ว่าพวกเขาสามารถเผชิญหน้ากับวัตถุประสงค์ทางธุรกิจของโมเดลได้อย่างง่ายดาย ความแม่นยำวัดเปอร์เซ็นต์ของtrue positives
ผู้ป่วยที่จำแนกpositive
ตามโมเดล เรียกคืนการวัดเปอร์เซ็นต์ของการtrue positives
ค้นพบโดยโมเดลจากทุกtrue
กรณี สำหรับปัญหามากมายคุณจะต้องเลือกระหว่างการเพิ่มประสิทธิภาพความแม่นยำหรือการเรียกคืน
การวัดโดยเฉลี่ยใด ๆ จะสูญเสียการตีความข้างต้นและทำให้การวัดที่คุณชอบมากที่สุด F1 หมายความว่าคุณไม่รู้ว่าคุณชอบ Recall หรือ Precision หรือคุณให้น้ำหนักเท่ากัน หากคุณคิดว่าการเรียกคืนมีความสำคัญมากกว่าความแม่นยำคุณควรจัดสรรน้ำหนักที่สูงกว่าให้กับการคำนวณโดยเฉลี่ย (เช่น F2) และในทางกลับกัน (เช่น F0.5)
การเพิ่มทั้งสองเป็นมาตรการที่ไม่ดี คุณจะได้รับคะแนนอย่างน้อย 1 ถ้าคุณตั้งค่าสถานะทุกอย่างเป็นบวกเนื่องจากเป็นการเรียกคืน 100% ตามคำจำกัดความ และคุณจะได้ความแม่นยำเล็กน้อยจากด้านบน ค่าเฉลี่ยเรขาคณิตที่ใช้ใน F1 เน้นการเชื่อมโยงที่อ่อนแอเนื่องจากเป็นแบบทวีคูณ อย่างน้อยก็ต้องโอเคกับความแม่นยำและการจำเพื่อให้ได้คะแนน F1 ที่เหมาะสม
คะแนน F1 มีประโยชน์อย่างยิ่งในกรณีที่มีความไม่สมดุลอย่างรุนแรง
ลองพิจารณาตัวอย่างต่อไปนี้: เราทดสอบการเจ็บป่วยที่หายาก แต่อันตราย สมมติว่าในเมืองที่มีประชากร 1,000,000 คนติดเชื้อ 100 คนเท่านั้น
ทดสอบ A ตรวจจับผลบวกทั้งหมด 100 รายการ อย่างไรก็ตามมันก็มีอัตราบวกที่ผิด ๆ 50%: มันผิดพลาดแสดงให้เห็นว่ามีผู้ป่วยอีก 500,000 คนที่ไม่ถูกต้อง
ในขณะเดียวกันการทดสอบ B คิดถึง 10% ของผู้ติดเชื้อ แต่ให้ผลบวกเท็จเพียง 1.000 เท่านั้น (อัตราบวกเป็นเท็จ 0.1%)
ลองคำนวณคะแนน สำหรับการทดสอบ A ความแม่นยำจะเป็น 0 อย่างมีประสิทธิภาพ การเรียกคืนจะตรงกับ 1 สำหรับการทดสอบ B ความแม่นยำจะยังค่อนข้างเล็กประมาณ 0.01 การเรียกคืนจะเท่ากับ 0.9
หากเราหาผลรวมเฉลี่ยหรือหาค่าเฉลี่ยเลขคณิตของความแม่นยำและการเรียกคืนสิ่งนี้จะให้ 1 (0.5) สำหรับการทดสอบ A และ 0.91 (0.455) สำหรับการทดสอบ B ดังนั้นการทดสอบ A จะดูดีขึ้นเล็กน้อย
อย่างไรก็ตามถ้าเรามองจากมุมมองที่เป็นไปได้จริงการทดสอบ A นั้นไม่มีค่าถ้าคนที่ถูกทดสอบเป็นบวกโอกาสของเขาที่จะป่วยอย่างแท้จริงจะอยู่ที่ 1 ใน 50,000! การทดสอบ B มีความสำคัญในทางปฏิบัติมากขึ้น: คุณอาจพาคนไปโรงพยาบาลแล้ว 1.100 คนและสังเกตอย่างใกล้ชิด สิ่งนี้สะท้อนให้เห็นอย่างแม่นยำด้วยคะแนน F1: สำหรับการทดสอบ A จะใกล้เคียงกับ 0.0002 สำหรับการทดสอบ B: (0.01 * 0.9) / (0.01 + 0.9) = 0.0098 ซึ่งยังค่อนข้างแย่ แต่ดีกว่าประมาณ 50 เท่า
การจับคู่ระหว่างค่าคะแนนและความสำคัญเชิงปฏิบัตินี้คือสิ่งที่ทำให้คะแนน F1 มีค่า
โดยทั่วไปการเพิ่มค่าเฉลี่ยเรขาคณิตให้เน้นค่าที่ใกล้เคียงกันมากที่สุด ตัวอย่างเช่นถ่ายสองรุ่น: รุ่นแรกมี (ความแม่นยำการเรียกคืน) = (0.8, 0.8) และรุ่นที่สองมี (ความแม่นยำการเรียกคืน) = (0.6, 1.0) ใช้ค่าเฉลี่ยพีชคณิตทั้งสองโมเดลจะเท่ากัน การใช้ค่าเฉลี่ยเรขาคณิตแบบแรกดีกว่าเพราะมันไม่แลกเปลี่ยนความแม่นยำในการเรียกคืน