3
ฉันจะเลือกเมตริกที่ดีที่สุดในการวัดการสอบเทียบได้อย่างไร
ฉันเขียนโปรแกรมและทำการพัฒนาโดยอาศัยการทดสอบ หลังจากที่ฉันทำการเปลี่ยนแปลงรหัสของฉันฉันเรียกใช้การทดสอบของฉัน บางครั้งพวกเขาประสบความสำเร็จและบางครั้งพวกเขาก็ล้มเหลว ก่อนที่ฉันจะทำการทดสอบฉันจะเขียนตัวเลขจาก 0.01 ถึง 0.99 เพื่อให้แน่ใจว่าการทดสอบจะสำเร็จ ฉันต้องการทราบว่าฉันปรับปรุงในการทำนายว่าการทดสอบของฉันจะสำเร็จหรือล้มเหลว มันจะดีถ้าฉันสามารถติดตามว่าฉันดีกว่าที่ทำนายว่าการทดสอบจะประสบความสำเร็จในวันจันทร์หรือวันศุกร์ หากความสามารถในการทำนายความสำเร็จในการทดสอบมีความสัมพันธ์กับตัวชี้วัดอื่นที่ฉันติดตามฉันต้องการทราบ นั่นทำให้ฉันมีหน้าที่เลือกเมตริกที่ถูกต้อง ใน Superforcasting Philip Tetlock เสนอให้ใช้คะแนน Brierในการวัดว่าผู้เชี่ยวชาญสอบเทียบได้ดีเพียงใด ตัวชี้วัดที่ได้รับการเสนอชื่อในวรรณคดีก็คือกฎการให้คะแนนลอการิทึม นอกจากนี้ยังมีผู้สมัครอื่น ๆ ฉันจะตัดสินใจได้อย่างไรว่าจะใช้เมตริกใด มีการโต้เถียงกันหรือไม่ที่จะสนับสนุนกฎการให้คะแนนหนึ่งกฎเหนือกฎอื่น ๆ ?