ฉันจะเลือกเมตริกที่ดีที่สุดในการวัดการสอบเทียบได้อย่างไร


10

ฉันเขียนโปรแกรมและทำการพัฒนาโดยอาศัยการทดสอบ หลังจากที่ฉันทำการเปลี่ยนแปลงรหัสของฉันฉันเรียกใช้การทดสอบของฉัน บางครั้งพวกเขาประสบความสำเร็จและบางครั้งพวกเขาก็ล้มเหลว ก่อนที่ฉันจะทำการทดสอบฉันจะเขียนตัวเลขจาก 0.01 ถึง 0.99 เพื่อให้แน่ใจว่าการทดสอบจะสำเร็จ

ฉันต้องการทราบว่าฉันปรับปรุงในการทำนายว่าการทดสอบของฉันจะสำเร็จหรือล้มเหลว มันจะดีถ้าฉันสามารถติดตามว่าฉันดีกว่าที่ทำนายว่าการทดสอบจะประสบความสำเร็จในวันจันทร์หรือวันศุกร์ หากความสามารถในการทำนายความสำเร็จในการทดสอบมีความสัมพันธ์กับตัวชี้วัดอื่นที่ฉันติดตามฉันต้องการทราบ

นั่นทำให้ฉันมีหน้าที่เลือกเมตริกที่ถูกต้อง ใน Superforcasting Philip Tetlock เสนอให้ใช้คะแนน Brierในการวัดว่าผู้เชี่ยวชาญสอบเทียบได้ดีเพียงใด ตัวชี้วัดที่ได้รับการเสนอชื่อในวรรณคดีก็คือกฎการให้คะแนนลอการิทึม นอกจากนี้ยังมีผู้สมัครอื่น ๆ

ฉันจะตัดสินใจได้อย่างไรว่าจะใช้เมตริกใด มีการโต้เถียงกันหรือไม่ที่จะสนับสนุนกฎการให้คะแนนหนึ่งกฎเหนือกฎอื่น ๆ ?


1
แหล่งที่มาของความยากลำบากในการวัดการเปลี่ยนแปลงในทักษะการพยากรณ์ของคุณคือความยากลำบากพื้นฐานของปัญหาการพยากรณ์สามารถเปลี่ยนแปลงได้ การเปลี่ยนแปลงทักษะของคุณอาจแยกไม่ออกจากการเปลี่ยนแปลงในปัญหาที่เกิดขึ้น
Matthew Gunn

คำตอบ:


1

ฉันคิดว่าคุณกำลังทำการทดสอบหน่วยสำหรับรหัสของคุณ

แนวคิดหนึ่งที่ฉันนึกได้ซึ่งอาจจะไม่ตรงตามที่คุณต้องการก็คือใช้โมเดลเชิงเส้น

ข้อดีของการทำคือคุณสามารถสร้างตัวแปรอื่น ๆ ที่คุณสามารถรวมไว้ในการวิเคราะห์

สมมติว่าคุณมีเวกเตอร์ซึ่งรวมถึงผลการทดสอบของคุณและอีกเวกเตอร์ที่มีการคาดการณ์ผลลัพธ์ของคุณxYx

ตอนนี้คุณสามารถใส่โมเดลเชิงเส้นได้

yi=a+bxi+ϵ

และหาค่าของที่สูงกว่าค่าของจะแสดงให้เห็นว่าการคาดการณ์ของคุณจะกลายเป็นดีกว่าbb

สิ่งที่ทำให้วิธีนี้ดีคือตอนนี้คุณสามารถเริ่มเพิ่มตัวแปรอื่น ๆ อีกมากมายเพื่อดูว่าสร้างแบบจำลองที่ดีขึ้นได้หรือไม่และตัวแปรเหล่านั้นสามารถช่วยในการคาดการณ์ได้ดีขึ้น ตัวแปรอาจเป็นตัวบ่งชี้สำหรับวันในสัปดาห์เช่นสำหรับวันจันทร์มันจะเป็น 1 เสมอและเป็นศูนย์สำหรับวันอื่น ๆ หากคุณรวมตัวแปรนั้นไว้ในโมเดลคุณจะได้รับ:

yi=a+aMonday+bxi+ϵ

และหากตัวแปรมีความสำคัญและเป็นบวกนั่นอาจหมายความว่าคุณมีความระมัดระวังมากขึ้นในการทำนายของคุณในวันจันทร์aMonday

คุณสามารถสร้างตัวแปรใหม่ที่ให้คะแนนเพื่อประเมินความยากของงานที่คุณทำ หากคุณมีการควบคุมเวอร์ชันคุณสามารถใช้จำนวนบรรทัดของรหัสเป็นความยากลำบากเช่นยิ่งคุณเขียนโค้ดมากเท่าไหร่ก็จะยิ่งมีสิ่งผิดปกติเกิดขึ้น

ตัวแปรอื่น ๆ อาจเป็นจำนวนถ้วยกาแฟในวันนั้นตัวบ่งชี้สำหรับกำหนดเวลาที่จะเกิดขึ้นซึ่งหมายความว่ามีความเครียดมากขึ้นที่จะเสร็จสิ้นสิ่งอื่น ๆ

คุณสามารถใช้ตัวแปรเวลาเพื่อดูว่าการคาดการณ์ของคุณดีขึ้นหรือไม่ นอกจากนี้ระยะเวลาที่คุณใช้ในงานหรือกี่เซสชันที่คุณใช้ไปไม่ว่าคุณจะทำการแก้ไขอย่างรวดเร็วและมันอาจจะเลอะเทอะเป็นต้น

ในท้ายที่สุดคุณมีรูปแบบการทำนายที่คุณสามารถลองทำนายโอกาสของความสำเร็จ หากคุณสามารถสร้างสิ่งนี้ได้บางทีคุณอาจไม่จำเป็นต้องคาดเดาเองคุณก็สามารถใช้ตัวแปรทั้งหมดและคาดเดาได้ดีว่าสิ่งต่าง ๆ จะได้ผลหรือไม่

สิ่งคือคุณต้องการเพียงหมายเลขเดียว ในกรณีนี้คุณสามารถใช้โมเดลง่าย ๆ ที่ฉันนำเสนอในตอนแรกและใช้ความชันและทำการคำนวณซ้ำในแต่ละช่วงเวลาจากนั้นคุณสามารถดูว่ามีแนวโน้มในคะแนนนั้นตลอดเวลาหรือไม่

หวังว่านี่จะช่วยได้


1
ฉันจะยืนยันว่าความลาดชันสูง (ในรูปแบบที่เรียบง่ายของคุณ) ไม่เคยสอดคล้องกับการคาดการณ์ที่ดีกว่า: สมมติว่าถดถอยโลจิสติถ้า = 'ที่แท้จริง' / ความน่าจะเป็นที่สังเกตของผลขณะที่คือความน่าจะเป็นที่คาดการณ์ไว้กว่าควรเป็น 0 และควรเป็น 1ใด ๆ ที่สูงกว่าจะแนะนำการคาดคะเนผลลัพธ์มากเกินไปในขณะที่ต่ำกว่า 1 แนะนำการคาดการณ์ต่ำเกินไป วิธีนี้มีการอธิบายในการอ้างอิงที่ฉันชี้ไปในคำตอบของฉัน ในระยะสั้นวิธีลาดชันนี้จะปรับให้ใช้ แต่เนินเขาใกล้กับ 1 ที่ดีที่สุด (เมื่อ= 0) Y x a b b b abYxabbba
IWS

@IWS ขอบคุณสำหรับการป้อนข้อมูลฉันเห็นด้วยกับคุณในระดับที่คุณต้องการค่าเดียวเพื่อประเมินประสิทธิภาพของคุณจากนั้นการตัดการสกัดกั้นเป็นความคิดที่ดี หากคุณต้องการตีความข้อมูลเพิ่มเติม (และคุณมีเพียงพอ) ก็เป็นความคิดที่ดีที่จะเพิ่มการสกัดกั้นและเปรียบเทียบโมเดล
Gumeo

1

แม้ว่าจะห่างไกลจากคำตอบและอื่น ๆ ของการอ้างอิงก็อาจจะมีความคิดที่ดีที่จะตรวจสอบSteyerberg E - ระบาดวิทยา 2012

ในบทความนี้ Steyerberg และเพื่อนร่วมงานอธิบายวิธีต่าง ๆ ในการตรวจสอบประสิทธิภาพการทำนายแบบจำลองสำหรับแบบจำลองที่มีผลลัพธ์เป็นเลขฐานสอง (ความสำเร็จหรือความล้มเหลว) การปรับเทียบเป็นเพียงหนึ่งในมาตรการเหล่านี้ ขึ้นอยู่กับว่าคุณต้องการความน่าจะเป็นที่แม่นยำการจำแนกที่ถูกต้องหรือการจัดประเภทที่ถูกต้องคุณอาจต้องการใช้การวัดประสิทธิภาพของแบบจำลองที่แตกต่างกัน แม้ว่าบทความนี้จะเกี่ยวข้องกับแบบจำลองที่จะใช้ในการวิจัยด้านชีวการแพทย์ แต่ผมก็รู้สึกว่ามันสามารถนำไปใช้กับสถานการณ์อื่น ๆ (ของคุณ) ได้เช่นกัน

เจาะจงมากขึ้นกับสถานการณ์ของคุณตัวชี้วัดการสอบเทียบนั้นยากที่จะตีความเพราะพวกเขาสรุป (เช่นค่าเฉลี่ย) การสอบเทียบตลอดช่วงการคาดการณ์ที่เป็นไปได้ทั้งหมด ดังนั้นคุณอาจมีคะแนนสรุปการสอบเทียบที่ดีในขณะที่การคาดคะเนของคุณอยู่ในช่วงที่สำคัญของความน่าจะเป็นที่คาดการณ์ (เช่นคุณอาจมีคะแนน brier ต่ำ (= ดี) ในขณะที่การคาดคะเนความสำเร็จนั้นต่ำกว่าหรือต่ำกว่า ความน่าจะเป็นที่คาดการณ์) หรือในทางกลับกัน (คะแนนสรุปที่ไม่ดีขณะที่การคาดการณ์จะได้รับการสอบเทียบอย่างดีในพื้นที่วิกฤติ) ดังนั้นฉันขอแนะนำให้คุณลองคิดดูว่าความเป็นไปได้ที่คาดการณ์ได้นั้นมีความสำคัญหรือไม่ ถ้าเป็นเช่นนั้นใช้มาตรการที่เหมาะสม (เช่นดัชนีการจัดประเภทใหม่) หากไม่ (หมายถึงคุณสนใจในการปรับเทียบโดยรวม) ให้ใช้ brier

ในการสรุปมาตรการสรุปการสอบเทียบใด ๆ จำเป็นต้องมีขั้นตอนแรกของคุณในการพล็อตความน่าจะเป็นที่คาดการณ์ของคุณเปรียบเทียบกับความน่าจะเป็นที่สังเกตได้ ถัดไปสามารถคำนวณการวัดสรุปได้ แต่ตัวเลือกของการสรุปการวัดควรสะท้อนถึงเป้าหมายของการทำนายความล้มเหลวตั้งแต่แรก


0

ฉันทำแบบจำลองการทำนายกับข้อมูลที่กระจัดกระจายและมันเป็นความท้าทายที่ยิ่งใหญ่ที่จะทำให้แบบจำลองของคุณสอบเทียบในกรณีเหล่านี้ ฉันจะบอกคุณว่าฉันทำอะไรคุณสามารถขอความช่วยเหลือได้

ฉันสร้างความน่าจะเป็นที่คาดการณ์ไว้ 20 ถังและพยายามวางแผนความน่าจะเป็นที่คาดการณ์โดยเฉลี่ยและความสำเร็จที่แท้จริง สำหรับความน่าจะเป็นที่คาดการณ์โดยเฉลี่ยฉันใช้ช่วงเฉลี่ยของช่วง bin สำหรับความน่าจะเป็นจริงโดยเฉลี่ยฉันคำนวณความสำเร็จและความล้มเหลวในถังขยะซึ่งฉันได้รับความน่าจะเป็นจริง (ค่ามัธยฐาน) ของความสำเร็จในถังขยะ เพื่อลดผลกระทบของค่าผิดปกติฉันได้ลบข้อมูลด้านบนและด้านล่าง 5% ก่อนที่จะรับค่าเฉลี่ยความน่าจะเป็นจริงในแต่ละถัง

เมื่อฉันได้รับสิ่งเหล่านี้ฉันสามารถวางแผนข้อมูลได้อย่างง่ายดาย


เป็นการดีที่จะชี้ให้เห็นว่านี่เป็นขั้นตอนแรกในการทดสอบความเหมาะสมของ Hosmer-Lemeshow
jwimberley
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.