เมื่อใดจึงเหมาะสมที่จะใช้กฎการให้คะแนนที่ไม่เหมาะสม


27

Merkle & Steyvers (2013) เขียน:

อย่างเป็นทางการกำหนดกฎการให้คะแนนที่เหมาะสมให้จะคาดการณ์ความน่าจะเป็นของการทดลอง Bernoulliกับความสำเร็จที่แท้จริงน่าจะเป็นพีกฎการให้คะแนนตัวชี้วัดที่เหมาะสมที่มีค่าคาดว่าจะลดลงถ้าPdพี=พี

ฉันเข้าใจว่าสิ่งนี้เป็นสิ่งที่ดีเพราะเราต้องการสนับสนุนนักพยากรณ์ให้สร้างการคาดการณ์ที่สะท้อนความเชื่อที่แท้จริงของพวกเขาอย่างซื่อสัตย์และไม่ต้องการให้พวกเขามีแรงจูงใจที่ผิดปกติให้ทำอย่างอื่น

มีตัวอย่างของโลกแห่งความจริงที่ควรใช้กฎการให้คะแนนที่ไม่เหมาะสมหรือไม่?

การอ้างอิง
Merkle, EC, & Steyvers, M. (2013) การเลือกกฎการให้คะแนนที่เหมาะสมอย่างเคร่งครัด การวิเคราะห์การตัดสินใจ, 10 (4), 292-304


1
ฉันคิดว่าคอลัมน์แรกของหน้าสุดท้ายของ Winkler & Jose "กฎการให้คะแนน" (2010) ที่ Merkle & Steyvers (2013) อ้างถึงคำตอบ กล่าวคือหากยูทิลิตี้ไม่ใช่การแปลงเลียนแบบของคะแนน (ซึ่งอาจเป็นเหตุผลโดยการหลีกเลี่ยงความเสี่ยงและอื่น ๆ ) การเพิ่มประสิทธิภาพของยูทิลิตี้ที่คาดหวังจะขัดแย้งกับการเพิ่มคะแนนที่คาดหวังไว้
Richard Hardy

คำตอบ:


25

มีความเหมาะสมที่จะใช้กฎการให้คะแนนที่ไม่เหมาะสมเมื่อมีวัตถุประสงค์เพื่อการคาดการณ์จริง ๆ แต่ไม่ใช่การอนุมาน ฉันไม่สนใจหรอกว่าผู้ทำนายคนอื่นจะโกงหรือไม่เมื่อฉันเป็นคนที่จะทำการพยากรณ์

กฎการให้คะแนนที่เหมาะสมช่วยให้มั่นใจว่าในระหว่างกระบวนการประเมินแบบจำลองจะเข้าสู่กระบวนการสร้างข้อมูลจริง (DGP) สิ่งนี้ฟังดูมีแนวโน้มเพราะเมื่อเราเข้าใกล้ DGP จริงเราก็จะทำได้ดีในแง่ของการพยากรณ์ภายใต้ฟังก์ชั่นการสูญเสียใด ๆ สิ่งที่ดักจับคือส่วนใหญ่เวลา (จริง ๆ แล้วในความเป็นจริงเกือบทุกครั้ง) พื้นที่การค้นหาแบบจำลองของเราไม่มี DGP ที่แท้จริง เราใกล้เคียงกับ DGP จริงด้วยรูปแบบการทำงานบางอย่างที่เราเสนอ

ในการตั้งค่าที่สมจริงกว่านี้หากงานการคาดการณ์ของเราง่ายกว่าที่จะเข้าใจความหนาแน่นทั้งหมดของ DGP ที่แท้จริงเราอาจทำได้ดีกว่าจริง ๆ นี่คือความจริงโดยเฉพาะอย่างยิ่งสำหรับการจัดหมวดหมู่ ตัวอย่างเช่น DGP จริงอาจมีความซับซ้อนมาก แต่งานการจัดหมวดหมู่นั้นง่ายมาก

Yaroslav Bulatov ได้ให้ตัวอย่างต่อไปนี้ในบล็อกของเขา:

http://yaroslavvb.blogspot.ro/2007/06/log-loss-or-hinge-loss.html

ตามที่คุณเห็นด้านล่างความหนาแน่นที่แท้จริงคือ wiggly แต่มันง่ายมากที่จะสร้างลักษณนามเพื่อแยกข้อมูลที่สร้างโดยสิ่งนี้ออกเป็นสองคลาส เพียงแค่ถ้าเอาท์พุทคลาส 1 และถ้าเอาต์พุตคลาส 2x0x<0

ป้อนคำอธิบายรูปภาพที่นี่

แทนที่จะจับคู่ความหนาแน่นที่แน่นอนด้านบนเราขอเสนอแบบจำลองน้ำมันดิบด้านล่างซึ่งค่อนข้างไกลจาก DGP จริง อย่างไรก็ตามมันจัดประเภทที่สมบูรณ์แบบ พบได้โดยใช้การสูญเสียบานพับซึ่งไม่เหมาะสม

ป้อนคำอธิบายรูปภาพที่นี่

ในทางกลับกันถ้าคุณตัดสินใจที่จะหา DGP ที่แท้จริงพร้อมกับบันทึกการสูญเสีย (ซึ่งเหมาะสม) จากนั้นคุณเริ่มปรับฟังก์ชั่นบางอย่างเนื่องจากคุณไม่ทราบว่าแบบฟอร์มการทำงานที่แน่นอนที่คุณต้องการมาก่อน แต่เมื่อคุณพยายามจับคู่ให้หนักขึ้นคุณจะเริ่มคิดสิ่งต่าง ๆ

ป้อนคำอธิบายรูปภาพที่นี่

โปรดทราบว่าในทั้งสองกรณีเราใช้รูปแบบการทำงานเดียวกัน ในกรณีการสูญเสียที่ไม่เหมาะสมมันจะเสื่อมสภาพลงในฟังก์ชั่นขั้นตอนซึ่งการจำแนกประเภทก็สมบูรณ์แบบ ในกรณีที่เหมาะสมมันก็บ้าดีเดือดพยายามที่จะตอบสนองทุกความหนาแน่น

โดยทั่วไปเราไม่จำเป็นต้องบรรลุโมเดลจริงเสมอไปเพื่อให้ได้การคาดการณ์ที่แม่นยำ หรือบางครั้งเราไม่จำเป็นต้องทำดีกับความหนาแน่นทั้งหมด แต่จะดีมากในบางส่วนเท่านั้น


13
นั่นเป็นตัวอย่างที่น่าสนใจจริงๆมีอาหารสำหรับความคิด
Matthew Drury

7

ความถูกต้อง (กล่าวคือเปอร์เซ็นต์ที่ถูกต้องจำแนก) เป็นกฎการให้คะแนนที่ไม่เหมาะสมดังนั้นในบางแง่มุมคนทำมันตลอดเวลา

โดยทั่วไปกฎการให้คะแนนใด ๆ ที่บังคับให้การคาดคะเนเป็นหมวดหมู่ที่กำหนดไว้ล่วงหน้าจะไม่เหมาะสม การจำแนกเป็นกรณีที่รุนแรง (การคาดการณ์ที่อนุญาตเพียงอย่างเดียวคือ 0% และ 100%) แต่การพยากรณ์อากาศอาจไม่เหมาะสมเล็กน้อย - สถานีท้องถิ่นของฉันดูเหมือนจะรายงานโอกาสในการเกิดฝนตกในช่วง 10 หรือ 20% แม้ว่าฉันจะ เดิมพันรูปแบบพื้นฐานนั้นแม่นยำกว่านี้มาก

กฎการให้คะแนนที่เหมาะสมยังถือว่าผู้พยากรณ์มีความเสี่ยงที่เป็นกลาง นี่ไม่ใช่กรณีของนักพยากรณ์มนุษย์ที่เกิดขึ้นจริงซึ่งโดยทั่วไปมักจะไม่เสี่ยงต่อความเสี่ยงและบางแอพพลิเคชั่นอาจได้รับประโยชน์จากกฎการให้คะแนนที่ทำให้เกิดอคตินั้น ตัวอย่างเช่นคุณอาจให้น้ำหนักเพิ่มเล็กน้อยกับ P (ฝน) ตั้งแต่ถือร่ม แต่ไม่ต้องการมันจะดีกว่าการถูกฝนตกหนัก


3
ฉันไม่คิดว่าฉันเข้าใจย่อหน้าที่สามของคุณ ฉันเขียนคำตอบที่คล้ายกันตามบรรทัดที่เราอาจต้องการมีสมาธิมากขึ้นในการรับความหนาแน่นเชิงทำนายที่สูง แต่ฉันไม่เห็นว่าฟังก์ชันการสูญเสียดังกล่าวจะกระตุ้นให้เราใช้กฎการให้คะแนนที่ไม่เหมาะสมได้อย่างไร เรายังคงมีแรงจูงใจมากที่สุดในการคาดการณ์การกระจายที่ถูกต้องในอนาคต คุณสามารถทำอย่างละเอียด?
S. Kolassa - Reinstate Monica

1
หากผู้ทำนายเพิ่มประโยชน์สูงสุดให้กับยูทิลิตี้ที่คาดหวัง (แทนค่า) กฎการให้คะแนนที่เหมาะสมอาจไม่เหมาะสมจริง ๆ (เช่นหากยูทิลิตี้ไม่ใช่ฟังก์ชันเชิงเส้นของคะแนน) อย่างไรก็ตามถ้าคุณรู้หรือสามารถประเมินฟังก์ชั่นยูทิลิตี้ได้ฉันคิดว่าคุณสามารถใช้กฎการให้คะแนนที่เหมาะสมโดยเฉพาะแทนการใช้อินเวอร์ส
Matt Krause

3
แต่ความถูกต้องหรือไม่ของกฎการให้คะแนนไม่เกี่ยวข้องกับยูทิลิตี้เพียงอย่างเดียวกับการกระจายในอนาคตที่คาดการณ์และที่เกิดขึ้นจริงดังนั้นฉันยังคงไม่เข้าใจประโยคแรกของความคิดเห็นของคุณและทำไมเราต้องการใช้กฎการให้คะแนนที่ไม่เหมาะสม . อย่างไรก็ตามคุณทำให้ฉันนึกถึงบทความของ Ehm at al ที่จะปรากฏในJRSS-Bซึ่งฉันอ่านเขียนคำตอบที่ถูกยกเลิกไปแล้ว แต่ที่ฉันไม่พบว่ามีประโยชน์สำหรับคำถามปัจจุบัน - การอ่านใกล้ ๆ อาจมีประโยชน์มากกว่า
S. Kolassa - Reinstate Monica

@StephanKolassa อาจเป็นคอลัมน์แรกของหน้าสุดท้ายของ Winkler & Jose "Scoring rules" (2010) อธิบายหรือไม่
Richard Hardy

ความคิดเห็นไม่ได้มีไว้สำหรับการอภิปรายเพิ่มเติม การสนทนานี้ได้รับการย้ายไปแชท
gung - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.