TL; DR
ความแม่นยำเป็นกฎการให้คะแนนที่ไม่เหมาะสม อย่าใช้มัน
รุ่นที่ยาวกว่าเล็กน้อย
ที่จริงแล้วความแม่นยำไม่ได้เป็นกฎการให้คะแนน ดังนั้นการถามว่าเหมาะสม (เคร่งครัด) เป็นข้อผิดพลาดหมวดหมู่หรือไม่ สิ่งที่เราสามารถพูดได้มากที่สุดคือภายใต้สมมติฐานเพิ่มเติมความถูกต้องสอดคล้องกับกฎการให้คะแนนที่ไม่เหมาะสมไม่ต่อเนื่องและทำให้เข้าใจผิด (อย่าใช้มัน)
ความสับสนของคุณ
ความสับสนของคุณเกิดจากการสูญเสียการจำแนกประเภทตามเอกสารที่คุณอ้างถึงว่าไม่ใช่กฎการให้คะแนนเช่นกัน
รายละเอียด: กฎการให้คะแนนเทียบกับการประเมินการจำแนกประเภท
ให้เราแก้ไขคำศัพท์ เรามีความสนใจในผลไบนารีและเรามีการคาดการณ์ความน่าจะเป็น(0,1) เรารู้ว่าแต่โมเดลของเราอาจจะรู้หรือไม่ก็ได้y∈{0,1}qˆ=Pˆ(Y=1)∈(0,1)P(Y=1)=η>0.5qˆ
กฎการให้คะแนนคือการทำแผนที่ที่ใช้การคาดการณ์ความน่าจะเป็นและผลที่จะสูญเสียqˆy
s:(qˆ,y)↦s(qˆ,y).
sเป็นที่เหมาะสมถ้ามันมีการเพิ่มประสิทธิภาพในความคาดหวังโดย\( "Optimized" มักจะหมายถึง "ลดลง" แต่บางคนเขียนป้ายพลิกและพยายามที่จะเพิ่มกฎการให้คะแนน.)เป็นที่เหมาะสมอย่างเคร่งครัดหากมีการเพิ่มประสิทธิภาพในความคาดหวังเท่านั้นโดย\qˆ=ηsqˆ=η
โดยทั่วไปเราจะประเมินตามการคาดการณ์หลายอย่างและผลลัพธ์ที่สอดคล้องกันและค่าเฉลี่ยเพื่อประมาณการความคาดหวังนี้sqˆiyi
ตอนนี้ความแม่นยำคืออะไร? ความแม่นยำไม่ได้ใช้การทำนายความน่าจะเป็นข้อโต้แย้ง ใช้การจำแนกประเภทyˆ∈{0,1}และผลลัพธ์:
a:(yˆ,y)↦a(yˆ,y)={1,0,yˆ=yyˆ≠y.
ดังนั้นความถูกต้องไม่ได้เป็นกฎการให้คะแนน เป็นการประเมินผลการจำแนกประเภท (นี่เป็นคำที่ฉันเพิ่งประดิษฐ์ขึ้นมาอย่าไปหามันในวรรณคดี)
ตอนนี้แน่นอนเราสามารถใช้การคาดการณ์ความน่าจะเป็นของเราเช่นและทำให้มันกลายเป็นจำแนก{y} แต่การทำเช่นนั้นเราจะต้องมีสมมติฐานเพิ่มเติมที่กล่าวถึงข้างต้น ตัวอย่างเช่นมันเป็นเรื่องธรรมดามากที่จะใช้ thresholdและจัดประเภท:qˆyˆθ
yˆ(qˆ,θ):={1,0,qˆ≥θqˆ<θ.
ค่าเกณฑ์ที่พบบ่อยมากคือ\โปรดทราบว่าหากเราใช้เกณฑ์นี้และประเมินความแม่นยำในการคาดการณ์หลายอย่าง (ดังกล่าวข้างต้น) และผลลัพธ์ที่สอดคล้องกันดังนั้นเราจึงมาถึงการสูญเสียการจำแนกประเภทตาม Buja et al ดังนั้นการสูญเสียการจำแนกประเภทจึงไม่ใช่กฎการให้คะแนนθ=0.5qˆiyi
หากเราใช้อัลกอริทึมการจัดหมวดหมู่เช่นเดียวกับข้างต้นเราสามารถเปลี่ยนการประเมินผลการจำแนกเป็นกฎการให้คะแนน ประเด็นก็คือเราต้องการสมมติฐานเพิ่มเติมของตัวจําแนก และที่ถูกต้องหรือจำแนกการสูญเสียหรือสิ่งที่การประเมินผลการจัดหมวดหมู่อื่น ๆ ที่เราเลือกแล้วอาจขึ้นน้อยลงในการทำนายความน่าจะเป็นและอื่น ๆ เกี่ยวกับวิธีการที่เราเปิดเป็นจำแนกtheta) ดังนั้นการเพิ่มประสิทธิภาพการประเมินผลการจัดหมวดหมู่อาจจะไล่หลังเป็นปลาชนิดหนึ่งสีแดงถ้าเราสนใจจริงๆในการประเมิน{Q}qˆqˆyˆ=yˆ(qˆ,θ)qˆ
ทีนี้อะไรคือสิ่งที่ไม่เหมาะสมเกี่ยวกับสมมติฐานเกณฑ์การให้คะแนนภายใต้เพิ่มเติม? ไม่มีอะไรในกรณีปัจจุบัน ภายใต้นัยจะเพิ่มความแม่นยำและลดการสูญเสียการจำแนกประเภทให้เหลือน้อยที่สุดทั้งหมด ดังนั้นในกรณีนี้สมมติฐานการให้คะแนนภายใต้เพิ่มเติมของเรานั้นเหมาะสมqˆ=ηθ=0.5qˆ∈(0,1)
โปรดทราบว่าสิ่งสำคัญสำหรับความแม่นยำหรือการสูญเสียการจำแนกประเภทเป็นคำถามเดียวเท่านั้น: เราจำแนก ( ) ทุกอย่างเป็นคนส่วนใหญ่หรือไม่? yˆหากเราทำเช่นนั้นการสูญเสียความแม่นยำหรือการแยกประเภทมีความสุข ถ้าไม่พวกเขาไม่ได้ อะไรคือสิ่งที่สำคัญเกี่ยวกับคำถามนี้ก็คือว่ามันมีเพียงการเชื่อมต่อที่ผอมบางมากกับคุณภาพของ{Q}qˆ
ดังนั้นเราให้คะแนนกฎอันเดอร์เพิ่มเติม-สมมติฐานไม่ได้เคร่งครัดเหมาะสมเช่นใด ๆ จะนำไปสู่การประเมินผลการจัดหมวดหมู่เดียวกัน เราอาจจะใช้มาตรฐานเชื่อว่าระดับส่วนใหญ่เกิดขึ้นกับและทุกอย่างจัดเป็นระดับส่วนใหญ่เพราะ\ความแม่นยำสูง แต่เรามีแรงจูงใจที่จะปรับปรุงของเรากับค่าที่ถูกต้องของ\qˆ≥θθ=0.5qˆ=0.99qˆ≥θqˆη
หรือเราอาจจะทำการวิเคราะห์ที่กว้างขวางของค่าใช้จ่ายที่ไม่สมมาตรของจำแนกและตัดสินใจว่าสิ่งที่ดีที่สุดเกณฑ์การจำแนกความน่าจะเป็นจริงควรจะ= ตัวอย่างเช่นสิ่งนี้อาจเกิดขึ้นได้หากหมายความว่าคุณเป็นโรคบางชนิด มันอาจจะดีกว่าที่จะปฏิบัติต่อคุณแม้ว่าคุณจะไม่ต้องทนทุกข์ทรมานจากโรค ( ) มากกว่าวิธีอื่น ๆ ดังนั้นจึงอาจทำให้รู้สึกถึงคนรักษาแม้ว่าจะมีความน่าจะเป็นที่คาดการณ์ไว้ในระดับต่ำ (ขนาดเล็ก ) พวกเขาต้องทนทุกข์ทรมานจากมัน จากนั้นเราอาจมีโมเดลผิดอย่างน่ากลัวที่เชื่อว่าคนส่วนใหญ่ที่แท้จริงเกิดขึ้นกับθ=0.2y=1y=0qˆqˆ=0.25- แต่เนื่องจากค่าใช้จ่ายในการจำแนกเราทุกอย่างยังคงจัดเป็นนี้ (สันนิษฐาน) ชั้นชนกลุ่มน้อยเพราะอีกครั้ง\หากเราทำสิ่งนี้การสูญเสียความแม่นยำหรือการทำให้ผิดประเภทจะทำให้เราเชื่อว่าเรากำลังทำทุกอย่างถูกต้องแม้ว่าโมเดลการทำนายของเราจะไม่ได้รับสิ่งใดในสองชั้นเรียนของเราqˆ≥θ
ดังนั้นความแม่นยำหรือการสูญเสียการจำแนกประเภทอาจทำให้เข้าใจผิด
นอกจากนี้ในความถูกต้องและการสูญเสียจำแนกเป็นที่ไม่เหมาะสมภายใต้สมมติฐานเพิ่มเติมในสถานการณ์ที่ซับซ้อนมากขึ้นซึ่งผลที่ยังไม่ได้ IID แฟรงก์ฮาร์เรลในบล็อกของเขาโพสต์เสียหายที่เกิดจากการจำแนกประเภทความแม่นยำและอื่น ๆ ความถูกต้องไม่เหมาะสมต่อเนื่องเกณฑ์การให้คะแนนกฎยกตัวอย่างจากหนึ่งในหนังสือของเขาที่ใช้ถูกต้องหรือจำแนกการสูญเสียจะนำไปสู่รูปแบบ misspecified ได้เนื่องจากพวกเขาจะไม่ได้รับการเพิ่มประสิทธิภาพโดยการทำนายเงื่อนไขที่ถูกต้อง ความน่าจะเป็น
ปัญหาเกี่ยวกับความถูกต้องและการสูญเสียจำแนกก็คือว่าพวกเขาจะไม่ต่อเนื่องเป็นหน้าที่ของเกณฑ์ที่\Frank Harrell ก็เข้าสู่เรื่องนี้เช่นกันθ
ข้อมูลเพิ่มเติมสามารถดูได้ที่เหตุใดความแม่นยำจึงไม่ใช่วิธีที่ดีที่สุดในการประเมินแบบจำลองการจำแนกประเภท? .
บรรทัดล่างสุด
อย่าใช้ความแม่นยำ หรือการสูญเสียการจำแนกประเภท
The nitpick: "เคร่งครัด" กับ "เคร่งครัด"
เราควรจะพูดถึงกฎการให้คะแนนที่ "เข้มงวด" หรือกฎการให้คะแนนที่ "เข้มงวด" หรือไม่? "เข้มงวด" แก้ไข "เหมาะสม" ไม่ใช่ "กฎการให้คะแนน" (มี "กฎการให้คะแนนที่เหมาะสม" และ "กฎการให้คะแนนที่เหมาะสมอย่างเคร่งครัด" แต่ไม่มี "กฎการให้คะแนนที่เข้มงวด") เช่นนี้ "อย่างเคร่งครัด" ควรเป็นคำวิเศษณ์ไม่ใช่คำคุณศัพท์และควรใช้ "อย่างเคร่งครัด" ตามที่พบบ่อยในวรรณคดีเช่นเอกสารโดย Tilmann Gneiting