ความถูกต้องเป็นกฎการให้คะแนนที่ไม่เหมาะสมในการตั้งค่าการจัดประเภทไบนารีหรือไม่


13

ฉันเพิ่งเรียนรู้เกี่ยวกับกฎการให้คะแนนที่เหมาะสมสำหรับตัวแยกประเภทความน่าจะเป็น หลายหัวข้อในเว็บไซต์นี้ได้ชี้ให้เห็นว่าความแม่นยำเป็นกฎการให้คะแนนที่ไม่เหมาะสมและไม่ควรใช้ในการประเมินคุณภาพของการทำนายที่สร้างขึ้นโดยตัวแบบความน่าจะเป็นเช่นการถดถอยโลจิสติก

อย่างไรก็ตามเอกสารทางวิชาการที่ฉันได้อ่านค่อนข้างน้อยได้ให้การสูญเสียการจำแนกประเภทเป็นตัวอย่างของกฎการให้คะแนนที่เหมาะสม (ไม่เข้มงวด) ในการจำแนกประเภทไบนารี คำอธิบายที่ชัดเจนที่สุดที่ฉันพบได้ในบทความนี้ที่ด้านล่างของหน้า 7 เพื่อความเข้าใจที่ดีที่สุดของฉันการลดการสูญเสียการจำแนกประเภทให้น้อยที่สุดนั้นเทียบเท่ากับการเพิ่มความแม่นยำสูงสุดและสมการในกระดาษทำให้รู้สึกอย่างสังหรณ์ใจ

ตัวอย่างเช่น: ใช้สัญกรณ์ของกระดาษถ้าความน่าจะเป็นตามเงื่อนไขที่แท้จริง (จากคุณสมบัติของเวกเตอร์x ) ของระดับความสนใจคือη = 0.7 การคาดการณ์ใด ๆq > 0.5 จะมีการสูญเสียที่คาดหวังR (η | q ) = 0.7 (0) + 0.3 (1) = 0.3 และq 0.5 ใด ๆจะมีการสูญเสียที่คาดหวัง 0.7 ฟังก์ชั่นการสูญเสียจึงจะลดลงที่q = η = 0.7 และเหมาะสมดังนั้น การวางนัยทั่วไปไปยังช่วงทั้งหมดของความน่าจะเป็นตามเงื่อนไขที่แท้จริงและการคาดการณ์ดูเหมือนจะตรงไปตรงมาเพียงพอจากที่นั่น

สมมติว่าการคำนวณและข้อความข้างต้นนั้นถูกต้องข้อเสียของขั้นต่ำที่ไม่ซ้ำกันและการคาดการณ์ทั้งหมดที่สูงกว่า 0.5 การแบ่งปันการสูญเสียขั้นต่ำที่เหมือนกันจะชัดเจน ฉันยังคงเห็นว่าไม่มีเหตุผลที่จะใช้ความแม่นยำมากกว่าทางเลือกแบบดั้งเดิมเช่นคะแนนบันทึกคะแนน Brier ฯลฯ อย่างไรก็ตามมันถูกต้องหรือไม่ที่จะพูดว่าความถูกต้องเป็นกฎการให้คะแนนที่เหมาะสมเมื่อประเมินแบบจำลองความน่าจะเป็นในการตั้งค่าไบนารี ข้อผิดพลาด - ในความเข้าใจของฉันเกี่ยวกับการสูญเสียการจำแนกประเภทหรือในการทำให้เท่าเทียมกับความถูกต้อง?

คำตอบ:


15

TL; DR

ความแม่นยำเป็นกฎการให้คะแนนที่ไม่เหมาะสม อย่าใช้มัน

รุ่นที่ยาวกว่าเล็กน้อย

ที่จริงแล้วความแม่นยำไม่ได้เป็นกฎการให้คะแนน ดังนั้นการถามว่าเหมาะสม (เคร่งครัด) เป็นข้อผิดพลาดหมวดหมู่หรือไม่ สิ่งที่เราสามารถพูดได้มากที่สุดคือภายใต้สมมติฐานเพิ่มเติมความถูกต้องสอดคล้องกับกฎการให้คะแนนที่ไม่เหมาะสมไม่ต่อเนื่องและทำให้เข้าใจผิด (อย่าใช้มัน)

ความสับสนของคุณ

ความสับสนของคุณเกิดจากการสูญเสียการจำแนกประเภทตามเอกสารที่คุณอ้างถึงว่าไม่ใช่กฎการให้คะแนนเช่นกัน

รายละเอียด: กฎการให้คะแนนเทียบกับการประเมินการจำแนกประเภท

ให้เราแก้ไขคำศัพท์ เรามีความสนใจในผลไบนารีและเรามีการคาดการณ์ความน่าจะเป็น(0,1) เรารู้ว่าแต่โมเดลของเราอาจจะรู้หรือไม่ก็ได้y{0,1}q^=P^(Y=1)(0,1)P(Y=1)=η>0.5q^

กฎการให้คะแนนคือการทำแผนที่ที่ใช้การคาดการณ์ความน่าจะเป็นและผลที่จะสูญเสียq^y

s:(q^,y)s(q^,y).

sเป็นที่เหมาะสมถ้ามันมีการเพิ่มประสิทธิภาพในความคาดหวังโดย\( "Optimized" มักจะหมายถึง "ลดลง" แต่บางคนเขียนป้ายพลิกและพยายามที่จะเพิ่มกฎการให้คะแนน.)เป็นที่เหมาะสมอย่างเคร่งครัดหากมีการเพิ่มประสิทธิภาพในความคาดหวังเท่านั้นโดย\q^=ηsq^=η

โดยทั่วไปเราจะประเมินตามการคาดการณ์หลายอย่างและผลลัพธ์ที่สอดคล้องกันและค่าเฉลี่ยเพื่อประมาณการความคาดหวังนี้sq^iyi

ตอนนี้ความแม่นยำคืออะไร? ความแม่นยำไม่ได้ใช้การทำนายความน่าจะเป็นข้อโต้แย้ง ใช้การจำแนกประเภทy^{0,1}และผลลัพธ์:

a:(y^,y)a(y^,y)={1,y^=y0,y^y.

ดังนั้นความถูกต้องไม่ได้เป็นกฎการให้คะแนน เป็นการประเมินผลการจำแนกประเภท (นี่เป็นคำที่ฉันเพิ่งประดิษฐ์ขึ้นมาอย่าไปหามันในวรรณคดี)

ตอนนี้แน่นอนเราสามารถใช้การคาดการณ์ความน่าจะเป็นของเราเช่นและทำให้มันกลายเป็นจำแนก{y} แต่การทำเช่นนั้นเราจะต้องมีสมมติฐานเพิ่มเติมที่กล่าวถึงข้างต้น ตัวอย่างเช่นมันเป็นเรื่องธรรมดามากที่จะใช้ thresholdและจัดประเภท:q^y^θ

y^(q^,θ):={1,q^θ0,q^<θ.

ค่าเกณฑ์ที่พบบ่อยมากคือ\โปรดทราบว่าหากเราใช้เกณฑ์นี้และประเมินความแม่นยำในการคาดการณ์หลายอย่าง (ดังกล่าวข้างต้น) และผลลัพธ์ที่สอดคล้องกันดังนั้นเราจึงมาถึงการสูญเสียการจำแนกประเภทตาม Buja et al ดังนั้นการสูญเสียการจำแนกประเภทจึงไม่ใช่กฎการให้คะแนนθ=0.5q^iyi

หากเราใช้อัลกอริทึมการจัดหมวดหมู่เช่นเดียวกับข้างต้นเราสามารถเปลี่ยนการประเมินผลการจำแนกเป็นกฎการให้คะแนน ประเด็นก็คือเราต้องการสมมติฐานเพิ่มเติมของตัวจําแนก และที่ถูกต้องหรือจำแนกการสูญเสียหรือสิ่งที่การประเมินผลการจัดหมวดหมู่อื่น ๆ ที่เราเลือกแล้วอาจขึ้นน้อยลงในการทำนายความน่าจะเป็นและอื่น ๆ เกี่ยวกับวิธีการที่เราเปิดเป็นจำแนกtheta) ดังนั้นการเพิ่มประสิทธิภาพการประเมินผลการจัดหมวดหมู่อาจจะไล่หลังเป็นปลาชนิดหนึ่งสีแดงถ้าเราสนใจจริงๆในการประเมิน{Q}q^q^y^=y^(q^,θ)q^

ทีนี้อะไรคือสิ่งที่ไม่เหมาะสมเกี่ยวกับสมมติฐานเกณฑ์การให้คะแนนภายใต้เพิ่มเติม? ไม่มีอะไรในกรณีปัจจุบัน ภายใต้นัยจะเพิ่มความแม่นยำและลดการสูญเสียการจำแนกประเภทให้เหลือน้อยที่สุดทั้งหมด ดังนั้นในกรณีนี้สมมติฐานการให้คะแนนภายใต้เพิ่มเติมของเรานั้นเหมาะสมq^=ηθ=0.5q^(0,1)

โปรดทราบว่าสิ่งสำคัญสำหรับความแม่นยำหรือการสูญเสียการจำแนกประเภทเป็นคำถามเดียวเท่านั้น: เราจำแนก ( ) ทุกอย่างเป็นคนส่วนใหญ่หรือไม่? y^หากเราทำเช่นนั้นการสูญเสียความแม่นยำหรือการแยกประเภทมีความสุข ถ้าไม่พวกเขาไม่ได้ อะไรคือสิ่งที่สำคัญเกี่ยวกับคำถามนี้ก็คือว่ามันมีเพียงการเชื่อมต่อที่ผอมบางมากกับคุณภาพของ{Q}q^

ดังนั้นเราให้คะแนนกฎอันเดอร์เพิ่มเติม-สมมติฐานไม่ได้เคร่งครัดเหมาะสมเช่นใด ๆ จะนำไปสู่การประเมินผลการจัดหมวดหมู่เดียวกัน เราอาจจะใช้มาตรฐานเชื่อว่าระดับส่วนใหญ่เกิดขึ้นกับและทุกอย่างจัดเป็นระดับส่วนใหญ่เพราะ\ความแม่นยำสูง แต่เรามีแรงจูงใจที่จะปรับปรุงของเรากับค่าที่ถูกต้องของ\q^θθ=0.5q^=0.99q^θq^η

หรือเราอาจจะทำการวิเคราะห์ที่กว้างขวางของค่าใช้จ่ายที่ไม่สมมาตรของจำแนกและตัดสินใจว่าสิ่งที่ดีที่สุดเกณฑ์การจำแนกความน่าจะเป็นจริงควรจะ= ตัวอย่างเช่นสิ่งนี้อาจเกิดขึ้นได้หากหมายความว่าคุณเป็นโรคบางชนิด มันอาจจะดีกว่าที่จะปฏิบัติต่อคุณแม้ว่าคุณจะไม่ต้องทนทุกข์ทรมานจากโรค ( ) มากกว่าวิธีอื่น ๆ ดังนั้นจึงอาจทำให้รู้สึกถึงคนรักษาแม้ว่าจะมีความน่าจะเป็นที่คาดการณ์ไว้ในระดับต่ำ (ขนาดเล็ก ) พวกเขาต้องทนทุกข์ทรมานจากมัน จากนั้นเราอาจมีโมเดลผิดอย่างน่ากลัวที่เชื่อว่าคนส่วนใหญ่ที่แท้จริงเกิดขึ้นกับθ=0.2y=1y=0q^q^=0.25- แต่เนื่องจากค่าใช้จ่ายในการจำแนกเราทุกอย่างยังคงจัดเป็นนี้ (สันนิษฐาน) ชั้นชนกลุ่มน้อยเพราะอีกครั้ง\หากเราทำสิ่งนี้การสูญเสียความแม่นยำหรือการทำให้ผิดประเภทจะทำให้เราเชื่อว่าเรากำลังทำทุกอย่างถูกต้องแม้ว่าโมเดลการทำนายของเราจะไม่ได้รับสิ่งใดในสองชั้นเรียนของเราq^θ

ดังนั้นความแม่นยำหรือการสูญเสียการจำแนกประเภทอาจทำให้เข้าใจผิด

นอกจากนี้ในความถูกต้องและการสูญเสียจำแนกเป็นที่ไม่เหมาะสมภายใต้สมมติฐานเพิ่มเติมในสถานการณ์ที่ซับซ้อนมากขึ้นซึ่งผลที่ยังไม่ได้ IID แฟรงก์ฮาร์เรลในบล็อกของเขาโพสต์เสียหายที่เกิดจากการจำแนกประเภทความแม่นยำและอื่น ๆ ความถูกต้องไม่เหมาะสมต่อเนื่องเกณฑ์การให้คะแนนกฎยกตัวอย่างจากหนึ่งในหนังสือของเขาที่ใช้ถูกต้องหรือจำแนกการสูญเสียจะนำไปสู่รูปแบบ misspecified ได้เนื่องจากพวกเขาจะไม่ได้รับการเพิ่มประสิทธิภาพโดยการทำนายเงื่อนไขที่ถูกต้อง ความน่าจะเป็น

ปัญหาเกี่ยวกับความถูกต้องและการสูญเสียจำแนกก็คือว่าพวกเขาจะไม่ต่อเนื่องเป็นหน้าที่ของเกณฑ์ที่\Frank Harrell ก็เข้าสู่เรื่องนี้เช่นกันθ

ข้อมูลเพิ่มเติมสามารถดูได้ที่เหตุใดความแม่นยำจึงไม่ใช่วิธีที่ดีที่สุดในการประเมินแบบจำลองการจำแนกประเภท? .

บรรทัดล่างสุด

อย่าใช้ความแม่นยำ หรือการสูญเสียการจำแนกประเภท

The nitpick: "เคร่งครัด" กับ "เคร่งครัด"

เราควรจะพูดถึงกฎการให้คะแนนที่ "เข้มงวด" หรือกฎการให้คะแนนที่ "เข้มงวด" หรือไม่? "เข้มงวด" แก้ไข "เหมาะสม" ไม่ใช่ "กฎการให้คะแนน" (มี "กฎการให้คะแนนที่เหมาะสม" และ "กฎการให้คะแนนที่เหมาะสมอย่างเคร่งครัด" แต่ไม่มี "กฎการให้คะแนนที่เข้มงวด") เช่นนี้ "อย่างเคร่งครัด" ควรเป็นคำวิเศษณ์ไม่ใช่คำคุณศัพท์และควรใช้ "อย่างเคร่งครัด" ตามที่พบบ่อยในวรรณคดีเช่นเอกสารโดย Tilmann Gneiting


มีหลายแง่มุมของโพสต์ของคุณที่ฉันไม่ได้ติดตาม (หรือรู้สึกไม่เกี่ยวข้องกับคำถามที่ฉันถาม) แต่ให้เริ่มด้วย "การสูญเสียการจำแนกประเภทตามเอกสารที่คุณอ้างถึงไม่ใช่กฎการให้คะแนน" สูตรมีความชัดเจนมากในกระดาษ: L1 (1-q) = 1 [q <= 0.5] (ให้อภัยการจัดรูปแบบที่ไม่ดี) มันคือสำหรับวัตถุประสงค์ในทางปฏิบัติทั้งหมดฟังก์ชันขั้นตอนที่แมปการทำนายความน่าจะเป็นใด ๆ โดยตรงและผลลัพธ์ที่เกี่ยวข้องกับการสูญเสีย 0 หรือ 1 นอกจากนี้ 0.5 เป็นเพียงพารามิเตอร์ที่ควบคุมตำแหน่งที่เกิดขึ้น ฉันไม่เห็น "สมมติฐาน" ที่เกี่ยวข้อง นี่ไม่ใช่กฎการให้คะแนนอย่างไร
Zyzzva

1
เกณฑ์ที่ 0.5 คือข้อสมมติฐาน การทำนายความน่าจะเป็นถูกแมปกับการจำแนกประเภทโดยใช้เกณฑ์และการสูญเสียการจำแนกประเภทจึงเป็นเพียงฟังก์ชันของการจำแนกประเภทนี้ คุณสามารถคำนวณการสูญเสียการแบ่งประเภทอย่างเท่าเทียมกันสำหรับการจำแนกประเภทอื่น ๆ เช่นหนึ่งที่กลิ้งตายและกำหนดอินสแตนซ์ให้กับคลาส A หากเราหมุน 1 หรือ 2 ฉันพยายามอย่างเต็มที่เพื่ออธิบายว่าหัวข้อที่ซับซ้อนและเข้าใจผิดบ่อยครั้งคืออะไร ฉันรู้สึกว่าทุกอย่างที่ฉันเขียนมีความเกี่ยวข้อง); ฉันขอโทษถ้าฉันไม่ประสบความสำเร็จ ฉันยินดีที่จะหารือเกี่ยวกับคะแนนที่เหลืออยู่ q
เตฟาน Kolassa

1
สำหรับความคิดเห็นที่เกี่ยวข้องฉันขอโทษถ้ามันผิดไป ฉันพยายามโฟกัสขอบเขตของคำถามให้เฉพาะเจาะจงเกี่ยวกับความเหมาะสมและไม่เหมาะสมไม่ต่อเนื่อง / ทำให้เข้าใจผิด / ฯลฯ ฉันคุ้นเคยดีกับลิงก์ที่คุณให้และไม่มีปัญหากับความคิดเห็นของคุณเกี่ยวกับค่าใช้จ่ายในการจำแนกประเภทหรือบรรทัดล่างสุด ฉันแค่กำลังมองหาคำอธิบายที่เข้มงวดยิ่งขึ้นเกี่ยวกับคำว่า "ความถูกต้องไม่เหมาะสม" โดยเฉพาะอย่างยิ่งเนื่องจากบทความนี้แนะนำเป็นอย่างอื่นสำหรับกรณีการใช้งานทั่วไปของผลลัพธ์ไบนารี ฉันขอขอบคุณที่คุณสละเวลาพูดคุยกับฉันและแบ่งปันความคิดที่ละเอียดของคุณ
Zyzzva

1
หลังจากใคร่ครวญเพิ่มเติมฉันคิดว่าฉันเข้าใจชัดเจนถึงประเด็นที่คุณกำลังทำ หากเราพิจารณาฟังก์ชั่นขั้นตอนเดียวกันกับขั้นตอนที่ 0.6 (สอดคล้องกับการจำแนกที่เกณฑ์ 0.6) ดังนั้นกฎการให้คะแนนไม่เหมาะสมเนื่องจากการสูญเสียที่คาดหวังจะไม่ถูกย่อให้เล็กลงโดยการทำนาย q = n สำหรับ n ในช่วง [ 0.5, 0.6] โดยทั่วไปแล้วจะไม่เหมาะสมในทุก ๆ เกณฑ์มากกว่า 0.5 และในทางปฏิบัติบ่อยครั้งที่เราต้องการใช้เกณฑ์อื่น ๆ เนื่องจากค่าใช้จ่ายที่ไม่สมมาตรของการจำแนกประเภทตามที่คุณชี้ให้เห็น
Zyzzva

1
ฉันเห็นด้วยว่าความแม่นยำนั้นเป็นตัวชี้วัดที่ไม่ดีสำหรับการประเมินความน่าจะเป็นแม้ว่าจะมีการกำหนดเกณฑ์ 0.5 ฉันพูดได้มากในตอนท้ายของโพสต์ต้นฉบับที่ฉันทำ แต่สิ่งนี้ช่วยให้ชัดเจนในรายละเอียดเฉพาะที่ฉันมีปัญหากับ - กล่าวคือการคืนดีบางสิ่งที่ฉันเข้าใจผิดว่าการแสดงความถูกต้องนั้นเหมาะสมสำหรับผลลัพธ์ไบนารี นำไปใช้กับกรณีที่เฉพาะเจาะจงมากของเกณฑ์ 0.5) ด้วยคำสั่งสีดำและสีขาวที่ดูเหมือนว่า "ความถูกต้องไม่เหมาะสม" ที่ฉันได้เห็นมาก ขอบคุณสำหรับความช่วยเหลือและความอดทนของคุณ
Zyzzva
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.