ข้อผิดพลาดกำลังสองเฉลี่ยสามารถใช้สำหรับการจำแนกประเภทได้หรือไม่


14

ฉันรู้สูตรข้อผิดพลาดกำลังสองเฉลี่ยและวิธีคำนวณ เมื่อเราพูดถึงการถดถอยเราสามารถคำนวณความคลาดเคลื่อนกำลังสองเฉลี่ยได้ อย่างไรก็ตามเราสามารถพูดคุยเกี่ยวกับ MSE สำหรับปัญหาการจำแนกประเภทและวิธีคำนวณได้อย่างไร

คำตอบ:


12

ตัวจําแนกหลายคนสามารถทำนายคะแนนอย่างต่อเนื่อง บ่อยครั้งคะแนนแบบต่อเนื่องเป็นผลลัพธ์ระดับกลางที่ถูกแปลงเป็นป้ายชื่อคลาส (โดยปกติจะเป็นเกณฑ์) เป็นขั้นตอนสุดท้ายของการจัดหมวดหมู่ ในกรณีอื่น ๆ เช่นความน่าจะเป็นหลังสำหรับสมาชิกระดับสามารถคำนวณได้ (เช่นการวิเคราะห์จำแนก, การถดถอยโลจิสติก) คุณสามารถคำนวณ MSE โดยใช้คะแนนอย่างต่อเนื่องเหล่านี้แทนระดับป้ายกำกับ ข้อดีของการทำเช่นนี้คือคุณหลีกเลี่ยงการสูญเสียข้อมูลเนื่องจากการแบ่งขั้ว
เมื่อคะแนนต่อเนื่องเป็นความน่าจะเป็นของการวัด MSE เรียกว่าคะแนนของ Brier

อย่างไรก็ตามยังมีปัญหาการจำแนกที่ค่อนข้างมีปัญหาการถดถอยในการปลอมตัว ในสาขาของฉันที่สามารถจำแนกกรณีตามความเข้มข้นของสารบางอย่างเกินขีด จำกัด ทางกฎหมายหรือไม่ (ซึ่งเป็นปัญหาสองชั้นแบบไบนารี / การเลือกปฏิบัติ) ที่นี่ MSE เป็นตัวเลือกโดยธรรมชาติเนื่องจากลักษณะการถดถอยพื้นฐานของงาน

ในบทความนี้เราอธิบายว่ามันเป็นส่วนหนึ่งของกรอบทั่วไป: C. Beleites, R. Salzer และ V. Sergo: การ
ตรวจสอบความถูกต้องของแบบจำลองการจำแนกแบบนุ่มนวลโดยใช้การเป็นสมาชิกระดับกลุ่มบางส่วน: แนวคิดเพิ่มเติมของความไวและร่วมกัน
Chemom Intell ห้องปฏิบัติการ Syst., 122 (2013), 12 - 22

วิธีคำนวณ: ถ้าคุณทำงานใน R การนำไปใช้งานหนึ่งอย่างอยู่ในแพ็คเกจ "softclassval", http: /softclassval.r-forge.r-project.org


@ seanv507: ขอบคุณมาก!
cbeleites ไม่มีความสุขกับ SX

1

ฉันไม่ค่อยเห็นว่า ... การจำแนกประเภทที่ประสบความสำเร็จเป็นตัวแปรไบนารี (ถูกต้องหรือไม่) ดังนั้นจึงเป็นการยากที่จะดูว่าคุณจะยกกำลังสองอย่างไร

โดยทั่วไปการจำแนกประเภทจะวัดจากตัวบ่งชี้เช่นเปอร์เซ็นต์ที่ถูกต้องเมื่อการจำแนกประเภทที่ประเมินจากชุดการฝึกอบรมถูกนำไปใช้กับชุดทดสอบที่ตั้งไว้ก่อนหน้านี้

ความคลาดเคลื่อนกำลังสองเฉลี่ยหมายความว่าสามารถคำนวณ (และ) สำหรับการคาดการณ์หรือค่าที่ทำนายของตัวแปรต่อเนื่องได้ แต่ฉันคิดว่าไม่ใช่การจำแนกประเภท


0

สำหรับการประมาณความน่าจะเป็นคุณต้องการคำนวณไม่ใช่ MSE แต่มีโอกาส:π^

L=iπ^iyi(1π^i)1yi

โอกาสนี้มีไว้สำหรับการตอบสนองแบบไบนารีซึ่งคาดว่าจะมีการกระจาย Bernoulli

ถ้าคุณนำ log ของไปลบมันคุณจะได้ค่า logistic loss ซึ่งเป็น analog ของ MSE เมื่อคุณมีการตอบสนองแบบไบนารี่ โดยเฉพาะอย่างยิ่ง MSE คือความน่าจะเป็นบันทึกเชิงลบสำหรับการตอบสนองต่อเนื่องที่คาดว่าจะมีการแจกแจงแบบปกติL


0

ในทางเทคนิคคุณสามารถทำได้ แต่ฟังก์ชั่น MSE นั้นไม่ใช่แบบนูนสำหรับการจำแนกไบนารี ดังนั้นหากรูปแบบการจัดหมวดหมู่ไบนารีคือการฝึกอบรมที่มีฟังก์ชั่นค่าใช้จ่าย MSE, มันไม่ได้รับประกันว่าจะลดต้นทุนฟังก์ชั่น นอกจากนี้การใช้ MSE เป็นฟังก์ชั่นต้นทุนถือว่าการกระจายแบบเกาส์ซึ่งไม่ใช่กรณีสำหรับการจำแนกแบบไบนารี


1
ทำไม MSE จะถือว่าการกระจายแบบเกาส์เซียน? (ตรงข้ามกับการพูดว่าการถดถอยกำลังสองน้อยที่สุดใช้ MSE เป็นการสูญเสียและเราสามารถแสดงให้เห็นว่ามันเป็นวิธีที่ดีที่สุดสำหรับปัญหาการถดถอยที่มีการแจกแจงแบบปกติ)
cbeleites ไม่มีความสุขกับ SX

ไม่เหมาะสำหรับการจำแนกไบนารี แต่เหมาะสมที่สุดสำหรับการถดถอย คำถามคือสำหรับไบนารี
Mostafa Nakhaei

คำถามไม่ได้บอกการจำแนกเลขฐานสอง มันไม่ได้พูดถึงการจำแนกประเภทที่เลือกปฏิบัติ และมันก็ไม่ถามถึงการใช้ประโยชน์สูงสุด (ซึ่งคุณจะต้องมีความเฉพาะเจาะจงมากขึ้นเกี่ยวกับสถานการณ์แม้จะบอกว่าไบนารีหรือพินิจพิเคราะห์ที่มี 2 คลาส) ว่า MSE สามารถใช้งานได้หรือไม่ นอกจากนี้คะแนนของ Brier เป็นกฎการให้คะแนนที่เหมาะสมสำหรับการพยากรณ์ดังนั้นคำอธิบายโดยละเอียดเพิ่มเติมเกี่ยวกับการไม่มองโลกในแง่ดีจะมีประโยชน์อย่างแน่นอน (และอาจจะให้ความกระจ่างมากว่าเมื่อใด
cbeleites ไม่มีความสุขกับ SX
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.