ฉันรู้สูตรข้อผิดพลาดกำลังสองเฉลี่ยและวิธีคำนวณ เมื่อเราพูดถึงการถดถอยเราสามารถคำนวณความคลาดเคลื่อนกำลังสองเฉลี่ยได้ อย่างไรก็ตามเราสามารถพูดคุยเกี่ยวกับ MSE สำหรับปัญหาการจำแนกประเภทและวิธีคำนวณได้อย่างไร
ฉันรู้สูตรข้อผิดพลาดกำลังสองเฉลี่ยและวิธีคำนวณ เมื่อเราพูดถึงการถดถอยเราสามารถคำนวณความคลาดเคลื่อนกำลังสองเฉลี่ยได้ อย่างไรก็ตามเราสามารถพูดคุยเกี่ยวกับ MSE สำหรับปัญหาการจำแนกประเภทและวิธีคำนวณได้อย่างไร
คำตอบ:
ตัวจําแนกหลายคนสามารถทำนายคะแนนอย่างต่อเนื่อง บ่อยครั้งคะแนนแบบต่อเนื่องเป็นผลลัพธ์ระดับกลางที่ถูกแปลงเป็นป้ายชื่อคลาส (โดยปกติจะเป็นเกณฑ์) เป็นขั้นตอนสุดท้ายของการจัดหมวดหมู่ ในกรณีอื่น ๆ เช่นความน่าจะเป็นหลังสำหรับสมาชิกระดับสามารถคำนวณได้ (เช่นการวิเคราะห์จำแนก, การถดถอยโลจิสติก) คุณสามารถคำนวณ MSE โดยใช้คะแนนอย่างต่อเนื่องเหล่านี้แทนระดับป้ายกำกับ ข้อดีของการทำเช่นนี้คือคุณหลีกเลี่ยงการสูญเสียข้อมูลเนื่องจากการแบ่งขั้ว
เมื่อคะแนนต่อเนื่องเป็นความน่าจะเป็นของการวัด MSE เรียกว่าคะแนนของ Brier
อย่างไรก็ตามยังมีปัญหาการจำแนกที่ค่อนข้างมีปัญหาการถดถอยในการปลอมตัว ในสาขาของฉันที่สามารถจำแนกกรณีตามความเข้มข้นของสารบางอย่างเกินขีด จำกัด ทางกฎหมายหรือไม่ (ซึ่งเป็นปัญหาสองชั้นแบบไบนารี / การเลือกปฏิบัติ) ที่นี่ MSE เป็นตัวเลือกโดยธรรมชาติเนื่องจากลักษณะการถดถอยพื้นฐานของงาน
ในบทความนี้เราอธิบายว่ามันเป็นส่วนหนึ่งของกรอบทั่วไป:
C. Beleites, R. Salzer และ V. Sergo: การ
ตรวจสอบความถูกต้องของแบบจำลองการจำแนกแบบนุ่มนวลโดยใช้การเป็นสมาชิกระดับกลุ่มบางส่วน: แนวคิดเพิ่มเติมของความไวและร่วมกัน
Chemom Intell ห้องปฏิบัติการ Syst., 122 (2013), 12 - 22
วิธีคำนวณ: ถ้าคุณทำงานใน R การนำไปใช้งานหนึ่งอย่างอยู่ในแพ็คเกจ "softclassval", http: /softclassval.r-forge.r-project.org
ฉันไม่ค่อยเห็นว่า ... การจำแนกประเภทที่ประสบความสำเร็จเป็นตัวแปรไบนารี (ถูกต้องหรือไม่) ดังนั้นจึงเป็นการยากที่จะดูว่าคุณจะยกกำลังสองอย่างไร
โดยทั่วไปการจำแนกประเภทจะวัดจากตัวบ่งชี้เช่นเปอร์เซ็นต์ที่ถูกต้องเมื่อการจำแนกประเภทที่ประเมินจากชุดการฝึกอบรมถูกนำไปใช้กับชุดทดสอบที่ตั้งไว้ก่อนหน้านี้
ความคลาดเคลื่อนกำลังสองเฉลี่ยหมายความว่าสามารถคำนวณ (และ) สำหรับการคาดการณ์หรือค่าที่ทำนายของตัวแปรต่อเนื่องได้ แต่ฉันคิดว่าไม่ใช่การจำแนกประเภท
สำหรับการประมาณความน่าจะเป็นคุณต้องการคำนวณไม่ใช่ MSE แต่มีโอกาส:
โอกาสนี้มีไว้สำหรับการตอบสนองแบบไบนารีซึ่งคาดว่าจะมีการกระจาย Bernoulli
ถ้าคุณนำ log ของไปลบมันคุณจะได้ค่า logistic loss ซึ่งเป็น analog ของ MSE เมื่อคุณมีการตอบสนองแบบไบนารี่ โดยเฉพาะอย่างยิ่ง MSE คือความน่าจะเป็นบันทึกเชิงลบสำหรับการตอบสนองต่อเนื่องที่คาดว่าจะมีการแจกแจงแบบปกติ
ในทางเทคนิคคุณสามารถทำได้ แต่ฟังก์ชั่น MSE นั้นไม่ใช่แบบนูนสำหรับการจำแนกไบนารี ดังนั้นหากรูปแบบการจัดหมวดหมู่ไบนารีคือการฝึกอบรมที่มีฟังก์ชั่นค่าใช้จ่าย MSE, มันไม่ได้รับประกันว่าจะลดต้นทุนฟังก์ชั่น นอกจากนี้การใช้ MSE เป็นฟังก์ชั่นต้นทุนถือว่าการกระจายแบบเกาส์ซึ่งไม่ใช่กรณีสำหรับการจำแนกแบบไบนารี