ฉันเคยเห็นมาตรวัดข้อผิดพลาดที่แตกต่างกันที่ใช้ในการแข่งขัน Kaggle: RMS, Mean-square, AUC และอื่น ๆ กฎทั่วไปเกี่ยวกับการเลือกข้อผิดพลาดทั่วไปคืออะไรคุณจะทราบได้อย่างไรว่าการวัดข้อผิดพลาดแบบใดที่จะใช้สำหรับปัญหาที่ระบุ มีแนวทางใดบ้าง
ฉันเคยเห็นมาตรวัดข้อผิดพลาดที่แตกต่างกันที่ใช้ในการแข่งขัน Kaggle: RMS, Mean-square, AUC และอื่น ๆ กฎทั่วไปเกี่ยวกับการเลือกข้อผิดพลาดทั่วไปคืออะไรคุณจะทราบได้อย่างไรว่าการวัดข้อผิดพลาดแบบใดที่จะใช้สำหรับปัญหาที่ระบุ มีแนวทางใดบ้าง
คำตอบ:
กลุ่มของตัวชี้วัดข้อผิดพลาดที่คุณสามารถเลือกได้นั้นแตกต่างกันระหว่างการจำแนกและการถดถอย ในระยะหลังคุณพยายามทำนายหนึ่งค่าอย่างต่อเนื่องและด้วยการจำแนกประเภทคุณทำนายคลาสที่ไม่ต่อเนื่องเช่น "สุขภาพดี" หรือ "ไม่แข็งแรง" จากตัวอย่างที่คุณกล่าวถึงข้อผิดพลาดรูทค่าเฉลี่ยจะใช้กับการถดถอยและ AUC สำหรับการจำแนกประเภทที่มีสองคลาส
ฉันจะให้รายละเอียดเพิ่มเติมเล็กน้อยเกี่ยวกับการจัดหมวดหมู่ คุณพูดถึง AUC เป็นหน่วยวัดซึ่งเป็นพื้นที่ใต้เส้นโค้ง ROCซึ่งโดยปกติจะใช้กับปัญหาการจำแนกประเภทไบนารีที่มีสองคลาสเท่านั้น แม้ว่าจะมีวิธีในการสร้างเส้นโค้ง ROC สำหรับมากกว่าสองคลาส แต่พวกเขาก็ปล่อยความเรียบง่ายของเส้นโค้ง ROC สำหรับสองชั้น นอกจากนี้ ROC curves สามารถสร้างได้หากตัวแยกประเภทของตัวเลือกแสดงผลคะแนนบางประเภทที่เกี่ยวข้องกับการทำนายแต่ละครั้ง ตัวอย่างเช่นการถดถอยโลจิสติกจะทำให้คุณมีความน่าจะเป็นสำหรับแต่ละสองคลาส นอกเหนือจากความเรียบง่าย ROC curves ยังมีข้อได้เปรียบที่ไม่ได้รับผลกระทบจากอัตราส่วนระหว่างอินสแตนซ์ที่เป็นบวกและติดลบในชุดข้อมูลของคุณและไม่บังคับให้คุณเลือกเกณฑ์ อย่างไรก็ตามขอแนะนำให้ไม่เพียง แต่ดูที่เส้นโค้ง ROC เพียงอย่างเดียว แต่ยังสามารถสร้างภาพข้อมูลอื่น ๆ ได้เช่นกัน ฉันขอแนะนำให้ดูที่เส้นโค้งการเรียกคืนที่แม่นยำและเส้นโค้งราคาการวัดข้อผิดพลาดที่แท้จริงหนึ่งเดียวพวกเขาล้วนมีจุดแข็งและจุดอ่อน
วรรณกรรมฉันพบว่ามีประโยชน์ในเรื่องนี้คือ:
หากตัวจําแนกของคุณไม่ได้ให้คะแนนบางอย่างคุณต้องถอยกลับไปใช้มาตรการพื้นฐานที่สามารถหาได้จากเมทริกซ์ความสับสนที่มีจํานวนผลบวกจริงผลบวกเท็จเชิงลบจริงและเชิงลบเท็จ การสร้างภาพข้อมูลที่กล่าวถึงข้างต้น (ROC, ความแม่นยำ - การเรียกคืน, โค้งราคา) ทั้งหมดขึ้นอยู่กับตารางเหล่านี้ที่ได้รับโดยใช้เกณฑ์ที่แตกต่างกันของคะแนนของตัวจําแนก มาตรการที่ได้รับความนิยมมากที่สุดในกรณีนี้น่าจะเป็นF1-Measure
ให้ฉันเพิ่มความคิดอีกเล็กน้อยเพื่อคำตอบที่มีอยู่แล้ว
ขึ้นอยู่กับการออกแบบการศึกษาของคุณเศษส่วนโดยรวมของตัวอย่างที่ถูกต้องหรือผิดประเภทอาจเป็นบทสรุปที่เหมาะสมหรือไม่และข้อสรุปที่คุณสามารถดึงได้จากนั้นจะขึ้นอยู่กับการออกแบบการศึกษาด้วย: ข้อมูลทดสอบของคุณสะท้อนความน่าจะเป็น เรียน? สำหรับประชากรที่ตัวจําแนกของคุณควรจะใช้หรือไม่ มันถูกรวบรวมในลักษณะแบ่งชั้นหรือไม่? สิ่งนี้มีความสัมพันธ์อย่างใกล้ชิดกับความจริงที่ว่าผู้ใช้ลักษณนามส่วนใหญ่สนใจในค่าคาดการณ์มากขึ้น แต่ความไวและความเฉพาะเจาะจงนั้นง่ายต่อการวัด
คุณถามเกี่ยวกับแนวทางทั่วไป แนวทางทั่วไปอย่างหนึ่งคือคุณต้องรู้
ฉันคิดว่าคุณจะไม่สามารถหาตัวชี้วัดที่มีประโยชน์ได้หากคุณไม่สามารถตอบคำถามเหล่านี้ได้
มันเหมือนกับว่าไม่มีอาหารกลางวันฟรีในการตรวจสอบลักษณนาม
อัตราความผิดพลาดที่คาดว่าผิดพลาดเป็นวิธีที่ฉันใช้และพบเห็นบ่อยที่สุด AUC ของ ROC เป็นหน่วยวัดของกฎการจำแนกประเภท หากความคิดคือการเปรียบเทียบลักษณนามเฉพาะกับที่อื่นแล้ว AUC ไม่เหมาะสม ข้อผิดพลาดการจำแนกประเภทบางรูปแบบเหมาะสมที่สุดเนื่องจากเป็นตัวแทนของประสิทธิภาพการทำงานของกฎการจำแนกโดยตรง
งานจำนวนมากได้ทำการค้นหาการประมาณค่าที่ดีของอัตราความผิดพลาดการจัดประเภทเนื่องจากอคติขนาดใหญ่ของการประเมินการเปลี่ยนคืนและความแปรปรวนสูงของการลาออกครั้งเดียว Bootstrap และตัวประมาณที่ราบรื่นได้ถูกกำหนดขึ้น ดูตัวอย่างกระดาษของ Efron ใน JASA 1983 เกี่ยวกับการปรับปรุง bootstrap ผ่านการตรวจสอบข้าม
นี่คือรายงานทางเทคนิคของมหาวิทยาลัยสแตนฟอร์ดในปี 1995โดย Efron และ Tibshirami สรุปวรรณกรรมรวมถึงงานของฉัน