วิธีการเลือกเมตริกข้อผิดพลาดเมื่อประเมินลักษณนาม


15

ฉันเคยเห็นมาตรวัดข้อผิดพลาดที่แตกต่างกันที่ใช้ในการแข่งขัน Kaggle: RMS, Mean-square, AUC และอื่น ๆ กฎทั่วไปเกี่ยวกับการเลือกข้อผิดพลาดทั่วไปคืออะไรคุณจะทราบได้อย่างไรว่าการวัดข้อผิดพลาดแบบใดที่จะใช้สำหรับปัญหาที่ระบุ มีแนวทางใดบ้าง

คำตอบ:


12

กลุ่มของตัวชี้วัดข้อผิดพลาดที่คุณสามารถเลือกได้นั้นแตกต่างกันระหว่างการจำแนกและการถดถอย ในระยะหลังคุณพยายามทำนายหนึ่งค่าอย่างต่อเนื่องและด้วยการจำแนกประเภทคุณทำนายคลาสที่ไม่ต่อเนื่องเช่น "สุขภาพดี" หรือ "ไม่แข็งแรง" จากตัวอย่างที่คุณกล่าวถึงข้อผิดพลาดรูทค่าเฉลี่ยจะใช้กับการถดถอยและ AUC สำหรับการจำแนกประเภทที่มีสองคลาส

ฉันจะให้รายละเอียดเพิ่มเติมเล็กน้อยเกี่ยวกับการจัดหมวดหมู่ คุณพูดถึง AUC เป็นหน่วยวัดซึ่งเป็นพื้นที่ใต้เส้นโค้ง ROCซึ่งโดยปกติจะใช้กับปัญหาการจำแนกประเภทไบนารีที่มีสองคลาสเท่านั้น แม้ว่าจะมีวิธีในการสร้างเส้นโค้ง ROC สำหรับมากกว่าสองคลาส แต่พวกเขาก็ปล่อยความเรียบง่ายของเส้นโค้ง ROC สำหรับสองชั้น นอกจากนี้ ROC curves สามารถสร้างได้หากตัวแยกประเภทของตัวเลือกแสดงผลคะแนนบางประเภทที่เกี่ยวข้องกับการทำนายแต่ละครั้ง ตัวอย่างเช่นการถดถอยโลจิสติกจะทำให้คุณมีความน่าจะเป็นสำหรับแต่ละสองคลาส นอกเหนือจากความเรียบง่าย ROC curves ยังมีข้อได้เปรียบที่ไม่ได้รับผลกระทบจากอัตราส่วนระหว่างอินสแตนซ์ที่เป็นบวกและติดลบในชุดข้อมูลของคุณและไม่บังคับให้คุณเลือกเกณฑ์ อย่างไรก็ตามขอแนะนำให้ไม่เพียง แต่ดูที่เส้นโค้ง ROC เพียงอย่างเดียว แต่ยังสามารถสร้างภาพข้อมูลอื่น ๆ ได้เช่นกัน ฉันขอแนะนำให้ดูที่เส้นโค้งการเรียกคืนที่แม่นยำและเส้นโค้งราคาการวัดข้อผิดพลาดที่แท้จริงหนึ่งเดียวพวกเขาล้วนมีจุดแข็งและจุดอ่อน

วรรณกรรมฉันพบว่ามีประโยชน์ในเรื่องนี้คือ:

  • Fawcett, T. (2006) การวิเคราะห์ ROCเบื้องต้น ตัวอักษรการจดจำรูปแบบ, 27 (8), 861–874
  • Drummond, C. , & Holte, R. (2006) เส้นโค้งค่าใช้จ่าย: วิธีการที่ดีขึ้นสำหรับการแสดงผลการดำเนินงานลักษณนาม การเรียนรู้ของเครื่อง, 65 (1), 95–130
  • Parker, C. (2011) การวิเคราะห์ผลการดำเนินงานมาตรการไบนารีลักษณนาม การประชุมนานาชาติ IEEE ครั้งที่ 11 เรื่องการขุดข้อมูล (หน้า 517–526)
  • Davis, J. , & Goadrich, M. (2006) ความสัมพันธ์ระหว่างความแม่นยำจำและเส้นโค้ง ROC การประชุมวิชาการนานาชาติเรื่องการเรียนรู้ของเครื่องจักร (หน้า 233–240) New York, NY, USA: ACM

หากตัวจําแนกของคุณไม่ได้ให้คะแนนบางอย่างคุณต้องถอยกลับไปใช้มาตรการพื้นฐานที่สามารถหาได้จากเมทริกซ์ความสับสนที่มีจํานวนผลบวกจริงผลบวกเท็จเชิงลบจริงและเชิงลบเท็จ การสร้างภาพข้อมูลที่กล่าวถึงข้างต้น (ROC, ความแม่นยำ - การเรียกคืน, โค้งราคา) ทั้งหมดขึ้นอยู่กับตารางเหล่านี้ที่ได้รับโดยใช้เกณฑ์ที่แตกต่างกันของคะแนนของตัวจําแนก มาตรการที่ได้รับความนิยมมากที่สุดในกรณีนี้น่าจะเป็นF1-Measureยังไม่มีข้อความยังไม่มีข้อความ×ยังไม่มีข้อความยังไม่มีข้อความ 2×2AA


1
ยังไม่มีข้อความยังไม่มีข้อความ×ยังไม่มีข้อความยังไม่มีข้อความ 2×2

ขอบคุณมากที่ชี้ให้เห็นข้อผิดพลาดนี้ฉันแก้ไขในคำตอบข้างต้น
sebp

5

ให้ฉันเพิ่มความคิดอีกเล็กน้อยเพื่อคำตอบที่มีอยู่แล้ว

  • ตัวแยกประเภทส่วนใหญ่จะมีคะแนนต่อเนื่องระดับกลางซึ่งโดยปกติจะใช้เกณฑ์สำหรับการกำหนดคลาสอย่างหนัก (ต่ำกว่า t: คลาส a, เหนือ: คลาส b) การเปลี่ยนขีด จำกัด นี้ให้ ROC
  • โดยทั่วไปไม่ควรบีบอัดเส้นโค้งดังกล่าวเป็นจำนวนหนึ่ง ดูตัวอย่างการประมาณความแม่นยำในการเปรียบเทียบอัลกอริทึมการเหนี่ยวนำ
    มี ROC ที่แตกต่างกันจำนวนมากที่มี AUC เดียวกันและประโยชน์อาจแตกต่างกันอย่างกว้างขวางสำหรับแอปพลิเคชันที่กำหนด
  • อีกวิธีหนึ่ง: การเลือกเกณฑ์อาจจะพิจารณาได้จากแอปพลิเคชั่นที่คุณใช้
  • คุณไม่จำเป็นต้องดูประสิทธิภาพของตัวจําแนกภายนอกขอบเขตเหล่านี้และหากคุณเลือกหนึ่งเมตริกอย่างน้อยก็ควรสรุปเฉพาะช่วงที่เกี่ยวข้องของเมตริกอื่น ๆ ที่มีขอบเขต
  • ขึ้นอยู่กับการออกแบบการศึกษาของคุณเศษส่วนโดยรวมของตัวอย่างที่ถูกต้องหรือผิดประเภทอาจเป็นบทสรุปที่เหมาะสมหรือไม่และข้อสรุปที่คุณสามารถดึงได้จากนั้นจะขึ้นอยู่กับการออกแบบการศึกษาด้วย: ข้อมูลทดสอบของคุณสะท้อนความน่าจะเป็น เรียน? สำหรับประชากรที่ตัวจําแนกของคุณควรจะใช้หรือไม่ มันถูกรวบรวมในลักษณะแบ่งชั้นหรือไม่? สิ่งนี้มีความสัมพันธ์อย่างใกล้ชิดกับความจริงที่ว่าผู้ใช้ลักษณนามส่วนใหญ่สนใจในค่าคาดการณ์มากขึ้น แต่ความไวและความเฉพาะเจาะจงนั้นง่ายต่อการวัด

  • คุณถามเกี่ยวกับแนวทางทั่วไป แนวทางทั่วไปอย่างหนึ่งคือคุณต้องรู้

    • คุณต้องการประสิทธิภาพแบบใด (ความไวความจำเพาะค่าการทำนาย ฯลฯ ตอบคำถามเฉพาะเกี่ยวกับพฤติกรรมของตัวจําแนกของคุณดูสิ่งที่ฉันเขียนที่นี่ )
    • ช่วงการทำงานที่ยอมรับได้สำหรับคุณลักษณะด้านประสิทธิภาพเหล่านี้สำหรับแอปพลิเคชันของคุณคืออะไร
      สิ่งเหล่านี้อาจแตกต่างกันไปอย่างกว้างขวาง: คุณอาจจะยอมรับการคัดค้านเชิงเท็จในการตรวจจับสแปมได้บ้าง แต่นั่นอาจไม่ใช่การตั้งค่าที่ยอมรับได้สำหรับการวินิจฉัยเชื้อเอชไอวี ...

ฉันคิดว่าคุณจะไม่สามารถหาตัวชี้วัดที่มีประโยชน์ได้หากคุณไม่สามารถตอบคำถามเหล่านี้ได้

มันเหมือนกับว่าไม่มีอาหารกลางวันฟรีในการตรวจสอบลักษณนาม


2

อัตราความผิดพลาดที่คาดว่าผิดพลาดเป็นวิธีที่ฉันใช้และพบเห็นบ่อยที่สุด AUC ของ ROC เป็นหน่วยวัดของกฎการจำแนกประเภท หากความคิดคือการเปรียบเทียบลักษณนามเฉพาะกับที่อื่นแล้ว AUC ไม่เหมาะสม ข้อผิดพลาดการจำแนกประเภทบางรูปแบบเหมาะสมที่สุดเนื่องจากเป็นตัวแทนของประสิทธิภาพการทำงานของกฎการจำแนกโดยตรง

งานจำนวนมากได้ทำการค้นหาการประมาณค่าที่ดีของอัตราความผิดพลาดการจัดประเภทเนื่องจากอคติขนาดใหญ่ของการประเมินการเปลี่ยนคืนและความแปรปรวนสูงของการลาออกครั้งเดียว Bootstrap และตัวประมาณที่ราบรื่นได้ถูกกำหนดขึ้น ดูตัวอย่างกระดาษของ Efron ใน JASA 1983 เกี่ยวกับการปรับปรุง bootstrap ผ่านการตรวจสอบข้าม

นี่คือรายงานทางเทคนิคของมหาวิทยาลัยสแตนฟอร์ดในปี 1995โดย Efron และ Tibshirami สรุปวรรณกรรมรวมถึงงานของฉัน


การเปรียบเทียบประสิทธิภาพของตัวแยกประเภทสองตัวบนชุดข้อมูลเดียวกันเป็นอีกหัวข้อที่จะโต้แย้ง โดยเฉพาะอย่างยิ่งในกรณีของ ROC และ AUC มีสองวิธีในการเปรียบเทียบ ROC curves โดยรวมหรือประมาณการ AUC สิ่งเหล่านี้เป็นการทดสอบทางสถิติโดยมีสมมติฐานว่างว่า ROC / AUC ไม่แตกต่างกัน การตรวจสอบข้ามกับการบูตเป็นอีกหัวข้อที่น่าสนใจฉันเพิ่งเห็นกระดาษ ( dx.doi.org/10.1016/j.csda.2010.03.004 ) เกี่ยวกับเรื่องนั้น ฉันเดาว่าถ้าคุณพิจารณาทุกแง่มุมในครั้งเดียวมันอาจเป็นการข่มขู่ได้
sebp
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.