การจำแนกประเภทเป็น "ดี" หรือไม่นั้นขึ้นอยู่กับ
- มีอะไรอีกที่พร้อมใช้งานสำหรับปัญหาเฉพาะของคุณ เห็นได้ชัดว่าคุณต้องการให้ตัวจําแนกดีกว่าการคาดเดาแบบสุ่มหรือไร้เดียงสา (เช่นการจัดประเภททุกอย่างเป็นของหมวดหมู่ที่พบบ่อยที่สุด) แต่บางสิ่งก็ง่ายกว่าที่จะจัดประเภทกว่าคนอื่น
- ค่าใช้จ่ายของความผิดพลาดที่แตกต่างกัน (การเตือนที่ผิดพลาดเทียบกับการปฏิเสธเชิงลบ) และอัตราฐาน มันสำคัญมากที่จะต้องแยกแยะทั้งสองและหาผลที่ตามมาเนื่องจากมีลักษณนามที่มีความแม่นยำสูงมาก (การจำแนกประเภทที่ถูกต้องในตัวอย่างทดสอบบางอย่าง) ซึ่งไม่มีประโยชน์อย่างสมบูรณ์ในทางปฏิบัติ (กล่าวว่าคุณกำลังพยายามตรวจหาโรคที่หายาก พฤติกรรมที่ผิดปกติและวางแผนที่จะเปิดการดำเนินการบางอย่างเมื่อตรวจพบการทดสอบขนาดใหญ่มีค่าใช้จ่ายบางอย่างและการดำเนินการแก้ไข / รักษามักจะเกี่ยวข้องกับความเสี่ยง / ค่าใช้จ่ายที่สำคัญดังนั้นการพิจารณาว่าการเข้าชมส่วนใหญ่จะเป็นผลบวกที่ผิดพลาด อาจจะดีกว่าที่จะไม่ทำอะไรเลย)
เพื่อให้เข้าใจถึงการเชื่อมโยงระหว่างการเรียกคืน / ความแม่นยำในอีกด้านหนึ่งและความไว / ความจำเพาะในทางกลับกันมันมีประโยชน์ที่จะกลับมาเป็นเมทริกซ์ความสับสน:
Condition: A Not A
Test says “A” True positive (TP) | False positive (FP)
----------------------------------
Test says “Not A” False negative (FN) | True negative (TN)
การเรียกคืนคือ TP / (TP + FN) ในขณะที่ความแม่นยำคือ TP / (TP + FP) สิ่งนี้สะท้อนถึงลักษณะของปัญหา: ในการดึงข้อมูลคุณต้องการระบุเอกสารที่เกี่ยวข้องให้มากที่สุดเท่าที่จะทำได้ (เป็นการเรียกคืน) และหลีกเลี่ยงการเรียงลำดับขยะ (ความแม่นยำ)
การใช้ตารางเดียวกันตัวชี้วัดการจำแนกประเภทแบบดั้งเดิมคือ (1) ความไวที่กำหนดเป็น TP / (TP + FN) และ (2) ความจำเพาะที่กำหนดเป็น TN / (FP + TN) ดังนั้นการเรียกคืนและความไวจึงเป็นคำพ้องความหมาย แต่ความแม่นยำและความจำเพาะมีการกำหนดแตกต่างกัน (เช่นการเรียกคืนและความไวความจำเพาะจะถูกกำหนดด้วยความเคารพต่อผลรวมคอลัมน์ในขณะที่ความแม่นยำหมายถึงผลรวมของแถว) ความแม่นยำบางครั้งเรียกว่า "ค่าทำนายเชิงบวก" หรือ "อัตราบวกผิดพลาด" (แต่ดูคำตอบของฉันที่เกี่ยวข้องกับความสัมพันธ์ระหว่างบวกบวกเท็จบวกลบเท็จและลบเชิงลบจริงเกี่ยวกับความสับสนรอบคำจำกัดความของเท็จบวกนี้ ประเมินค่า).
ที่น่าสนใจตัวชี้วัดการดึงข้อมูลไม่เกี่ยวข้องกับการนับ“ ลบจริง” วิธีนี้เหมาะสม: ในการดึงข้อมูลคุณไม่สนใจการจำแนกอินสแตนซ์เชิงลบต่อคุณอย่างถูกต้องคุณไม่ต้องการมากเกินไปที่จะทำให้ผลลัพธ์ของคุณมีมลภาวะ (ดูทำไมทำไมการจำคืนจึงไม่คำนึงถึงแง่ลบจริง ๆ )
เนื่องจากความแตกต่างนี้จึงเป็นไปไม่ได้ที่จะเปลี่ยนจากความเจาะจงไปเป็นความแม่นยำหรือวิธีอื่น ๆ โดยไม่มีข้อมูลเพิ่มเติมคือจำนวนเชิงลบที่แท้จริงหรืออีกทางหนึ่งสัดส่วนโดยรวมของกรณีเชิงบวกและเชิงลบ อย่างไรก็ตามสำหรับชุดคลังข้อมูล / ชุดทดสอบเดียวกันความจำเพาะที่สูงกว่าจะหมายถึงความแม่นยำที่ดีกว่าเสมอเพื่อให้มีความเกี่ยวข้องอย่างใกล้ชิด
ในบริบทการดึงข้อมูลโดยทั่วไปแล้วเป้าหมายคือการระบุการจับคู่จำนวนเล็กน้อยจากเอกสารจำนวนมาก เนื่องจากความไม่สมดุลนี้ในความเป็นจริงมันเป็นเรื่องยากมากที่จะได้รับความแม่นยำที่ดีกว่าความจำเพาะที่ดีในขณะที่รักษาความไว / คงที่การเรียกคืน เนื่องจากเอกสารส่วนใหญ่ไม่เกี่ยวข้องคุณจึงมีโอกาสอีกหลายครั้งสำหรับการเตือนที่ผิดพลาดมากกว่าการแจ้งเตือนที่เป็นจริงและการเตือนที่ผิดพลาดเหล่านี้สามารถลบล้างผลลัพธ์ที่ถูกต้องแม้ว่าตัวแยกประเภทจะมีความแม่นยำที่น่าประทับใจในชุดทดสอบแบบสมดุล ดังที่กล่าวไว้ในข้อ 2 ข้างต้น) ดังนั้นคุณจำเป็นต้องปรับความแม่นยำให้เหมาะสมที่สุดและไม่เพียงเพื่อให้แน่ใจว่ามีความเฉพาะเจาะจงที่เหมาะสมเพราะบางครั้งอัตราการดูที่น่าประทับใจเช่น 99% หรือมากกว่านั้นก็ไม่เพียงพอที่จะหลีกเลี่ยงการเตือนที่ผิดพลาดมากมาย
มักจะมีการแลกเปลี่ยนระหว่างความไวและความจำเพาะ (หรือการเรียกคืนและความแม่นยำ) ถ้าคุณใช้เครือข่ายที่กว้างขึ้นคุณจะตรวจจับเอกสาร / คดีที่เกี่ยวข้องมากขึ้น (ความไว / การเรียกคืนที่สูงขึ้น) แต่คุณจะได้รับการเตือนที่ผิดพลาดมากขึ้น หากคุณจำแนกทุกอย่างในหมวดหมู่ที่เป็นบวกคุณมีการเรียกคืน / ความไว 100% ความแม่นยำที่ไม่ดีและตัวจําแนกส่วนใหญ่ที่ไร้ประโยชน์ (“ ส่วนใหญ่” เพราะถ้าคุณไม่มีข้อมูลอื่น ๆ ฝนตกในทะเลทรายและทำตามดังนั้นบางทีผลลัพธ์ไม่ไร้ประโยชน์แน่นอนคุณไม่จำเป็นต้องมีโมเดลที่ซับซ้อนสำหรับเรื่องนั้น)
เมื่อพิจารณาทั้งหมดนี้ความแม่นยำ 60% และการเรียกคืน 95% นั้นฟังดูไม่ดีนัก แต่สิ่งนี้ขึ้นอยู่กับโดเมนและสิ่งที่คุณตั้งใจจะทำกับตัวจําแนกนี้จริงๆ
ข้อมูลเพิ่มเติมบางส่วนเกี่ยวกับความเห็น / การแก้ไขล่าสุด:
อีกครั้งประสิทธิภาพที่คุณสามารถคาดหวังได้นั้นขึ้นอยู่กับลักษณะเฉพาะ (ในบริบทนี้จะเป็นสิ่งต่าง ๆ เช่นชุดอารมณ์ที่แน่นอนที่มีอยู่ในชุดฝึกอบรมคุณภาพของภาพ / วิดีโอความส่องสว่างการบดเคี้ยวการเคลื่อนไหวของหัว บุคคลที่ขึ้นกับบุคคลหรือบุคคลที่เป็นอิสระเป็นต้น) แต่ F1 มากกว่า 0.7 นั้นฟังดูดีสำหรับแอปพลิเคชันประเภทนี้แม้ว่าโมเดลที่ดีที่สุดสามารถทำได้ดีกว่าในชุดข้อมูลบางชุด [ดู Valstar, MF, Mehu, M. , Jiang B. , Pantic, M. , & Scherer, K. (2012) การวิเคราะห์เมตาของความท้าทายการจดจำการแสดงออกทางสีหน้าครั้งแรก ธุรกรรม IEEE บนระบบ, มนุษย์และไซเบอร์เนติกส์, ส่วน B: ไซเบอร์เนติกส์, 42 (4), 966-979]
แบบจำลองดังกล่าวมีประโยชน์ในทางปฏิบัติหรือไม่เป็นคำถามที่แตกต่างอย่างสิ้นเชิง โปรดทราบว่า "การแสดงออก" ของใบหน้านั้นเป็นหัวข้อที่ซับซ้อนและการเปลี่ยนจากชุดฝึกอบรมทั่วไป (การแสดงออกทางสีหน้า) ไปสู่สถานการณ์ในชีวิตจริงนั้นไม่ใช่เรื่องง่าย นี่ค่อนข้างนอกหัวข้อในฟอรัมนี้ แต่จะมีผลกระทบร้ายแรงสำหรับแอปพลิเคชันที่ใช้งานได้จริงซึ่งคุณอาจพิจารณา
ในที่สุดการเปรียบเทียบแบบหัวต่อหัวระหว่างรุ่นยังเป็นคำถามอื่น สิ่งที่ฉันใช้กับตัวเลขที่คุณนำเสนอคือไม่มีความแตกต่างอย่างมากระหว่างแบบจำลอง (ถ้าคุณอ้างถึงกระดาษที่ฉันอ้างถึงข้างต้นช่วงคะแนน F1 สำหรับรุ่นที่เป็นที่รู้จักกันดีในบริเวณนี้นั้นกว้างกว่ามาก) ในทางปฏิบัติด้านเทคนิค (ความเรียบง่าย / ความพร้อมใช้งานของไลบรารีมาตรฐานความเร็วของเทคนิคที่แตกต่างกัน ฯลฯ ) มีแนวโน้มว่าจะตัดสินใจว่าจะใช้รูปแบบใดยกเว้นค่าใช้จ่าย / ผลประโยชน์และอัตราโดยรวม