การวัดประสิทธิภาพของตัวแยกประเภทที่แตกต่างกันด้วยขนาดตัวอย่างที่แตกต่าง


12

ขณะนี้ฉันใช้ตัวแยกประเภทที่แตกต่างกันหลายรายการในเอนทิตีต่าง ๆ ที่ดึงมาจากข้อความและใช้ความแม่นยำ / การเรียกคืนเพื่อสรุปว่าตัวแยกประเภทแต่ละตัวนั้นทำงานได้ดีเพียงใดในชุดข้อมูลที่กำหนด

ฉันสงสัยว่ามีวิธีที่มีความหมายในการเปรียบเทียบประสิทธิภาพของตัวแยกประเภทเหล่านี้ในลักษณะที่คล้ายกัน แต่ยังคำนึงถึงจำนวนรวมของแต่ละเอนทิตีในข้อมูลทดสอบที่ถูกจัดประเภทหรือไม่

ขณะนี้ฉันกำลังใช้ความแม่นยำ / การเรียกคืนเป็นตัวชี้วัดประสิทธิภาพดังนั้นอาจมีสิ่งต่อไปนี้:

                    Precision Recall
Person classifier   65%       40%
Company classifier  98%       90%
Cheese classifier   10%       50%
Egg classifier      100%      100%

อย่างไรก็ตามชุดข้อมูลที่ฉันใช้งานอาจมีคน 100k บริษัท 5k ชีส 500 ตัวและไข่ 1 ฟอง

ดังนั้นมีสถิติสรุปที่ฉันสามารถเพิ่มลงในตารางด้านบนซึ่งคำนึงถึงจำนวนทั้งหมดของแต่ละรายการด้วยหรือไม่ หรือมีวิธีการวัดความจริงที่ว่าเช่น 100% prec / rec บนลักษณนามไข่อาจไม่มีความหมายกับรายการข้อมูลเพียง 1 รายการ?

สมมติว่าเรามีตัวแยกประเภทหลายร้อยตัวฉันคิดว่าฉันกำลังมองหาวิธีที่ดีในการตอบคำถามเช่น "ตัวแยกประเภทใดที่มีประสิทธิภาพต่ำกว่า" ตัวแยกประเภทใดที่ขาดข้อมูลทดสอบเพียงพอที่จะบอกได้ว่าพวกมันมีประสิทธิภาพต่ำกว่าหรือไม่ "


หากคุณมีตัวแยกประเภทที่ได้รับการฝึกฝนในชุดข้อมูลที่แตกต่างกันคุณจะเปรียบเทียบได้อย่างไรในวิธีที่มีความหมาย แอปเปิ้ลและส้มชอล์กและชีสเป็นสิ่งสำคัญ นอกจากนี้หากคุณมีตัวแยกประเภทหลายคลาสคุณจะคำนวณความแม่นยำและการเรียกคืนได้อย่างไร แม้ว่าการรู้ว่า N = 1 ไม่จำเป็นต้องเป็นประโยชน์หากมีไข่เพียงตัวเดียวในโลกตัวแยกประเภทไข่ของคุณก็ใช้ได้
Bull

พวกมันเป็นลักษณนามที่แตกต่างกันซึ่งได้รับการฝึกฝนในชุดข้อมูลเดียวกันเช่นเรารู้ว่าเรามีเอกสารที่เกี่ยวกับแอปเปิ้ลและส้มดังนั้นเราจึงเรียกใช้ตัวจําแนกแอปเปิ้ลเพื่อระบุประเภทของแอปเปิลที่กำลังพูดถึง มันพูดถึง หากเอกสารของเราเกี่ยวกับแอปเปิ้ล 99%, 1% เกี่ยวกับส้มและตัวแยกประเภททั้งสองมี prec / rec เดียวกัน (รวมแถว / คอลัมน์ในเมทริกซ์ความสับสน) มีข้อมูลใดที่เราสามารถนำเสนอที่คำนึงถึงความแตกต่างในปริมาณของแต่ละ ? (อาจเป็นได้ว่าไม่มีไม่มีซึ่งเป็นคำตอบที่ฉันยินดี)
Dave Challis

คำตอบ:


5

คุณต้องดูช่วงความมั่นใจของสถิติ สิ่งนี้ช่วยวัดความไม่แน่นอนในสถิติซึ่งส่วนใหญ่เป็นหน้าที่ของขนาดตัวอย่าง


2

ในความคิดของฉันมันเป็นเรื่องยากที่จะเปรียบเทียบประสิทธิภาพเมื่อมีขนาดที่แตกต่างกันมาก ในลิงค์นี้ (โปรดตรวจสอบที่นี่ใน Wikipedia http://en.wikipedia.org/wiki/Effect_size ) คุณอาจเห็นกลยุทธ์ที่แตกต่างกัน

สิ่งที่ฉันแนะนำคือสิ่งที่เกี่ยวข้องกับความแปรปรวน ตัวอย่างเช่นพิจารณาประสิทธิภาพของตัวจําแนก (100%) และตัวจําแนกบุคคล (65%) ข้อผิดพลาดขั้นต่ำที่คุณส่งมอบให้กับตัวจําแนกเดิมคือ 100% อย่างไรก็ตามข้อผิดพลาดขั้นต่ำที่คุณสามารถส่งมอบกับตัวจําแนกหลังคือ 10e-5

ดังนั้นวิธีหนึ่งในการเปรียบเทียบลักษณนามคือคำนึงถึงกฎข้อนี้สามข้อ ( http://en.wikipedia.org/wiki/Rule_of_three_(statistics)ซึ่งคุณสามารถเปรียบเทียบประสิทธิภาพและความแปรปรวนได้

ความเป็นไปได้อื่น ๆ คือการวัดแบบ Fซึ่งเป็นการรวมกันของความแม่นยำและการเรียกคืนและเป็นอิสระจากขนาดของเอฟเฟกต์


2

จำนวนข้อมูลในชั้นเรียนบางครั้งเรียกว่าsupportตัวจําแนก มันบอกว่าคุณสามารถไว้วางใจผลลัพธ์ของคุณได้มากแค่ไหนเช่นค่า p จะช่วยให้คุณเชื่อถือหรือไม่ไว้วางใจการทดสอบบางอย่าง

วิธีการหนึ่งที่คุณสามารถใช้คือการคำนวณการวัดประสิทธิภาพลักษณนามหลายอย่างไม่เพียง แต่ความแม่นยำและการเรียกคืน แต่ยังรวมถึงอัตราบวกจริงอัตราบวกเท็จความจำเพาะความไวโอกาสเชิงบวกโอกาสเชิงลบ ฯลฯ และดูว่าสอดคล้องกันหรือไม่ . หากหนึ่งในการวัดสูงสุด (100%) และอื่น ๆ ที่ไม่ทำมันก็มักจะเป็นประสบการณ์ของฉันบ่งบอกถึงสิ่งที่ผิดพลาด (เช่นการสนับสนุนที่ไม่ดีลักษณนามลางสังหรณ์ตัวแบ่งประเภทลำเอียง ฯลฯ ) ดูสิ่งนี้สำหรับรายการการวัดประสิทธิภาพตัวจําแนก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.