การวัดประสิทธิภาพลักษณนามที่รวมความไวและความจำเพาะ?


9

ฉันมีข้อมูลป้ายกำกับ 2 ชั้นซึ่งฉันจัดหมวดหมู่โดยใช้ตัวแยกประเภทหลายตัว และชุดข้อมูลมีความสมดุลดี เมื่อประเมินประสิทธิภาพของตัวจําแนกฉันต้องพิจารณาความถูกต้องของตัวจําแนกในการพิจารณาไม่เพียง แต่บวกที่แท้จริง แต่เชิงลบที่แท้จริงยัง ดังนั้นถ้าฉันใช้ความถูกต้องและถ้าลักษณนามมีความเอนเอียงไปทางบวกและจำแนกทุกอย่างเป็นบวกฉันจะได้ความแม่นยำประมาณ 50% แม้ว่ามันจะล้มเหลวในการจำแนกเชิงลบจริงก็ตาม คุณสมบัตินี้ถูกขยายให้มีความแม่นยำและเรียกคืนตามที่พวกเขามุ่งเน้นไปที่หนึ่งคลาสเท่านั้นและกลับไปที่คะแนน F1 (นี่คือสิ่งที่ฉันเข้าใจแม้จากบทความนี้เช่น " เกินความแม่นยำคะแนน F และ ROC: ครอบครัวของมาตรการแบ่งแยกสำหรับการประเมินผลงาน ")

ดังนั้นฉันสามารถใช้ความไวและความเฉพาะเจาะจง (TPR และ TNR) เพื่อดูว่าตัวแยกประเภทดำเนินการสำหรับแต่ละคลาสได้อย่างไรโดยที่ฉันตั้งใจจะเพิ่มค่าเหล่านี้ให้มากที่สุด

คำถามของฉันคือฉันกำลังมองหาการวัดที่รวมค่าทั้งสองนี้เข้าด้วยกันในการวัดที่มีความหมายเดียว ฉันตรวจดูมาตรการที่ให้ไว้ในบทความนั้น แต่ฉันคิดว่ามันไม่สำคัญ และจากความเข้าใจของฉันฉันสงสัยว่าทำไมเราไม่สามารถใช้บางอย่างเช่นคะแนน F แต่แทนที่จะใช้ความแม่นยำและการเรียกคืนฉันจะใช้ความไวและความเฉพาะเจาะจง ดังนั้นสูตรจะเป็น และเป้าหมายของฉันจะเพิ่มสูงสุด วัดนี้ ฉันคิดว่ามันจะเป็นตัวแทนมาก มีสูตรที่คล้ายกันอยู่แล้ว? และนี่จะสมเหตุสมผลหรือเป็นเสียงทางคณิตศาสตร์หรือไม่

การวัดประสิทธิภาพของฉัน=2* * * *ความไว* * * *ความจำเพาะความไว+ความจำเพาะ

คำตอบ:


1

ฉันจะบอกว่าอาจไม่มีมาตรการใดเป็นพิเศษหรือเพียงมาตรการเดียวที่คุณควรคำนึงถึง

ครั้งล่าสุดที่ฉันจัดประเภทความน่าจะเป็นฉันมี ROCR แพคเกจ R และค่าใช้จ่ายอย่างชัดเจนสำหรับ False Positives และ False Negatives

ฉันพิจารณาจุดตัดทั้งหมดจาก 0 ถึง 1 และใช้มาตรการหลายอย่างเช่นค่าใช้จ่ายที่คาดไว้เมื่อเลือกจุดตัดนี้ แน่นอนว่าฉันมีการวัด AUC สำหรับการวัดความถูกต้องโดยทั่วไปแล้ว แต่สำหรับฉันนี่ไม่ใช่ความเป็นไปได้เท่านั้น

ค่าสำหรับกรณี FP และ FN ต้องมาจากรุ่นของคุณโดยเฉพาะบางทีสิ่งเหล่านี้จัดทำโดยผู้เชี่ยวชาญเฉพาะด้าน

ตัวอย่างเช่นในการวิเคราะห์ลูกค้าปั่นป่วนอาจมีราคาแพงกว่าการอนุมานอย่างไม่ถูกต้องว่าลูกค้าไม่ปั่น แต่ยังมีราคาแพงที่จะลดราคาทั่วไปสำหรับบริการที่ไม่มีเป้าหมายที่ถูกต้องเพื่อกลุ่มเหล่านี้

-Analyst


ที่จริงสำหรับกรณีของฉันมันคล้ายกัน เพราะกรณี FP และ FN จะต้องเสียค่าใช้จ่ายในแบบจำลองของฉัน ในที่สุดฉันก็ลงเอยทำสิ่งที่คล้ายกับที่คุณแนะนำ "ใช้หลายมาตรการ" ฉันคำนวณคะแนน F สำหรับแต่ละเลเบลของคลาสและประเมินโมเดลที่ฉันใช้ทั้งสองค่าเหล่านี้พร้อมกับฟังก์ชั่นค่าใช้จ่ายบางอย่างที่ใช้ความแม่นยำ (สำหรับทั้งสองคลาส) เพื่อคำนวณกำไรและลบจากการสูญเสียที่เกิดจากกรณี FP และ FN
Kalaji

3

ความถูกต้องการจำแนกความไวความจำเพาะและการผสมผสานที่ง่าย ๆ เหล่านี้เป็นกฎการให้คะแนนที่ไม่เหมาะสมทั้งหมด นั่นคือพวกเขาได้รับการปรับปรุงโดยแบบจำลองปลอม การใช้มันจะทำให้คุณเลือกคุณสมบัติที่ไม่ถูกต้องให้น้ำหนักที่ไม่ถูกต้องและทำการตัดสินใจที่ไม่ดี หนึ่งในหลาย ๆ วิธีในการตัดสินใจคือสิ่งที่ไม่ดีคือความเชื่อมั่นที่ผิดพลาดที่คุณได้รับเมื่อความน่าจะเป็นที่คาดการณ์ใกล้เคียงกับเกณฑ์โดยการใช้มาตรการเหล่านี้ กล่าวโดยย่อทุกอย่างที่ผิดพลาดไปได้กับมาตรการเหล่านี้ การใช้มันเพื่อเปรียบเทียบแม้แต่รุ่นที่ติดตั้งอย่างดีสองรุ่นจะทำให้คุณเข้าใจผิด


1
ฉันยอมรับว่าโมเดลที่สร้างขึ้นใด ๆ เป็น "โมเดลปลอม" ตามที่คุณกล่าวถึง แต่ถึงกระนั้นฉันก็จำเป็นต้องมีมาตรการในการประเมินคุณภาพเพื่อเลือกแบบจำลองในที่สุด สมมติว่าคุณสมบัติของฉันได้รับการคัดเลือกแล้ว (ลองชุดข้อมูลหลายชุดพร้อมชุดคุณลักษณะที่แตกต่างกัน) และฉันใช้การตรวจสอบข้ามแบบ 5 เท่าเพื่อพิจารณาว่าตัวแยกประเภทของฉันทำข้อมูลมากเกินไป "กฎการให้คะแนน" ง่ายที่สุดหรือไม่ ใช้กันอย่างแพร่หลายในวรรณคดี คุณจะแนะนำมาตรการอื่นใดอีก? มาตรการส่วนใหญ่ขึ้นอยู่กับการรวมกันของค่าเหล่านี้รวมถึง LR +/-, ROC และ AUC
Kalaji

ก่อนอื่นคุณต้องระวังที่จะทำซ้ำขั้นตอนการสำรวจ / การสร้างแบบจำลองทั้งหมดตั้งแต่เริ่มต้นสำหรับแต่ละรุ่น 5 รุ่นที่ใช้ใน 5-cv? การวัดคุณภาพมาตรฐานทองคำคือความน่าจะเป็นของบันทึกและปริมาณที่ได้จากมันเช่นR2และความเบี่ยงเบน สำหรับไบนารีYสิ่งนี้นำไปสู่กฎการให้คะแนนความน่าจะเป็นลอการิทึม สำหรับกรณีนี้คุณสามารถใช้คะแนนที่เหมาะสมอื่นได้คะแนน Brier (หมายถึงข้อผิดพลาดกำลังสองในการคาดคะเนความน่าจะเป็น)
Frank Harrell

จากการอ่านของฉันสิ่งนี้ใช้ในกรณีที่แบบจำลองของฉันสร้างความน่าจะเป็นมากกว่าค่าที่ไม่ต่อเนื่อง (เช่นความน่าจะเป็นที่อินสแตนซ์อยู่ในคลาส 0 หรือ 1 แทนที่จะเป็น 0 หรือ 1 และในทางกลับกันสิ่งนี้เกี่ยวข้องกับการใช้ตัวแยกประเภทเช่นมันใช้กับตัวจําแนก Naive Bayes แต่ไม่ใช่ตัวจําแนก 1-NN โปรดสังเกตว่าฉันไม่ได้ใช้ตัวแยกประเภทฉันใช้ตัวแยกประเภทใน Weka เพื่อสร้างแบบจำลองของฉัน บางทีฉันอาจสับสนเล็กน้อยที่นี่ ขอบคุณ
Kalaji

1
หากวิธีการที่คุณใช้ไม่ได้ให้ผลลัพธ์น่าจะเป็นผมขอแนะนำให้หาวิธีอื่น
Frank Harrell

หากมีความแตกต่างที่เข้าใจกันอย่างดีระหว่างต้นทุนที่แท้จริงของความแม่นยำและความไว (ไม่สามารถใช้ได้กับโพสต์ต้นฉบับ) ทำไมคุณจะหลีกเลี่ยงการใช้สิ่งเหล่านั้น cross-entropy-error จะดีกว่าหรือไม่ (เช่นโทษของคำศัพท์ (1-c) * log (1-p) เป็นสองเท่า)?
Max Candocia
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.