ทำไมความแม่นยำจึงไม่ใช่มาตรการที่ดีที่สุดสำหรับการประเมินแบบจำลองการจำแนก?


107

นี่เป็นคำถามทั่วไปที่ถูกถามทางอ้อมหลายครั้ง แต่ไม่มีคำตอบที่เชื่อถือได้ มันจะเป็นการดีถ้ามีคำตอบโดยละเอียดสำหรับการอ้างอิง

ความถูกต้องของสัดส่วนของการจำแนกประเภทที่ถูกต้องในหมู่ทุกประเภทที่สามารถทำได้ง่ายและมากวัด "ที่ใช้งานง่าย" แต่มันอาจจะเป็นตัวชี้วัดที่ดีสำหรับข้อมูลที่ไม่สมดุล ทำไมสัญชาตญาณของเราทำให้เราเข้าใจผิดที่นี่และมีปัญหาอื่นใดกับมาตรการนี้

คำตอบ:


112

คำตอบอื่น ๆ ส่วนใหญ่มุ่งเน้นไปที่ตัวอย่างของคลาสที่ไม่สมดุล ใช่นี่เป็นสิ่งสำคัญ อย่างไรก็ตามฉันยืนยันว่าความถูกต้องเป็นปัญหาแม้กับคลาสที่สมดุล

แฟรงก์ฮาร์เรลได้เขียนเกี่ยวกับเรื่องนี้ในบล็อกของเขา: การจำแนกประเภทเทียบกับการคาดการณ์และความเสียหายที่เกิดจากความแม่นยำในการจำแนกและอื่น ๆ ที่ไม่เหมาะสมความถูกต้องต่อเนื่องกฎการให้คะแนน

โดยพื้นฐานแล้วข้อโต้แย้งของเขาคือองค์ประกอบทางสถิติของการออกกำลังกายของคุณจะสิ้นสุดลงเมื่อคุณแสดงความน่าจะเป็นสำหรับแต่ละคลาสของตัวอย่างใหม่ของคุณ การแม็พความน่าจะเป็นที่คาดการณ์เหล่านี้กับการจัดประเภท 0-1 โดยการเลือกเกณฑ์ที่คุณจำแนกการสังเกตใหม่เนื่องจาก 1 กับ 0 ไม่ได้เป็นส่วนหนึ่งของสถิติอีกต่อไป . มันเป็นส่วนหนึ่งขององค์ประกอบการตัดสินใจ และที่นี่คุณต้องการผลลัพธ์ที่เป็นไปได้ของแบบจำลองของคุณ - แต่ยังต้องพิจารณาถึง:(p^,1p^)

  • อะไรคือผลที่ตามมาของการตัดสินใจปฏิบัติต่อการสังเกตใหม่ในระดับ 1 กับ 0 ฉันจะส่งจดหมายการตลาดราคาถูกไปยังทุกคนได้หรือไม่ หรือฉันจะใช้การรักษาโรคมะเร็งรุกรานกับผลข้างเคียงที่ยิ่งใหญ่?
  • อะไรคือผลของการรักษา "ความจริง" 0 เป็น 1 และในทางกลับกัน ฉันจะติ๊กลูกค้าหรือไม่ เรื่องคนที่จะรักษาพยาบาลที่ไม่จำเป็น?
  • "คลาส" ของฉันไม่ต่อเนื่องอย่างแท้จริงหรือไม่ หรือที่จริงแล้วมีความต่อเนื่อง (เช่นความดันโลหิต) ซึ่งเกณฑ์ทางคลินิกเป็นจริงเพียงแค่ทางลัดทางปัญญา? ถ้าเป็นเช่นนั้นฉันจะ "จัดหมวดหมู่" ได้ไกลเกินกว่าเกณฑ์หรือไม่
  • หรือความน่าจะเป็นที่ต่ำ แต่เป็นบวกจะเป็น class 1 จริง ๆ แล้วหมายถึง "รับข้อมูลเพิ่มเติม", "ทำการทดสอบอื่น" หรือไม่?

ขึ้นอยู่กับผลการตัดสินใจของคุณคุณจะใช้เกณฑ์ที่แตกต่างกันในการตัดสินใจ หากการกระทำนั้นเป็นการผ่าตัดแบบรุกรานคุณจะต้องมีความน่าจะเป็นสูงกว่าในการจำแนกผู้ป่วยที่ทุกข์ทรมานจากบางสิ่งมากกว่าการทำเพื่อแนะนำยาแอสไพรินสองชนิด หรือคุณอาจมีสามการตัดสินใจที่แตกต่างกันแม้ว่าจะมีเพียงสองคลาส (ป่วยและมีสุขภาพดี): "กลับบ้านและไม่ต้องกังวล" กับ "ทำการทดสอบอื่นเพราะเราไม่สามารถสรุปได้" กับ "ทำงานทันที" .

วิธีที่ถูกต้องของการประเมินความน่าจะเป็นที่คาดการณ์ไว้คือไม่ได้ไปเปรียบเทียบกับเกณฑ์ map ให้พวกเขาขึ้นอยู่กับเกณฑ์การประเมินแล้วเปลี่ยนจำแนกประเภท แต่ควรใช้ที่เหมาะสมให้คะแนนกฎเหล่านี้เป็นฟังก์ชั่นการสูญเสียว่าแผนที่คาดการณ์ความน่าจะเป็นและสอดคล้องกันสังเกตผลกับค่าการสูญเสียที่จะลดลงในความคาดหวังจากความน่าจะเป็นจริงP) แนวคิดคือเราใช้ค่าเฉลี่ยมากกว่ากฎการให้คะแนนซึ่งประเมินจากผลลัพธ์ที่สังเกตได้หลายค่า (ดีที่สุด: มาก) และความน่าจะเป็นสมาชิกคลาสที่คาดการณ์ที่สอดคล้องกันเป็นการประเมินความคาดหวังของกฎการให้คะแนน(p^,1p^)(0,1)(0,1)(p,1p)

โปรดทราบว่า "เหมาะสม" ที่นี่มีความหมายที่กำหนดไว้อย่างแม่นยำ - มีกฎการให้คะแนนที่ไม่เหมาะสมเช่นเดียวกับกฎการให้คะแนนที่เหมาะสมและในที่สุดกฎการให้คะแนนที่เหมาะสมอย่างเคร่งครัด เกณฑ์การให้คะแนนเช่นนี้เป็นฟังก์ชั่นการสูญเสียของความหนาแน่นและผลการทำนาย กฎการให้คะแนนที่เหมาะสมคือกฎการให้คะแนนที่ถูกลดความคาดหวังลงถ้าความหนาแน่นของการทำนายนั้นเป็นความหนาแน่นที่แท้จริง อย่างเคร่งครัดกฎการให้คะแนนที่เหมาะสมจะได้คะแนนกฎที่มีเพียงลดลงในความคาดหวังถ้าความหนาแน่นของการทำนายคือความหนาแน่นจริง

ตามที่Frank Harrell ตั้งข้อสังเกตความแม่นยำเป็นกฎการให้คะแนนที่ไม่เหมาะสม (แม่นยำยิ่งขึ้นความแม่นยำไม่ได้เป็นกฎการให้คะแนนเลย : ดูคำตอบของฉันต่อความถูกต้องกฎการให้คะแนนที่ไม่เหมาะสมในการตั้งค่าการจำแนกประเภทไบนารีหรือไม่ ) สิ่งนี้สามารถมองเห็นได้เช่นถ้าเราไม่มีผู้ทำนายเลย เหรียญที่ไม่เป็นธรรมกับความน่าจะเป็น(0.6,0.4)ความแม่นยำจะเพิ่มขึ้นถ้าเราจำแนกทุกอย่างในชั้นเฟิสต์คลาสและไม่สนใจความน่าจะเป็น 40% ที่ผลลัพธ์ใด ๆ อาจอยู่ในคลาสที่สอง (ที่นี่เราเห็นว่าความถูกต้องเป็นปัญหาแม้สำหรับคลาสที่สมดุล) เหมาะสมจะต้องการการคาดการณ์สำหรับ(0.6,0.4)(0.6,0.4)(1,0)หนึ่งในความคาดหวัง โดยเฉพาะอย่างยิ่งความแม่นยำจะไม่ต่อเนื่องในเกณฑ์: การย้ายขีด จำกัด เพียงเล็กน้อยอาจทำให้การคาดการณ์หนึ่งครั้ง (หรือหลายครั้ง) เปลี่ยนคลาสและเปลี่ยนความแม่นยำทั้งหมดด้วยจำนวนที่ไม่ต่อเนื่อง ทำให้รู้สึกเล็กน้อย

ข้อมูลเพิ่มเติมสามารถพบได้ที่แฟรงก์สองบล็อกโพสต์ที่เชื่อมโยงกับข้างต้นเช่นเดียวกับในบทที่ 10 ของแฟรงก์ฮาร์เรลของกลยุทธ์การสร้างแบบจำลองการถดถอย

(นี่คือเปลที่ไร้ยางอายจากคำตอบก่อนหน้าของฉัน )


แก้ไข คำตอบของฉันไปตัวอย่างเมื่อใช้ความถูกต้องเป็นมาตรการผลจะนำไปสู่ข้อสรุปที่ผิดให้เป็นตัวอย่างที่เป็นตัวอย่างที่หวังว่าการเพิ่มความถูกต้องสามารถนำไปสู่การตัดสินใจที่ผิดพลาดแม้สำหรับชั้นเรียนที่สมดุล


6
@ จุดของ Tim Frank (ที่เขาพูดถึงในคำตอบมากมายในเว็บไซต์ของเราและที่อื่น ๆ ) ตามที่ฉันเข้าใจแล้วว่าถ้าอัลกอริทึมการจำแนกประเภทไม่ส่งคืนความน่าจะเป็นก็เป็นขยะและไม่ควรใช้ ความซื่อสัตย์อัลกอริทึมที่ใช้กันโดยทั่วไปส่วนใหญ่จะส่งคืนความน่าจะเป็น
อะมีบา

6
ฉันจะบอกว่าอัลกอริทึมที่ใช้ในการสังเกตการณ์ที่ผ่านมาและส่งออกเฉพาะการจำแนกประเภทโดยไม่ต้องคำนึงถึงประเด็นข้างต้น (เช่นค่าใช้จ่ายในการตัดสินใจผิดพลาด) ทำให้สถิติและด้านการตัดสินใจแตกต่าง มันเหมือนมีคนแนะนำรถประเภทหนึ่งให้กับคุณโดยไม่ถามคุณก่อนว่าคุณต้องการขนส่งทีมเบสบอลลีกเล็ก ๆ กลุ่มวัสดุก่อสร้างหรือเพียงแค่ตัวคุณเอง ดังนั้นฉันจะบอกว่าอัลกอริทึมเช่นนั้นจะเป็นขยะ
เตฟาน Kolassa

8
ฉันกำลังจะเขียนคำตอบ แต่ไม่จำเป็นต้อง ไชโย ฉันอภิปรายสิ่งนี้กับนักเรียนของฉันว่าเป็น "การแยกความกังวล" ระหว่างการสร้างแบบจำลองทางสถิติและการตัดสินใจ แนวคิดประเภทนี้ฝังรากลึกอย่างมากในวัฒนธรรมวิศวกรรม
Matthew Drury

8
@chainD: ถ้าตัวจําแนกของคุณ (จำได้ว่ามันเป็นตัวที่มีความแม่นยำสูงสุด ) บอกว่า "ทุกคนในตัวอย่างนี้มีสุขภาพดี" ดังนั้นแพทย์หรือนักวิเคราะห์คนใดจะเชื่อว่ามีเรื่องราวอีกมาก ฉันยอมรับว่าในท้ายที่สุดมันเป็นการเรียกร้องให้นักวิเคราะห์ แต่ "ทุกคนมีสุขภาพดี" นั้นมีประโยชน์น้อยกว่านักวิเคราะห์มากกว่าสิ่งที่ดึงดูดความสนใจกับความไม่แน่นอนที่เหลือเช่นการทำนาย 95% / 5%
Stephan Kolassa

11
@StephanKolassa คำตอบและความคิดเห็นยอดเยี่ยม ความคิดเห็นของคนอื่นบ่งบอกว่ามีความแตกต่างในวิธีการดูนี้ขึ้นอยู่กับวัฒนธรรมที่คุณเป็นส่วนหนึ่ง นี่ไม่ใช่กรณีจริง ๆ ; มันเป็นเพียงบางสาขาที่ใส่ใจที่จะเข้าใจวรรณกรรมและอื่น ๆ ไม่ได้ ตัวอย่างเช่นการพยากรณ์อากาศอยู่ในระดับแนวหน้าและใช้กฎการให้คะแนนที่เหมาะสมสำหรับการประเมินความแม่นยำของผู้ทำนายตั้งแต่อย่างน้อยปี 1951
Frank Harrell

78

เมื่อเราใช้ความแม่นยำเราจะกำหนดต้นทุนเท่ากันให้กับผลบวกเท็จและเชิงลบที่ผิด เมื่อชุดข้อมูลนั้นไม่สมดุล - กล่าวว่ามีอินสแตนซ์ 99% ในหนึ่งคลาสและอีก 1% เท่านั้นมีวิธีที่ยอดเยี่ยมในการลดต้นทุน ทำนายว่าทุกอินสแตนซ์นั้นเป็นของคนส่วนใหญ่ได้รับความแม่นยำ 99% และกลับบ้านเร็ว

ปัญหาเริ่มต้นเมื่อต้นทุนจริงที่เรากำหนดให้กับข้อผิดพลาดทุกครั้งไม่เท่ากัน หากเราจัดการกับโรคที่หายาก แต่เป็นอันตรายถึงชีวิตค่าใช้จ่ายของการไม่สามารถวินิจฉัยโรคของคนป่วยนั้นสูงกว่าค่าใช้จ่ายในการส่งคนที่มีสุขภาพเพื่อการทดสอบมากขึ้น

โดยทั่วไปไม่มีมาตรการที่ดีที่สุดทั่วไป การวัดที่ดีที่สุดนั้นมาจากความต้องการของคุณ ในแง่หนึ่งมันไม่ใช่คำถามการเรียนรู้ของเครื่อง แต่เป็นคำถามทางธุรกิจ เป็นเรื่องปกติที่คนสองคนจะใช้ชุดข้อมูลเดียวกัน แต่จะเลือกเมตริกที่แตกต่างกันเนื่องจากเป้าหมายที่ต่างกัน

ความแม่นยำเป็นเมตริกที่ยอดเยี่ยม ที่จริงแล้วตัวชี้วัดส่วนใหญ่นั้นยอดเยี่ยมและฉันชอบที่จะประเมินตัวชี้วัดจำนวนมาก อย่างไรก็ตามในบางจุดคุณจะต้องตัดสินใจระหว่างการใช้โมเดล A หรือ B คุณควรใช้เมตริกเดี่ยวที่เหมาะสมกับความต้องการของคุณมากที่สุด

สำหรับเครดิตเพิ่มเติมเลือกเมตริกนี้ก่อนการวิเคราะห์ดังนั้นคุณจะไม่ถูกรบกวนเมื่อทำการตัดสินใจ


3
คำตอบที่ยอดเยี่ยม - ฉันเสนอการแก้ไขสองสามข้อเพื่อพยายามทำให้จุดเริ่มต้นชัดเจนยิ่งขึ้นในการเรียนรู้ของเครื่อง (ซึ่งคำถามนี้มีวัตถุประสงค์เพื่อ)
nekomatic

1
ฉันไม่เห็นด้วยว่ามันไม่ใช่ปัญหาการเรียนรู้ของเครื่อง แต่การพูดถึงมันจะเกี่ยวข้องกับการเรียนรู้เครื่องจักรเกี่ยวกับปัญหาเมตาดาต้าและทำให้เครื่องสามารถเข้าถึงข้อมูลบางประเภทได้นอกเหนือจากข้อมูลการจำแนกประเภทพื้นฐาน
Shufflepants

3
ฉันไม่เห็นว่ามันเป็นฟังก์ชั่นของข้อมูลเพียงอย่างเดียวเนื่องจากเป้าหมายที่แตกต่างกันสามารถนำไปใช้กับราคา / โมเดล / ประสิทธิภาพ / เมตริกที่แตกต่างกันได้ ฉันเห็นด้วยว่าโดยทั่วไปคำถามเกี่ยวกับต้นทุนสามารถจัดการได้ทางคณิตศาสตร์ อย่างไรก็ตามคำถามเช่นค่าใช้จ่ายในการรักษาผู้ป่วยต้องพึ่งพาข้อมูลที่แตกต่างกันโดยสิ้นเชิง ข้อมูลที่จำเป็นสำหรับข้อมูลเมตานี้มักจะไม่เหมาะสำหรับวิธีการเรียนรู้ของเครื่องดังนั้นส่วนใหญ่เวลาจะจัดการกับวิธีการที่แตกต่างกัน
DaL

2
ด้วยการ "วินิจฉัยคนที่เป็นโรค" คุณหมายถึง "คนที่เป็นโรคนั้นวินิจฉัยผิดพลาด(ไม่ใช่โรค)" ใช่ไหม? เพราะวลีนั้นสามารถตีความได้ทั้งสองทาง
แทนเนอร์ Swett

คุณเป็นคนฟอกหนังที่ถูกต้อง ฉันเปลี่ยนการทดสอบเพื่อให้ชัดเจนยิ่งขึ้น
DaL

20

ปัญหาเกี่ยวกับความแม่นยำ

ความถูกต้องมาตรฐานหมายถึงอัตราส่วนของการจำแนกประเภทที่ถูกต้องต่อจำนวนการจำแนกประเภทที่ทำ

accuracy:=correct classificationsnumber of classifications

ดังนั้นจึงเป็นการวัดโดยรวมสำหรับทุกชั้นเรียนและในไม่ช้าเราจะเห็นว่าไม่ใช่วิธีที่ดีในการบอก oracle นอกเหนือจากการทดสอบที่เป็นประโยชน์จริง oracle เป็นฟังก์ชั่นการจัดหมวดหมู่ที่ส่งกลับการคาดเดาแบบสุ่มสำหรับแต่ละตัวอย่าง ในทำนองเดียวกันเราต้องการให้คะแนนประสิทธิภาพการจำแนกประเภทของฟังก์ชันการจำแนกประเภทของเรา Accuracy \ textit {can} เป็นเครื่องมือวัดที่มีประโยชน์ถ้าเรามีจำนวนตัวอย่างต่อคลาสเท่ากัน แต่ถ้าเรามีกลุ่มตัวอย่างที่ไม่เที่ยงตรงไม่แม่นยำก็ไม่มีประโยชน์เลย ยิ่งไปกว่านั้นการทดสอบสามารถมีความแม่นยำสูง แต่จริง ๆ แล้วทำงานได้แย่กว่าการทดสอบที่มีความแม่นยำต่ำกว่า

ถ้าเรามีการแจกแจงตัวอย่างซึ่ง 90 \% ของตัวอย่างอยู่ในคลาส , 5 \% เป็นของและอีก 5 \% เป็นของจากนั้นฟังก์ชั่นการจำแนกประเภทต่อไปนี้ จะมีความแม่นยำ :ABC0.9

classify(sample):={Aif 

กระนั้นก็เป็นที่ชัดเจนว่าเรารู้ว่าการงานนี้มันไม่สามารถบอกชั้นเรียนได้เลย ในทำนองเดียวกันเราสามารถสร้างฟังก์ชั่นการจัดหมวดหมู่classify

classify(sample):=guess{Awith p =0.96Bwith p =0.02Cwith p =0.02

ซึ่งมีความแม่นยำและจะไม่คาดเดา แต่ยังให้เรารู้ว่าการทำงานเป็นที่ชัดเจนว่าไม่สามารถแยกชั้นเรียนได้ ความแม่นยำในกรณีนี้เพียงบอกเราว่าฟังก์ชันการจำแนกประเภทของเราคาดเดาได้ดีแค่ไหน ซึ่งหมายความว่าความแม่นยำไม่ใช่วิธีที่ดีที่จะบอก oracle นอกเหนือจากการทดสอบที่มีประโยชน์0.960.9+0.020.052=0.866Aclassify

ความแม่นยำต่อคลาส

เราสามารถคำนวณความถูกต้องเป็นรายบุคคลต่อคลาสโดยให้ฟังก์ชันการจำแนกประเภทของเรามีเพียงตัวอย่างจากคลาสเดียวกันและจดจำและนับจำนวนการจำแนกประเภทที่ถูกต้องและการจำแนกประเภทที่ไม่ถูกต้องแล้วคำนวณ{}) เราทำสิ่งนี้ซ้ำสำหรับทุกชั้นเรียน ถ้าเรามีฟังก์ชั่นการจัดหมวดหมู่ที่สามารถจำ classได้อย่างแม่นยำ แต่จะส่งผลการทายแบบสุ่มสำหรับคลาสอื่นดังนั้นผลลัพธ์นี้มีความแม่นยำสำหรับ และความแม่นยำaccuracy:=correct/(correct+incorrect)A1.00A0.33สำหรับคลาสอื่น นี่เป็นวิธีที่ดีกว่าในการตัดสินประสิทธิภาพของฟังก์ชั่นการจำแนกประเภทของเรา นักทำนายที่คาดเดาคลาสเดียวกันเสมอจะสร้างความแม่นยำต่อคลาสที่สำหรับคลาสนั้น แต่สำหรับคลาสอื่น หากการทดสอบของเราจะเป็นประโยชน์ถูกต้องทั้งหมดต่อชั้นควรจะ>ไม่เช่นนั้นการทดสอบของเราจะไม่ดีไปกว่าโอกาส อย่างไรก็ตามความแม่นยำต่อคลาสไม่ได้คำนึงถึงผลบวกที่ผิดพลาด แม้ว่าฟังก์ชั่นการจัดหมวดหมู่ของเรามีความแม่นยำ 100% สำหรับ classก็จะมีผลบวกเป็นเท็จสำหรับ (เช่นจำแนกผิดเป็น )1.000.00>0.5AABA

ความไวและความจำเพาะ

ในการทดสอบทางการแพทย์ความไวหมายถึงอัตราส่วนระหว่างคนที่ระบุอย่างถูกต้องว่ามีโรคและจำนวนของคนที่มีโรคจริง ความเฉพาะเจาะจงถูกกำหนดให้เป็นอัตราส่วนระหว่างคนที่ระบุอย่างถูกต้องเป็นสุขภาพและจำนวนของคนที่มีสุขภาพดีจริง จำนวนคนที่เป็นโรคจริงคือจำนวนผลการทดสอบที่เป็นบวกที่แท้จริงบวกกับจำนวนของผลการทดสอบที่เป็นเท็จ จำนวนคนที่มีสุขภาพดีจริง ๆ คือจำนวนของผลการทดสอบเชิงลบที่แท้จริงบวกกับจำนวนของผลการทดสอบเชิงบวกที่ผิดพลาด

การจำแนกประเภทไบนารี

ปัญหาการจัดหมวดหมู่ไบนารีมีสองชั้นและ{N} อ้างถึงจำนวนตัวอย่างที่ระบุอย่างถูกต้องว่าเป็นของคลาสและอ้างถึงจำนวนตัวอย่างที่ถูกระบุว่าเป็นของชั้นอย่างไม่ถูกต้อง ในกรณีนี้ความไวและความจำเพาะถูกกำหนดดังนี้:PNTnnFnn

sensitivity:=TPTP+FNspecificity:=TNTN+FP

TPเป็นจริงบวกเป็นเท็จลบ เป็นจริงและลบเป็นบวกปลอม . แต่คิดในแง่ของเชิงลบและบวกจะดีสำหรับการทดสอบทางการแพทย์ แต่เพื่อที่จะได้รับสัญชาติญาณที่ดีกว่าเราไม่ควรคิดในแง่ของเชิงลบและบวก แต่ในชั้นเรียนทั่วไปและ\จากนั้นเราสามารถพูดได้ว่าจำนวนตัวอย่างที่ระบุอย่างถูกต้องว่าเป็นของคือและจำนวนตัวอย่างที่เป็นของคือFNTNFPαβαTααTα+Fβ. จำนวนของกลุ่มตัวอย่างระบุได้อย่างถูกต้องที่จะไม่เป็นของเป็นและปริมาณของตัวอย่างจริงไม่ได้เป็นของเป็น alpha} นี้ทำให้เรามีความไวและความจำเพาะสำหรับแต่เรายังสามารถนำไปใช้ในสิ่งเดียวกันกับระดับ\จำนวนของกลุ่มตัวอย่างระบุอย่างถูกต้องตามที่เป็นของคือ และปริมาณของตัวอย่างจริงที่เป็นของคือalpha} จำนวนตัวอย่างที่ถูกต้องระบุว่าไม่ได้เป็นของคือαTβαTβ+FααββTββTβ+FαβTαและปริมาณของตัวอย่างจริงไม่ได้เป็นของคือเบต้า} เราจึงได้รับความไวและความจำเพาะต่อคลาส:βTα+Fβ

sensitivityα:=TαTα+Fβspecificityα:=TβTβ+Fαsensitivityβ:=TβTβ+Fαspecificityβ:=TαTα+Fβ

sensitivityα=specificityβspecificityα=sensitivityβ. ซึ่งหมายความว่าถ้าเรามีเพียงสองคลาสเราไม่ต้องการความไวและความจำเพาะต่อคลาส

การจำแนก N-Ary

ความไวและความเฉพาะเจาะจงต่อคลาสนั้นไม่มีประโยชน์หากเรามีเพียงสองคลาสเท่านั้น แต่เราสามารถขยายไปยังหลายคลาสได้ ความไวและความจำเพาะถูกกำหนดเป็น:

sensitivity:=true positivestrue positives+false negativesspecificity:=true negativestrue negatives+false-positives

Tni(Fn,i)i(Fi,n)ni(Ti)T(n)nni(k(Fi,k))nni(Fn,i)ni(Fi,n)i(Ti)T(n)+i(k(Fn,i))i(Fn,i)i(Fi,n). โดยสรุปเรามี:

true positives:=Tntrue negatives:=i(Ti)T(n)+i(k(Fn,i))i(Fn,i)i(Fi,n)false positives:=i(Fi,n)false negatives:=i(Fn,i)

sensitivity(n):=TnTn+i(Fn,i)specificity(n):=i(Ti)Tn+i(k(Fi,k))i(Fn,i)i(Fi,n)i(Ti)Tn+i(k(Fi,k))i(Fn,i)

แนะนำความเชื่อมั่น

confidenceTn+i(Fi,n)nTn

confidence(n):=TnTn+i(Fi,n)

confidencenn

i(k(Fi,k))i(Fi,n)+i(Ti)Tni(Fn,i)

confidence(n)=i(k(Fi,k))i(Fi,n)+i(Ti)Tni(Fn,i)i(k(Fi,k))i(Fi,n)+i(Ti)Tn


คุณช่วยยกตัวอย่างการคำนวณค่าความแม่นยำเฉลี่ยด้วยเมทริกซ์ความสับสนได้ไหม
Aadnan Farooq A

คุณสามารถหาคำอธิบายโดยละเอียดเพิ่มเติมพร้อมตัวอย่างได้ที่นี่: mroman.ch/guides/sensspec.html
mroman

การอ่านผ่านอีกครั้งมีข้อผิดพลาดในคำจำกัดความของมั่นใจ _ เท็จ ฉันประหลาดใจที่ไม่มีใครเห็นว่า ฉันจะแก้ไขมันในอีกไม่กี่วันข้างหน้า
mroman

8

คลาสที่ไม่สมดุลในชุดข้อมูลของคุณ

โดยย่อ: จินตนาการ 99% ของคลาสหนึ่ง (พูดแอปเปิ้ล) และ 1% ของคลาสอื่นอยู่ในชุดข้อมูลของคุณ (พูดกล้วย) อัลกอริทึม super duper ของฉันได้รับความแม่นยำ 99% อย่างน่าอัศจรรย์สำหรับชุดข้อมูลนี้ลองดู:

return "it's an apple"

เขาจะถูกต้อง 99% ของเวลาและดังนั้นจึงได้รับความแม่นยำ 99% ฉันสามารถขายอัลกอริทึมของฉันให้คุณได้ไหม

วิธีแก้ปัญหา: อย่าใช้การวัดแบบสัมบูรณ์ (ความแม่นยำ) แต่เป็นการวัดแบบเทียบกับแต่ละระดับ (มีจำนวนมากเช่น ROC AUC)


ไม่, AUC ไม่เหมาะสำหรับชุดข้อมูลที่ไม่สมดุล
SiXUlm

@SiXUlm คุณช่วยอธิบายเรื่องนั้นได้ไหม?
Mayou36

P(D)/P(DC)P(T|D)P(F|DC)

ภาพประกอบชัดเจนสามารถพบได้ที่นี่: quora.com/... ดูคำตอบของ Jerry Ma
SiXUlm

ฉันยังไม่เข้าใจประเด็นของคุณ นั่นไม่ใช่ (รวมถึง Quora) สิ่งที่ฉันพูดในการแก้ปัญหาและสนับสนุนคำตอบของฉันอย่างแน่นอนหรือไม่ ประเด็นก็คือนักบวชไม่ควรส่งผลกระทบต่อตัวชี้วัดที่วัดประสิทธิภาพของเครือข่าย อะไรคือความเหมาะสมขึ้นอยู่กับปัญหาของคุณเช่นที่ดีที่สุดคือการเพิ่มประสิทธิภาพสำหรับทุกตัดไปได้ เพื่อให้ฉันรู้ว่าก) เพราะมันเป็นค่าคงที่เพื่อไพรเออร์ แต่มีความไวต่อการปฏิบัติงานว่าทำไมเป็นว่าไม่เหมาะสม ข) คุณคิดว่ามีความเหมาะสมอื่นอีกหรือลักษณะใดที่ต้องการ
Mayou36

2

คำตอบ DaL เป็นเพียงแค่นี้ ฉันจะอธิบายด้วยตัวอย่างง่ายๆเกี่ยวกับ ... การขายไข่

21

21

หากตัวจําแนกของคุณไม่มีข้อผิดพลาดคุณจะได้รับรายได้สูงสุดตามที่คาดหวัง ถ้ามันไม่สมบูรณ์แบบแล้ว:

  • 1
  • 1

จากนั้นความแม่นยำของตัวจําแนกของคุณคือความใกล้ชิดกับรายได้สูงสุด เป็นการวัดที่สมบูรณ์แบบ

a

  • บวกปลอม:a
  • 2a

a=0.00120.001

หากตัวจําแนกเกี่ยวกับการค้นหาเอกสารที่เกี่ยวข้องในฐานข้อมูลคุณสามารถเปรียบเทียบ "เสียเวลา" ในการอ่านเอกสารที่ไม่เกี่ยวข้องเมื่อเปรียบเทียบกับการค้นหาเอกสารที่เกี่ยวข้อง


1

ความแม่นยำในการจำแนกประเภทคือจำนวนการทำนายที่ถูกต้องหารด้วยจำนวนการทำนายทั้งหมด

ความแม่นยำอาจทำให้เข้าใจผิด ตัวอย่างเช่นในปัญหาที่มีความไม่สมดุลของคลาสขนาดใหญ่แบบจำลองสามารถทำนายค่าของคลาสเสียงส่วนใหญ่สำหรับการทำนายทั้งหมดและบรรลุความแม่นยำในการจำแนกประเภทสูง ดังนั้นจำเป็นต้องมีการวัดประสิทธิภาพเพิ่มเติมเช่นคะแนน F1 และคะแนน Brier


-3

R2

R2

ดังที่คนอื่น ๆ ได้ระบุไว้ปัญหาที่มีความแม่นยำอีกประการหนึ่งคือการไม่แยแสต่อราคาของความล้มเหลวโดยปริยายนั่นคือการสันนิษฐานว่าการจำแนกประเภทผิดพลาดทั้งหมดมีความเท่าเทียมกัน ในทางปฏิบัติพวกเขาไม่ได้และค่าใช้จ่ายในการจำแนกผิดประเภทนั้นขึ้นอยู่กับเรื่องอย่างมากและคุณอาจต้องการลดความผิดประเภทใดประเภทหนึ่งโดยเฉพาะน้อยกว่าความถูกต้องสูงสุด


2
ครวญเพลง (1) ฉันคิดว่าการประเมินความถูกต้องหรือตัวชี้วัดตัวอย่างอื่น ๆจะเข้าใจดังนั้นฉันจึงไม่เห็นว่าความแม่นยำมีปัญหา overfitting ที่เฉพาะเจาะจงมากขึ้นเท่านั้น (2) ถ้าคุณใช้รูปแบบการฝึกอบรมเกี่ยวกับประชากรไปยังที่แตกต่างกันของประชากร B แล้วคุณกำลังเปรียบเทียบแอปเปิ้ลกับส้มและฉันอีกครั้งไม่ได้จริงๆดูวิธีนี้เป็นปัญหาที่เฉพาะเจาะจงเพื่อความถูกต้อง
เตฟาน Kolassa

(1) อย่างไรก็ตามมันเป็นปัญหาของความถูกต้องและคำถามเกี่ยวกับการใช้ความแม่นยำเป็นมาตรฐานทองคำ (2) จุดประสงค์ของการสร้างลักษณนามคือใช้กับส้มไม่ใช่แค่แอปเปิ้ล ควรทั่วไปพอที่จะรับสัญญาณที่จำเป็นในข้อมูล (เช่นมีอยู่) แทนที่จะเป็นคำสอนสำหรับข้อมูลการฝึกอบรมของคุณ
James
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.