บทนำ
สถิติ Kappa (หรือค่า) เป็นตัวชี้วัดที่เปรียบเทียบความแม่นยำที่สังเกตได้กับความแม่นยำที่คาดหวัง (โอกาสสุ่ม) สถิติของคัปปานั้นไม่เพียง แต่ใช้ในการประเมินลักษณนามเดี่ยวเท่านั้น นอกจากนี้ยังคำนึงถึงโอกาสสุ่ม (ข้อตกลงกับลักษณนามสุ่ม) ซึ่งโดยทั่วไปหมายความว่ามันเป็นความเข้าใจผิดน้อยกว่าเพียงแค่ใช้ความถูกต้องเป็นตัวชี้วัด (เป็นความถูกต้องสังเกตจาก 80% เป็นจำนวนมากน้อยที่น่าประทับใจกับความถูกต้องคาดว่าจะอยู่ที่ 75% เมื่อเทียบกับความแม่นยำที่คาดไว้ 50%) การคำนวณความแม่นยำที่สังเกตได้และความแม่นยำที่คาดหวังเป็นส่วนประกอบสำคัญของความเข้าใจในสถิติคัปปาและสามารถแสดงได้อย่างง่ายดายผ่านการใช้เมทริกซ์ความสับสน ให้เริ่มด้วยเมทริกซ์ความสับสนอย่างง่ายจากการจำแนกไบนารีแบบง่ายของCats and Dogs :
การคำนวณ
Cats Dogs
Cats| 10 | 7 |
Dogs| 5 | 8 |
สมมติว่าแบบจำลองนั้นสร้างขึ้นโดยใช้การเรียนรู้ของเครื่องภายใต้การดูแลของข้อมูลที่ติดฉลาก สิ่งนี้ไม่จำเป็นเสมอไป สถิติของคัปปานั้นมักใช้เป็นเครื่องวัดความน่าเชื่อถือระหว่างผู้ประเมินสองคน คอลัมน์จะตรงกับ "ผู้ประเมิน" หนึ่งคนในขณะที่แถวนั้นตรงกับ "ผู้ประเมิน" อีกคน ในการเรียนรู้ภายใต้การดูแลเครื่องหนึ่ง "เจ๋ง" สะท้อนให้เห็นถึงความจริงพื้นดิน (ค่าที่แท้จริงของแต่ละกรณีจะจัด) ที่ได้รับจากข้อมูลที่มีข้อความและอื่น ๆ "เจ๋ง" เป็นลักษณนามเรียนรู้ของเครื่องใช้ในการดำเนินการจัดหมวดหมู่ ท้ายที่สุดมันไม่สำคัญว่าจะต้องคำนวณสถิติคัปปา แต่เพื่อความชัดเจน ' การจำแนกประเภท
จากเมทริกซ์ความสับสนเราจะเห็นว่ามีทั้งหมด30อินสแตนซ์ (10 + 7 + 5 + 8 = 30) ตามคอลัมน์แรก15ถูกระบุว่าเป็นแมว (10 + 5 = 15) และตามคอลัมน์ที่สอง15ถูกระบุว่าเป็นสุนัข (7 + 8 = 15) เราจะเห็นได้ว่าแบบจำลองนี้จำแนก17อินสแตนซ์เป็นCats (10 + 7 = 17) และ13อินสแตนซ์เป็นDogs (5 + 8 = 13)
ความถูกต้องสังเกตเป็นเพียงอินสแตนซ์ที่ถูกจัดอย่างถูกต้องตลอดเมทริกซ์ความสับสนทั้งหมดเช่นจำนวนของกรณีที่ถูกระบุว่าเป็นแมวผ่านความจริงพื้นดินและจากนั้นจัดว่าเป็นแมวโดยจําแนกการเรียนรู้เครื่องหรือระบุว่าเป็นสุนัขผ่านความจริงพื้นดินและ แล้วจัดเป็นสุนัขโดยลักษณนามเรียนรู้ของเครื่อง ในการคำนวณความแม่นยำที่สังเกตได้เราเพียงเพิ่มจำนวนอินสแตนซ์ที่ลักษณนามการเรียนรู้ของเครื่องเห็นด้วยกับความจริงพื้นฐานป้ายกำกับและหารด้วยจำนวนอินสแตนซ์ทั้งหมด สำหรับเมทริกซ์ความสับสนนี่จะเป็น0.6 ((10 + 8) / 30 = 0.6)
ก่อนที่เราจะได้รับการสมการสำหรับสถิติ Kappa หนึ่งมูลค่ามากขึ้นเป็นสิ่งจำเป็นคือความถูกต้องคาดหวัง ค่านี้ถูกกำหนดให้เป็นความแม่นยำที่ตัวแยกประเภทแบบสุ่มใด ๆ ที่คาดว่าจะบรรลุตามเมทริกซ์ความสับสน ความแม่นยำที่คาดว่าจะเกี่ยวข้องโดยตรงกับจำนวนของกรณีของแต่ละชั้นเรียน (คนแมวและสุนัข ) พร้อมกับจำนวนของกรณีที่ว่าลักษณนามการเรียนรู้เครื่องเห็นด้วยกับความจริงพื้นฉลาก ในการคำนวณความแม่นยำที่คาดหวังสำหรับเมทริกซ์ความสับสนของเราอันดับแรกให้คูณความถี่ส่วนเพิ่มของCatsสำหรับ "ผู้ประเมิน" หนึ่งรายด้วยความถี่ส่วนเพิ่มของCatsสำหรับ "rater" ตัวที่สองและหารด้วยจำนวนอินสแตนซ์ทั้งหมด ความถี่ร่อแร่สำหรับการเรียนบางอย่างโดยบาง "ประเมิน" เป็นเพียงผลรวมของทุกกรณี "เจ๋ง" ระบุเป็นระดับที่ ในกรณีของเรา15 (10 + 5 = 15) กรณีถูกระบุว่าเป็นแมวตามความจริงพื้นดินและ17 (10 + 7 = 17) กรณีที่ถูกจัดให้เป็นแมวโดยลักษณนามเรียนรู้ของเครื่อง ผลลัพธ์นี้มีค่า8.5 (15 * 17/30 = 8.5) สิ่งนี้จะถูกทำสำหรับคลาสที่สองด้วย (และสามารถทำซ้ำสำหรับคลาสเพิ่มเติมแต่ละคลาสหากมีมากกว่า 2) 15(7 + 8 = 15) กรณีถูกระบุว่าเป็นสุนัขตามความจริงพื้นดินและ13 (8 + 5 = 13) กรณีที่ถูกจัดให้เป็นสุนัขโดยลักษณนามเรียนรู้ของเครื่อง ส่งผลให้ค่า6.5 (15 * 13/30 = 6.5) ขั้นตอนสุดท้ายคือการเพิ่มค่าเหล่านี้ร่วมกันและในที่สุดก็แบ่งอีกครั้งโดยจำนวนรวมของกรณีทำให้เกิดความแม่นยำในการคาดหวังของ0.5 ((8.5 + 6.5) / 30 = 0.5) ในตัวอย่างของเราความแม่นยำที่คาดหวังกลายเป็น 50% เช่นเดียวกับกรณีที่ "ผู้ประเมิน" จัดประเภทแต่ละคลาสด้วยความถี่เดียวกันในการจำแนกประเภทไบนารี ( แมวทั้งคู่)และDogsมีทั้งหมด15ครั้งตามฉลากความจริงภาคพื้นในเมทริกซ์ความสับสนของเรา)
สถิติ kappa นั้นสามารถคำนวณได้โดยใช้ทั้งค่าความแม่นยำที่สังเกตได้ ( 0.60 ) และค่าความแม่นยำที่คาดหวัง ( 0.50 ) และสูตร:
Kappa = (observed accuracy - expected accuracy)/(1 - expected accuracy)
ดังนั้นในกรณีของเราค่าสถิติคัปปาเท่ากับ: (0.60 - 0.50) / (1 - 0.50) = 0.20
เป็นอีกตัวอย่างหนึ่งนี่คือเมทริกซ์ความสับสนที่น้อยกว่าและการคำนวณที่เกี่ยวข้อง:
Cats Dogs
Cats| 22 | 9 |
Dogs| 7 | 13 |
ความจริงภาคพื้นดิน: แมว (29), สุนัข (22) ตัว
จำแนกการเรียนรู้ของเครื่อง: แมว (31), สุนัข (20)
ทั้งหมด: (51)
ความแม่นยำที่สังเกตได้: ((22 + 13) / 51) = 0.69
ความแม่นยำที่คาดหวัง: ((29 * 31/51) + (22 * 20/51)) / 51 = 0.51
Kappa: (0.69 - 0.51) / (1 - 0.51) = 0.37
ในสาระสำคัญสถิติคัปปาเป็นการวัดว่าอินสแตนซ์จำแนกตามตัวจำแนกประเภทการเรียนรู้ของเครื่องตรงกับข้อมูลที่ติดฉลากว่าเป็นความจริงพื้นดินได้อย่างไรการควบคุมความแม่นยำของตัวจําแนกแบบสุ่มที่วัดโดยความถูกต้องที่คาดหวัง สถิติแคปป้านี้ไม่เพียง แต่ให้แสงสว่างในการจำแนกลักษณนามของตัวเองเท่านั้น แต่สถิติคัปปาสำหรับแบบจำลองหนึ่งนั้นเปรียบได้โดยตรงกับสถิติคัปปาสำหรับแบบจำลองอื่น ๆ ที่ใช้สำหรับงานการจำแนกประเภทเดียวกัน
การตีความ
ไม่มีการตีความมาตรฐานของสถิติคัปปา ตามที่อ้างถึงใน Wikipedia (อ้างถึงเอกสารของพวกเขา) แลนดิสและคอคคิดว่า 0-0.20 เล็กน้อยเล็กน้อย 0.21-0.40 ยุติธรรม 0.41-0.60 ปานกลางปานกลาง 0.61-0.80 ที่สำคัญมากและ 0.81-1 เกือบจะสมบูรณ์แบบ Fleiss พิจารณา Kappas> 0.75 ยอดเยี่ยม 0.40-0.75 ยุติธรรมพอใช้ดีและต่ำกว่า 0.40 เป็นเรื่องสำคัญที่จะต้องทราบว่าเครื่องชั่งทั้งสองเครื่องนั้นมีข้อ จำกัด ข้อควรพิจารณาเพิ่มเติมอย่างน้อยสองข้อควรคำนึงถึงเมื่อตีความสถิติคัปปา อันดับแรกสถิติ kappa ควรถูกเปรียบเทียบกับเมทริกซ์ความสับสนที่มาพร้อมกันหากเป็นไปได้เพื่อให้ได้การตีความที่ถูกต้องที่สุด พิจารณาเมทริกซ์ความสับสนต่อไปนี้:
Cats Dogs
Cats| 60 | 125 |
Dogs| 5 | 5000|
สถิติคัปปาอยู่ที่ 0.47 สูงกว่าระดับที่พอเหมาะสำหรับ Landis และ Koch และดีพอใช้สำหรับ Fleiss อย่างไรก็ตามทราบอัตราการตีสำหรับการจำแนกแมว น้อยกว่าหนึ่งในสามของแมวทั้งหมดจัดเป็นแมวจริง ๆ; ส่วนที่เหลือทั้งหมดจัดเป็นสุนัข หากเราสนใจการจำแนกแมวอย่างถูกต้องมากขึ้น(พูดว่าเราแพ้แมวแต่ไม่ใช่กับสุนัขและสิ่งที่เราสนใจก็ไม่ได้แพ้ต่อการแพ้เมื่อเทียบกับการเพิ่มจำนวนสัตว์ที่เรารับ) ให้มากขึ้น คัปปา แต่อัตราการจำแนกแมวที่ดีกว่าอาจเหมาะกว่า
ประการที่สองค่าสถิติคัปปาที่ยอมรับได้แตกต่างกันไปตามบริบท ตัวอย่างเช่นในการศึกษาความน่าเชื่อถือระหว่างผู้ประเมินจำนวนมากที่มีพฤติกรรมที่สังเกตได้ง่ายค่าสถิติคัปปาต่ำกว่า 0.70 อาจถือว่าต่ำ อย่างไรก็ตามในการศึกษาโดยใช้การเรียนรู้ของเครื่องเพื่อสำรวจปรากฏการณ์ที่ไม่สามารถสังเกตได้เช่นรัฐทางปัญญาเช่นการฝันในวันนี้ค่าสถิติคัปปาที่สูงกว่า 0.40 อาจได้รับการพิจารณาเป็นพิเศษ
ดังนั้นเพื่อตอบคำถามของคุณเกี่ยวกับ 0.40 Kappa มันขึ้นอยู่กับ หากไม่มีสิ่งใดแสดงว่าลักษณนามได้รับอัตราการจำแนกประเภท 2/5 ของทางระหว่างความแม่นยำที่คาดหวังและความแม่นยำ 100% หากความถูกต้องที่คาดไว้คือ 80% นั่นหมายความว่าตัวแยกประเภทดำเนินการ 40% (เนื่องจากคัปปาคือ 0.4) ของ 20% (เพราะนี่คือระยะห่างระหว่าง 80% ถึง 100%) สูงกว่า 80% (เพราะนี่คือคัปปาของ 0 หรือ โอกาสสุ่ม) หรือ 88% ดังนั้นในกรณีนี้การเพิ่มขึ้นของคัปปาแต่ละครั้งที่ 0.10 หมายถึงความแม่นยำในการจำแนกประเภทเพิ่มขึ้น 2% หากความถูกต้องเป็น 50% แทนค่า kappa ที่ 0.4 หมายถึงตัวแยกประเภทที่ดำเนินการด้วยความแม่นยำที่ 40% (kappa ของ 0.4) 50% (ระยะห่างระหว่าง 50% และ 100%) มากกว่า 50% (เพราะนี่คือ คัปปาของ 0 หรือโอกาสสุ่ม) หรือ 70% อีกครั้งในกรณีนี้หมายความว่าแคปป้าเพิ่มขึ้นเป็น 0
ตัวแยกประเภทที่สร้างและประเมินผลในชุดข้อมูลของการแจกแจงระดับที่แตกต่างกันสามารถเปรียบเทียบได้อย่างน่าเชื่อถือมากขึ้นผ่านสถิติคัปปา (เมื่อเทียบกับการใช้ความแม่นยำเท่านั้น) เนื่องจากการปรับขนาดนี้สัมพันธ์กับความแม่นยำที่คาดหวัง มันให้ตัวบ่งชี้ที่ดีกว่าว่าตัวจําแนกดำเนินการในทุกอินสแตนซ์ได้อย่างไรเนื่องจากความถูกต้องง่าย ๆ สามารถเบ้ถ้าการกระจายคลาสนั้นเบ้คล้ายกัน ดังที่ได้กล่าวไว้ก่อนหน้านี้ความแม่นยำ 80% นั้นน่าประทับใจกว่ามากด้วยความแม่นยำที่คาดหวัง 50% เมื่อเทียบกับความแม่นยำที่คาดไว้ 75% ความแม่นยำที่คาดหวังตามรายละเอียดด้านบนนั้นมีความอ่อนไหวต่อการแจกแจงของคลาสที่บิดเบือนดังนั้นโดยการควบคุมความแม่นยำที่คาดหวังผ่านทางสถิติของคัปปาเราอนุญาตให้เปรียบเทียบแบบจำลองการกระจายคลาสที่แตกต่างกันได้ง่ายขึ้น
นั่นคือทั้งหมดที่ฉันมี หากใครสังเกตเห็นสิ่งที่เหลืออยู่สิ่งใดที่ไม่ถูกต้องหรือหากยังมีสิ่งใดที่ไม่ชัดเจนโปรดแจ้งให้เราทราบเพื่อที่ฉันจะได้สามารถปรับปรุงคำตอบได้
ฉันพบว่ามีประโยชน์:
รวมถึงคำอธิบายสั้น ๆ ของคัปปา:
http://standardwisdom.com/softwarejournal/2011/12/confusion-matrix-another-single-value-metric-kappa-statistic/
รวมถึงคำอธิบายของการคำนวณความแม่นยำที่คาดหวัง:
http://epiville.ccnmtl.columbia.edu/popup/how_to_calculate_kappa.html