คัปปาของโคเฮนในภาษาอังกฤษธรรมดา


131

ฉันกำลังอ่านหนังสือ data mining และมันบอกว่าสถิติ Kappa เป็นวิธีการประเมินประสิทธิภาพการทำนายของตัวจําแนก อย่างไรก็ตามฉันไม่เข้าใจสิ่งนี้ ฉันยังตรวจสอบวิกิพีเดีย แต่มันก็ไม่ได้ช่วยอะไรมากเกินไป: https://en.wikipedia.org/wiki/Cohen's_kappa

คัปปาของโคเฮนช่วยในการประเมินประสิทธิภาพการทำนายของตัวแยกประเภทอย่างไร มันบอกอะไร

ฉันเข้าใจว่า 100% คัปปาหมายความว่าลักษณนามอยู่ในข้อตกลงทั้งหมดกับลักษณนามแบบสุ่ม แต่ฉันไม่เข้าใจว่าสิ่งนี้ช่วยในการประเมินประสิทธิภาพของลักษณนามอย่างไร

40% คัปปาหมายถึงอะไร? หมายความว่า 40% ของเวลาตัวจําแนกเป็นการตกลงกับตัวจําแนกแบบสุ่มหรือไม่ ถ้าเป็นเช่นนั้นสิ่งที่บอกฉันหรือช่วยฉันในการประเมินลักษณนาม

คำตอบ:


226

บทนำ

สถิติ Kappa (หรือค่า) เป็นตัวชี้วัดที่เปรียบเทียบความแม่นยำที่สังเกตได้กับความแม่นยำที่คาดหวัง (โอกาสสุ่ม) สถิติของคัปปานั้นไม่เพียง แต่ใช้ในการประเมินลักษณนามเดี่ยวเท่านั้น นอกจากนี้ยังคำนึงถึงโอกาสสุ่ม (ข้อตกลงกับลักษณนามสุ่ม) ซึ่งโดยทั่วไปหมายความว่ามันเป็นความเข้าใจผิดน้อยกว่าเพียงแค่ใช้ความถูกต้องเป็นตัวชี้วัด (เป็นความถูกต้องสังเกตจาก 80% เป็นจำนวนมากน้อยที่น่าประทับใจกับความถูกต้องคาดว่าจะอยู่ที่ 75% เมื่อเทียบกับความแม่นยำที่คาดไว้ 50%) การคำนวณความแม่นยำที่สังเกตได้และความแม่นยำที่คาดหวังเป็นส่วนประกอบสำคัญของความเข้าใจในสถิติคัปปาและสามารถแสดงได้อย่างง่ายดายผ่านการใช้เมทริกซ์ความสับสน ให้เริ่มด้วยเมทริกซ์ความสับสนอย่างง่ายจากการจำแนกไบนารีแบบง่ายของCats and Dogs :

การคำนวณ

     Cats Dogs
Cats| 10 | 7  |
Dogs| 5  | 8  |

สมมติว่าแบบจำลองนั้นสร้างขึ้นโดยใช้การเรียนรู้ของเครื่องภายใต้การดูแลของข้อมูลที่ติดฉลาก สิ่งนี้ไม่จำเป็นเสมอไป สถิติของคัปปานั้นมักใช้เป็นเครื่องวัดความน่าเชื่อถือระหว่างผู้ประเมินสองคน คอลัมน์จะตรงกับ "ผู้ประเมิน" หนึ่งคนในขณะที่แถวนั้นตรงกับ "ผู้ประเมิน" อีกคน ในการเรียนรู้ภายใต้การดูแลเครื่องหนึ่ง "เจ๋ง" สะท้อนให้เห็นถึงความจริงพื้นดิน (ค่าที่แท้จริงของแต่ละกรณีจะจัด) ที่ได้รับจากข้อมูลที่มีข้อความและอื่น ๆ "เจ๋ง" เป็นลักษณนามเรียนรู้ของเครื่องใช้ในการดำเนินการจัดหมวดหมู่ ท้ายที่สุดมันไม่สำคัญว่าจะต้องคำนวณสถิติคัปปา แต่เพื่อความชัดเจน ' การจำแนกประเภท

จากเมทริกซ์ความสับสนเราจะเห็นว่ามีทั้งหมด30อินสแตนซ์ (10 + 7 + 5 + 8 = 30) ตามคอลัมน์แรก15ถูกระบุว่าเป็นแมว (10 + 5 = 15) และตามคอลัมน์ที่สอง15ถูกระบุว่าเป็นสุนัข (7 + 8 = 15) เราจะเห็นได้ว่าแบบจำลองนี้จำแนก17อินสแตนซ์เป็นCats (10 + 7 = 17) และ13อินสแตนซ์เป็นDogs (5 + 8 = 13)

ความถูกต้องสังเกตเป็นเพียงอินสแตนซ์ที่ถูกจัดอย่างถูกต้องตลอดเมทริกซ์ความสับสนทั้งหมดเช่นจำนวนของกรณีที่ถูกระบุว่าเป็นแมวผ่านความจริงพื้นดินและจากนั้นจัดว่าเป็นแมวโดยจําแนกการเรียนรู้เครื่องหรือระบุว่าเป็นสุนัขผ่านความจริงพื้นดินและ แล้วจัดเป็นสุนัขโดยลักษณนามเรียนรู้ของเครื่อง ในการคำนวณความแม่นยำที่สังเกตได้เราเพียงเพิ่มจำนวนอินสแตนซ์ที่ลักษณนามการเรียนรู้ของเครื่องเห็นด้วยกับความจริงพื้นฐานป้ายกำกับและหารด้วยจำนวนอินสแตนซ์ทั้งหมด สำหรับเมทริกซ์ความสับสนนี่จะเป็น0.6 ((10 + 8) / 30 = 0.6)

ก่อนที่เราจะได้รับการสมการสำหรับสถิติ Kappa หนึ่งมูลค่ามากขึ้นเป็นสิ่งจำเป็นคือความถูกต้องคาดหวัง ค่านี้ถูกกำหนดให้เป็นความแม่นยำที่ตัวแยกประเภทแบบสุ่มใด ๆ ที่คาดว่าจะบรรลุตามเมทริกซ์ความสับสน ความแม่นยำที่คาดว่าจะเกี่ยวข้องโดยตรงกับจำนวนของกรณีของแต่ละชั้นเรียน (คนแมวและสุนัข ) พร้อมกับจำนวนของกรณีที่ว่าลักษณนามการเรียนรู้เครื่องเห็นด้วยกับความจริงพื้นฉลาก ในการคำนวณความแม่นยำที่คาดหวังสำหรับเมทริกซ์ความสับสนของเราอันดับแรกให้คูณความถี่ส่วนเพิ่มของCatsสำหรับ "ผู้ประเมิน" หนึ่งรายด้วยความถี่ส่วนเพิ่มของCatsสำหรับ "rater" ตัวที่สองและหารด้วยจำนวนอินสแตนซ์ทั้งหมด ความถี่ร่อแร่สำหรับการเรียนบางอย่างโดยบาง "ประเมิน" เป็นเพียงผลรวมของทุกกรณี "เจ๋ง" ระบุเป็นระดับที่ ในกรณีของเรา15 (10 + 5 = 15) กรณีถูกระบุว่าเป็นแมวตามความจริงพื้นดินและ17 (10 + 7 = 17) กรณีที่ถูกจัดให้เป็นแมวโดยลักษณนามเรียนรู้ของเครื่อง ผลลัพธ์นี้มีค่า8.5 (15 * 17/30 = 8.5) สิ่งนี้จะถูกทำสำหรับคลาสที่สองด้วย (และสามารถทำซ้ำสำหรับคลาสเพิ่มเติมแต่ละคลาสหากมีมากกว่า 2) 15(7 + 8 = 15) กรณีถูกระบุว่าเป็นสุนัขตามความจริงพื้นดินและ13 (8 + 5 = 13) กรณีที่ถูกจัดให้เป็นสุนัขโดยลักษณนามเรียนรู้ของเครื่อง ส่งผลให้ค่า6.5 (15 * 13/30 = 6.5) ขั้นตอนสุดท้ายคือการเพิ่มค่าเหล่านี้ร่วมกันและในที่สุดก็แบ่งอีกครั้งโดยจำนวนรวมของกรณีทำให้เกิดความแม่นยำในการคาดหวังของ0.5 ((8.5 + 6.5) / 30 = 0.5) ในตัวอย่างของเราความแม่นยำที่คาดหวังกลายเป็น 50% เช่นเดียวกับกรณีที่ "ผู้ประเมิน" จัดประเภทแต่ละคลาสด้วยความถี่เดียวกันในการจำแนกประเภทไบนารี ( แมวทั้งคู่)และDogsมีทั้งหมด15ครั้งตามฉลากความจริงภาคพื้นในเมทริกซ์ความสับสนของเรา)

สถิติ kappa นั้นสามารถคำนวณได้โดยใช้ทั้งค่าความแม่นยำที่สังเกตได้ ( 0.60 ) และค่าความแม่นยำที่คาดหวัง ( 0.50 ) และสูตร:

Kappa = (observed accuracy - expected accuracy)/(1 - expected accuracy)

ดังนั้นในกรณีของเราค่าสถิติคัปปาเท่ากับ: (0.60 - 0.50) / (1 - 0.50) = 0.20

เป็นอีกตัวอย่างหนึ่งนี่คือเมทริกซ์ความสับสนที่น้อยกว่าและการคำนวณที่เกี่ยวข้อง:

     Cats Dogs
Cats| 22 | 9  |
Dogs| 7  | 13 |

ความจริงภาคพื้นดิน: แมว (29), สุนัข (22) ตัว
จำแนกการเรียนรู้ของเครื่อง: แมว (31), สุนัข (20)
ทั้งหมด: (51)
ความแม่นยำที่สังเกตได้: ((22 + 13) / 51) = 0.69
ความแม่นยำที่คาดหวัง: ((29 * 31/51) + (22 * 20/51)) / 51 = 0.51
Kappa: (0.69 - 0.51) / (1 - 0.51) = 0.37

ในสาระสำคัญสถิติคัปปาเป็นการวัดว่าอินสแตนซ์จำแนกตามตัวจำแนกประเภทการเรียนรู้ของเครื่องตรงกับข้อมูลที่ติดฉลากว่าเป็นความจริงพื้นดินได้อย่างไรการควบคุมความแม่นยำของตัวจําแนกแบบสุ่มที่วัดโดยความถูกต้องที่คาดหวัง สถิติแคปป้านี้ไม่เพียง แต่ให้แสงสว่างในการจำแนกลักษณนามของตัวเองเท่านั้น แต่สถิติคัปปาสำหรับแบบจำลองหนึ่งนั้นเปรียบได้โดยตรงกับสถิติคัปปาสำหรับแบบจำลองอื่น ๆ ที่ใช้สำหรับงานการจำแนกประเภทเดียวกัน

การตีความ

ไม่มีการตีความมาตรฐานของสถิติคัปปา ตามที่อ้างถึงใน Wikipedia (อ้างถึงเอกสารของพวกเขา) แลนดิสและคอคคิดว่า 0-0.20 เล็กน้อยเล็กน้อย 0.21-0.40 ยุติธรรม 0.41-0.60 ปานกลางปานกลาง 0.61-0.80 ที่สำคัญมากและ 0.81-1 เกือบจะสมบูรณ์แบบ Fleiss พิจารณา Kappas> 0.75 ยอดเยี่ยม 0.40-0.75 ยุติธรรมพอใช้ดีและต่ำกว่า 0.40 เป็นเรื่องสำคัญที่จะต้องทราบว่าเครื่องชั่งทั้งสองเครื่องนั้นมีข้อ จำกัด ข้อควรพิจารณาเพิ่มเติมอย่างน้อยสองข้อควรคำนึงถึงเมื่อตีความสถิติคัปปา อันดับแรกสถิติ kappa ควรถูกเปรียบเทียบกับเมทริกซ์ความสับสนที่มาพร้อมกันหากเป็นไปได้เพื่อให้ได้การตีความที่ถูกต้องที่สุด พิจารณาเมทริกซ์ความสับสนต่อไปนี้:

     Cats Dogs
Cats| 60 | 125 |
Dogs| 5  | 5000|

สถิติคัปปาอยู่ที่ 0.47 สูงกว่าระดับที่พอเหมาะสำหรับ Landis และ Koch และดีพอใช้สำหรับ Fleiss อย่างไรก็ตามทราบอัตราการตีสำหรับการจำแนกแมว น้อยกว่าหนึ่งในสามของแมวทั้งหมดจัดเป็นแมวจริง ๆ; ส่วนที่เหลือทั้งหมดจัดเป็นสุนัข หากเราสนใจการจำแนกแมวอย่างถูกต้องมากขึ้น(พูดว่าเราแพ้แมวแต่ไม่ใช่กับสุนัขและสิ่งที่เราสนใจก็ไม่ได้แพ้ต่อการแพ้เมื่อเทียบกับการเพิ่มจำนวนสัตว์ที่เรารับ) ให้มากขึ้น คัปปา แต่อัตราการจำแนกแมวที่ดีกว่าอาจเหมาะกว่า

ประการที่สองค่าสถิติคัปปาที่ยอมรับได้แตกต่างกันไปตามบริบท ตัวอย่างเช่นในการศึกษาความน่าเชื่อถือระหว่างผู้ประเมินจำนวนมากที่มีพฤติกรรมที่สังเกตได้ง่ายค่าสถิติคัปปาต่ำกว่า 0.70 อาจถือว่าต่ำ อย่างไรก็ตามในการศึกษาโดยใช้การเรียนรู้ของเครื่องเพื่อสำรวจปรากฏการณ์ที่ไม่สามารถสังเกตได้เช่นรัฐทางปัญญาเช่นการฝันในวันนี้ค่าสถิติคัปปาที่สูงกว่า 0.40 อาจได้รับการพิจารณาเป็นพิเศษ

ดังนั้นเพื่อตอบคำถามของคุณเกี่ยวกับ 0.40 Kappa มันขึ้นอยู่กับ หากไม่มีสิ่งใดแสดงว่าลักษณนามได้รับอัตราการจำแนกประเภท 2/5 ของทางระหว่างความแม่นยำที่คาดหวังและความแม่นยำ 100% หากความถูกต้องที่คาดไว้คือ 80% นั่นหมายความว่าตัวแยกประเภทดำเนินการ 40% (เนื่องจากคัปปาคือ 0.4) ของ 20% (เพราะนี่คือระยะห่างระหว่าง 80% ถึง 100%) สูงกว่า 80% (เพราะนี่คือคัปปาของ 0 หรือ โอกาสสุ่ม) หรือ 88% ดังนั้นในกรณีนี้การเพิ่มขึ้นของคัปปาแต่ละครั้งที่ 0.10 หมายถึงความแม่นยำในการจำแนกประเภทเพิ่มขึ้น 2% หากความถูกต้องเป็น 50% แทนค่า kappa ที่ 0.4 หมายถึงตัวแยกประเภทที่ดำเนินการด้วยความแม่นยำที่ 40% (kappa ของ 0.4) 50% (ระยะห่างระหว่าง 50% และ 100%) มากกว่า 50% (เพราะนี่คือ คัปปาของ 0 หรือโอกาสสุ่ม) หรือ 70% อีกครั้งในกรณีนี้หมายความว่าแคปป้าเพิ่มขึ้นเป็น 0

ตัวแยกประเภทที่สร้างและประเมินผลในชุดข้อมูลของการแจกแจงระดับที่แตกต่างกันสามารถเปรียบเทียบได้อย่างน่าเชื่อถือมากขึ้นผ่านสถิติคัปปา (เมื่อเทียบกับการใช้ความแม่นยำเท่านั้น) เนื่องจากการปรับขนาดนี้สัมพันธ์กับความแม่นยำที่คาดหวัง มันให้ตัวบ่งชี้ที่ดีกว่าว่าตัวจําแนกดำเนินการในทุกอินสแตนซ์ได้อย่างไรเนื่องจากความถูกต้องง่าย ๆ สามารถเบ้ถ้าการกระจายคลาสนั้นเบ้คล้ายกัน ดังที่ได้กล่าวไว้ก่อนหน้านี้ความแม่นยำ 80% นั้นน่าประทับใจกว่ามากด้วยความแม่นยำที่คาดหวัง 50% เมื่อเทียบกับความแม่นยำที่คาดไว้ 75% ความแม่นยำที่คาดหวังตามรายละเอียดด้านบนนั้นมีความอ่อนไหวต่อการแจกแจงของคลาสที่บิดเบือนดังนั้นโดยการควบคุมความแม่นยำที่คาดหวังผ่านทางสถิติของคัปปาเราอนุญาตให้เปรียบเทียบแบบจำลองการกระจายคลาสที่แตกต่างกันได้ง่ายขึ้น

นั่นคือทั้งหมดที่ฉันมี หากใครสังเกตเห็นสิ่งที่เหลืออยู่สิ่งใดที่ไม่ถูกต้องหรือหากยังมีสิ่งใดที่ไม่ชัดเจนโปรดแจ้งให้เราทราบเพื่อที่ฉันจะได้สามารถปรับปรุงคำตอบได้

ฉันพบว่ามีประโยชน์:

รวมถึงคำอธิบายสั้น ๆ ของคัปปา: http://standardwisdom.com/softwarejournal/2011/12/confusion-matrix-another-single-value-metric-kappa-statistic/

รวมถึงคำอธิบายของการคำนวณความแม่นยำที่คาดหวัง: http://epiville.ccnmtl.columbia.edu/popup/how_to_calculate_kappa.html


1
การเพิ่มพื้นหลังบางส่วนว่าทำไมความถี่ที่คาดหวังของเซลล์เท่ากับ rowum * colsum / N เนื่องจากเป็นรุ่นที่ลดลงและไม่ชัดเจนในการเริ่มต้นว่าทำไมสมการจึงถือ ใช้ในการทดสอบ Chi-Square ด้วยเช่นกัน: en.wikipedia.org/wiki/…
Zhubarb

2
นี่เป็นคำตอบที่ดี แต่ฉันสงสัยว่าถ้าคุณสามารถส่องแสงอีกต่อไป (หรือลิงก์!) ว่าชั้นเรียนที่โดดเด่นมากอาจส่งผลกระทบต่อการตีความของคัปปา ยกตัวอย่างเช่นฉันมีเมทริกซ์ที่เชื่อถือได้ของคลาสปกที่ดิน 7 ชั้นและหนึ่งในนั้นมีความโดดเด่น (~ 70% ของข้อมูลทั้งหมด) ฉันคิดว่านี่เป็น 'ข้อผิดพลาดโดยรวม' ใช่หรือไม่
Sam

2
เพียงความคิดเห็นแบบสุ่ม: คำอธิบายของคุณชัดเจนกว่าหน้า Wikipedia :)
R.Falque

1
สำหรับความถูกต้องที่คาดไว้โปรดทราบว่าอาจคิดได้ง่ายกว่าดังนี้: (15/30) คือสัดส่วนที่คาดหวังจากเวลาที่ "ความจริงภาคพื้นดิน" จำแนกประเภทของแมวและ (15/30) เป็นสัดส่วนที่คาดหวังของเวลา "ความจริงพื้นฐาน" จำแนกสุนัขบางอย่าง ในทำนองเดียวกันสำหรับตัวจําแนก ML (17/30) แมวสัดส่วนที่คาดหวัง (13/30) สุนัขสัดส่วนที่คาดหวัง สมมติลักษณนามที่ไม่เกี่ยวข้องจากนั้นเรามีเปอร์เซ็นต์ของตัวแยกประเภทเวลาที่เห็นด้วยโดยบังเอิญเป็น (15/30) * (17/30) + (15/30) * (13/30) = .5 (พวกเขาเห็นด้วยและจำแนกเป็นสุนัขหรือ เหมือนแมว) ดังนั้น .5 ของข้อตกลงเวลาโดยบังเอิญ
ClownInTheMoon

1
การเปรียบเทียบคำอธิบายประกอบเป็นความตั้งใจดั้งเดิมแน่นอน อย่างไรก็ตามประวัติศาสตร์ทางวิทยาศาสตร์ถูกทิ้งให้เกลื่อนไปด้วยกรณีที่บางสูตรหรืออื่น ๆ ได้กระโดดออกจากสระว่ายน้ำวางไข่ไปยังอีกและทำให้โลกเป็นสถานที่ที่ดีกว่า ดังที่กล่าวไว้อาจมีการใช้เมตริกที่ดีกว่าขึ้นกับกรณีของคุณ คุณควรเข้าใจจุดแข็งและจุดอ่อนของตัวชี้วัดผู้สมัครก่อนตัดสินใจขั้นสุดท้าย AUPRC อาจเป็นวิธีที่ดีกว่าสำหรับบางกรณีเช่น
rbx

14

rbx มีคำตอบที่ดี อย่างไรก็ตามมันเป็น verbose เล็กน้อย นี่คือบทสรุปและสัญชาตญาณของฉันที่อยู่เบื้องหลังตัวชี้วัด Kappa


คัปปาเป็นวัดที่สำคัญต่อประสิทธิภาพการทำงานลักษณนาม, โดยเฉพาะอย่างยิ่งในชุดข้อมูลที่ไม่สมดุล

ตัวอย่างเช่นในการตรวจจับการฉ้อโกงบัตรเครดิตการกระจายส่วนต่างของตัวแปรการตอบสนองจะเบ้สูงซึ่งการใช้ความแม่นยำเป็นมาตรการจะไม่เป็นประโยชน์ ในคำอื่น ๆ สำหรับตัวอย่างการตรวจจับการฉ้อโกงที่กำหนด 99.9% ของการทำธุรกรรมจะเป็นการทำธุรกรรมที่ไม่ฉ้อโกง เราสามารถมีลักษณนามลวงที่มักจะบอกว่าไม่ฉ้อโกงในการทำธุรกรรมทุกครั้งและเราจะยังคงมีความแม่นยำ 99.9%

บนมืออื่น ๆ , แคปป้าจะ "แก้ไข" ปัญหานี้โดยการพิจารณาการกระจายร่อแร่ของตัวแปรการตอบสนอง เมื่อใช้ Kappa ลักษณนามลางสังหรณ์ดังกล่าวจะมีคัปปาขนาดเล็กมาก

ในภาษาอังกฤษแบบธรรมดามันวัดว่า classier ดีกว่ามากเมื่อเทียบกับการคาดเดากับการกระจายเป้าหมาย


1
ฉันรู้สึกว่าย่อหน้าสุดท้ายควรอ่าน "ในภาษาอังกฤษแบบธรรมดามันจะวัดว่าตัวจําแนกภาษานั้นดีกว่ามากเมื่อเทียบกับการคาดเดากับการกระจายตัวของเป้าหมาย"
Silverfish

8

มูลค่าของคัปปาของโคเฮนที่แข็งแกร่งขึ้นอยู่กับปัจจัยหลายประการรวมถึงจำนวนหมวดหมู่หรือรหัสที่ใช้มีผลต่อคัปปา1และความน่าจะเป็นที่แต่ละรหัสจะมีประชากร

"ยกตัวอย่างเช่นให้รหัสและผู้สังเกตการณ์ที่มีความแม่นยำ 85%:

value of kappa   number of codes
0.49             2
0.60             3 
0.66             5 
0.69             10"

ทีนี้จะเป็นอย่างไรถ้าเราไม่มีรหัส equiprobable แต่มี "อัตราพื้นฐาน" ที่แตกต่างกัน?

สำหรับสองรหัสแปลงแคปปาจากBruckner และคณะ จะมีลักษณะป้อนคำอธิบายรูปภาพที่นี่

... อย่างไรก็ตาม(... อ้างถึง Wikipedia อย่างต่อเนื่อง)แนวทางขนาดได้ปรากฏในวรรณคดี บางทีข้อแรกคือแลนดิสและโคช์สซึ่งเป็นคนกำหนดค่านิยม

 <0 as indicating no agreement
 0.00–0.20 as slight, 
 0.21–0.40 as fair, 
 0.41–0.60 as moderate, 
 0.61–0.80 as substantial, and 
 0.81–1 as almost perfect agreement. 

แนวทางชุดนี้ไม่ได้รับการยอมรับในระดับสากล แลนดิสและคอคไม่ได้ให้หลักฐานใด ๆ มาสนับสนุนโดยยึดความเห็นส่วนตัวแทน มันได้รับการตั้งข้อสังเกตว่าแนวทางเหล่านี้อาจเป็นอันตรายมากกว่าที่เป็นประโยชน์ แนวทางโดยพลการของ Fleiss นั้นมีลักษณะของคัปปา

>0.75 as excellent, 
 0.40 to 0.75 as fair to good, and 
<0.40 as poor."

(จบคำพูด Wikipedia)

สำหรับการอัปเกรด (โปรแกรมหายาก) ของโปรแกรม FalliObs Windows เพื่อบัญชีตามจำนวนรหัสที่เสนอโดย Bakeman et al ทำตามการเชื่อมโยงไป ComKappa3 คำอธิบายโปรแกรมเกี่ยวข้องกับข้อผิดพลาดมาตรฐานของคัปปาสามารถประเมินได้ซึ่งอนุญาตให้ทดสอบคัปปาที่ได้รับนั้นมีความสำคัญต่อการแจกแจงแบบโมฆะ (Bakeman & Gottman, 1997; Fleiss, Cohen, & Everitt, 1969) เพื่ออ่านเพิ่มเติมมาตรการคัปปาอื่น ๆ ดูการวิเคราะห์พฤติกรรมลำธาร12

ดูเพิ่มเติมที่การใช้สถิติคัปปาของโคเฮนสำหรับการประเมินตัวจําแนกไบนารีสำหรับคำถามที่คล้ายกัน

1 Bakeman, R .; Quera, V.; McArthur, D. ; Robinson, BF (1997) "การตรวจจับรูปแบบตามลำดับและกำหนดความน่าเชื่อถือกับผู้สังเกตการณ์ที่ตกหล่น" วิธีการทางจิตวิทยา 2: 357–370 ดอย: 10.1037 / 1082-989X.2.4.357

2 Robinson BF, Bakeman R. ComKappa: โปรแกรม 95 ของ Windows สำหรับการคำนวณ kappa และสถิติที่เกี่ยวข้อง วิธีการวิจัยพฤติกรรม 1998; 30: 731-2


1

เพื่อตอบคำถามของคุณ (เป็นภาษาอังกฤษธรรมดา :-)):

คัปปาช่วยในการประเมินประสิทธิภาพการทำนายของตัวแยกประเภทอย่างไร มันบอกอะไร? !!

คุณควรพิจารณาคัปปาเป็นตัวชี้วัดความตกลงระหว่างบุคคล 2 คนซึ่งผลลัพธ์สามารถตีความได้ว่า:

Poor agreement = 0.20 or less
Fair agreement = 0.20 to 0.40
Moderate agreement = 0.40 to 0.60
Good agreement = 0.60 to 0.80
Very good agreement = 0.80 to 1.00

6
อย่าใช้สเกลนี้สุ่มสี่สุ่มห้าอ่านคำตอบจาก rbx: "ไม่มีการตีความมาตรฐานของสถิติคัปปา ... แลนดิสและคอคคิดว่า 0-0.20 เล็กน้อย 0.21-0.40 ปานกลาง 0.41-0.60 ปานกลาง , 0.61-0.80 ที่สำคัญและ 0.81-1 เกือบจะสมบูรณ์แบบ Fleiss พิจารณา Kappas> 0.75 ที่ยอดเยี่ยม, 0.40-0.75 พอใช้ถึงดีและ <0.40 ต่ำกว่ามันเป็นเรื่องสำคัญที่จะต้องทราบว่าเครื่องชั่งทั้งสองนั้นค่อนข้างไม่มีกฎเกณฑ์ ข้อควรพิจารณาเพิ่มเติมอย่างน้อยสองข้อควรคำนึงถึงเมื่อตีความสถิติคัปปา " ข้อควรพิจารณาเหล่านี้มีคำอธิบายในคำตอบของ
rbx
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.