สถิติKappa ( ) เป็นดัชนีคุณภาพที่เปรียบเทียบข้อตกลงที่สังเกตเห็นระหว่าง 2 raters ในระดับปกติหรืออันดับที่มีข้อตกลงที่คาดหวังโดยบังเอิญเพียงอย่างเดียว (ราวกับว่าผู้คนกำลังละทิ้ง) มีการต่อเติมสำหรับกรณีของผู้ประเมินหลายคน (2, pp. 284–291) ในกรณีของข้อมูลอันดับคุณสามารถใช้น้ำหนักซึ่งโดยทั่วไปจะอ่านได้ตามปกติมีองค์ประกอบนอกแนวทแยงมุมซึ่งนำไปสู่การวัดของข้อตกลง Fleiss (3) ให้แนวทางในการตีความค่าแต่สิ่งเหล่านี้เป็นเพียงกฎของหัวแม่มือκ κκκ
สถิติเป็น asymptotically เทียบเท่ากับ ICC ที่ประมาณจากสองทางผลกระทบสุ่ม ANOVA แต่ผลการทดสอบอย่างมีนัยสำคัญและ SE มาจากกรอบ ANOVA ปกติไม่ถูกต้องอีกต่อไปกับข้อมูลไบนารี เป็นการดีกว่าถ้าใช้ bootstrap เพื่อรับช่วงความมั่นใจ (CI) Fleiss (8) ได้กล่าวถึงการเชื่อมต่อระหว่าง Kappa ถ่วงน้ำหนักกับความสัมพันธ์ภายใน Intraclass (ICC)κ
ควรสังเกตว่านักจิตวิทยาบางคนไม่ชอบมากนักเพราะมันได้รับผลกระทบจากความชุกของวัตถุในการวัดเช่นเดียวกับค่าการทำนายได้รับผลกระทบจากความชุกของโรคภายใต้การพิจารณาและสิ่งนี้สามารถนำไปสู่ผลลัพธ์ที่ขัดแย้งκ
ความน่าเชื่อถือ Inter-rater สำหรับผู้ประเมินสามารถประมาณค่าสัมประสิทธิ์ของความสอดคล้องเคนดอลของWเมื่อจำนวนของรายการหรือหน่วยงานที่มีการจัดอันดับ ,1) (2, pp. 269–270) การประมาณเชิงเส้นกำกับนี้ใช้ได้สำหรับค่าปานกลางของและ (6) แต่มีน้อยกว่า 20 รายการหรือการทดสอบการเปลี่ยนรูปมีความเหมาะสมมากกว่า (7) มีความสัมพันธ์ที่ใกล้ชิดระหว่างสเปียร์แมนเป็นและเคนดอลสถิติ:สามารถคำนวณได้โดยตรงจากค่าเฉลี่ยของความสัมพันธ์คู่สเปียร์แมน (สังเกตแก้เท่านั้น)kWn > 7k ( n - 1 ) W.∼ χ2( n - 1 )nkFρWW
Polychoric (ข้อมูลลำดับ) ความสัมพันธ์อาจจะใช้เป็นตัวชี้วัดของข้อตกลงระหว่างผู้ประเมิน แน่นอนพวกเขาอนุญาตให้
- ประเมินว่าจะมีความสัมพันธ์กันอย่างไรหากมีการจัดอันดับอย่างต่อเนื่อง
- ทดสอบความเป็นเนื้อเดียวกันของส่วนต่างระหว่างผู้ประเมิน
ในความเป็นจริงมันสามารถแสดงให้เห็นว่ามันเป็นกรณีพิเศษของการสร้างแบบจำลองลักษณะแฝงซึ่งช่วยให้ผ่อนคลายสมมติฐานการกระจาย (4)
เกี่ยวกับการวัดอย่างต่อเนื่อง (หรือสันนิษฐานว่า) ICC ซึ่งคำนวณสัดส่วนของความแปรปรวนที่เกิดจากการแปรผันระหว่างเรื่องนั้นเป็นเรื่องปกติ ขอแนะนำให้ใช้ CIs สำหรับบูตอีกครั้ง ดังที่ @ars กล่าวว่าโดยทั่วไปมีสองรุ่นคือ - ข้อตกลงและความสอดคล้อง - ซึ่งมีผลบังคับใช้ในกรณีของการศึกษาข้อตกลง (5) และส่วนใหญ่จะแตกต่างกันในวิธีคำนวณผลรวมของกำลังสอง โดยทั่วไป ICC“ ความสอดคล้อง” นั้นประมาณกันโดยไม่พิจารณาการโต้ตอบของ Item × Rater กรอบการทำงานของ ANOVA นั้นมีประโยชน์กับการออกแบบบล็อกเฉพาะที่ต้องการลดจำนวนการจัดอันดับ ( BIBD ) - อันที่จริงนี่เป็นหนึ่งในแรงจูงใจดั้งเดิมของงานของ Fleiss นอกจากนี้ยังเป็นวิธีที่ดีที่สุดสำหรับผู้ประเมินหลายคน. นามสกุลธรรมชาติของวิธีการนี้เรียกว่าทฤษฎี generalizability สั้น ๆ ภาพรวมจะได้รับในRater รุ่น: บทนำมิฉะนั้นอ้างอิงมาตรฐานคือหนังสือเบรนแนนทานในPsychometrika 2006 71 (3)
สำหรับการอ้างอิงทั่วไปฉันแนะนำบทที่ 3 ของสถิติในด้านจิตเวชศาสตร์จาก Graham Dunn (Hodder Arnold, 2000) สำหรับการศึกษาความน่าเชื่อถือที่สมบูรณ์ยิ่งขึ้นการอ้างอิงที่ดีที่สุดคือ
Dunn, G (2004) การออกแบบและวิเคราะห์ความน่าเชื่อถือของการศึกษา อาร์โนล ดูความคิดเห็นในวารสารระบาดวิทยานานาชาติ
แนะนำออนไลน์ที่ดีมีอยู่ในเว็บไซต์จอห์น Uebersax ของintraclass ความสัมพันธ์และวิธีการที่เกี่ยวข้อง ; มันรวมถึงการอภิปรายของข้อดีและข้อเสียของวิธีการ ICC โดยเฉพาะอย่างยิ่งเกี่ยวกับเครื่องชั่งอันดับ
แพ็คเกจ R ที่เกี่ยวข้องสำหรับการประเมินแบบสองทาง (การวัดตามลำดับหรือการวัดแบบต่อเนื่อง) พบได้ในมุมมองภารกิจของPsychometrics ฉันมักจะใช้แพ็คเกจpsy , psychหรือirr นอกจากนี้ยังมีแพ็คเกจความสามัคคีแต่ฉันไม่เคยใช้มัน สำหรับการจัดการกับผู้ประเมินมากกว่าสองคนแพ็คเกจlme4เป็นวิธีที่จะช่วยให้สามารถรวมเอฟเฟกต์แบบสุ่มได้อย่างง่ายดาย แต่การออกแบบความน่าเชื่อถือส่วนใหญ่สามารถวิเคราะห์ได้โดยใช้aov()
เพราะเราเพียงต้องการประเมินองค์ประกอบความแปรปรวน
อ้างอิง
- เจโคเฮน Kappa แบบถ่วงน้ำหนัก: ข้อตกลงระดับเล็กน้อยพร้อมข้อกำหนดสำหรับเครื่องชั่งที่ไม่เห็นด้วยกับเครดิต แถลงการณ์ทางจิตวิทยา , 70 , 213–220, 1968
- S Siegel และ Jr N John Castellan สถิติที่ไม่ใช่พารามิเตอร์สำหรับวิทยาศาสตร์เชิงพฤติกรรม . McGraw-Hill, Second edition, 1988
- JL Fleiss วิธีการทางสถิติสำหรับราคาและสัดส่วน นิวยอร์ก: ไวลีย์, พิมพ์ครั้งที่สอง, 1981
- JS Uebersax tetrachoric และ polychoric ค่าสัมประสิทธิ์สหสัมพันธ์ วิธีการทางสถิติสำหรับเว็บไซต์ Rater ข้อตกลงปี 2006 มีจำหน่ายที่: http://john-uebersax.com/stat/tetra.htm เข้าถึง 24 กุมภาพันธ์ 2010
- PE Shrout และ JL Fleiss Intraclass correlation: ใช้ในการประเมินความน่าเชื่อถือของผู้ประเมินผล แถลงการณ์ทางจิตวิทยา , 86 , 420–428, 1979
- MG Kendall และ B Babington Smith ปัญหาการจัดอันดับม . พงศาวดารของสถิติคณิตศาสตร์ , 10 , 275–287, 1939
- P Legendre ค่าสัมประสิทธิ์ของความสอดคล้อง ในนิวเจอร์ซีย์ Salkind, แก้ไข, สารานุกรมของการออกแบบการวิจัย สิ่งพิมพ์ SAGE, 2010
- JL Fleiss สมดุลของแคปปาถ่วงน้ำหนักและค่าสัมประสิทธิ์สหสัมพันธ์ intraclass เป็นมาตรการของความน่าเชื่อถือ การวัดทางการศึกษาและจิตวิทยา , 33 , 613-619, 1973