ความน่าเชื่อถือระหว่างผู้ประเมินสำหรับข้อมูลอันดับหรือช่วงเวลา

วิธีการความน่าเชื่อถือระหว่างผู้ใดที่เหมาะสมที่สุดสำหรับข้อมูลลำดับหรือช่วงเวลา?

ฉันเชื่อว่า "ความน่าจะเป็นร่วมกันของข้อตกลง" หรือ "คัปปา" ได้รับการออกแบบมาสำหรับข้อมูลเล็กน้อย ในขณะที่สามารถใช้ "Pearson" และ "Spearman" ได้ส่วนใหญ่จะใช้สำหรับผู้ประเมินสองคน (แม้ว่าพวกเขาจะสามารถใช้งานได้มากกว่าสองผู้ประเมิน)

มาตรการอื่นใดที่เหมาะสมสำหรับข้อมูลลำดับหรือช่วงเวลาเช่นมากกว่าสองผู้ประเมิน

— Shadi
แหล่งที่มา

สถิติKappa ( ) เป็นดัชนีคุณภาพที่เปรียบเทียบข้อตกลงที่สังเกตเห็นระหว่าง 2 raters ในระดับปกติหรืออันดับที่มีข้อตกลงที่คาดหวังโดยบังเอิญเพียงอย่างเดียว (ราวกับว่าผู้คนกำลังละทิ้ง) มีการต่อเติมสำหรับกรณีของผู้ประเมินหลายคน (2, pp. 284–291) ในกรณีของข้อมูลอันดับคุณสามารถใช้น้ำหนักซึ่งโดยทั่วไปจะอ่านได้ตามปกติมีองค์ประกอบนอกแนวทแยงมุมซึ่งนำไปสู่การวัดของข้อตกลง Fleiss (3) ให้แนวทางในการตีความค่าแต่สิ่งเหล่านี้เป็นเพียงกฎของหัวแม่มือ $\kappa$ $\kappa$ $\kappa$ $\kappa$

สถิติเป็น asymptotically เทียบเท่ากับ ICC ที่ประมาณจากสองทางผลกระทบสุ่ม ANOVA แต่ผลการทดสอบอย่างมีนัยสำคัญและ SE มาจากกรอบ ANOVA ปกติไม่ถูกต้องอีกต่อไปกับข้อมูลไบนารี เป็นการดีกว่าถ้าใช้ bootstrap เพื่อรับช่วงความมั่นใจ (CI) Fleiss (8) ได้กล่าวถึงการเชื่อมต่อระหว่าง Kappa ถ่วงน้ำหนักกับความสัมพันธ์ภายใน Intraclass (ICC) $\kappa$

ควรสังเกตว่านักจิตวิทยาบางคนไม่ชอบมากนักเพราะมันได้รับผลกระทบจากความชุกของวัตถุในการวัดเช่นเดียวกับค่าการทำนายได้รับผลกระทบจากความชุกของโรคภายใต้การพิจารณาและสิ่งนี้สามารถนำไปสู่ผลลัพธ์ที่ขัดแย้ง $\kappa$

ความน่าเชื่อถือ Inter-rater สำหรับผู้ประเมินสามารถประมาณค่าสัมประสิทธิ์ของความสอดคล้องเคนดอลของWเมื่อจำนวนของรายการหรือหน่วยงานที่มีการจัดอันดับ ,1) (2, pp. 269–270) การประมาณเชิงเส้นกำกับนี้ใช้ได้สำหรับค่าปานกลางของและ (6) แต่มีน้อยกว่า 20 รายการหรือการทดสอบการเปลี่ยนรูปมีความเหมาะสมมากกว่า (7) มีความสัมพันธ์ที่ใกล้ชิดระหว่างสเปียร์แมนเป็นและเคนดอลสถิติ:สามารถคำนวณได้โดยตรงจากค่าเฉลี่ยของความสัมพันธ์คู่สเปียร์แมน (สังเกตแก้เท่านั้น) $k$ $W$ $n > 7$ $k(n − 1)W \sim \chi^2(n − 1)$ $n$ $k$ $F$ $\rho$ $W$ $W$

Polychoric (ข้อมูลลำดับ) ความสัมพันธ์อาจจะใช้เป็นตัวชี้วัดของข้อตกลงระหว่างผู้ประเมิน แน่นอนพวกเขาอนุญาตให้

ประเมินว่าจะมีความสัมพันธ์กันอย่างไรหากมีการจัดอันดับอย่างต่อเนื่อง
ทดสอบความเป็นเนื้อเดียวกันของส่วนต่างระหว่างผู้ประเมิน

ในความเป็นจริงมันสามารถแสดงให้เห็นว่ามันเป็นกรณีพิเศษของการสร้างแบบจำลองลักษณะแฝงซึ่งช่วยให้ผ่อนคลายสมมติฐานการกระจาย (4)

เกี่ยวกับการวัดอย่างต่อเนื่อง (หรือสันนิษฐานว่า) ICC ซึ่งคำนวณสัดส่วนของความแปรปรวนที่เกิดจากการแปรผันระหว่างเรื่องนั้นเป็นเรื่องปกติ ขอแนะนำให้ใช้ CIs สำหรับบูตอีกครั้ง ดังที่ @ars กล่าวว่าโดยทั่วไปมีสองรุ่นคือ - ข้อตกลงและความสอดคล้อง - ซึ่งมีผลบังคับใช้ในกรณีของการศึกษาข้อตกลง (5) และส่วนใหญ่จะแตกต่างกันในวิธีคำนวณผลรวมของกำลังสอง โดยทั่วไป ICC“ ความสอดคล้อง” นั้นประมาณกันโดยไม่พิจารณาการโต้ตอบของ Item × Rater กรอบการทำงานของ ANOVA นั้นมีประโยชน์กับการออกแบบบล็อกเฉพาะที่ต้องการลดจำนวนการจัดอันดับ ( BIBD ) - อันที่จริงนี่เป็นหนึ่งในแรงจูงใจดั้งเดิมของงานของ Fleiss นอกจากนี้ยังเป็นวิธีที่ดีที่สุดสำหรับผู้ประเมินหลายคน. นามสกุลธรรมชาติของวิธีการนี้เรียกว่าทฤษฎี generalizability สั้น ๆ ภาพรวมจะได้รับในRater รุ่น: บทนำมิฉะนั้นอ้างอิงมาตรฐานคือหนังสือเบรนแนนทานในPsychometrika 2006 71 (3)

สำหรับการอ้างอิงทั่วไปฉันแนะนำบทที่ 3 ของสถิติในด้านจิตเวชศาสตร์จาก Graham Dunn (Hodder Arnold, 2000) สำหรับการศึกษาความน่าเชื่อถือที่สมบูรณ์ยิ่งขึ้นการอ้างอิงที่ดีที่สุดคือ

Dunn, G (2004) การออกแบบและวิเคราะห์ความน่าเชื่อถือของการศึกษา อาร์โนล ดูความคิดเห็นในวารสารระบาดวิทยานานาชาติ

แนะนำออนไลน์ที่ดีมีอยู่ในเว็บไซต์จอห์น Uebersax ของintraclass ความสัมพันธ์และวิธีการที่เกี่ยวข้อง ; มันรวมถึงการอภิปรายของข้อดีและข้อเสียของวิธีการ ICC โดยเฉพาะอย่างยิ่งเกี่ยวกับเครื่องชั่งอันดับ

แพ็คเกจ R ที่เกี่ยวข้องสำหรับการประเมินแบบสองทาง (การวัดตามลำดับหรือการวัดแบบต่อเนื่อง) พบได้ในมุมมองภารกิจของPsychometrics ฉันมักจะใช้แพ็คเกจpsy , psychหรือirr นอกจากนี้ยังมีแพ็คเกจความสามัคคีแต่ฉันไม่เคยใช้มัน สำหรับการจัดการกับผู้ประเมินมากกว่าสองคนแพ็คเกจlme4เป็นวิธีที่จะช่วยให้สามารถรวมเอฟเฟกต์แบบสุ่มได้อย่างง่ายดาย แต่การออกแบบความน่าเชื่อถือส่วนใหญ่สามารถวิเคราะห์ได้โดยใช้aov()เพราะเราเพียงต้องการประเมินองค์ประกอบความแปรปรวน

อ้างอิง

เจโคเฮน Kappa แบบถ่วงน้ำหนัก: ข้อตกลงระดับเล็กน้อยพร้อมข้อกำหนดสำหรับเครื่องชั่งที่ไม่เห็นด้วยกับเครดิต แถลงการณ์ทางจิตวิทยา , 70 , 213–220, 1968
S Siegel และ Jr N John Castellan สถิติที่ไม่ใช่พารามิเตอร์สำหรับวิทยาศาสตร์เชิงพฤติกรรม . McGraw-Hill, Second edition, 1988
JL Fleiss วิธีการทางสถิติสำหรับราคาและสัดส่วน นิวยอร์ก: ไวลีย์, พิมพ์ครั้งที่สอง, 1981
JS Uebersax tetrachoric และ polychoric ค่าสัมประสิทธิ์สหสัมพันธ์ วิธีการทางสถิติสำหรับเว็บไซต์ Rater ข้อตกลงปี 2006 มีจำหน่ายที่: http://john-uebersax.com/stat/tetra.htm เข้าถึง 24 กุมภาพันธ์ 2010
PE Shrout และ JL Fleiss Intraclass correlation: ใช้ในการประเมินความน่าเชื่อถือของผู้ประเมินผล แถลงการณ์ทางจิตวิทยา , 86 , 420–428, 1979
MG Kendall และ B Babington Smith ปัญหาการจัดอันดับม . พงศาวดารของสถิติคณิตศาสตร์ , 10 , 275–287, 1939
P Legendre ค่าสัมประสิทธิ์ของความสอดคล้อง ในนิวเจอร์ซีย์ Salkind, แก้ไข, สารานุกรมของการออกแบบการวิจัย สิ่งพิมพ์ SAGE, 2010
JL Fleiss สมดุลของแคปปาถ่วงน้ำหนักและค่าสัมประสิทธิ์สหสัมพันธ์ intraclass เป็นมาตรการของความน่าเชื่อถือ การวัดทางการศึกษาและจิตวิทยา , 33 , 613-619, 1973

— CHL
แหล่งที่มา

การอ้างอิงเพิ่มเติมสามรายการ: 1. Beyond Kappa: การทบทวนมาตรการข้อตกลงระหว่างกันโดย Mousumi Banerjee, Michelle Capozzoli, Laura McSweeney, & Debajyoti Sinha 2. ความน่าเชื่อถือและข้อตกลงการจัดอันดับผลการปฏิบัติงาน: การเปรียบเทียบระเบียบวิธีโดย John W. Fleenor, Julie B. Fleenor & William F. Grossnickle

— M. Tibbits

3. วิธีการทางสถิติสำหรับการประเมินข้อผิดพลาดการวัด (ความน่าเชื่อถือ) ในตัวแปรที่เกี่ยวข้องกับเวชศาสตร์การกีฬา โดย Atkinson G & Nevill AM การอ้างอิงแรกนั้นจำเพาะกับข้อมูลลำดับและอธิบายถึงมาตรการอื่น ๆ นอกเหนือจากคัปปาสำหรับข้อมูลลำดับ ที่สองและสามมีความเฉพาะกับข้อมูลช่วงเวลา

— M. Tibbits

(+1) ขอบคุณมาก M. Tibbits! โดยทั่วไปฉันให้การอ้างอิงและตัวอย่างจำนวนมากระหว่างการบรรยายของฉันในด้าน psychometrics รวมถึงครั้งแรกที่คุณอ้างถึง แต่ฉันไม่รู้จักอีกสองคน

— chl

นอกจากนี้แพคเกจตามลำดับอนุญาตการสร้างแบบจำลองหลายระดับเช่น lme4 แต่มีการถดถอยตามลำดับ

— จอห์น

สัมพันธ์ intraclassอาจจะใช้สำหรับข้อมูลลำดับ แต่มีข้อแม้อยู่บ้างโดยเบื้องต้นแล้วผู้ประเมินไม่สามารถแยกแยะได้ สำหรับข้อมูลเพิ่มเติมเกี่ยวกับสิ่งนี้และวิธีเลือกระหว่าง ICC เวอร์ชันต่าง ๆ ให้ดู:

Intraclass correlations: ใช้ในการประเมินความน่าเชื่อถือของผู้ประเมิน (Shrout, Fleiss, 1979)

— ARS
แหล่งที่มา