ทั้งสองวิธีขึ้นอยู่กับแนวคิดเดียวกันนั่นคือการแยกความแตกต่างที่สังเกตออกเป็นส่วนต่าง ๆ หรือส่วนประกอบ อย่างไรก็ตามมีความแตกต่างเล็กน้อยในการพิจารณาว่ารายการและ / หรือผู้ให้คะแนนเป็นเอฟเฟกต์แบบคงที่หรือแบบสุ่ม นอกเหนือจากการบอกว่าส่วนใดของความแปรปรวนทั้งหมดอธิบายโดยระหว่างปัจจัย (หรือความแตกต่างระหว่างความแปรปรวนที่เหลือจากความแปรปรวนที่เหลือ) การทดสอบ F ไม่ได้พูดมาก อย่างน้อยสิ่งนี้ถือเป็นวิธีการวิเคราะห์ความแปรปรวนทางเดียวซึ่งเราถือว่าผลกระทบคงที่ (และสอดคล้องกับ ICC (1,1) อธิบายไว้ด้านล่าง) ในอีกทางหนึ่ง ICC ให้ดัชนีที่มีขอบเขตเมื่อประเมินความน่าเชื่อถือของคะแนนสำหรับผู้ประเมิน "ที่แลกเปลี่ยนได้" หรือความสม่ำเสมอของหน่วยวิเคราะห์
เรามักจะสร้างความแตกต่างดังต่อไปนี้ระหว่าง ICC ประเภทต่างๆ จากงานน้ำเชื้อของ Shrout และ Fleiss (1979) ดังนี้
- แบบจำลองเอฟเฟกต์แบบสุ่มทิศทางเดียว , ICC (1,1): แต่ละไอเท็มได้รับการจัดอันดับโดยผู้ประเมินที่แตกต่างกันซึ่งถูกสุ่มตัวอย่างจากกลุ่มที่มีศักยภาพของผู้ให้คะแนนที่มีขนาดใหญ่กว่า จากนั้น ICC จะถูกตีความว่าเป็น% ของความแปรปรวนทั้งหมดที่คิดตามความแปรปรวนของหัวข้อ / รายการ สิ่งนี้เรียกว่าความสอดคล้องของ ICC
- แบบจำลองเอฟเฟกต์แบบสุ่มสองทาง , ICC (2,1): ทั้งปัจจัย - ผู้ประเมินและรายการ / วิชา - ถูกมองว่าเป็นเอฟเฟกต์แบบสุ่มและเรามีองค์ประกอบความแปรปรวนสองแบบ (หรือกำลังสองเฉลี่ย) นอกเหนือจากความแปรปรวนที่เหลือ เราคิดว่าผู้ประเมินประเมินรายการ / วิชาทั้งหมดเพิ่มเติม ICC ให้ในกรณีนี้% ของความแปรปรวนที่เกิดจากผู้ประเมิน + รายการ / วิชา
- แบบผสมแบบสองทาง , ICC (3,1): ตรงกันข้ามกับวิธีการเดินรถทางเดียวที่นี่ผู้ประเมินได้รับการพิจารณาว่าเป็นผลกระทบคงที่ (ไม่มีลักษณะทั่วไปเกินกว่าตัวอย่างที่อยู่ในมือ) แต่รายการ / วิชาจะถือว่าเป็นผลแบบสุ่ม; หน่วยการวิเคราะห์อาจเป็นรายบุคคลหรือคะแนนเฉลี่ย
สิ่งนี้สอดคล้องกับกรณีที่ 1 ถึง 3 ในตารางที่ 1 ความแตกต่างเพิ่มเติมสามารถทำได้ขึ้นอยู่กับว่าเราพิจารณาแล้วหรือไม่ว่าเรตติ้งที่สังเกตได้นั้นเป็นค่าเฉลี่ยของเรตติ้งหลาย ๆ อัน (เรียกว่า ICC (1, k), ICC (2, k) และ ICC (3, k)) หรือไม่
โดยสรุปคุณต้องเลือกแบบจำลองที่เหมาะสม (แบบทางเดียวกับแบบสองทาง) และส่วนใหญ่จะกล่าวถึงในกระดาษของ Shrout และ Fleiss แบบจำลองทางเดียวมีแนวโน้มที่จะให้ค่าที่น้อยกว่าแบบสองทาง แบบจำลองเอฟเฟกต์โดยทั่วไปจะให้ค่าที่ต่ำกว่าแบบจำลองเอฟเฟกต์คงที่ ICC มาจากแบบจำลองผลกระทบคงเป็นที่ยอมรับว่าเป็นวิธีการประเมินผู้ประเมินความสอดคล้อง (เพราะเราไม่สนใจความแปรปรวนประเมิน) ในขณะที่สำหรับรูปแบบการสุ่มผลกระทบที่เราพูดคุยของประมาณการของข้อตกลงการประเมิน (ไม่ว่าผู้ประเมินสามารถใช้แทนกันหรือไม่) เฉพาะโมเดลสองทางเท่านั้นที่รวมการโต้ตอบระหว่างผู้ทดสอบกับวัตถุซึ่งอาจเป็นที่สนใจเมื่อพยายามที่จะคลี่คลายรูปแบบการจัดอันดับที่ผิดปกติ
ภาพประกอบต่อไปนี้พร้อมคัดลอก / วางตัวอย่างจากICC()
ในแพ็คเกจจิต (ข้อมูลมาจาก Shrout และ Fleiss, 1979) ข้อมูลประกอบด้วยผู้พิพากษา 4 คน (J) ระบุอาสาสมัคร 6 คนหรือเป้าหมาย (S) และสรุปไว้ด้านล่าง (ฉันจะสมมติว่ามันถูกจัดเก็บเป็นเมทริกซ์ R ชื่อsf
)
J1 J2 J3 J4
S1 9 2 5 8
S2 6 1 3 2
S3 8 4 6 8
S4 7 1 2 6
S5 10 5 6 9
S6 6 2 4 7
ตัวอย่างนี้น่าสนใจเพราะมันแสดงให้เห็นว่าตัวเลือกของตัวแบบอาจมีผลต่อผลลัพธ์อย่างไรดังนั้นการตีความการศึกษาความน่าเชื่อถือ ICC ทั้ง 6 รุ่นมีดังต่อไปนี้ (นี่คือตารางที่ 4 ในกระดาษของ Shrout และ Fleiss)
Intraclass correlation coefficients
type ICC F df1 df2 p lower bound upper bound
Single_raters_absolute ICC1 0.17 1.8 5 18 0.16477 -0.133 0.72
Single_random_raters ICC2 0.29 11.0 5 15 0.00013 0.019 0.76
Single_fixed_raters ICC3 0.71 11.0 5 15 0.00013 0.342 0.95
Average_raters_absolute ICC1k 0.44 1.8 5 18 0.16477 -0.884 0.91
Average_random_raters ICC2k 0.62 11.0 5 15 0.00013 0.071 0.93
Average_fixed_raters ICC3k 0.91 11.0 5 15 0.00013 0.676 0.99
ดังที่เห็นได้เมื่อพิจารณาจากผลกระทบคงที่ของผู้ประเมิน (อาจได้ผลลัพธ์ที่คล้ายกันกับแพคเกจirr ( icc()
) แม้ว่าเราจะต้องเล่นกับตัวเลือกที่แตกต่างกันสำหรับประเภทรุ่นและหน่วยการวิเคราะห์)
วิธีการวิเคราะห์ความแปรปรวนบอกอะไรเรา? เราจำเป็นต้องพอดีสองรุ่นเพื่อให้ได้ค่าเฉลี่ยกำลังสองที่เกี่ยวข้อง:
- โมเดลทางเดียวที่พิจารณาตัวแบบเท่านั้น สิ่งนี้จะช่วยให้แยกเป้าหมายที่ได้รับการจัดอันดับ (ระหว่างกลุ่ม MS, BMS) และรับการประมาณระยะเวลาข้อผิดพลาดภายใน (WMS)
- แบบจำลองสองทางที่พิจารณาตัวแบบ + rater + ปฏิสัมพันธ์ของพวกเขา (เมื่อไม่มีการจำลองแบบเทอมสุดท้ายนี้จะสับสนกับส่วนที่เหลือ); สิ่งนี้ทำให้สามารถประมาณค่า rater main effect (JMS) ซึ่งสามารถพิจารณาได้หากเราต้องการใช้แบบจำลองเอฟเฟกต์แบบสุ่ม (เช่นเราจะเพิ่มเข้าไปในความแปรปรวนทั้งหมด)
ไม่จำเป็นต้องดูการทดสอบ F มีเพียง MS เท่านั้นที่สนใจ
library(reshape)
sf.df <- melt(sf, varnames=c("Subject", "Rater"))
anova(lm(value ~ Subject, sf.df))
anova(lm(value ~ Subject*Rater, sf.df))
ตอนนี้เราสามารถรวบรวมชิ้นส่วนต่าง ๆ ในตาราง ANOVA แบบขยายซึ่งดูเหมือนที่แสดงด้านล่าง (นี่คือตารางที่ 3 ใน Shrout และกระดาษของ Fleiss):
(ที่มา: mathurl.com )
โดยที่สองแถวแรกมาจากตัวแบบทางเดียวในขณะที่อีกสองแถวมาจาก ANOVA แบบสองทาง
มันเป็นเรื่องง่ายที่จะตรวจสอบทุกสูตรใน Shrout และเฟลบทความและเรามีทุกอย่างที่เราต้องประเมินความน่าเชื่อถือสำหรับการประเมินเดียว สิ่งที่เกี่ยวกับความน่าเชื่อถือสำหรับค่าเฉลี่ยของการประเมินหลายครั้ง (ซึ่งมักจะเป็นปริมาณที่น่าสนใจในการศึกษาระหว่างผู้ประเมิน)? Hays and Revicki (2005), สามารถรับได้จากการสลายตัวข้างต้นโดยเพียงแค่เปลี่ยน MS ทั้งหมดที่พิจารณาในตัวส่วนยกเว้นรูปแบบผลกระทบแบบสุ่มสองทางซึ่งเราต้องเขียนอัตราส่วนของ MS ใหม่
- ในกรณีของ ICC (1,1) = (BMS-WMS) / (BMS + (k-1) • WMS) ความน่าเชื่อถือโดยรวมจะถูกคำนวณเป็น (BMS-WMS) /BMS=0.443
- สำหรับ ICC (2,1) = (BMS-EMS) / (BMS + (k-1) • EMS + k • (JMS-EMS) / N) ความน่าเชื่อถือโดยรวมคือ (N • (BMS-EMS)) / (ยังไม่มี• BMS + JMS-EMS) = 0.620
- ในที่สุดสำหรับ ICC (3,1) = (BMS-EMS) / (BMS + (k-1) • EMS) เรามีความน่าเชื่อถือ (BMS-EMS) /BMS=0.909
อีกครั้งเราพบว่าความน่าเชื่อถือโดยรวมสูงขึ้นเมื่อพิจารณาจากผู้ประเมินเป็นผลกระทบคงที่
อ้างอิง
- Shrout, PE และ Fleiss, JL (1979) ความสัมพันธ์ intraclass: การใช้ในการประเมินความน่าเชื่อถือของผู้ประเมิน กระดานข่าวทางจิตวิทยา , 86, 420-3428
- Hays, RD และ Revicki, D. (2005) ความน่าเชื่อถือและความถูกต้อง (รวมถึงการตอบสนอง) ใน Fayers, P. และ Hays, RD (eds.), การประเมินคุณภาพชีวิตในการทดลองทางคลินิก , 2nd ed., pp. 25-39 สำนักพิมพ์มหาวิทยาลัยออกซ์ฟอร์ด