สัมประสิทธิ์สหสัมพันธ์ Intraclass vs. F-test (one-way ANOVA)


10

ฉันสับสนเล็กน้อยเกี่ยวกับค่าสัมประสิทธิ์สหสัมพันธ์ของ intraclass และการวิเคราะห์ความแปรปรวนทางเดียว เมื่อฉันเข้าใจแล้วทั้งคู่ก็บอกคุณว่าการสังเกตแบบเดียวกันภายในกลุ่มนั้นเกี่ยวข้องกับการสังเกตในกลุ่มอื่นอย่างไร

ใครช่วยอธิบายสิ่งนี้ให้ดีขึ้นได้บ้างและอาจอธิบายสถานการณ์ที่แต่ละวิธีมีประโยชน์มากกว่ากัน


กรุณาใช้เวลาในการดูความน่าเชื่อถือหรือแท็กระหว่างผู้ประเมิน ICC ขึ้นอยู่กับตาราง ANOVA แต่ความคิดนั้นเป็นเพียงการวิเคราะห์ส่วนประกอบของความแปรปรวนแทนที่จะสร้างสถิติการทดสอบเดียวที่มีคุณสมบัติการแจกแจงแบบรู้เช่นการทดสอบ F คุณมีแอปพลิเคชันใดในใจ
chl

@chl ฉันต้องการวิเคราะห์คะแนนแยกสำหรับข้อมูลที่จัดกลุ่ม ฉันเคยเห็นเอกสารสองสามข้อที่ตรวจสอบความแตกต่างระหว่างผู้ปกครองและคะแนนเด็กโดยใช้ ICC เพื่อบอกว่ามีความแตกต่างที่สำคัญในการตอบสนองของผู้ปกครองกับเด็กหรือไม่ ฉันคิดว่า ICC เป็นสิ่งที่ฉันต้องการที่นี่ แต่อย่างที่ฉันพูดถึงฉันไม่เข้าใจความแตกต่างระหว่างทั้งสอง ฉันลังเลที่จะถามเพิ่มเติม แต่คุณรู้จักการอ้างอิง (พื้นฐาน) ที่ดีบ้างไหม? พื้นหลังสถิติของฉันหยุดลงที่การถดถอยเชิงเส้นและฉันรู้สึกว่าฉันกำลังถามคำถามที่มีสูตรไม่ดี ขอบคุณ.
blep

ดูเหมือนว่าคุณมีข้อมูลที่จับคู่แล้ว เมื่อพิจารณากลุ่มแยก (ผู้ปกครองกับลูก ๆ ) และการใช้ ICC เพื่อรายงานความน่าเชื่อถือของคะแนนคุณจะละทิ้งข้อมูลบางส่วนเช่นการให้คะแนนจากผู้ปกครองและการกระทำของพวกเขาในลักษณะที่สอดคล้องกัน ICC ทั้งสองของคุณจะบอกคุณว่าคะแนนทั้งสองชุดซึ่งถือว่าเป็นอิสระนั้นเป็น "ความน่าเชื่อถือ" ในแง่ที่ว่าส่วนสำคัญของความแปรปรวนอาจถูกนำมาพิจารณาโดยผลการประเมิน (... )
chl

(... ) โดยรวมหากคุณต้องการแสดงให้เห็นว่าการให้คะแนนของผู้ปกครองมีความน่าเชื่อถือมากกว่าเด็ก ๆ การใช้ ICC นั้นใช้ได้ ถ้าในอีกทางหนึ่งคุณต้องการศึกษาว่าการให้คะแนนของผู้ปกครองมีความสัมพันธ์กับการจัดอันดับเด็กอย่างไรคุณอาจใช้วิธีการวิเคราะห์ประเภทอื่น ๆ (แม่นยำการวิเคราะห์ข้อมูล dyadic)
chl

คำตอบ:


17

ทั้งสองวิธีขึ้นอยู่กับแนวคิดเดียวกันนั่นคือการแยกความแตกต่างที่สังเกตออกเป็นส่วนต่าง ๆ หรือส่วนประกอบ อย่างไรก็ตามมีความแตกต่างเล็กน้อยในการพิจารณาว่ารายการและ / หรือผู้ให้คะแนนเป็นเอฟเฟกต์แบบคงที่หรือแบบสุ่ม นอกเหนือจากการบอกว่าส่วนใดของความแปรปรวนทั้งหมดอธิบายโดยระหว่างปัจจัย (หรือความแตกต่างระหว่างความแปรปรวนที่เหลือจากความแปรปรวนที่เหลือ) การทดสอบ F ไม่ได้พูดมาก อย่างน้อยสิ่งนี้ถือเป็นวิธีการวิเคราะห์ความแปรปรวนทางเดียวซึ่งเราถือว่าผลกระทบคงที่ (และสอดคล้องกับ ICC (1,1) อธิบายไว้ด้านล่าง) ในอีกทางหนึ่ง ICC ให้ดัชนีที่มีขอบเขตเมื่อประเมินความน่าเชื่อถือของคะแนนสำหรับผู้ประเมิน "ที่แลกเปลี่ยนได้" หรือความสม่ำเสมอของหน่วยวิเคราะห์

เรามักจะสร้างความแตกต่างดังต่อไปนี้ระหว่าง ICC ประเภทต่างๆ จากงานน้ำเชื้อของ Shrout และ Fleiss (1979) ดังนี้

  • แบบจำลองเอฟเฟกต์แบบสุ่มทิศทางเดียว , ICC (1,1): แต่ละไอเท็มได้รับการจัดอันดับโดยผู้ประเมินที่แตกต่างกันซึ่งถูกสุ่มตัวอย่างจากกลุ่มที่มีศักยภาพของผู้ให้คะแนนที่มีขนาดใหญ่กว่า จากนั้น ICC จะถูกตีความว่าเป็น% ของความแปรปรวนทั้งหมดที่คิดตามความแปรปรวนของหัวข้อ / รายการ สิ่งนี้เรียกว่าความสอดคล้องของ ICC
  • แบบจำลองเอฟเฟกต์แบบสุ่มสองทาง , ICC (2,1): ทั้งปัจจัย - ผู้ประเมินและรายการ / วิชา - ถูกมองว่าเป็นเอฟเฟกต์แบบสุ่มและเรามีองค์ประกอบความแปรปรวนสองแบบ (หรือกำลังสองเฉลี่ย) นอกเหนือจากความแปรปรวนที่เหลือ เราคิดว่าผู้ประเมินประเมินรายการ / วิชาทั้งหมดเพิ่มเติม ICC ให้ในกรณีนี้% ของความแปรปรวนที่เกิดจากผู้ประเมิน + รายการ / วิชา
  • แบบผสมแบบสองทาง , ICC (3,1): ตรงกันข้ามกับวิธีการเดินรถทางเดียวที่นี่ผู้ประเมินได้รับการพิจารณาว่าเป็นผลกระทบคงที่ (ไม่มีลักษณะทั่วไปเกินกว่าตัวอย่างที่อยู่ในมือ) แต่รายการ / วิชาจะถือว่าเป็นผลแบบสุ่ม; หน่วยการวิเคราะห์อาจเป็นรายบุคคลหรือคะแนนเฉลี่ย

สิ่งนี้สอดคล้องกับกรณีที่ 1 ถึง 3 ในตารางที่ 1 ความแตกต่างเพิ่มเติมสามารถทำได้ขึ้นอยู่กับว่าเราพิจารณาแล้วหรือไม่ว่าเรตติ้งที่สังเกตได้นั้นเป็นค่าเฉลี่ยของเรตติ้งหลาย ๆ อัน (เรียกว่า ICC (1, k), ICC (2, k) และ ICC (3, k)) หรือไม่

โดยสรุปคุณต้องเลือกแบบจำลองที่เหมาะสม (แบบทางเดียวกับแบบสองทาง) และส่วนใหญ่จะกล่าวถึงในกระดาษของ Shrout และ Fleiss แบบจำลองทางเดียวมีแนวโน้มที่จะให้ค่าที่น้อยกว่าแบบสองทาง แบบจำลองเอฟเฟกต์โดยทั่วไปจะให้ค่าที่ต่ำกว่าแบบจำลองเอฟเฟกต์คงที่ ICC มาจากแบบจำลองผลกระทบคงเป็นที่ยอมรับว่าเป็นวิธีการประเมินผู้ประเมินความสอดคล้อง (เพราะเราไม่สนใจความแปรปรวนประเมิน) ในขณะที่สำหรับรูปแบบการสุ่มผลกระทบที่เราพูดคุยของประมาณการของข้อตกลงการประเมิน (ไม่ว่าผู้ประเมินสามารถใช้แทนกันหรือไม่) เฉพาะโมเดลสองทางเท่านั้นที่รวมการโต้ตอบระหว่างผู้ทดสอบกับวัตถุซึ่งอาจเป็นที่สนใจเมื่อพยายามที่จะคลี่คลายรูปแบบการจัดอันดับที่ผิดปกติ

ภาพประกอบต่อไปนี้พร้อมคัดลอก / วางตัวอย่างจากICC()ในแพ็คเกจจิต (ข้อมูลมาจาก Shrout และ Fleiss, 1979) ข้อมูลประกอบด้วยผู้พิพากษา 4 คน (J) ระบุอาสาสมัคร 6 คนหรือเป้าหมาย (S) และสรุปไว้ด้านล่าง (ฉันจะสมมติว่ามันถูกจัดเก็บเป็นเมทริกซ์ R ชื่อsf)

   J1 J2 J3 J4
S1  9  2  5  8
S2  6  1  3  2
S3  8  4  6  8
S4  7  1  2  6
S5 10  5  6  9
S6  6  2  4  7

ตัวอย่างนี้น่าสนใจเพราะมันแสดงให้เห็นว่าตัวเลือกของตัวแบบอาจมีผลต่อผลลัพธ์อย่างไรดังนั้นการตีความการศึกษาความน่าเชื่อถือ ICC ทั้ง 6 รุ่นมีดังต่อไปนี้ (นี่คือตารางที่ 4 ในกระดาษของ Shrout และ Fleiss)

Intraclass correlation coefficients 
                         type  ICC    F df1 df2       p lower bound upper bound
Single_raters_absolute   ICC1 0.17  1.8   5  18 0.16477      -0.133        0.72
Single_random_raters     ICC2 0.29 11.0   5  15 0.00013       0.019        0.76
Single_fixed_raters      ICC3 0.71 11.0   5  15 0.00013       0.342        0.95
Average_raters_absolute ICC1k 0.44  1.8   5  18 0.16477      -0.884        0.91
Average_random_raters   ICC2k 0.62 11.0   5  15 0.00013       0.071        0.93
Average_fixed_raters    ICC3k 0.91 11.0   5  15 0.00013       0.676        0.99

ดังที่เห็นได้เมื่อพิจารณาจากผลกระทบคงที่ของผู้ประเมิน (อาจได้ผลลัพธ์ที่คล้ายกันกับแพคเกจirr ( icc()) แม้ว่าเราจะต้องเล่นกับตัวเลือกที่แตกต่างกันสำหรับประเภทรุ่นและหน่วยการวิเคราะห์)

วิธีการวิเคราะห์ความแปรปรวนบอกอะไรเรา? เราจำเป็นต้องพอดีสองรุ่นเพื่อให้ได้ค่าเฉลี่ยกำลังสองที่เกี่ยวข้อง:

  • โมเดลทางเดียวที่พิจารณาตัวแบบเท่านั้น สิ่งนี้จะช่วยให้แยกเป้าหมายที่ได้รับการจัดอันดับ (ระหว่างกลุ่ม MS, BMS) และรับการประมาณระยะเวลาข้อผิดพลาดภายใน (WMS)
  • แบบจำลองสองทางที่พิจารณาตัวแบบ + rater + ปฏิสัมพันธ์ของพวกเขา (เมื่อไม่มีการจำลองแบบเทอมสุดท้ายนี้จะสับสนกับส่วนที่เหลือ); สิ่งนี้ทำให้สามารถประมาณค่า rater main effect (JMS) ซึ่งสามารถพิจารณาได้หากเราต้องการใช้แบบจำลองเอฟเฟกต์แบบสุ่ม (เช่นเราจะเพิ่มเข้าไปในความแปรปรวนทั้งหมด)

ไม่จำเป็นต้องดูการทดสอบ F มีเพียง MS เท่านั้นที่สนใจ

library(reshape)
sf.df <- melt(sf, varnames=c("Subject", "Rater"))
anova(lm(value ~ Subject, sf.df))
anova(lm(value ~ Subject*Rater, sf.df))

ตอนนี้เราสามารถรวบรวมชิ้นส่วนต่าง ๆ ในตาราง ANOVA แบบขยายซึ่งดูเหมือนที่แสดงด้านล่าง (นี่คือตารางที่ 3 ใน Shrout และกระดาษของ Fleiss):


(ที่มา: mathurl.com )

โดยที่สองแถวแรกมาจากตัวแบบทางเดียวในขณะที่อีกสองแถวมาจาก ANOVA แบบสองทาง

มันเป็นเรื่องง่ายที่จะตรวจสอบทุกสูตรใน Shrout และเฟลบทความและเรามีทุกอย่างที่เราต้องประเมินความน่าเชื่อถือสำหรับการประเมินเดียว สิ่งที่เกี่ยวกับความน่าเชื่อถือสำหรับค่าเฉลี่ยของการประเมินหลายครั้ง (ซึ่งมักจะเป็นปริมาณที่น่าสนใจในการศึกษาระหว่างผู้ประเมิน)? Hays and Revicki (2005), สามารถรับได้จากการสลายตัวข้างต้นโดยเพียงแค่เปลี่ยน MS ทั้งหมดที่พิจารณาในตัวส่วนยกเว้นรูปแบบผลกระทบแบบสุ่มสองทางซึ่งเราต้องเขียนอัตราส่วนของ MS ใหม่

  • ในกรณีของ ICC (1,1) = (BMS-WMS) / (BMS + (k-1) • WMS) ความน่าเชื่อถือโดยรวมจะถูกคำนวณเป็น (BMS-WMS) /BMS=0.443
  • สำหรับ ICC (2,1) = (BMS-EMS) / (BMS + (k-1) • EMS + k • (JMS-EMS) / N) ความน่าเชื่อถือโดยรวมคือ (N • (BMS-EMS)) / (ยังไม่มี• BMS + JMS-EMS) = 0.620
  • ในที่สุดสำหรับ ICC (3,1) = (BMS-EMS) / (BMS + (k-1) • EMS) เรามีความน่าเชื่อถือ (BMS-EMS) /BMS=0.909

อีกครั้งเราพบว่าความน่าเชื่อถือโดยรวมสูงขึ้นเมื่อพิจารณาจากผู้ประเมินเป็นผลกระทบคงที่

อ้างอิง

  1. Shrout, PE และ Fleiss, JL (1979) ความสัมพันธ์ intraclass: การใช้ในการประเมินความน่าเชื่อถือของผู้ประเมิน กระดานข่าวทางจิตวิทยา , 86, 420-3428
  2. Hays, RD และ Revicki, D. (2005) ความน่าเชื่อถือและความถูกต้อง (รวมถึงการตอบสนอง) ใน Fayers, P. และ Hays, RD (eds.), การประเมินคุณภาพชีวิตในการทดลองทางคลินิก , 2nd ed., pp. 25-39 สำนักพิมพ์มหาวิทยาลัยออกซ์ฟอร์ด
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.