สถิติKappa ( ) ได้รับการแนะนำในปี 1960 โดย Cohen [1] เพื่อวัดข้อตกลงระหว่างผู้ประเมินสองคน อย่างไรก็ตามความแปรปรวนของมันเป็นสาเหตุของความขัดแย้งมาระยะหนึ่งแล้ว
คำถามของฉันเกี่ยวกับการคำนวณผลต่างที่ดีที่สุดที่จะใช้กับกลุ่มตัวอย่างขนาดใหญ่ ฉันมีแนวโน้มที่จะเชื่อว่าคนที่ผ่านการทดสอบและตรวจสอบโดย Fleiss [2] จะเป็นตัวเลือกที่ถูกต้อง แต่สิ่งนี้ดูเหมือนจะไม่ใช่คนเดียวที่ได้รับการตีพิมพ์ซึ่งดูเหมือนว่าจะถูกต้อง
ตอนนี้ฉันมีสองวิธีที่เป็นรูปธรรมในการคำนวณความแปรปรวนตัวอย่างขนาดใหญ่ของซีมโทติค:
- วิธีการแก้ไขที่เผยแพร่โดย Fleiss, Cohen and Everitt [2];
- วิธีการเดลต้าที่สามารถพบได้ในหนังสือโดย Colgaton, 2009 [4] (หน้า 106)
เพื่อแสดงให้เห็นถึงความสับสนบางอย่างนี่คือคำพูดของ Fleiss, Cohen และ Everitt [2] โดยเน้นที่เหมือง:
ความพยายามของมนุษย์หลายคนถูกสาปด้วยความล้มเหลวซ้ำแล้วซ้ำอีกก่อนที่จะประสบความสำเร็จขั้นสุดท้าย มาตราส่วนของ Mount Everest เป็นตัวอย่างหนึ่ง การค้นพบของ Northwest Passage เป็นครั้งที่สอง ความเป็นมาของข้อผิดพลาดมาตรฐานที่ถูกต้องสำหรับคัปปาเป็นหนึ่งในสาม
ดังนั้นนี่คือบทสรุปเล็ก ๆ ของสิ่งที่เกิดขึ้น:
- 1960: โคเฮนตีพิมพ์กระดาษของเขา "เป็นค่าสัมประสิทธิ์ของข้อตกลงสำหรับการชั่งน้ำหนักน้อย" [1] แนะนำวัดโอกาสแก้ไขของเขาของข้อตกลงระหว่างสองผู้ประเมินเรียกว่าκอย่างไรก็ตามเขาเผยแพร่สูตรที่ไม่ถูกต้องสำหรับการคำนวณผลต่าง
- 1968: Everitt พยายามแก้ไข แต่สูตรของเขาไม่ถูกต้องเช่นกัน
- 2512: Fleiss โคเฮนและ Everitt จัดทำสูตรที่ถูกต้องในกระดาษ "ข้อผิดพลาดมาตรฐานขนาดใหญ่ตัวอย่างของคัปปาและคัปปาถ่วงน้ำหนัก" [2]
- 1971: เฟลเผยแพร่อีกสถิติ ( แต่ที่แตกต่างกันอย่างใดอย่างหนึ่ง) ภายใต้ชื่อเดียวกันกับสูตรไม่ถูกต้องสำหรับความแปรปรวน
- 1979: เฟลไม่มีและ Landis เผยแพร่สูตรการแก้ไขสำหรับเฟลκ
ในตอนแรกพิจารณาสัญกรณ์ดังต่อไปนี้ สัญกรณ์นี้แสดงถึงตัวดำเนินการรวมที่ควรนำไปใช้กับองค์ประกอบทั้งหมดในมิติที่วางจุด:
พี j = k ∑ i = 1 p i j
ตอนนี้เราสามารถคำนวณคัปปาได้ดังนี้:
ซึ่งใน
และภายใต้สมมติฐานว่างจะได้รับจาก:
ดูเหมือนว่าวิธีการของ Congalton จะขึ้นอยู่กับวิธีการเดลต้าสำหรับการรับผลต่าง (Agresti, 1990; Agresti, 2002); อย่างไรก็ตามฉันไม่แน่ใจว่าวิธีการเดลต้าคืออะไรหรือทำไมต้องใช้ แปรปรวนตามวิธีนี้จะได้รับโดย:
ซึ่งใน
(Congalton ใช้ subscript มากกว่า aแต่ดูเหมือนว่าจะหมายถึงสิ่งเดียวกันนอกจากนี้ฉันคิดว่าควรเป็นเมทริกซ์การนับนั่นคือเมทริกซ์ความสับสนก่อนที่จะถูกหารด้วยจำนวนตัวอย่างเป็น เกี่ยวข้องกับสูตร )
อีกส่วนที่แปลกคือหนังสือของ Colgaton ดูเหมือนว่าจะอ้างถึงเอกสารต้นฉบับโดย Cohen แต่ดูเหมือนจะไม่ได้อ้างถึงการแก้ไขความแปรปรวนของ Kappa ที่ตีพิมพ์โดย Fleiss et al, จนกว่าเขาจะไปถกกันถ่วงน้ำหนัก Kappa บางทีการตีพิมพ์ครั้งแรกของเขาอาจถูกเขียนเมื่อสูตรที่แท้จริงของคัปปายังคงสับสนอยู่ใช่ไหม?
ใครบางคนสามารถอธิบายได้ว่าทำไมความแตกต่างเหล่านั้น? หรือทำไมคนที่จะใช้ความแปรปรวนของวิธีการเดลต้าแทนที่จะเป็นรุ่นที่แก้ไขโดย Fleiss?
[1]: Fleiss, Joseph L .; โคเฮนจาค็อบ; Everitt, BS; ข้อผิดพลาดมาตรฐานตัวอย่างขนาดใหญ่ของคัปปาและคัปปาถ่วงน้ำหนัก แถลงการณ์ทางจิตวิทยาเล่มที่ 72 (5), พ.ย. 1969, 323-327 ดอย: 10.1037 / h0028106
[2]: โคเฮนจาค็อบ (1960) ค่าสัมประสิทธิ์ของข้อตกลงสำหรับตาชั่งเล็กน้อย การวัดทางการศึกษาและจิตวิทยา 20 (1): 37–46 DOI: 10.1177 / 001316446002000104
[3]: Alan Agresti, การวิเคราะห์ข้อมูลอย่างละเอียด, รุ่นที่ 2 John Wiley and Sons, 2002
[4]: Russell G. Congalton และ Green, K.; การประเมินความแม่นยำของข้อมูลที่รับรู้จากระยะไกล: หลักการและวิธีปฏิบัติฉบับที่ 2 2009