หากคุณได้อ่านแถลงการณ์ของชุมชนเมื่อเร็ว ๆ นี้คุณน่าจะได้เห็นThe Hunting of the Snarkโพสต์บนบล็อก StackExchange อย่างเป็นทางการโดย Joel Spolsky ซีอีโอของเครือข่าย StackExchange เขากล่าวถึงการวิเคราะห์ทางสถิติที่ดำเนินการบนตัวอย่างของความคิดเห็น SE เพื่อประเมิน "ความเป็นมิตร" ของพวกเขาจากมุมมองของผู้ใช้ภายนอก ความคิดเห็นถูกสุ่มตัวอย่างจาก StackOverflow และนักวิเคราะห์เนื้อหาเป็นสมาชิกของชุมชน Mechanical Turk ของ Amazon ซึ่งเป็นตลาดสำหรับการทำงานที่เชื่อมโยง บริษัท กับคนงานที่ทำงานเล็ก ๆ น้อย ๆ และมีค่าธรรมเนียมสั้น ๆ
เมื่อไม่นานที่ผ่านมาผมเป็นนักศึกษาระดับบัณฑิตศึกษาในสาขาวิทยาศาสตร์ทางการเมืองและเป็นหนึ่งในชั้นเรียนที่ผมเอาถูกวิเคราะห์เนื้อหาทางสถิติ โครงการสุดท้ายของชั้นเรียนโดยมีวัตถุประสงค์คือเพื่อทำการวิเคราะห์รายละเอียดเกี่ยวกับการรายงานสงครามของ New York Timesเพื่อทดสอบว่ามีสมมติฐานมากมายหรือไม่ที่ชาวอเมริกันทำเกี่ยวกับการรายงานข่าวในช่วงสงครามอย่างถูกต้อง ไม่). โครงการมีขนาดใหญ่และค่อนข้างสนุก แต่ส่วนที่เจ็บปวดที่สุดคือ 'การฝึกอบรมและการทดสอบความน่าเชื่อถือ' ซึ่งเกิดขึ้นก่อนที่เราจะทำการวิเคราะห์อย่างเต็มรูปแบบ มันมีวัตถุประสงค์สองประการ (ดูหน้า 9 ของกระดาษที่เชื่อมโยงเพื่อดูคำอธิบายโดยละเอียดรวมถึงการอ้างอิงถึงมาตรฐานความน่าเชื่อถือของตัวแปลงรหัสในเอกสารการวิเคราะห์เนื้อหาทางสถิติ):
ยืนยันผู้เขียนโค้ดทั้งหมดเช่นผู้อ่านเนื้อหาได้รับการฝึกอบรมตามข้อกำหนดเชิงคุณภาพเดียวกัน ในการวิเคราะห์ของโจเอลสิ่งนี้หมายความว่าทุกคนจะรู้ได้อย่างชัดเจนว่าโครงการกำหนด "เป็นมิตร" และ "ไม่เป็นมิตร" อย่างไร
ยืนยันว่าผู้เข้ารหัสทุกคนตีความกฎเหล่านี้อย่างน่าเชื่อถือนั่นคือเราสุ่มตัวอย่างตัวอย่างวิเคราะห์ชุดย่อยแล้วแสดงให้เห็นถึงความสัมพันธ์แบบคู่ในเชิงสถิติของเราเกี่ยวกับการประเมินคุณภาพค่อนข้างคล้ายคลึงกัน
การทดสอบความน่าเชื่อถือเจ็บเพราะเราต้องทำสามหรือสี่ครั้ง จนกระทั่ง -1- ถูกล็อคและ -2- มีความสัมพันธ์แบบคู่สูงพอผลการวิเคราะห์ของเราเต็มรูปแบบเป็นที่น่าสงสัย ไม่สามารถแสดงว่าถูกต้องหรือไม่ถูกต้อง สิ่งสำคัญที่สุดคือเราต้องทำการทดสอบความน่าเชื่อถือของนักบินก่อนชุดตัวอย่างสุดท้าย
คำถามของฉันคือ: การวิเคราะห์เชิงสถิติของ Joel ขาดการทดสอบความน่าเชื่อถือของนักบินและไม่ได้กำหนดคำจำกัดความการดำเนินงานของ "ความเป็นมิตร" ข้อมูลสุดท้ายเชื่อถือได้เพียงพอที่จะพูดอะไรเกี่ยวกับความถูกต้องทางสถิติของผลลัพธ์ของเขาหรือไม่?
สำหรับหนึ่งมุมมองให้พิจารณาไพรเมอร์นี้กับค่าของความน่าเชื่อถือของตัวแปลงสัญญาณและคำจำกัดความการทำงานที่สอดคล้องกัน จากแหล่งที่ลึกกว่าเดิมคุณสามารถอ่านเกี่ยวกับการทดสอบความน่าเชื่อถือของนักบิน (รายการที่ 5 ในรายการ)
ตามคำแนะนำของ Andy W. ในคำตอบของเขาฉันพยายามคำนวณสถิติความน่าเชื่อถือที่หลากหลายบนชุดข้อมูลซึ่งมีให้ที่นี่โดยใช้ชุดคำสั่งนี้ใน R (อัปเดตเมื่อฉันคำนวณสถิติใหม่)
ข้อตกลงร้อยละ (with tolerance = 0): 0.0143
ข้อตกลงร้อยละ (with tolerance = 1): 11.8
อัลฟาของ Krippendorff : 0.1529467
ฉันยังลองใช้โมเดลการตอบกลับรายการสำหรับข้อมูลนี้ในคำถามอื่น