Joel Spolsky ของ“ Hunting of the Snark” โพสต์การวิเคราะห์เนื้อหาทางสถิติที่ถูกต้องหรือไม่?

หากคุณได้อ่านแถลงการณ์ของชุมชนเมื่อเร็ว ๆ นี้คุณน่าจะได้เห็นThe Hunting of the Snarkโพสต์บนบล็อก StackExchange อย่างเป็นทางการโดย Joel Spolsky ซีอีโอของเครือข่าย StackExchange เขากล่าวถึงการวิเคราะห์ทางสถิติที่ดำเนินการบนตัวอย่างของความคิดเห็น SE เพื่อประเมิน "ความเป็นมิตร" ของพวกเขาจากมุมมองของผู้ใช้ภายนอก ความคิดเห็นถูกสุ่มตัวอย่างจาก StackOverflow และนักวิเคราะห์เนื้อหาเป็นสมาชิกของชุมชน Mechanical Turk ของ Amazon ซึ่งเป็นตลาดสำหรับการทำงานที่เชื่อมโยง บริษัท กับคนงานที่ทำงานเล็ก ๆ น้อย ๆ และมีค่าธรรมเนียมสั้น ๆ

เมื่อไม่นานที่ผ่านมาผมเป็นนักศึกษาระดับบัณฑิตศึกษาในสาขาวิทยาศาสตร์ทางการเมืองและเป็นหนึ่งในชั้นเรียนที่ผมเอาถูกวิเคราะห์เนื้อหาทางสถิติ โครงการสุดท้ายของชั้นเรียนโดยมีวัตถุประสงค์คือเพื่อทำการวิเคราะห์รายละเอียดเกี่ยวกับการรายงานสงครามของ New York Timesเพื่อทดสอบว่ามีสมมติฐานมากมายหรือไม่ที่ชาวอเมริกันทำเกี่ยวกับการรายงานข่าวในช่วงสงครามอย่างถูกต้อง ไม่). โครงการมีขนาดใหญ่และค่อนข้างสนุก แต่ส่วนที่เจ็บปวดที่สุดคือ 'การฝึกอบรมและการทดสอบความน่าเชื่อถือ' ซึ่งเกิดขึ้นก่อนที่เราจะทำการวิเคราะห์อย่างเต็มรูปแบบ มันมีวัตถุประสงค์สองประการ (ดูหน้า 9 ของกระดาษที่เชื่อมโยงเพื่อดูคำอธิบายโดยละเอียดรวมถึงการอ้างอิงถึงมาตรฐานความน่าเชื่อถือของตัวแปลงรหัสในเอกสารการวิเคราะห์เนื้อหาทางสถิติ):

ยืนยันผู้เขียนโค้ดทั้งหมดเช่นผู้อ่านเนื้อหาได้รับการฝึกอบรมตามข้อกำหนดเชิงคุณภาพเดียวกัน ในการวิเคราะห์ของโจเอลสิ่งนี้หมายความว่าทุกคนจะรู้ได้อย่างชัดเจนว่าโครงการกำหนด "เป็นมิตร" และ "ไม่เป็นมิตร" อย่างไร
ยืนยันว่าผู้เข้ารหัสทุกคนตีความกฎเหล่านี้อย่างน่าเชื่อถือนั่นคือเราสุ่มตัวอย่างตัวอย่างวิเคราะห์ชุดย่อยแล้วแสดงให้เห็นถึงความสัมพันธ์แบบคู่ในเชิงสถิติของเราเกี่ยวกับการประเมินคุณภาพค่อนข้างคล้ายคลึงกัน

การทดสอบความน่าเชื่อถือเจ็บเพราะเราต้องทำสามหรือสี่ครั้ง จนกระทั่ง -1- ถูกล็อคและ -2- มีความสัมพันธ์แบบคู่สูงพอผลการวิเคราะห์ของเราเต็มรูปแบบเป็นที่น่าสงสัย ไม่สามารถแสดงว่าถูกต้องหรือไม่ถูกต้อง สิ่งสำคัญที่สุดคือเราต้องทำการทดสอบความน่าเชื่อถือของนักบินก่อนชุดตัวอย่างสุดท้าย

คำถามของฉันคือ: การวิเคราะห์เชิงสถิติของ Joel ขาดการทดสอบความน่าเชื่อถือของนักบินและไม่ได้กำหนดคำจำกัดความการดำเนินงานของ "ความเป็นมิตร" ข้อมูลสุดท้ายเชื่อถือได้เพียงพอที่จะพูดอะไรเกี่ยวกับความถูกต้องทางสถิติของผลลัพธ์ของเขาหรือไม่?

สำหรับหนึ่งมุมมองให้พิจารณาไพรเมอร์นี้กับค่าของความน่าเชื่อถือของตัวแปลงสัญญาณและคำจำกัดความการทำงานที่สอดคล้องกัน จากแหล่งที่ลึกกว่าเดิมคุณสามารถอ่านเกี่ยวกับการทดสอบความน่าเชื่อถือของนักบิน (รายการที่ 5 ในรายการ)

ตามคำแนะนำของ Andy W. ในคำตอบของเขาฉันพยายามคำนวณสถิติความน่าเชื่อถือที่หลากหลายบนชุดข้อมูลซึ่งมีให้ที่นี่โดยใช้ชุดคำสั่งนี้ใน R (อัปเดตเมื่อฉันคำนวณสถิติใหม่)

สถิติเชิงพรรณนาอยู่ที่นี่

ข้อตกลงร้อยละ (with tolerance = 0): 0.0143

ข้อตกลงร้อยละ (with tolerance = 1): 11.8

อัลฟาของ Krippendorff : 0.1529467

ฉันยังลองใช้โมเดลการตอบกลับรายการสำหรับข้อมูลนี้ในคำถามอื่น

reliability agreement-statistics methodology

— คริสโตเฟอร์
แหล่งที่มา

การเผยแพร่ข้อมูลการเข้ารหัสต่อสาธารณชนเพื่อให้ใครคนหนึ่งสามารถไปและประเมินความน่าเชื่อถือของโคเดอเรเตอร์เองได้หากต้องการ

— Andy W

Re: # 1 - ควรสังเกตว่านี่ไม่ใช่การฝึกหัดมากนักหากความคิดเห็นนั้นเป็นมิตรหรือไม่ แต่การออกกำลังกายต่อเมื่อมีการแสดงความคิดเห็นว่าเป็นมิตรหรือไม่กับผู้ใช้ภายนอก

— ราเชล

@ ราเชลฉันไม่คิดว่าถูกต้อง หากพวกเขาวัดว่าบุคคลภายนอกรับรู้ความคิดเห็นเกี่ยวกับ SO พวกเขาต้องการชุดตัวอย่างขนาดใหญ่กว่า 20 คน

— คริสโตเฟอร์

มันคือความแตกต่างระหว่างการสรุปบางสิ่งเกี่ยวกับวิธีการที่คนภายนอกรับรู้ความคิดเห็นและการสรุปบางสิ่งเกี่ยวกับความคิดเห็นด้วยตนเอง ในกรณีแรกคุณจะต้องมีกลุ่มตัวอย่างจำนวนมากขึ้นและข้อสรุปก็คือ "คนนอกคิดว่า 2.3% ของความคิดเห็น SO นั้นไม่เป็นมิตร" ในครั้งที่สองนั่นคือ "2.3% ของความคิดเห็น SO นั้นไม่เป็นมิตร" มันเป็นข้อสรุปที่แตกต่างกันและฉันคิดว่าอันที่สองอาจเป็นไปไม่ได้ที่จะทำเพราะเราไม่สามารถแสดงให้เห็นว่าผู้เขียนโค้ดประเมินความคิดเห็นในทำนองเดียวกันโดยไม่ต้องทดสอบความน่าเชื่อถือ

— คริสโตเฟอร์

@ คริสโตเฟอร์ความเป็นมิตรเป็นส่วนตัวมากแม้ว่า ความคิดเห็นแบบเดียวกันสามารถดูได้ว่าเป็นมิตรและไม่เป็นมิตรหรือไม่ นั่นคือเหตุผลที่ฉันคิดว่ามันสำคัญกว่าที่จะได้รับมุมมองจากผู้ใช้จำนวนมากแบบสุ่มแทนที่จะเป็นคนที่มีมุมมองแบบเดียวกับคุณ

— ราเชล

คำตอบ:

ข้อตกลงร้อยละ (with tolerance = 0): 0.0143

ข้อตกลงร้อยละ (with tolerance = 1): 11.8

อัลฟาของ Krippendorff: 0.1529467

ข้อตกลงมาตรการเหล่านี้ระบุว่าไม่มีข้อตกลงแบบ categorial - coder แต่ละอันมีจุดตัดภายในของเขาหรือเธอสำหรับการตัดสินความคิดเห็นว่า

หากเราสมมติว่ามีการเรียงลำดับทั้งสามประเภทเช่น: ไม่เป็นมิตร <เป็นกลาง <เป็นมิตรเราสามารถคำนวณความสัมพันธ์ภายในเซลล์เป็นมาตรการอีกข้อหนึ่ง จากตัวอย่างแบบสุ่ม 1,000 ความคิดเห็นมี ICC (2,1) จาก. 28 และ ICC (2, k) เป็น. 88 ซึ่งหมายความว่าหากคุณจะรับเพียงหนึ่งใน 20 ผู้ให้คะแนนผลลัพธ์จะไม่น่าเชื่อถือมาก (.28) หากคุณใช้ผู้ประเมิน 20 คนโดยเฉลี่ยผลลัพธ์นั้นน่าเชื่อถือ (.88) จากการรวมกันของผู้ประเมินสามคนที่แตกต่างกันความน่าเชื่อถือเฉลี่ยอยู่ระหว่าง. 50 ถึง. 60 ซึ่งยังคงถูกตัดสินว่าต่ำเกินไป

ค่าสหสัมพันธ์แบบไบวาเรตโดยเฉลี่ยระหว่างสองโคเดอเรเตอร์คือ 0.34 ซึ่งค่อนข้างต่ำ

หากมาตรการข้อตกลงเหล่านี้ถูกมองว่าเป็นการวัดคุณภาพของผู้เขียนโคเดอร์ (ผู้ที่ควรแสดงข้อตกลงที่ดีจริง ๆ ) คำตอบคือ: พวกเขาไม่ได้เป็นนักเขียนโค้ดที่ดีและควรได้รับการฝึกอบรมที่ดีขึ้น หากสิ่งนี้ถูกมองว่าเป็นการวัดว่า "ข้อตกลงที่เกิดขึ้นเองในหมู่บุคคลที่สุ่มได้ผลดีเพียงใด" คำตอบก็คือ: ไม่สูงมาก ในฐานะที่เป็นมาตรฐานความสัมพันธ์โดยเฉลี่ยสำหรับการจัดอันดับความน่าดึงดูดทางกายภาพอยู่ที่ประมาณ. 47 - .71 [1]

[1] Langlois, JH, Kalakanis, L. , Rubenstein, AJ, Larson, A. , Hallam, M. , & Smoot, M. (2000) Maxims หรือ Myths of Beauty? การวิเคราะห์อภิมานและการทบทวนเชิงทฤษฎี แถลงการณ์ทางจิตวิทยา, 126, 390–423 ดอย: 10.1037 / 0033-2909.126.3.390

— เฟลิกซ์เอส
แหล่งที่มา

ความน่าเชื่อถือของคะแนนจะถูกตีความบ่อยในแง่ของความคลาสสิกทดสอบทฤษฎี ที่นี่มีคะแนนจริงXแต่สิ่งที่คุณสังเกตที่ผลลัพธ์เฉพาะใด ๆ ไม่ได้เป็นเพียงคะแนนจริง แต่คะแนนจริงมีข้อผิดพลาดบางอย่าง (เช่นObserved = X + error) ในทางทฤษฎีโดยใช้มาตรการการสังเกตหลายอย่างของการทดสอบพื้นฐานเดียวกัน (การตั้งสมมติฐานเกี่ยวกับการแจกแจงข้อผิดพลาดของการทดสอบเหล่านั้น) สามารถวัดคะแนนจริงที่ไม่ได้ตรวจสอบได้

หมายเหตุที่นี่ในกรอบการทำงานนี้ที่คุณต้องสมมติว่าการวัดหลายอย่างที่คุณสังเกตเห็นนั้นเป็นการวัดการทดสอบพื้นฐานเดียวกัน ความน่าเชื่อถือที่ไม่ดีของรายการทดสอบนั้นมักถูกนำมาเป็นหลักฐานว่ามาตรการที่สังเกตได้ไม่ได้วัดการทดสอบพื้นฐานเดียวกัน นี่เป็นเพียงแบบแผนของสนามแม้ว่าความน่าเชื่อถือที่ไม่ดีในตัวมันเองและไม่ได้พิสูจน์ (ในแง่สถิติใด ๆ ) รายการที่ไม่ได้วัดโครงสร้างเดียวกัน ดังนั้นจึงอาจเป็นที่ถกเถียงกันอยู่ว่าการใช้มาตรการที่สังเกตหลายอย่างแม้ว่าจะมีการทดสอบที่ไม่น่าเชื่อถือมากก็ตามเราก็สามารถวัดความน่าเชื่อถือของคะแนนจริงได้

นอกจากนี้ยังหมายถึงว่าทฤษฎีการทดสอบแบบคลาสสิกไม่จำเป็นต้องเป็นวิธีเดียวในการตีความการทดสอบและ scholors จำนวนมากจะแย้งว่าแนวคิดของตัวแปรแฝงและทฤษฎีการตอบสนองรายการนั้นเหมาะสมกว่าทฤษฎีการทดสอบแบบดั้งเดิมเสมอ

นอกจากนี้ข้อสันนิษฐานที่คล้ายกันในทฤษฎีการทดสอบแบบดั้งเดิมก็คือเมื่อคนพูดว่าความน่าเชื่อถือสูงเกินไป มันไม่ได้พูดอะไรเกี่ยวกับความถูกต้องของรายการเฉพาะที่วัดการทดสอบพื้นฐานบางอย่าง แต่เมื่อความน่าเชื่อถือสูงเกินไปนักวิจัยก็ใช้เป็นหลักฐานว่าข้อผิดพลาดระหว่างการทดสอบนั้นไม่ขึ้นอยู่กับความเป็นจริง

ฉันไม่แน่ใจว่าทำไมคุณถึงโกรธแค้นที่จะไม่เข้าไปและคำนวณความน่าเชื่อถือด้วยตัวคุณเอง เหตุใดจึงไม่สามารถทำสิ่งนี้และตีความการวิเคราะห์ในภายหลังของข้อมูลเพิ่มเติมนี้?

— แอนดี้ดับบลิว
แหล่งที่มา

ดังนั้นก่อนอื่นให้ฉันชี้ให้เห็นว่าฉันไม่ได้เป็นนักเรียนระดับบัณฑิตศึกษาที่ทำสถิติอีกต่อไปด้วยเหตุผลที่ดี: มันไม่ใช่มือขวาของฉัน ฉันอาจจะเข้าใจผิดวิธีการ ฉันคิดว่าคุณและฉันอาจกำลังพูดถึงการวัดความน่าเชื่อถือที่แตกต่างกันหรืออย่างน้อยก็มีการวิจัยเพื่อแนะนำการวัดความน่าเชื่อถือของเครื่องแปลงรหัสก่อนที่การวิเคราะห์ขั้นสุดท้ายจะดำเนินการเพื่อความถูกต้อง ฉันได้แก้ไขคำถามเพื่อรวมแหล่งข้อมูลเดียวที่ฉันพบในเว็บซึ่งอ้างถึงการวิจัยเพิ่มเติมในเรื่องนี้อย่างมาก

— คริสโตเฟอร์

มันเป็นบริบทที่แตกต่างกัน (ความน่าเชื่อถือของรายการทดสอบแบบแยกส่วนแทนที่จะเป็นผลลัพธ์ต่อเนื่อง) แต่ตรรกะนั้นใช้งานได้เหมือนกัน ดังนั้นทำไมฉันไม่ได้พูดถึงการวัดความน่าเชื่อถือที่เฉพาะเจาะจง (มีจำนวนมาก) คำพูดของคุณไม่ได้ทำให้เข้าใจผิดเกี่ยวกับเรื่องbefore the final analysisดังนั้นฉันไม่แน่ใจว่าความคิดนั้นมาจากไหน

— Andy W

อ้า คุณถูกต้องแล้วมันไม่ได้ค่อนข้างต้องการ การอ่านเพิ่มเติมในลิงก์ที่ฉันโพสต์ดูเหมือนว่าการทดสอบนำร่องนี้ถือว่าเป็นวิธีปฏิบัติที่ดีที่สุด (ค้นหาการทดสอบนำร่องในนั้น)

— Christopher

ฉันเปลี่ยนคำถามเพื่อรองรับข้อมูลใหม่ ขอบคุณสำหรับความช่วยเหลือในการแก้ไขข้อผิดพลาดของฉัน

— คริสโตเฟอร์

คำถามอื่น ๆเกิดขึ้น

— คริสโตเฟอร์