คำถามติดแท็ก agreement-statistics

2
Joel Spolsky ของ“ Hunting of the Snark” โพสต์การวิเคราะห์เนื้อหาทางสถิติที่ถูกต้องหรือไม่?
หากคุณได้อ่านแถลงการณ์ของชุมชนเมื่อเร็ว ๆ นี้คุณน่าจะได้เห็นThe Hunting of the Snarkโพสต์บนบล็อก StackExchange อย่างเป็นทางการโดย Joel Spolsky ซีอีโอของเครือข่าย StackExchange เขากล่าวถึงการวิเคราะห์ทางสถิติที่ดำเนินการบนตัวอย่างของความคิดเห็น SE เพื่อประเมิน "ความเป็นมิตร" ของพวกเขาจากมุมมองของผู้ใช้ภายนอก ความคิดเห็นถูกสุ่มตัวอย่างจาก StackOverflow และนักวิเคราะห์เนื้อหาเป็นสมาชิกของชุมชน Mechanical Turk ของ Amazon ซึ่งเป็นตลาดสำหรับการทำงานที่เชื่อมโยง บริษัท กับคนงานที่ทำงานเล็ก ๆ น้อย ๆ และมีค่าธรรมเนียมสั้น ๆ เมื่อไม่นานที่ผ่านมาผมเป็นนักศึกษาระดับบัณฑิตศึกษาในสาขาวิทยาศาสตร์ทางการเมืองและเป็นหนึ่งในชั้นเรียนที่ผมเอาถูกวิเคราะห์เนื้อหาทางสถิติ โครงการสุดท้ายของชั้นเรียนโดยมีวัตถุประสงค์คือเพื่อทำการวิเคราะห์รายละเอียดเกี่ยวกับการรายงานสงครามของ New York Timesเพื่อทดสอบว่ามีสมมติฐานมากมายหรือไม่ที่ชาวอเมริกันทำเกี่ยวกับการรายงานข่าวในช่วงสงครามอย่างถูกต้อง ไม่). โครงการมีขนาดใหญ่และค่อนข้างสนุก แต่ส่วนที่เจ็บปวดที่สุดคือ 'การฝึกอบรมและการทดสอบความน่าเชื่อถือ' ซึ่งเกิดขึ้นก่อนที่เราจะทำการวิเคราะห์อย่างเต็มรูปแบบ มันมีวัตถุประสงค์สองประการ (ดูหน้า 9 ของกระดาษที่เชื่อมโยงเพื่อดูคำอธิบายโดยละเอียดรวมถึงการอ้างอิงถึงมาตรฐานความน่าเชื่อถือของตัวแปลงรหัสในเอกสารการวิเคราะห์เนื้อหาทางสถิติ): ยืนยันผู้เขียนโค้ดทั้งหมดเช่นผู้อ่านเนื้อหาได้รับการฝึกอบรมตามข้อกำหนดเชิงคุณภาพเดียวกัน ในการวิเคราะห์ของโจเอลสิ่งนี้หมายความว่าทุกคนจะรู้ได้อย่างชัดเจนว่าโครงการกำหนด "เป็นมิตร" …

2
ความน่าเชื่อถือระหว่างผู้ประเมินสำหรับข้อมูลอันดับหรือช่วงเวลา
วิธีการความน่าเชื่อถือระหว่างผู้ใดที่เหมาะสมที่สุดสำหรับข้อมูลลำดับหรือช่วงเวลา? ฉันเชื่อว่า "ความน่าจะเป็นร่วมกันของข้อตกลง" หรือ "คัปปา" ได้รับการออกแบบมาสำหรับข้อมูลเล็กน้อย ในขณะที่สามารถใช้ "Pearson" และ "Spearman" ได้ส่วนใหญ่จะใช้สำหรับผู้ประเมินสองคน (แม้ว่าพวกเขาจะสามารถใช้งานได้มากกว่าสองผู้ประเมิน) มาตรการอื่นใดที่เหมาะสมสำหรับข้อมูลลำดับหรือช่วงเวลาเช่นมากกว่าสองผู้ประเมิน

5
ฉันจะจัดการกับผลกระทบของเครื่องหมายที่มีระดับความเอื้ออาทรแตกต่างกันได้ดีที่สุดในการให้คะแนนนักเรียนอย่างไร
นักเรียนประมาณ 600 คนมีคะแนนการประเมินอย่างกว้างขวางซึ่งสามารถสันนิษฐานได้ว่ามีความน่าเชื่อถือ / ความถูกต้องที่ดี การประเมินคะแนนจาก 100 และเป็นการทดสอบแบบปรนัยทำเครื่องหมายโดยคอมพิวเตอร์ นักเรียน 600 คนเหล่านั้นยังมีคะแนนในส่วนที่สองรองลงมาจากการประเมิน ในการประเมินชิ้นที่สองนี้พวกเขาถูกแบ่งออกเป็น 11 หมู่ด้วยนักเรียนระดับ 11 ที่แตกต่างกันและมีระดับความแปรปรวนระหว่างนักเรียนระดับใหญ่ในแง่ของ 'ความเอื้ออาทร' ของพวกเขาในการทำเครื่องหมายหรือขาด การประเมินครั้งที่สองนี้ได้คะแนนจาก 100 นักเรียนไม่ได้รับการมอบหมายให้มีการสุ่มและมีเหตุผลที่ดีที่จะคาดหวังความแตกต่างของระดับทักษะระหว่างกลุ่ม ฉันได้นำเสนอด้วยภารกิจของการทำให้มั่นใจว่าความแตกต่างระหว่างตัวทำเครื่องหมายหมู่ตามการมอบหมายครั้งที่สองไม่เป็นประโยชน์ต่อนักเรียนแต่ละคนอย่างมีนัยสำคัญ / เสียเปรียบ ความคิดของฉันคือการได้รับคะแนนหมู่ในการประเมินครั้งที่สองเพื่อให้สอดคล้องกับคะแนนหมู่ในครั้งแรกในขณะที่รักษาความแตกต่างระหว่างบุคคลภายในกลุ่ม เราควรสมมติว่าฉันมีเหตุผลที่ดีที่จะเชื่อว่าการทำงานของทั้งสองงานนั้นจะมีความสัมพันธ์กันสูง แต่เครื่องหมายนั้นแตกต่างกันอย่างมากในความเอื้ออาทรของพวกเขา นี่เป็นวิธีที่ดีที่สุดหรือไม่? ถ้าไม่เป็นอะไร มันจะได้รับการชื่นชมอย่างมากหากผู้ตอบสามารถให้คำแนะนำที่เป็นประโยชน์เกี่ยวกับวิธีการใช้โซลูชันที่ดีพูดใน R หรือ SPSS หรือ Excel

2
ความน่าเชื่อถือระหว่างกลางสำหรับเหตุการณ์ในอนุกรมเวลาที่มีความไม่แน่นอนเกี่ยวกับเวลาของเหตุการณ์
ฉันมีผู้เขียนโค้ดอิสระหลายคนที่พยายามระบุเหตุการณ์ในอนุกรมเวลา - ในกรณีนี้ดูวิดีโอการสนทนาแบบตัวต่อตัวและมองหาพฤติกรรมที่ไม่เกี่ยวกับภาษา (เช่นพยักหน้า) และการเข้ารหัสเวลาและหมวดหมู่ของแต่ละรายการ เหตุการณ์ ข้อมูลนี้อาจได้รับการพิจารณาว่าเป็นชุดข้อมูลที่ไม่ต่อเนื่องโดยมีอัตราการสุ่มตัวอย่างสูง (30 เฟรม / วินาที) หรือเป็นอนุกรมเวลาต่อเนื่องแล้วแต่ว่างานใดจะใช้งานได้ง่ายกว่า ฉันต้องการคำนวณความน่าเชื่อถือระหว่างผู้ประเมินบางอย่าง แต่ฉันคาดว่าจะมีความไม่แน่นอนเมื่อเกิดเหตุการณ์ขึ้น นั่นคือฉันคาดหวังว่า coder หนึ่งอาจยกตัวอย่างเช่นโค้ดที่การเคลื่อนไหวบางอย่างเริ่มต้นขึ้นภายในหนึ่งวินาทีหลังจากที่ตัวแปลงสัญญาณอื่นคิดว่ามันเริ่มต้นขึ้น สิ่งเหล่านี้เป็นเหตุการณ์ที่เกิดขึ้นน้อยมากหากสิ่งนั้นช่วยได้ โดยทั่วไปแล้วอย่างน้อยหลายวินาที (หลายร้อยเฟรมวิดีโอ) ระหว่างเหตุการณ์ มีวิธีที่ดีของการประเมินความน่าเชื่อถือระหว่างผู้ประเมินที่มีลักษณะที่ทั้งสองเหล่านี้ชนิดของข้อตกลงและความขัดแย้ง (1) ทำผู้ประเมินเห็นด้วยกับสิ่งที่เหตุการณ์ที่เกิดขึ้น (ถ้ามี) และ (2) พวกเขาไม่เห็นด้วยในเมื่อมันเกิดขึ้น? ข้อที่สองมีความสำคัญต่อฉันเพราะฉันสนใจที่จะดูเวลาของเหตุการณ์เหล่านี้เทียบกับสิ่งอื่น ๆ ที่เกิดขึ้นในการสนทนาเหมือนกับที่คนอื่นพูดกัน การฝึกมาตรฐานในสาขาของฉันดูเหมือนจะแบ่งสิ่งต่าง ๆ ออกเป็นชิ้นเวลาพูด 1/4 ของวินาทีหรือมากกว่านั้นรวมเหตุการณ์ที่ผู้ทำโค้ดแต่ละคนรายงานต่อเวลาชิ้นจากนั้นคำนวณคัปปาของโคเฮนหรือการวัดที่คล้ายกัน แต่ตัวเลือกระยะเวลาการแบ่งเป็นแบบเฉพาะกิจและฉันไม่ได้รับความคิดที่ดีเกี่ยวกับความไม่แน่นอนในช่วงเวลาของเหตุการณ์ ความคิดที่ดีที่สุดที่ฉันมีมาจนถึงตอนนี้คือฉันสามารถคำนวณกราฟความน่าเชื่อถือบางชนิดได้ สิ่งที่คล้ายคัปปาเป็นฟังก์ชั่นของขนาดของหน้าต่างที่ฉันพิจารณาสองเหตุการณ์ว่าถูกให้รหัสในเวลาเดียวกัน ฉันไม่แน่ใจจริงๆว่าจะไปจากที่นั่น ...

2
ฉันจะใช้ข้อมูลนี้เพื่อปรับเทียบเครื่องหมายที่มีระดับความเอื้ออาทรต่าง ๆ ในการให้คะแนนนักเรียนได้อย่างไร
อาจารย์ 12 คนกำลังสอนนักเรียน 600 คน 12 กลุ่มที่สอนโดยครูเหล่านี้มีขนาดตั้งแต่ 40 ถึง 90 นักเรียนและเราคาดหวังความแตกต่างอย่างเป็นระบบระหว่างกลุ่มเพื่อนเนื่องจากนักศึกษาระดับบัณฑิตศึกษาได้รับการจัดสรรอย่างไม่เป็นสัดส่วนกับกลุ่มเพื่อนโดยเฉพาะและประสบการณ์ก่อนหน้านี้แสดงให้เห็นว่า นักศึกษาระดับปริญญาตรี ครูได้ให้คะแนนเอกสารทั้งหมดในการศึกษาของพวกเขาและมอบหมายให้พวกเขาทำเครื่องหมายจาก 100 ครูแต่ละคนก็ดูกระดาษหนึ่งแผ่นที่สุ่มเลือกจากครูคนอื่นอีกสามคนและให้คะแนนจาก 100 ครูแต่ละคนมีเอกสารสามฉบับที่ครูอื่นทำเครื่องหมายไว้ กระดาษ 36 ชนิดที่แตกต่างกันได้ถูกทำเครื่องหมายด้วยวิธีนี้และฉันเรียกสิ่งนี้ว่าข้อมูลการสอบเทียบของฉัน ฉันยังสามารถดูจำนวนนักศึกษาระดับบัณฑิตศึกษาในแต่ละกลุ่ม คำถามของฉันคือ: A) ฉันจะใช้ข้อมูลการสอบเทียบนี้เพื่อปรับเครื่องหมายต้นฉบับได้อย่างไรเพื่อให้มีความยุติธรรม โดยเฉพาะอย่างยิ่งฉันต้องการล้างออกให้มากที่สุดเท่าที่เป็นไปได้ผลกระทบของผู้ผลิตที่ใจกว้าง / ไม่สุภาพมากเกินไป B) ข้อมูลการสอบเทียบของฉันมีความเหมาะสมเพียงใด ฉันไม่มีทางเลือกในจุดข้อมูลการสอบเทียบที่ค่อนข้าง จำกัด จำนวน 36 จุดที่ฉันได้รับในหลักสูตรนี้และไม่มีตัวเลือกในการรวบรวมเพิ่มเติมในระหว่างภาคการศึกษาปัจจุบัน อย่างไรก็ตามหากสถานการณ์นี้เกิดขึ้นอีกฉันอาจรวบรวมข้อมูลการสอบเทียบเพิ่มเติมหรือรวบรวมข้อมูลการสอบเทียบประเภทต่างๆ คำถามนี้สัมพันธ์กับคำถามยอดนิยมที่ฉันถามที่: ฉันจะจัดการกับผลกระทบของเครื่องหมายที่มีระดับความเอื้ออาทรแตกต่างกันในเอกสารการให้เกรดของนักเรียนได้อย่างไร . อย่างไรก็ตามมันเป็นหลักสูตรที่แตกต่างกันและฉันไม่แน่ใจว่าการอ่านคำถามนั้นมีประโยชน์เพียงใดสำหรับพื้นหลังปัจจุบันนี้เนื่องจากปัญหาหลักที่เกิดขึ้นคือฉันไม่มีข้อมูลการสอบเทียบ

1
การคำนวณความน่าเชื่อถือระหว่างผู้ใช้ใน R พร้อมกับจำนวนเรตติ้งที่หลากหลาย?
วิกิพีเดียแสดงให้เห็นว่าวิธีหนึ่งที่จะดูที่ความน่าเชื่อถือระหว่างผู้ประเมินคือการใช้แบบจำลองผลกระทบแบบสุ่มเพื่อคำนวณintraclass สัมพันธ์ ตัวอย่างของความสัมพันธ์ภายใน intraclass พูดถึงการมอง σ2ασ2α+σ2ϵσα2σα2+σϵ2\frac{\sigma_\alpha^2}{\sigma_\alpha^2+\sigma_\epsilon^2} จากแบบจำลอง Yij=μ+αi+ϵijYij=μ+αi+ϵijY_{ij} = \mu + \alpha_i + \epsilon_{ij} "ที่ Y IJเป็นเจTHสังเกตในฉันTHกลุ่มμเป็นค่าเฉลี่ยโดยรวมไม่มีใครสังเกต, α ฉันเป็นผลสุ่มสังเกตร่วมกันโดยค่าทั้งหมดในกลุ่ม i และε IJเป็นคำที่ไม่มีใครสังเกตเสียง." นี่เป็นรูปแบบที่น่าสนใจโดยเฉพาะอย่างยิ่งเพราะในข้อมูลของฉันไม่มีผู้ให้คะแนนทุกสิ่ง (แม้ว่าส่วนใหญ่จะได้อันดับ 20+) และสิ่งต่าง ๆ ได้รับการจัดอันดับเป็นจำนวนตัวแปรหลายครั้ง (โดยปกติ 3-4) คำถาม # 0: "group i" ในตัวอย่างนั้น ("group i") เป็นการจัดกลุ่มสิ่งต่าง ๆ หรือไม่ คำถาม # 1: ถ้าฉันกำลังมองหาความน่าเชื่อถือระหว่างผู้ประเมินฉันไม่จำเป็นต้องมีโมเดลเอฟเฟกต์แบบสุ่มที่มีสองคำหนึ่งคำสำหรับผู้ประเมินและอีกหนึ่งสำหรับสิ่งที่ได้รับการจัดอันดับ ท้ายที่สุดแล้วทั้งคู่มีรูปแบบที่เป็นไปได้ คำถาม # 2: ฉันจะแสดงโมเดลนี้ใน …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.