คำถาม:
ฉันมีข้อมูลเลขฐานสองสำหรับคำถามสอบ (ถูกต้อง / ไม่ถูกต้อง) บุคคลบางคนอาจเคยเข้าถึงชุดคำถามและคำตอบที่ถูกต้องมาก่อน ฉันไม่รู้ว่าใครเป็นใครหรืออะไร หากไม่มีการโกงคิดว่าฉันจะรูปแบบน่าจะเป็นของการตอบสนองที่ถูกต้องสำหรับรายการที่เป็นที่แสดงให้เห็นถึงความยากลำบากคำถามและคือความสามารถแฝงของแต่ละบุคคล นี่คือรูปแบบการตอบสนองข้อสอบที่ง่ายมากที่สามารถประมาณได้ด้วยฟังก์ชั่นเช่น Rasch LTM ของ () ในอาร์นอกจากนี้ยังมีการประมาณการZ J (ที่เจดัชนีบุคคล) ของตัวแปรแฝงฉันมีการเข้าถึงการประมาณการแยกต่างหากQญของตัวแปรแฝงเดียวกันซึ่งได้มาจากชุดข้อมูลอื่นที่ไม่สามารถทำการโกงได้
เป้าหมายคือการระบุบุคคลที่น่าจะถูกโกงและสิ่งของที่พวกเขาถูกโกง คุณอาจใช้แนวทางอะไรบ้าง? βฉัน , ซีเจและQญที่มีอยู่ทั้งหมดแม้จะเป็นครั้งแรกที่ทั้งสองจะมีอคติบางอย่างเกิดจากการโกง ตามหลักการแล้ววิธีแก้ปัญหาจะอยู่ในรูปแบบของการจัดกลุ่ม / การจัดกลุ่มความน่าจะเป็นแม้ว่าจะไม่จำเป็นก็ตาม แนวคิดเชิงปฏิบัติได้รับการต้อนรับอย่างสูงเช่นเดียวกับแนวทางที่เป็นทางการ
จนถึงตอนนี้ผมได้มีการเปรียบเทียบความสัมพันธ์ของคะแนนคำถามสำหรับคู่ของบุคคลที่มีสูงขึ้นเมื่อเทียบกับที่ลดลงQเจ- ซีเจคะแนน (ที่Qเจ- ซีเจเป็นดัชนีคร่าวๆของความน่าจะเป็นว่าพวกเขาโกง) ตัวอย่างเช่นผมเรียงบุคคลโดยQเจ- ซีเจแล้วพล็อตความสัมพันธ์ของคู่ต่อเนื่องของบุคคลคะแนนคำถาม ฉันยังพยายามวางแผนความสัมพันธ์เฉลี่ยของคะแนนสำหรับบุคคลที่มีคิวเจ- ซีเจมีค่ามากกว่า quantile ของQเจ- ซีเจเป็นหน้าที่ของn ไม่มีรูปแบบที่ชัดเจนสำหรับทั้งสองวิธี
UPDATE:
ฉันสิ้นสุดการรวมแนวคิดจาก @SheldonCooper และกระดาษ Freakonomics ที่เป็นประโยชน์ที่ @whuber ชี้ให้ฉันเห็น ความคิด / ความเห็น / วิจารณ์อื่น ๆ ยินดีต้อนรับ
Let เป็นคนที่ j ‘s คะแนนไบนารีกับคำถามฉัน ประมาณรูปแบบการตอบสนองรายการl o g ฉันt ( P r ( X ฉันj = 1 | z j ) = β ฉัน + z jโดยที่β ฉันเป็นพารามิเตอร์ความง่ายของรายการและz jเป็นตัวแปรความสามารถแฝง (เพิ่มเติม แบบจำลองที่ซับซ้อนสามารถทดแทนได้ฉันใช้ 2PL ในแอปพลิเคชันของฉัน) ตามที่ฉันพูดถึงในโพสต์ดั้งเดิมของฉันฉันมีการประมาณการ
ความน่าจะเป็นของคะแนนที่สังเกตได้ , เงื่อนไขเกี่ยวกับความง่ายของรายการและความสามารถของบุคคล, สามารถเขียนได้p i j = P r ( X i j = x i j | ^ β i , ^ q j ) = P i j ( ^ β i , ^ q j ) x i j ( 1 - P i j ( ^ β i)ที่ P i j ( ^ β i , ^ q j ) = i l o g i t ( ^ β i + ^ q j )คือความน่าจะเป็นที่คาดการณ์ของการตอบสนองที่ถูกต้อง, และฉันลิตรo กรัมฉันทีเป็น logit ผกผัน จากนั้นมีเงื่อนไขกับรายการและลักษณะบุคคลความน่าจะเป็นร่วมที่บุคคลนั้น
ขั้นตอนเพิ่มเติมที่ฉันพยายามคือการใช้ r% ของคนที่มีโอกาสน้อยที่สุด (เช่นคนที่มีค่า r% ต่ำสุดของค่า p_j ที่เรียงลำดับ) คำนวณระยะทางเฉลี่ยระหว่างคะแนนที่สังเกตเห็นของพวกเขา x_j (ซึ่งควรสัมพันธ์กับผู้ที่มี r ต่ำ เป็นตัวโกงที่เป็นไปได้) และเขียนเป็น r = 0.001, 0.002, ... , 1.000 ระยะทางเฉลี่ยเพิ่มขึ้นสำหรับ r = 0.001 ถึง r = 0.025, สูงสุดและจากนั้นลดลงอย่างช้าๆจนถึงขั้นต่ำที่ r = 1 ไม่ใช่สิ่งที่ฉันหวังไว้