ฉันไม่มีหนังสือ Fleiss อยู่ในมือดังนั้นทั้งหมดนี้คือ IIRC
ตอบคำถามของ @ JohnMoeller ในความคิดเห็นในขณะนี้: คำถามเดิมคือ IMHO ไม่สามารถตอบได้เหมือนเดิม
สมมติว่าฉันมีตัวอย่าง 30 ชิ้นและฉันทดสอบ c1 และ c2 ในแต่ละตัวอย่างและบันทึกความแม่นยำสำหรับแต่ละตัวอย่าง
การทำเช่นนี้คุณจะสิ้นสุดด้วยตารางฉุกเฉิน 2 x 2 ที่ให้ลักษณนาม 1 ถูกต้อง / ไม่ถูกต้องกับลักษณนาม 2 ถูกต้อง / ไม่ถูกต้อง ซึ่งเป็นจุดเริ่มต้นสำหรับการทดสอบ McNemar ของ ดังนั้นนี่คือการเปรียบเทียบแบบจับคู่ซึ่งมีประสิทธิภาพมากกว่าการเปรียบเทียบสัดส่วน "อิสระ" (ซึ่งไม่ได้เป็นอิสระอย่างสมบูรณ์หากพวกเขามาจากการสุ่มจากกลุ่มตัวอย่าง จำกัด )
ฉันไม่สามารถค้นหา "พิมพ์เล็ก" ของ McNemar ได้ในขณะนี้ แต่ตัวอย่าง 30 รายการไม่มาก ดังนั้นคุณอาจต้องเปลี่ยนจาก McNemar's ไปเป็นการทดสอบที่แน่นอนของ Fisher [หรืออย่างอื่น] ซึ่งคำนวณความน่าจะเป็นแบบทวินาม
หมายความว่าสัดส่วน:
มันไม่สำคัญว่าคุณจะทดสอบตัวแยกประเภทหนึ่งตัวและ 10x เดียวกันกับกรณีทดสอบ 10 ข้อหรือครั้งเดียวกับกรณีทั้งหมด 100 กรณี (ตาราง 2 x 2 เพียงนับกรณีทดสอบทั้งหมด)
หากการประมาณค่าความถูกต้อง 10 ครั้งสำหรับตัวจําแนกแต่ละตัวในคำถามต้นฉบับนั้นได้มาจากการสุ่มการตรวจสอบความถูกต้องแบบครอสหรือ 10-fold หรือ 10 เท่าของการบูตแบบสเต็ป มีความแม่นยำเหมือนกัน) ดังนั้นผลการทดสอบสามารถรวบรวมได้ * สำหรับการตรวจสอบความถูกต้องไขว้ 10 เท่าคุณจะสมมติว่าขนาดตัวอย่างทดสอบเท่ากับจำนวนตัวอย่างทดสอบทั้งหมด สำหรับวิธีอื่น ๆ ฉันไม่แน่ใจ: คุณอาจทดสอบกรณีเดียวกันมากกว่าหนึ่งครั้ง ขึ้นอยู่กับข้อมูล / ปัญหา / แอปพลิเคชันซึ่งไม่ได้เป็นข้อมูลมากเท่ากับการทดสอบเคสใหม่
k
knp^=knσ2(p^)=σ2(kn)=p(1−p)n