ชุดการตรวจสอบความถูกต้องที่ใหญ่กว่านั้นให้การประมาณการที่แม่นยำยิ่งขึ้นเกี่ยวกับประสิทธิภาพที่ไม่อยู่ในกลุ่มตัวอย่าง แต่ดังที่คุณสังเกตเห็นว่าในบางจุดการประมาณนั้นอาจแม่นยำเท่าที่คุณต้องการและคุณสามารถทำการคาดการณ์คร่าวๆเกี่ยวกับขนาดตัวอย่างการตรวจสอบความถูกต้องที่คุณต้องไปให้ถึงจุดนั้น
เพื่อความแม่นยำในการจำแนกประเภทที่ถูกต้อง / ไม่ถูกต้องคุณสามารถคำนวณข้อผิดพลาดมาตรฐานของการประมาณเป็น (ค่าเบี่ยงเบนมาตรฐานของตัวแปร Bernouilli) โดยที่คือความน่าจะเป็นของการจำแนกประเภทที่ถูกต้องคือขนาดของชุดการตรวจสอบความถูกต้อง แน่นอนคุณไม่รู้แต่คุณอาจมีความคิดเกี่ยวกับช่วงของมัน เช่นสมมติว่าคุณคาดหวังความถูกต้องระหว่าง 60-80% และคุณต้องการให้ค่าประมาณของคุณมีข้อผิดพลาดมาตรฐานน้อยกว่า 0.1%:
ขนาดใหญ่ควร (ขนาดเท่ากับ ชุดการตรวจสอบ) เป็นอย่างไร สำหรับเราได้รับ:
สำหรับ pnp √p ( 1 - p ) / n---------√พีnพีnp=0.6n> 0.6 - 0.6 2
p ( 1 - p ) / n---------√< 0.001
np = 0.6p=0.8n>0.8-0.82n > 0.6 - 0.620.0012= 240 , 000
p = 0.8เราได้รับ:
ดังนั้นสิ่งนี้บอกเราว่าคุณสามารถหลีกเลี่ยงการใช้ตัวอย่างข้อมูลน้อยกว่า 5% จาก 5 ล้านตัวอย่างเพื่อตรวจสอบความถูกต้อง เปอร์เซ็นต์นี้จะลดลงหากคุณคาดหวังประสิทธิภาพที่สูงขึ้นหรือโดยเฉพาะอย่างยิ่งถ้าคุณพอใจกับข้อผิดพลาดมาตรฐานที่ต่ำกว่าของการประเมินประสิทธิภาพแบบไม่อยู่ในกลุ่มตัวอย่าง (เช่นและสำหรับ se <1% คุณต้องการตัวอย่างการตรวจสอบเพียง 2100 เท่านั้น หรือน้อยกว่าหนึ่งในยี่สิบของเปอร์เซ็นต์ของข้อมูลของคุณ)
p=0.7n > 0.8 - 0.820.0012= 160 , 000
p = 0.7
การคำนวณเหล่านี้ยังแสดงถึงจุดที่ทิมตอบไว้ว่าความแม่นยำของการประมาณการของคุณขึ้นอยู่กับขนาดที่แน่นอนของชุดการตรวจสอบความถูกต้องของคุณ (เช่นใน ) แทนที่จะเป็นขนาดที่สัมพันธ์กับชุดฝึกอบรมn
(นอกจากนี้ฉันอาจเพิ่มว่าฉันสมมติการสุ่มตัวอย่างตัวแทนที่นี่ถ้าข้อมูลของคุณแตกต่างกันมากคุณอาจต้องใช้ชุดการตรวจสอบความถูกต้องที่ใหญ่กว่าเพื่อให้แน่ใจว่าข้อมูลการตรวจสอบมีเงื่อนไขเดียวกันทั้งหมดเช่นข้อมูลรถไฟและการทดสอบของคุณ )