2
ค่าเฉลี่ย (คะแนน) vs คะแนน (เรียงต่อกัน) ในการตรวจสอบข้าม
TLDR: ชุดข้อมูลของฉันมีขนาดค่อนข้างเล็ก (120) ตัวอย่าง ในขณะที่ทำการตรวจสอบข้าม 10 เท่าฉันควร: รวบรวมผลลัพธ์จากการทดสอบแต่ละครั้งแล้วเรียงต่อกันเป็นเวกเตอร์แล้วคำนวณข้อผิดพลาดของการทำนายแบบเต็ม (ตัวอย่าง 120 ตัวอย่าง) หรือไม่ หรือฉันควรแทนคำนวณข้อผิดพลาดในผลที่ฉันได้รับในแต่ละพับ (12 ตัวอย่างต่อเท่า) แล้วได้รับการประมาณการข้อผิดพลาดของฉันสุดท้ายเป็นค่าเฉลี่ยของ 10 ประมาณการผิดพลาดเท่า? มีเอกสารทางวิทยาศาสตร์ใดบ้างที่โต้แย้งความแตกต่างระหว่างเทคนิคเหล่านี้ พื้นหลัง: ความสัมพันธ์ที่อาจเกิดขึ้นกับคะแนนแมโคร / Micro ในการจำแนกประเภทหลายฉลาก: ฉันคิดว่าคำถามนี้อาจเกี่ยวข้องกับความแตกต่างระหว่างค่าเฉลี่ยไมโครและมาโครที่มักใช้ในงานการจำแนกประเภทหลายฉลาก (เช่นพูด 5 ป้ายกำกับ) ในการตั้งค่าแบบหลายฉลากจะคำนวณคะแนนเฉลี่ยขนาดเล็กโดยการทำตารางสรุปรวมของค่าบวกจริงเท็จบวกลบจริงและลบเท็จสำหรับการพยากรณ์ลักษณนามทั้งหมด 5 ตัวใน 120 ตัวอย่าง ตารางฉุกเฉินนี้จะใช้ในการคำนวณความแม่นยำระดับไมโครการเรียกคืนแบบไมโครและการวัดไมโคร f ดังนั้นเมื่อเรามี 120 ตัวอย่างและตัวแยกประเภทห้าตัวการวัดขนาดเล็กจะคำนวณจากการคาดการณ์ 600 ครั้ง (120 ตัวอย่าง * 5 ป้าย) เมื่อใช้ตัวแปรมาโครหนึ่งจะคำนวณการวัด (ความแม่นยำการเรียกคืนและอื่น ๆ ) อย่างเป็นอิสระในแต่ละฉลากและสุดท้ายมาตรการเหล่านี้จะถูกเฉลี่ย …