ค่าเฉลี่ย (คะแนน) vs คะแนน (เรียงต่อกัน) ในการตรวจสอบข้าม


15

TLDR:

ชุดข้อมูลของฉันมีขนาดค่อนข้างเล็ก (120) ตัวอย่าง ในขณะที่ทำการตรวจสอบข้าม 10 เท่าฉันควร:

  1. รวบรวมผลลัพธ์จากการทดสอบแต่ละครั้งแล้วเรียงต่อกันเป็นเวกเตอร์แล้วคำนวณข้อผิดพลาดของการทำนายแบบเต็ม (ตัวอย่าง 120 ตัวอย่าง) หรือไม่

  2. หรือฉันควรแทนคำนวณข้อผิดพลาดในผลที่ฉันได้รับในแต่ละพับ (12 ตัวอย่างต่อเท่า) แล้วได้รับการประมาณการข้อผิดพลาดของฉันสุดท้ายเป็นค่าเฉลี่ยของ 10 ประมาณการผิดพลาดเท่า?

มีเอกสารทางวิทยาศาสตร์ใดบ้างที่โต้แย้งความแตกต่างระหว่างเทคนิคเหล่านี้


พื้นหลัง: ความสัมพันธ์ที่อาจเกิดขึ้นกับคะแนนแมโคร / Micro ในการจำแนกประเภทหลายฉลาก:

ฉันคิดว่าคำถามนี้อาจเกี่ยวข้องกับความแตกต่างระหว่างค่าเฉลี่ยไมโครและมาโครที่มักใช้ในงานการจำแนกประเภทหลายฉลาก (เช่นพูด 5 ป้ายกำกับ)

ในการตั้งค่าแบบหลายฉลากจะคำนวณคะแนนเฉลี่ยขนาดเล็กโดยการทำตารางสรุปรวมของค่าบวกจริงเท็จบวกลบจริงและลบเท็จสำหรับการพยากรณ์ลักษณนามทั้งหมด 5 ตัวใน 120 ตัวอย่าง ตารางฉุกเฉินนี้จะใช้ในการคำนวณความแม่นยำระดับไมโครการเรียกคืนแบบไมโครและการวัดไมโคร f ดังนั้นเมื่อเรามี 120 ตัวอย่างและตัวแยกประเภทห้าตัวการวัดขนาดเล็กจะคำนวณจากการคาดการณ์ 600 ครั้ง (120 ตัวอย่าง * 5 ป้าย)

เมื่อใช้ตัวแปรมาโครหนึ่งจะคำนวณการวัด (ความแม่นยำการเรียกคืนและอื่น ๆ ) อย่างเป็นอิสระในแต่ละฉลากและสุดท้ายมาตรการเหล่านี้จะถูกเฉลี่ย

แนวคิดที่อยู่เบื้องหลังความแตกต่างระหว่างการประมาณแบบmicro vs Macroอาจขยายไปถึงสิ่งที่สามารถทำได้ในการตั้งค่า K-fold ในปัญหาการจำแนกประเภทไบนารี สำหรับ 10 เท่าเราสามารถเฉลี่ยมากกว่า 10 ค่า (การวัดมาโคร ) หรือทำการต่อ 10 การทดลองและคำนวณวัดขนาดเล็ก

พื้นหลัง - ตัวอย่างที่ขยาย:

ตัวอย่างต่อไปนี้แสดงคำถาม สมมติว่าเรามี 12 ตัวอย่างทดสอบและเรามี 10 เท่า:

  • พับ 1 : TP = 4, FP = 0, TN = 8 Precision = 1.0
  • พับ 2 : TP = 4, FP = 0, TN = 8 Precision = 1.0
  • พับ 3 : TP = 4, FP = 0, TN = 8 Precision = 1.0
  • พับ 4 : TP = 0, FP = 12, Precision = 0
  • พับ 5 .. พับ 10 : ทั้งหมดมีTPเดียวกัน= 0, FP = 12 และแม่นยำ = 0

ที่ฉันใช้สัญกรณ์ต่อไปนี้:

TP = # ของ True Positives, FP = # False Positive, TN = # ของ True Negatives

ผลลัพธ์ที่ได้คือ:

  • ความแม่นยำเฉลี่ยในช่วง 10 เท่า = 3/10 = 0.3
  • ความแม่นยำในการต่อเชื่อมการคาดคะเน 10 เท่า = TP / TP + FP = 12/12 + 84 = 0.125

โปรดทราบว่าค่า 0.3 และ 0.125 นั้นแตกต่างกันมาก !


CV ไม่ใช่ตัวชี้วัดที่ยอดเยี่ยมในการทำนายประสิทธิภาพในอนาคต ความแปรปรวนเล็กเกินไป ดีกว่าไปด้วย bootstrap เพื่อตรวจสอบรุ่นของคุณ
user765195

2
@ user765195: คุณสำรองข้อมูลการอ้างสิทธิ์ของคุณด้วยการอ้างอิงบางส่วนได้หรือไม่?
ซัค

ฉันค้นหามาแล้วแต่ไม่พบวรรณกรรมใด ๆ เกี่ยวกับวิธีรวม CV ดูเหมือนจะเป็นวิธีที่เหมาะสมกว่าในการคำนวณการวัดเนื่องจากมีความแปรปรวนน้อยกว่า
user13420

1
@Zach มีการสนทนาบางอย่างที่นี่ในหนังสือของ Harrell: tinyurl.com/92fsmuv (ดูย่อหน้าสุดท้ายในหน้า 93 และย่อหน้าแรกในหน้า 94) ฉันจะพยายามจดจำการอ้างอิงอื่นที่ชัดเจนกว่านี้
user765195

1
k

คำตอบ:


3

ความแตกต่างที่อธิบายไว้คือ IMHO ปลอม

คุณจะสังเกตได้เฉพาะในกรณีที่การกระจายตัวของกรณีที่เป็นบวกอย่างแท้จริง (เช่นวิธีการอ้างอิงบอกว่ามันเป็นกรณีที่เป็นบวก) นั้นไม่เท่ากันมากเท่า (เท่าในตัวอย่าง) และจำนวนของกรณีทดสอบที่เกี่ยวข้อง (ตัวส่วนของการวัดประสิทธิภาพ เรากำลังพูดถึงนี่บวกอย่างแท้จริง) จะไม่นำมาพิจารณาเมื่อเฉลี่ยค่าเฉลี่ยการพับ

412=13


แก้ไข: คำถามเดิมถามเกี่ยวกับการวนซ้ำ / การตรวจสอบซ้ำ:

k

  • การทำนายจะเปลี่ยนแปลงไปมากน้อยเพียงใดหากข้อมูลการฝึกอบรมถูกรบกวนโดยการแลกเปลี่ยนตัวอย่างการฝึกอบรมสองสามตัวอย่าง
  • คือการคาดการณ์ของแบบจำลอง "ตัวแทน" ที่แตกต่างกันนั้นแตกต่างกันไปสำหรับตัวอย่างทดสอบเดียวกันหรือไม่

คุณกำลังขอเอกสารทางวิทยาศาสตร์ :

การประเมินความแปรปรวนต่ำเกินไป ในที่สุดชุดข้อมูลของคุณมีขนาดตัวอย่าง จำกัด (n = 120) โดยไม่คำนึงถึงจำนวนบูตซ้ำหรือการตรวจสอบข้ามที่คุณทำ

  • คุณมีแหล่งที่มาของการแปรปรวน (อย่างน้อย) 2 แหล่งในการสุ่มตัวอย่างอีกครั้ง (การตรวจสอบความถูกต้องแบบไขว้และการบูทสแตรป):

    • ความแปรปรวนเนื่องจากจำนวน จำกัด ตัวอย่าง (ทดสอบ)
    • ความแปรปรวนเนื่องจากความไม่แน่นอนของการทำนายของตัวแบบตัวแทน
  • หากโมเดลของคุณมั่นคงแล้ว

    • k
    • อย่างไรก็ตามการประเมินประสิทธิภาพยังคงมีความแปรปรวนเนื่องจากจำนวนตัวอย่างทดสอบที่ จำกัด
    • หากโครงสร้างข้อมูลของคุณ "ง่าย" (เช่นหนึ่งเวกเตอร์การวัดเดียวสำหรับแต่ละกรณีที่เป็นอิสระทางสถิติ) คุณสามารถสรุปได้ว่าผลการทดสอบเป็นผลลัพธ์ของกระบวนการของ Bernoulli (การขว้างเหรียญ) และคำนวณความแปรปรวนของชุดทดสอบแบบ จำกัด
  • nk


นอกจากนี้ฉันกำลังจัดหมวดหมู่หลายฉลากด้วยสี่ตัวแยกประเภท ดังนั้นฉันจึงต้องการตรวจสอบมาตรการ Micro และ Macro F ใน 4 ภารกิจ ฉันสมมติว่าการรวมการตรวจสอบข้ามแบบ "รวมกัน" มีความจำเป็นอย่างยิ่งในกรณีนี้หรือไม่? นอกจากนี้ฉันไม่แน่ใจว่า out-of-bootstrap เหมือนกับวิธี CV "แบบรวม" ที่ฉันพูดถึงข้างต้น นอกจากนี้ยังมีการสนทนาบางอย่างที่stats.stackexchange.com/questions/4868/…
user13420

@ user13420: ทั้งฉันไม่แน่ใจว่าคุณหมายถึงอะไรกับ CV รวม ... นี่คือคำตอบที่ฉันเขียนลงสิ่งที่ out-of-bootstrap และการตรวจสอบข้ามหมายถึงฉัน: stats.stackexchange.com/a/26548/4598
cbeleites รองรับ โมนิก้า

@ user13420: คำศัพท์มีความแตกต่างกันมากในด้านต่าง ๆ คุณสามารถอัปเดตคำตอบของคุณพร้อมข้อมูลว่าอะไรคือมาตรการ Micro และ Macro F? อย่างไรก็ตามการตรวจสอบข้ามเป็นเทคนิคทั่วไปมาก: มันเป็นรูปแบบการคำนวณผลการทดสอบรูปแบบ คุณสามารถคำนวณการวัดประสิทธิภาพที่ต้องการใส่ค่าอ้างอิงสำหรับแต่ละกรณีและค่าที่ทำนายสำหรับแต่ละกรณี
cbeleites รองรับโมนิกา

CV ที่รวมกันหมายถึงคุณรวบรวมการคาดการณ์ของแต่ละคำสั่งซื้อและคำนวณการคำนวณหลังจากการถือ 10 ครั้งทั้งหมด ดังนั้นถ้าฉันวัดความแม่นยำจำสำหรับงานการจัดหมวดหมู่มันจะมีความแม่นยำเดียวเรียกคืนเมื่อเทียบกับ 10 ค่าและค่าเฉลี่ย (ซึ่งเป็นกรณีปกติ CV)
user13420

2
ขอบคุณ cbeleites - ฉันเพิ่มคำอธิบายเหล่านั้นเพราะฉันพบว่าถ้อยคำของคำถามต้นฉบับสับสนเล็กน้อย ฉันหวังว่าการแก้ไขของฉันจะเป็นไปในทางที่ดีขึ้น - ฉันพยายามเน้นที่ภาวะที่กลืนไม่เข้าคายไม่ออกได้ดีขึ้น - แต่โปรดแจ้งให้เราทราบเป็นอย่างอื่น ทั้งหมดที่กล่าวว่าเมื่อคุณบอกว่าคุณจะพบความแตกต่างปลอม - ผมอยากจะทราบว่า @ user13420 ได้รับสองผลลัพธ์ที่แตกต่างอย่างมีนัยสำคัญที่ด้านล่างของ OP ของเขาเมื่อทำตามแนวทางที่ 1หรือ2 ฉันพบว่าตัวเองกำลังเผชิญกับภาวะที่กลืนไม่เข้าคายไม่ออกนี้เอง ฉันเชื่อว่าวิธีที่2นั้นเป็นเรื่องธรรมดามากกว่า แต่ก็เป็นการดีที่คุณจะได้รับมัน
Josh

1

คุณควรทำคะแนน (เรียงต่อกัน) มันเป็นความเข้าใจผิดที่พบบ่อยในสาขาที่หมายถึง (คะแนน) เป็นวิธีที่ดีที่สุด มันสามารถแนะนำอคติเพิ่มเติมในการประมาณของคุณโดยเฉพาะอย่างยิ่งในชั้นเรียนที่หายากเช่นในกรณีของคุณ นี่คือกระดาษสำรอง:

http://www.kdd.org/exploration_files/v12-1-p49-forman-sigkdd.pdf

ในกระดาษพวกเขาใช้ "Favg" แทน "mean (score)" ของคุณและ "Ftp, fp" แทน "score (concatenation)" ของคุณ

ตัวอย่างของเล่น:

ลองนึกภาพว่าคุณมีการตรวจสอบความถูกต้องไขว้ 10 เท่าและคลาสที่ปรากฏขึ้น 10 ครั้งและได้รับมอบหมายให้ปรากฏขึ้นในแต่ละครั้ง นอกจากนี้คลาสยังสามารถคาดการณ์ได้อย่างถูกต้อง แต่มีข้อมูลเท็จบวกเดียว การทดสอบการพับที่ประกอบด้วยการบวกที่ผิดจะมีความแม่นยำ 50% ในขณะที่การทดสอบอื่น ๆ จะมี 100% ดังนั้นเฉลี่ย (คะแนน) = 95% ในทางกลับกันคะแนน (การต่อข้อมูล) คือ 10/11 ประมาณ 91%

หากเราสมมติว่าประชากรที่แท้จริงนั้นเป็นตัวแทนของข้อมูลและตัวจำแนกข้ามการตรวจสอบ 10 ตัวนั้นเป็นตัวแทนของตัวจําแนกสุดท้ายนั้นความถูกต้องในโลกแห่งความจริงจะอยู่ที่ 91% และการประเมินเฉลี่ย (คะแนน) 95% เป็นวิธีที่เอนเอียง .

ในทางปฏิบัติคุณจะไม่ต้องการตั้งสมมติฐานเหล่านั้น แต่คุณสามารถใช้สถิติการกระจายเพื่อประเมินความเชื่อมั่นโดยการสุ่มอนุญาตข้อมูลและคะแนนการคำนวณซ้ำ (การต่อข้อมูล) หลาย ๆ ครั้งรวมถึงการบูตสแตรป


นี่เป็นกระดาษที่ยอดเยี่ยม! ฉันคิดว่าผลลัพธ์ในภาษาของคำถามเดิม (ไม่ได้ใช้ในบทความ) คือเมื่อคำนวณคะแนน F ให้ใช้วิธีการ "เฉลี่ยขนาดเล็ก" โดยเฉพาะรวม TP, TN, FP, FN จากเท่าทั้งหมดเพื่อรับเมทริกซ์ความสับสนเดียวแล้วคำนวณคะแนน F (หรือตัวชี้วัดอื่น ๆ ที่ต้องการ)
การเดินทาง
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.