ต้องมีชุดฝึกอบรมขนาดใหญ่เท่าใด


24

มีวิธีการทั่วไปที่ใช้ในการกำหนดจำนวนตัวอย่างการฝึกอบรมที่จำเป็นในการฝึกอบรมลักษณนาม (LDA ในกรณีนี้) หรือไม่

ฉันถามเพราะฉันต้องการลดเวลาในการสอบเทียบให้น้อยที่สุดตามปกติในอินเทอร์เฟซของคอมพิวเตอร์สมอง


2
user2030669, @cbeleites คำตอบด้านล่างนั้นยอดเยี่ยม แต่โดยทั่วไปแล้วคุณต้องมีอย่างน้อย 6 เท่าของจำนวนเคส (ตัวอย่าง) เป็นฟีเจอร์
BGreene

2
... ในแต่ละชั้นเรียน ฉันเคยเห็นคำแนะนำของ 5p และ 3p / คลาสด้วย
cbeleites รองรับ Monica

คำตอบ:


31

ข้อความค้นหาที่คุณกำลังมองหาคือ "learning curve" ซึ่งให้ประสิทธิภาพของโมเดล (โดยเฉลี่ย) เป็นฟังก์ชันของขนาดตัวอย่างการฝึกอบรม

เส้นโค้งการเรียนรู้ขึ้นอยู่กับหลายสิ่งหลายอย่างเช่น

  • วิธีการจำแนก
  • ความซับซ้อนของลักษณนาม
  • การแยกชั้นเรียนทำได้ดีเพียงใด

(ฉันคิดว่าสำหรับ LDA สองระดับคุณอาจได้รับการคำนวณพลังงานเชิงทฤษฎี แต่ความจริงที่สำคัญคือว่าข้อมูลของคุณเป็นไปตามสมมติฐาน "COV หลายตัวแปรปกติ" เท่ากันหรือไม่ฉันจะลองจำลอง LDA ทั้งสอง สมมติฐานและการสุ่มข้อมูลที่มีอยู่แล้วของคุณใหม่)

n

  • nn=
  • n

    n

อีกแง่มุมที่คุณอาจต้องคำนึงถึงก็คือโดยปกติแล้วมันจะไม่เพียงพอที่จะฝึกอบรมตัวจําแนกที่ดี แต่คุณต้องพิสูจน์ว่าตัวจําแนกนั้นดี (หรือดีพอ) ดังนั้นคุณต้องวางแผนด้วยขนาดตัวอย่างที่จำเป็นสำหรับการตรวจสอบด้วยความแม่นยำที่กำหนด หากคุณต้องการให้ผลลัพธ์เหล่านี้เป็นส่วนหนึ่งของความสำเร็จในกรณีทดสอบจำนวนมาก (เช่นความแม่นยำ / ความแม่นยำ / ความไว / ค่าทำนายเชิงบวกของผู้ผลิตหรือผู้บริโภคของผู้บริโภคหรือผู้บริโภคเชิงบวก) และงานการจำแนกประเภทพื้นฐานค่อนข้างง่าย แบบอย่างที่ดี

ตามกฎของหัวแม่มือสำหรับการฝึกอบรมขนาดของกลุ่มตัวอย่างมักจะกล่าวถึงเกี่ยวกับความซับซ้อนของแบบจำลอง (จำนวนกรณี: จำนวนตัวแปร) ในขณะที่ขอบเขตแน่นอนของขนาดตัวอย่างทดสอบสามารถให้ได้เพื่อความแม่นยำที่ต้องการของการวัดประสิทธิภาพ

นี่คือกระดาษที่เราอธิบายสิ่งเหล่านี้ในรายละเอียดมากขึ้นและพูดคุยถึงวิธีการ
ระงับการเรียนรู้เส้นโค้ง: Beleites, C. และ Neugebauer, U. และ Bocklitz, T. และ Krafft, C. และ Popp, J: การวางแผนขนาดตัวอย่าง สำหรับแบบจำลองการจำแนกประเภท Anal Chim Acta, 2013, 760, 25-33
DOI: 10.1016 / j.aca.2012.11.007
ต้นฉบับที่ยอมรับใน arXiv: 1211.1323

นี่คือ "ทีเซอร์" ซึ่งแสดงปัญหาการจำแนกอย่างง่าย (จริง ๆ แล้วเรามีความแตกต่างง่าย ๆ เช่นนี้ในปัญหาการจำแนกประเภทของเรา แต่คลาสอื่น ๆ นั้นแยกได้ยากกว่ามาก): กระดาษวางแผนขนาดตัวอย่างทีเซอร์

เราไม่ได้พยายามคาดการณ์ถึงขนาดตัวอย่างการฝึกอบรมที่มีขนาดใหญ่ขึ้นเพื่อกำหนดว่าจำเป็นต้องใช้กรณีการฝึกอบรมมากขึ้นเพียงใดเนื่องจากขนาดตัวอย่างการทดสอบเป็นปัญหาคอขวดของเราและขนาดตัวอย่างการฝึกอบรมที่ใหญ่ขึ้น สำหรับประเภทของชุดข้อมูลที่ฉันมีฉันจะเข้าหามันซ้ำแล้วซ้ำอีกวัดขนาดของกรณีใหม่แสดงให้เห็นว่าสิ่งต่าง ๆ ดีขึ้นมากขึ้นวัดขนาดของกรณีและอื่น ๆ

สิ่งนี้อาจแตกต่างกันสำหรับคุณ แต่กระดาษมีการอ้างอิงวรรณกรรมกับเอกสารโดยใช้การประมาณขนาดตัวอย่างที่สูงขึ้นเพื่อประเมินจำนวนตัวอย่างที่ต้องการ


การใช้รูปแบบการทำให้เป็นมาตรฐานสำหรับ LDA ของฉันทำให้ฉันสามารถทำงานกับชุดฝึกอบรมขนาดเล็กได้หรือไม่
Lunat1c

1
@ user2036690 โมเดลที่มีคุณลักษณะมากขึ้น (คุณสมบัติน้อยกว่า) จะต้องมีตัวอย่างการฝึกอบรมที่น้อยลง รูปแบบการทำให้เป็นมาตรฐานจะไม่ส่งผลกระทบต่อจำนวนตัวอย่างที่ต้องการหากจะลดผลกระทบของคุณสมบัติที่สำคัญน้อยกว่า การหาเหตุผลเข้าข้างตนเองของคุณสมบัติบางอย่างอาจช่วยให้ชุดการฝึกอบรมมีขนาดเล็กลง
BGreene

1
แต่การเลือกคุณสมบัติที่ขับเคลื่อนด้วยข้อมูลนั้นต้องการตัวอย่างจำนวนมหาศาลเนื่องจากการเปรียบเทียบแต่ละแบบจำลองนั้นเป็นการทดสอบทางสถิติ อย่างไรก็ตามการเลือกคุณสมบัติโดยความรู้จากผู้เชี่ยวชาญสามารถช่วยได้ทันที @BGreene: คุณสามารถขยายได้ว่าทำไมการทำให้เป็นมาตรฐานไม่สามารถช่วยลดความต้องการขนาดตัวอย่าง (เช่นการพิจารณาสันบนความแปรปรวนร่วมแบบแปรปรวนแบบไม่มีเงื่อนไข) IMHO มันไม่สามารถทำสิ่งมหัศจรรย์ได้ แต่มันสามารถช่วยได้
cbeleites รองรับ Monica

ถ้าไม่มีการพูดคุยเรื่องมหากาพย์ฉันหมายถึงสูตรปกติของฟรีดแมนมากกว่าสันหรือการลงโทษที่ถูกลงโทษอื่น ๆ แต่ค่าสัมประสิทธิ์ทั้งสองวิธีไม่ได้ลดลงเป็นศูนย์เหมือนใน Lasso ดังนั้นขนาดจึงไม่ได้รับผลกระทบซึ่งจะส่งผลต่อขนาดตัวอย่างที่ต้องการเพื่อหลีกเลี่ยงเมทริกซ์ที่วางไม่ดีตามที่คุณอ้างถึงข้างต้น ขออภัยหากสิ่งนี้ดูเหมือนว่าจะเป็นการเดินเล่น
BGreene

@BGreene: ไม่มีการท่องเที่ยวฉันถามกลับ คำถามที่น่าสนใจคือลดจำนวนความซับซ้อนของ df / ความซับซ้อนโดยการตั้งค่าสัมประสิทธิ์เป็นศูนย์ด้วยวิธีการที่ขับเคลื่อนด้วยข้อมูล อย่างไรก็ตามพวกเรากำลังล่องลอยไปในอีกเรื่องหนึ่ง ...
cbeleites รองรับ Monica

4

การถามเกี่ยวกับขนาดตัวอย่างการฝึกอบรมหมายความว่าคุณจะต้องเก็บข้อมูลไว้เพื่อการตรวจสอบความถูกต้องของแบบจำลอง นี่เป็นกระบวนการที่ไม่แน่นอนที่ต้องใช้ตัวอย่างขนาดใหญ่ การตรวจสอบภายในที่รัดกุมด้วย bootstrap มักเป็นที่ต้องการ หากคุณเลือกพา ธ นั้นคุณต้องคำนวณขนาดตัวอย่างเพียงอันเดียว ดังที่ @cbeleites ระบุไว้เป็นอย่างดีสิ่งนี้มักจะเป็นการประเมิน "เหตุการณ์ต่อตัวแปรที่มีตัวเลือก" แต่คุณต้องมีการสังเกตอย่างน้อย 96 ครั้งเพื่อทำนายความน่าจะเป็นของผลเลขฐานสองได้อย่างถูกต้องแม้ว่าจะไม่มีคุณสมบัติที่จะตรวจสอบ 0.95 ความเชื่อมั่นของความผิดพลาด 0.1 ในการประมาณความน่าจะเป็นที่เกิดขึ้นจริงที่ Y = 1]

มันเป็นสิ่งสำคัญที่จะต้องพิจารณากฎการให้คะแนนที่เหมาะสมสำหรับการประเมินความถูกต้อง (เช่นคะแนน Brier และความน่าจะเป็นของบันทึก / การเบี่ยงเบน) นอกจากนี้ตรวจสอบให้แน่ใจว่าคุณต้องการจัดหมวดหมู่การสังเกตแทนที่จะประเมินความน่าจะเป็นสมาชิก หลังมีประโยชน์มากขึ้นเกือบทุกครั้งเนื่องจากอนุญาตให้มีโซนสีเทา

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.