เราควรทำประวัติย่อเสมอ

9

คำถามของฉัน: ฉันควรทำ CV สำหรับชุดข้อมูลที่ค่อนข้างใหญ่หรือไม่?

ฉันมีชุดข้อมูลที่ค่อนข้างใหญ่และฉันจะใช้อัลกอริทึมการเรียนรู้ของเครื่องกับชุดข้อมูล

เนื่องจากพีซีของฉันไม่เร็ว CV บางครั้งอาจใช้เวลานานเกินไป โดยเฉพาะ SVM ไม่สิ้นสุดเพราะมีพารามิเตอร์การปรับแต่งมากมาย ดังนั้นถ้าฉันทำ CV ฉันต้องเลือกข้อมูลที่ค่อนข้างเล็ก

ในทางกลับกันชุดตรวจสอบควรมีขนาดใหญ่เช่นกันดังนั้นฉันคิดว่าเป็นความคิดที่ดีที่จะใช้ชุดตรวจสอบที่มีขนาดเท่ากัน (หรือใหญ่กว่า) ชุดฝึกอบรม (คือ CV แทนฉันใช้ชุดการตรวจสอบความถูกต้องขนาดใหญ่สำหรับการปรับพารามิเตอร์)

ตอนนี้ฉันมีอย่างน้อยสองตัวเลือก

ทำ CV ในชุดข้อมูลขนาดเล็ก
ใช้ชุดฝึกอบรมที่มีขนาดค่อนข้างใหญ่และชุดการตรวจสอบโดยไม่มีประวัติย่อ
ความคิดอื่น ๆ

ความคิดที่ดีที่สุดคืออะไร? ความคิดเห็นทั้งภาคทฤษฎีและภาคปฏิบัติยินดีต้อนรับ

machine-learning cross-validation

— H. ชินโด
แหล่งที่มา

1

คำถามนี้ชัดเจนว่าควรเป็น CW

— H. Shindoh

1

มีขนาดใหญ่อะไร มีข้อสังเกตกี่ข้อ? มีคุณสมบัติ / ตัวแปร / regressors กี่ตัว

— Jim

1

มันขึ้นอยู่กับพีซี คือฉันไม่ได้คิดเกี่ยวกับ "ข้อมูลขนาดใหญ่" ซึ่งต้องใช้คอมพิวเตอร์หลายเครื่อง

— H. Shindoh

3

โดยทั่วไปคุณไม่จำเป็นต้องใช้การตรวจสอบความถูกต้องไขว้ตลอดเวลา Point of CV คือการประมาณค่าความเสถียรโดยทั่วไปของตัวจําแนกของคุณว่าคุณจะใช้ชุดทดสอบเพียงชุดเดียว คุณไม่จำเป็นต้องใช้ CV หากชุดข้อมูลของคุณมีขนาดใหญ่มากดังนั้นการเพิ่มข้อมูลลงในชุดฝึกอบรมของคุณจะไม่ปรับปรุงโมเดลของคุณมากนักและมีการจัดประเภท missclass อีกเล็กน้อยในชุดทดสอบของคุณโดยบังเอิญโอกาสจะไม่เปลี่ยนเมตริกประสิทธิภาพของคุณ .

โดยมีชุดฝึกอบรมขนาดเล็กและชุดทดสอบขนาดใหญ่การประเมินของคุณจะถูกลำเอียง ดังนั้นมันอาจจะแย่กว่าสิ่งที่คุณจะได้รับโดยใช้ข้อมูลการฝึกอบรมมากขึ้นและพารามิเตอร์ที่เหมาะสมที่สุดที่คุณพบอาจแตกต่างกันสำหรับชุดข้อมูลขนาดใหญ่

อย่างไรก็ตามการได้รับ hyperparamters ที่ดีที่สุดไม่ใช่ส่วนสำคัญต่อไปและจะไม่ปรับปรุงประสิทธิภาพอย่างมาก คุณควรมุ่งเน้นพลังงานของคุณเพื่อทำความเข้าใจกับปัญหาการสร้างคุณสมบัติที่ดีและการรับข้อมูลให้อยู่ในสภาพดี

นี่คือบางสิ่งที่คุณสามารถพิจารณาเพื่อเร่งความเร็ว:

ฝึกฝนด้วยคุณสมบัติที่น้อยลง ใช้การเลือกคุณสมบัติและ / หรือการลดขนาดเพื่อลดขนาดของปัญหา
ใช้เคอร์เนลที่กำหนดไว้ล่วงหน้าสำหรับ SVM
ใช้อัลกอริทึมที่ไม่จำเป็นต้องเลือกพารามิเตอร์ไฮเปอร์ในกริด โดยเฉพาะอย่างยิ่งคนที่เป็นเส้นตรงเช่นการถดถอยแบบโลจิสติกที่มีการลงโทษแบบสัน / เชือก / ยืดหยุ่นสุทธิหรือ SVM เชิงเส้น ตัวแยกประเภทเหล่านั้นสามารถพอดีกับโมเดลสำหรับพารามิเตอร์หลายมิติทั้งหมดในเส้นทางที่เลือกสำหรับค่าใช้จ่ายในการติดตั้งเพียงอันเดียว
ใช้การติดตั้งที่รวดเร็วขึ้นสำหรับปัญหาของคุณ (คุณจะต้อง google)

และแม้กระทั่งกับคอมพิวเตอร์ที่ช้ากว่าคุณสามารถ:

ใช้แกนเพิ่มเติม
ใช้ GPU

— rep_ho
แหล่งที่มา

2

การตรวจสอบความถูกต้องไขว้เป็นเครื่องมือในการประมาณความแปรปรวนของตัวชี้วัดประสิทธิภาพของคุณเนื่องจากการสุ่มในข้อมูล (และอาจจะเป็นในอัลกอริทึมการเรียนรู้

ดังนั้นหากคุณใช้การแยกเพียงครั้งเดียวเช่นรถไฟ 80% การทดสอบ + 20% และรายงานตัวชี้วัดประสิทธิภาพของคุณจากการทดสอบเดี่ยวนี้มีโอกาสดีที่ทุกคนที่พยายามจำลองการทดสอบของคุณโดยใช้พารามิเตอร์เดียวกันจะพบว่าตัวเลขประสิทธิภาพแตกต่างกัน แตกต่างกัน) ยกเว้นกรณีที่คุณให้แยกแน่นอนเดียวกันซึ่งไม่มีความหมาย

หากต้องการกลับมาที่คำถามของคุณฉันคิดว่าคุณควรใช้ CV เพื่อรายงานผลการปฏิบัติงานของคุณ (เช่น CV 10 เท่าและรายงานค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานของการวัดประสิทธิภาพ) ตอนนี้สำหรับการปรับอัลกอริทึมของคุณคุณอาจใช้ชุดการตรวจสอบความถูกต้องขนาดเล็กกว่ามากตัวอย่างจากชุดการฝึกอบรม (ตรวจสอบให้แน่ใจว่ามันไม่รวมอยู่ในชุดทดสอบ)

หากคุณกลัวว่าคุณจะไม่พบไฮเปอร์พารามิเตอร์ที่ดีที่สุดโดยใช้ชุดเล็ก ๆ คุณอาจจะคิดอัลกอริธึมของคุณไปที่ชุดข้อมูลเฉพาะ หากคุณไม่สามารถหาการกำหนดค่าโดยใช้ตัวอย่างขนาดเล็กที่ให้ประสิทธิภาพการทำงานที่เหมาะสมในทุกช่วงเวลาแสดงว่าอัลกอริทึมนั้นอาจไม่มีประโยชน์ในทางปฏิบัติ

โปรดระลึกไว้เสมอว่าอัลกอริทึมบางตัวนั้นช้าเกินไป / ปรับขนาดได้ไม่ดีนักในการกำหนดค่าบางอย่าง นี่เป็นส่วนหนึ่งของการเลือกแบบจำลองที่ใช้งานได้จริง

เนื่องจากคุณพูดถึง SVMs การใช้งานส่วนใหญ่จะช้าเมื่อพยายามค้นหาพารามิเตอร์สำหรับเมล็ดที่ไม่เป็นเชิงเส้นด้วยการค้นหากริด การค้นหากริดมีความซับซ้อนแบบทวีคูณดังนั้นให้ใช้กับพารามิเตอร์ที่น้อยมาก โปรดทราบว่าไลบรารีส่วนใหญ่มีพารามิเตอร์เริ่มต้นที่สมเหตุสมผล (หรืออย่างน้อยคุณจะตั้งค่าหนึ่งพารามิเตอร์และมีฮิวริสติกเพื่อตั้งค่าอื่น ๆ )

— oDDsKooL
แหล่งที่มา