มีข้อมูลเพียงพอสำหรับการฝึกอบรมรูปแบบการเรียนรู้ของเครื่อง?

ฉันทำงานเกี่ยวกับการเรียนรู้ของเครื่องจักรและชีวสารสนเทศมาระยะหนึ่งแล้วและวันนี้ฉันได้สนทนากับเพื่อนร่วมงานเกี่ยวกับประเด็นทั่วไปที่สำคัญของการทำเหมืองข้อมูล

เพื่อนร่วมงานของฉัน (ซึ่งเป็นผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่อง) กล่าวว่าในความคิดของเขาในด้านการปฏิบัติเนื้อหาที่สำคัญที่สุดของการเรียนรู้เครื่องเป็นวิธีที่จะเข้าใจว่าคุณมีการเก็บรวบรวมข้อมูลเพียงพอในการฝึกอบรมการเรียนรู้แบบเครื่องของคุณ

คำสั่งนี้ทำให้ฉันประหลาดใจเพราะฉันไม่เคยให้ความสำคัญกับเรื่องนี้มากนัก ...

จากนั้นผมก็มองหาข้อมูลเพิ่มเติมเกี่ยวกับอินเทอร์เน็ตและผมพบว่าการโพสต์เกี่ยวกับเรื่องนี้FastML.comรายงานเป็นกฎของหัวแม่มือที่คุณต้องการประมาณ10 ครั้งเป็นกรณีข้อมูลมากที่สุดเท่าที่มีคุณสมบัติ

สองคำถาม:

1 - ปัญหานี้เกี่ยวข้องกับการเรียนรู้ของเครื่องจริงหรือไม่?

2 - กฎ 10 ครั้งทำงานใช่ไหม มีแหล่งข้อมูลที่เกี่ยวข้องอื่น ๆ สำหรับชุดรูปแบบนี้หรือไม่?

— DavideChicco.it
แหล่งที่มา

1. ใช่ 2. มันเป็นพื้นฐานที่ดี แต่คุณจะได้รับรอบกับกูจะลดองศาที่มีประสิทธิภาพของเสรีภาพ โดยเฉพาะอย่างยิ่งกับการเรียนรู้ลึก 3. คุณสามารถวิเคราะห์สถานการณ์ในปัญหาของคุณได้ด้วยการพล็อตกราฟการเรียนรู้ของขนาดตัวอย่างจากข้อผิดพลาดหรือคะแนน

— Emre

@ ขอบคุณมาก! คุณสามารถแนะนำเอกสารหรือวัสดุใด ๆ ให้ฉันอ่านได้หรือไม่

— DavideChicco.it

โดยปกติจะครอบคลุมถึงการตรวจสอบข้ามและเทคนิคการตรวจสอบรุ่นอื่น ๆ ในตำราเรียนของคุณ

— Emre

กฎ 10 ครั้งนั้นยอดเยี่ยมหากคุณสามารถทำได้ แต่ไม่สามารถนำไปใช้ได้จริงในการตั้งค่าทางธุรกิจบางอย่าง มีหลายสถานการณ์ที่จำนวนคุณลักษณะมากกว่าอินสแตนซ์ข้อมูล (p >> n) มีเทคนิคการเรียนรู้ของเครื่องที่ออกแบบมาโดยเฉพาะเพื่อจัดการกับสถานการณ์เหล่านี้

— นักวิทยาศาสตร์ด้านข้อมูล

หากคุณต้องการคำอธิบายโดยละเอียดซึ่งสามารถช่วยให้คุณเข้าใจกราฟเส้นโค้งการเรียนรู้ลองดู: scikit-yb.org/en/latest/api/model_selection/learning_curve.html

— singh

คำตอบ:

กฎสิบครั้งดูเหมือนเป็นกฎง่ายๆสำหรับฉัน แต่มันเป็นความจริงที่ว่าประสิทธิภาพของอัลกอริทึมการเรียนรู้ของเครื่องอาจลดลงหากคุณไม่ป้อนข้อมูลด้วยข้อมูลการฝึกอบรมที่เพียงพอ

วิธีที่ใช้งานได้จริงและใช้ข้อมูลเป็นตัวกำหนดว่าคุณมีข้อมูลการฝึกอบรมเพียงพอหรือไม่โดยการจัดทำกราฟการเรียนรู้เช่นเดียวกับตัวอย่างด้านล่าง:

กราฟการเรียนรู้แสดงถึงวิวัฒนาการของข้อผิดพลาดในการฝึกอบรมและการทดสอบเมื่อคุณเพิ่มขนาดของชุดการฝึกอบรมของคุณ

ข้อผิดพลาดในการฝึกอบรมจะเพิ่มขึ้นเมื่อคุณเพิ่มขนาดของชุดข้อมูลของคุณเนื่องจากมันยากที่จะพอดีกับแบบจำลองที่อธิบายความซับซ้อน / ความแปรปรวนที่เพิ่มขึ้นของชุดการฝึกอบรมของคุณ
ข้อผิดพลาดในการทดสอบลดลงเมื่อคุณเพิ่มขนาดของชุดข้อมูลของคุณเนื่องจากโมเดลสามารถสรุปได้ดีขึ้นจากปริมาณข้อมูลที่มากขึ้น

อย่างที่คุณเห็นในส่วนขวาสุดของพล็อตสองบรรทัดในพล็อตมีแนวโน้มที่จะไปถึงและเส้นกำกับ ดังนั้นในที่สุดคุณจะไปถึงจุดที่การเพิ่มขนาดของชุดข้อมูลของคุณจะไม่ส่งผลกระทบต่อแบบจำลองที่ผ่านการฝึกอบรมของคุณ

ระยะห่างระหว่างข้อผิดพลาดในการทดสอบและตัวบ่งชี้ข้อผิดพลาดในการฝึกอบรมนั้นเป็นตัวแทนของการ overfitting ของแบบจำลองของคุณ แต่ที่สำคัญกว่านั้นพล็อตนี้กำลังบอกว่าคุณต้องการข้อมูลเพิ่มเติมหรือไม่ โดยทั่วไปหากคุณแสดงถึงข้อผิดพลาดในการทดสอบและการฝึกอบรมเพื่อเพิ่มชุดย่อยที่ใหญ่กว่าของข้อมูลการฝึกอบรมของคุณและดูเหมือนว่าเส้นไม่ถึงเส้นกำกับคุณควรเก็บรวบรวมข้อมูลมากขึ้น

— ปาโบลเซา
แหล่งที่มา

ในฟังก์ชั่น learning_curve ฉันควรผ่านX_train, y_train: Only train subsetหรือX, y: the entire dataset

— Rookie_123

เส้นโค้งนี้สร้างขึ้นจากการใช้การตรวจสอบความถูกต้องแบบไขว้เมื่อคุณเพิ่มจำนวนตัวอย่าง ดังนั้นคุณต้องมีชุดข้อมูลทั้งหมด

— Pablo Suau

ใช่ปัญหานี้มีความเกี่ยวข้องอย่างแน่นอนเนื่องจากความสามารถของคุณในการปรับโมเดลให้เหมาะสมนั้นขึ้นอยู่กับปริมาณข้อมูลที่คุณมี แต่ที่สำคัญกว่านั้นขึ้นอยู่กับคุณภาพของเครื่องทำนาย
กฎ 10 ครั้งอาจเป็นกฎง่ายๆ (และมีอื่น ๆ อีกมากมาย) แต่ขึ้นอยู่กับยูทิลิตี้การทำนายของคุณสมบัติของคุณ เช่นชุดข้อมูลม่านตามีขนาดค่อนข้างเล็ก แต่แก้ไขได้ง่ายเพราะคุณสมบัติให้การแยกเป้าหมายที่ดี ในทางกลับกันคุณอาจมีตัวอย่าง 10 ล้านตัวอย่างและไม่สามารถปรับให้เข้ากับคุณลักษณะที่อ่อนแอได้

— HEITZ
แหล่งที่มา

ขอบคุณ! คุณสามารถแนะนำเอกสารหรือวัสดุใด ๆ ให้ฉันอ่านได้หรือไม่

— DavideChicco.it