ฉันควรสลับข้อมูลของฉันอีกครั้งหรือไม่


9

เรามีตัวอย่างชีวภาพชุดหนึ่งที่ค่อนข้างแพง เราวางตัวอย่างเหล่านี้ผ่านชุดการทดสอบเพื่อสร้างข้อมูลที่ใช้สำหรับสร้างแบบจำลองการทำนาย เพื่อจุดประสงค์นี้เราได้แบ่งกลุ่มตัวอย่างเป็นชุดฝึกอบรม (70%) และชุดทดสอบ (30%) เราสร้างแบบจำลองได้สำเร็จและนำไปใช้กับชุดการทดสอบเพื่อค้นหาว่าประสิทธิภาพนั้น "น้อยกว่าความเหมาะสม" ผู้ทำการทดลองต้องการปรับปรุงการทดสอบทางชีวภาพเพื่อสร้างแบบจำลองที่ดีขึ้น โดยมีเงื่อนไขว่าเราไม่สามารถรับตัวอย่างใหม่ได้คุณขอแนะนำให้เราสุ่มตัวอย่างใหม่เพื่อสร้างชุดการฝึกอบรมและการตรวจสอบความถูกต้องใหม่หรือติดกับส่วนเดิม (เราไม่มีข้อบ่งชี้ว่าการแบ่งนั้นเป็นปัญหาอย่างหนึ่ง)


1
คุณแบ่งข้อมูลอย่างไร สุ่มด้วยมือหรือวิธีอื่น? แม้ว่าในความเป็นจริงส่วนเกี่ยวกับ "การสร้างแบบจำลองที่ประสบความสำเร็จ" เป็นส่วนใหญ่ของปัญหา ก่อนที่จะทำสิ่งที่มีราคาแพงคุณควรดูว่าคุณใช้รูปแบบที่เหมาะสมหรือไม่หากคุณใช้ข้อมูลการฝึกอบรมของคุณมากเกินไปและหากคุณมีข้อมูลที่เหมาะสมสำหรับสิ่งที่คุณกำลังพยายามทำนาย
Wayne

BTW ฉันลืมเปิดโหมดความเห็นถากถางดูถูกก่อน "ประสบความสำเร็จในการสร้างแบบจำลอง"
DavidDong

คำตอบ:


12

เมื่อคุณใช้ตัวอย่างโฮลด์แล้วฉันจะบอกว่าคุณควรเก็บไว้และสร้างแบบจำลองใหม่ของคุณในตัวอย่างการฝึกอบรมเดียวกันเพื่อให้ทุกรุ่นจะพิจารณาความสัมพันธ์แบบเดียวกันระหว่างฟีเจอร์ นอกจากนี้หากคุณทำการเลือกคุณสมบัติตัวอย่างจะต้องถูกทิ้งไว้ก่อนที่ขั้นตอนการกรองใด ๆ เหล่านี้; นั่นคือการเลือกคุณสมบัติต้องรวมอยู่ในการตรวจสอบข้ามลูป

จากการสังเกตมีวิธีที่มีประสิทธิภาพมากกว่าการแยกแบบจำลอง 0.67 / 0.33 สำหรับการเลือกแบบจำลองนั่นคือการตรวจสอบความถูกต้องข้ามแบบ k-fold หรือการลาแบบหนึ่งครั้ง ดูเช่น องค์ประกอบของการเรียนรู้ทางสถิติ (.107.10, pp. 241-248), www.modelselection.orgหรือการสำรวจขั้นตอนการตรวจสอบข้ามสำหรับการเลือกรูปแบบโดย Arlot และ Celisse (จำเป็นต้องมีพื้นฐานทางคณิตศาสตร์ขั้นสูง)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.