ฉันเพิ่งพบปัญหาที่คล้ายกัน: วิธีจัดการแยกคุณสมบัติที่หลากหลายจากชุดข้อมูลขนาดใหญ่โดยไม่ทราบล่วงหน้าว่าจะเป็นอย่างไร (แม้การคำนวณค่าเฉลี่ยซ้ำ ๆ จะมีราคาแพงในการคำนวณ) นอกจากนี้ฉันจะจัดการการทำนายตามชุดคุณลักษณะที่แตกต่างกันอย่างไร ถ้าฉันเพิ่มฟีเจอร์ใหม่ฉันจะรู้ได้อย่างไรว่าโมเดลใดจะฝึกใช้ฟีเจอร์ใหม่ มันอาจจะกลายเป็นก้อนหิมะขนาดใหญ่ได้อย่างรวดเร็ว
โซลูชันปัจจุบันของฉันคือการติดตามทั้งหมดในฐานข้อมูล NoSQL ท้องถิ่น (MongoDB) ตัวอย่างเช่นฉันอาจมีการรวบรวมfeatures
แต่ละรายการที่มีชื่อคำอธิบายวิธีการคำนวณคุณสมบัติไฟล์หลามที่รันการแยก ฯลฯ
เช่นเดียวกันคอลเลกชันmodels
รวมถึงนางแบบที่ทำงานกับข้อมูล แต่ละรายการอาจมีชื่อรายชื่อของคุณสมบัติที่ใช้ในการฝึกอบรมรูปแบบพารามิเตอร์ในที่สุดของมันค่าที่คาดการณ์ไว้ในชุดทดสอบที่ถือออก, ตัวชี้วัดสำหรับวิธีการดำเนินการรูปแบบ ฯลฯ
จากจุดได้เปรียบของฉันนี้มีประโยชน์มากมาย:
- ด้วยการบันทึกการคาดการณ์ฉันสามารถใช้พวกเขาในภายหลังในการทำนายวงดนตรี
- เนื่องจากฉันติดตามว่าคุณลักษณะใดบ้างที่ใช้ฉันรู้ว่าคุณลักษณะใดที่ต้องมีการฝึกอบรมใหม่เมื่อฉันแยกคุณลักษณะเพิ่มเติม
- โดยการบันทึกคำอธิบายแบบจำลองฉันมั่นใจได้ว่าฉันรู้อยู่เสมอว่าฉันได้ลองทำอะไรบ้าง ฉันไม่เคยสงสัยเลยว่า "ฉันลอง LASSO ด้วยพารามิเตอร์การทำให้เป็นมาตรฐานที่กำหนดโดย grid-search CV หรือยัง" ฉันสามารถค้นหาได้ตลอดเวลาและดูว่าประสบความสำเร็จได้อย่างไร
จากคำถามของคุณดูเหมือนว่าคุณสามารถปรับวิธีการนี้ให้สอดคล้องกับขั้นตอนการทำงานของปัญหา ติดตั้ง Mongo หรือฐานข้อมูลอื่นที่คุณเลือกจากนั้นบันทึกการทดสอบแต่ละครั้งอินพุตข้อมูลผลลัพธ์และสิ่งอื่น ๆ ที่คุณอาจต้องการติดตามตลอดหลักสูตรของโครงการ สิ่งนี้ควรสืบค้นได้ง่ายกว่าสเปรดชีตอย่างน้อยที่สุด