แนวปฏิบัติที่ดีที่สุดในการบันทึกจัดเก็บและแบ่งปันโมเดลการเรียนรู้ของเครื่องมีอะไรบ้าง
ใน Python เรามักจะจัดเก็บการเป็นตัวแทนไบนารีของโมเดลโดยใช้ pickle หรือ joblib แบบจำลองในกรณีของฉันอาจมีขนาดใหญ่ ~ 100Mo นอกจากนี้ joblib สามารถบันทึกรูปแบบหนึ่งไปยังหลายไฟล์ถ้าคุณตั้งcompress=1
( /programming/33497314/sklearn-dumping-model-using-joblib-dumps-multiple-files-which-one-is-the- แกนกลาง )
แต่ถ้าคุณต้องการควบคุมสิทธิ์การเข้าถึงโมเดลและสามารถใช้โมเดลจากเครื่องต่าง ๆ วิธีที่ดีที่สุดในการจัดเก็บคืออะไร
ฉันมีตัวเลือกน้อย:
- เก็บไว้เป็นไฟล์จากนั้นนำไปไว้ในที่เก็บโดยใช้ Git LFS
- เก็บไว้ในฐานข้อมูล SQL เป็นไฟล์ไบนารี:
- ตัวอย่างเช่นใน Postgresql https://wiki.postgresql.org/wiki/BinaryFilesInDB
- นี่เป็นวิธีที่ทีม SQL Server แนะนำ:
- https://docs.microsoft.com/en-us/sql/advanced-analytics/tutorials/walkthrough-build-and-save-the-model
- https://microsoft.github.io/sql-ml-tutorials/python/rentalprediction/step/3.html
- https://blogs.technet.microsoft.com/dataplatforminsider/2016/10/17/sql-server-as-a-machine-learning-model-management-system
- HDFS