ฉันได้รับมอบหมายงานนี้เพื่อวิเคราะห์บันทึกเซิร์ฟเวอร์ของแอปพลิเคชันของเราซึ่งมีบันทึกข้อยกเว้นบันทึกบันทึกเหตุการณ์ฐานข้อมูล ฯลฯ ฉันยังใหม่กับการเรียนรู้ของเครื่องเราใช้ Spark พร้อมการค้นหาแบบยืดหยุ่นและ Sparks MLlib (หรือ PredictionIO) ตัวอย่างที่ต้องการ ผลลัพธ์จะสามารถทำนายตามบันทึกข้อยกเว้นที่รวบรวมเพื่อให้สามารถคาดการณ์ได้ว่าผู้ใช้คนใดมีแนวโน้มที่จะทำให้เกิดข้อยกเว้นต่อไปและคุณลักษณะใด (และสิ่งอื่น ๆ เพื่อติดตามและปรับปรุงการเพิ่มประสิทธิภาพของแอปพลิเคชัน)
ฉันสามารถนำเข้าข้อมูลจาก ElasticSearch มาเป็นประกายและสร้าง DataFrames และแมปข้อมูลที่ต้องการได้สำเร็จ สิ่งที่ฉันอยากรู้คือฉันจะเข้าหาด้านการเรียนรู้ของการใช้งานเครื่องได้อย่างไร ฉันเคยผ่านบทความและเอกสารที่พูดคุยเกี่ยวกับการเตรียมข้อมูลล่วงหน้าฝึกอบรมตัวแบบข้อมูลและสร้างป้ายกำกับ
คำถามที่ฉันมี
ฉันจะเข้าใกล้การแปลงข้อมูลบันทึกการออกเป็นเวกเตอร์ตัวเลขซึ่งสามารถใช้กับชุดข้อมูลที่จะฝึกอบรมได้อย่างไร
ฉันใช้อัลกอริทึมในการฝึกอบรมชุดข้อมูลของฉัน (ด้วยความรู้ที่ จำกัด ฉันได้รวบรวมสองสามวันที่ผ่านมาฉันกำลังคิดเกี่ยวกับการแข่งขันการถดถอยเชิงเส้นโปรดแนะนำการใช้งานที่จะดีที่สุด)
เพียงมองหาข้อเสนอแนะเกี่ยวกับวิธีแก้ไขปัญหานี้
ขอบคุณ.