การวิเคราะห์บันทึกเซิร์ฟเวอร์โดยใช้การเรียนรู้ของเครื่อง


10

ฉันได้รับมอบหมายงานนี้เพื่อวิเคราะห์บันทึกเซิร์ฟเวอร์ของแอปพลิเคชันของเราซึ่งมีบันทึกข้อยกเว้นบันทึกบันทึกเหตุการณ์ฐานข้อมูล ฯลฯ ฉันยังใหม่กับการเรียนรู้ของเครื่องเราใช้ Spark พร้อมการค้นหาแบบยืดหยุ่นและ Sparks MLlib (หรือ PredictionIO) ตัวอย่างที่ต้องการ ผลลัพธ์จะสามารถทำนายตามบันทึกข้อยกเว้นที่รวบรวมเพื่อให้สามารถคาดการณ์ได้ว่าผู้ใช้คนใดมีแนวโน้มที่จะทำให้เกิดข้อยกเว้นต่อไปและคุณลักษณะใด (และสิ่งอื่น ๆ เพื่อติดตามและปรับปรุงการเพิ่มประสิทธิภาพของแอปพลิเคชัน)

ฉันสามารถนำเข้าข้อมูลจาก ElasticSearch มาเป็นประกายและสร้าง DataFrames และแมปข้อมูลที่ต้องการได้สำเร็จ สิ่งที่ฉันอยากรู้คือฉันจะเข้าหาด้านการเรียนรู้ของการใช้งานเครื่องได้อย่างไร ฉันเคยผ่านบทความและเอกสารที่พูดคุยเกี่ยวกับการเตรียมข้อมูลล่วงหน้าฝึกอบรมตัวแบบข้อมูลและสร้างป้ายกำกับ

คำถามที่ฉันมี

  • ฉันจะเข้าใกล้การแปลงข้อมูลบันทึกการออกเป็นเวกเตอร์ตัวเลขซึ่งสามารถใช้กับชุดข้อมูลที่จะฝึกอบรมได้อย่างไร

  • ฉันใช้อัลกอริทึมในการฝึกอบรมชุดข้อมูลของฉัน (ด้วยความรู้ที่ จำกัด ฉันได้รวบรวมสองสามวันที่ผ่านมาฉันกำลังคิดเกี่ยวกับการแข่งขันการถดถอยเชิงเส้นโปรดแนะนำการใช้งานที่จะดีที่สุด)

เพียงมองหาข้อเสนอแนะเกี่ยวกับวิธีแก้ไขปัญหานี้

ขอบคุณ.


หากคุณมีความสามารถในการคาดการณ์ที่จะเชื่อว่าผู้ใช้บางรายมีโอกาสสูงยกเว้นคุณจะทำอะไร? เป้าหมายคือปรับแอปพลิเคชั่นให้เหมาะสมที่สุด คุณกำลังพยายามปรับแก้ข้อบกพร่องที่วิศวกรควรใช้เวลาแทนที่จะแก้ไขข้อบกพร่องที่รู้จักในแอปพลิเคชันหรือไม่ คุณสมบัติวิศวกรรมอาจมีความสำคัญต่องานนี้ นอกจากนี้คุณอาจต้องการพิจารณาการถดถอยโลจิสติกซึ่งจะสร้างค่า 0..1 ซึ่งอาจตีความได้ว่าเป็นความน่าจะเป็น

5
ฉันคิดว่าคุณกำลังแก้ไขปัญหาในวัตถุประสงค์ อย่าถือว่า ML เป็นกล่องดำที่จะใช้เวทมนตร์ คุณต้องถามคำถามที่ถูกต้อง (และมีข้อมูลเพียงพอสำหรับเรื่องนั้น) เพื่อให้ได้ผลลัพธ์ใด ๆ
จบแล้ว - Anony-Mousse

เป็นปัญหาของคุณได้รับการแก้ไขในการทำนายที่ผู้ใช้มีแนวโน้มที่จะก่อให้เกิดข้อยกเว้นต่อไปและที่คุณลักษณะ (และพวงของสิ่งอื่น ๆ ที่จะติดตามและปรับปรุงการเพิ่มประสิทธิภาพของโปรแกรม) ? ถ้าใช่คุณสามารถแบ่งปันวิธีการแก้ปัญหาของคุณได้หรือไม่
Ashish Tyagi

คำตอบ:


12

ฉันไม่คิดว่าคุณจำเป็นต้องแปลงรายการบันทึกแต่ละรายการเป็นเวกเตอร์เพื่อใช้ในอัลกอริทึม ฉันเดาว่าสิ่งที่คุณสนใจคือลำดับของรายการบันทึกซึ่งแสดงถึงชุดของเหตุการณ์เรียงลำดับตามเวลาซึ่งรวมกันเป็นชุดของ 'กรณี' ความสัมพันธ์ระหว่างชุดของรายการบันทึกที่รวบรวมมีความสำคัญ

หากเป็นกรณีนี้คุณอาจต้องพิจารณาใช้เทคนิคกระบวนการทำเหมือง สิ่งนี้ช่วยให้คุณสามารถสร้างแบบจำลองของกระบวนการของคุณ (การใช้แอปพลิเคชันของคุณ) และกำหนดรูปแบบของขั้นตอนกระบวนการพร้อมกับข้อผิดพลาดและขั้นตอนทำใหม่

มีหลักสูตรการแนะนำที่ดีใน Coursera คือที่นี่ แม้จะมีแพคเกจเชิงพาณิชย์ที่พัฒนาแล้วบางอย่างเช่น 'ดิสโก้' เพื่อช่วยคุณในการวิเคราะห์และสร้างภาพข้อมูล

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.