พื้นหลังของปัญหา: ฉันกำลังทำงานในโครงการที่เกี่ยวข้องกับไฟล์บันทึกที่คล้ายกับที่พบในพื้นที่การตรวจสอบไอที (เพื่อความเข้าใจที่ดีที่สุดของฉันเกี่ยวกับพื้นที่ไอที) ไฟล์บันทึกเหล่านี้เป็นข้อมูลอนุกรมเวลาซึ่งแบ่งเป็นหลายร้อย / หลายพันแถวของพารามิเตอร์ต่างๆ แต่ละพารามิเตอร์เป็นตัวเลข (ลอย) และมีค่าที่ไม่สำคัญ / ไม่ใช่ข้อผิดพลาดสำหรับแต่ละจุดเวลา งานของฉันคือการตรวจสอบว่าไฟล์บันทึกสำหรับการตรวจจับความผิดปกติ (แหลม, ตก, รูปแบบที่ผิดปกติกับพารามิเตอร์บางอย่างที่ไม่ได้ซิงค์, พฤติกรรมแปลกปลอมที่ 1/2 / ฯลฯ ฯลฯ )
ในการมอบหมายที่คล้ายกันฉันได้ลอง Splunk กับ Prelert แล้ว แต่ฉันกำลังสำรวจตัวเลือกโอเพนซอร์สในขณะนี้
ข้อ จำกัด : ฉัน จำกัด ตัวเองกับ Python เพราะฉันรู้ดีและต้องการชะลอการสลับเป็น R และเส้นโค้งการเรียนรู้ที่เกี่ยวข้อง เว้นแต่ว่าจะมีการสนับสนุน R (หรือภาษา / ซอฟต์แวร์อื่น ๆ ) อย่างล้นหลามฉันต้องการยึด Python สำหรับงานนี้
นอกจากนี้ฉันกำลังทำงานในสภาพแวดล้อม Windows ในขณะนี้ ฉันต้องการใช้แซนด์บ็อกซ์ใน Windows ต่อไปบนไฟล์บันทึกขนาดเล็ก แต่สามารถย้ายไปยังสภาพแวดล้อม Linux ได้หากจำเป็น
แหล่งข้อมูล: ฉันได้ตรวจสอบสิ่งต่อไปนี้พร้อมผลลัพธ์ที่ไม่คาดคิด:
งูหลามหรือ R สำหรับการดำเนินการขั้นตอนวิธีการเรียนรู้ของเครื่องสำหรับการตรวจสอบการทุจริต ข้อมูลบางอย่างที่นี่มีประโยชน์ แต่น่าเสียดายที่ฉันดิ้นรนเพื่อค้นหาแพ็คเกจที่เหมาะสมเพราะ:
"AnomalyDetection" ของ Twitter อยู่ใน R และฉันต้องการติดกับ Python นอกจากนี้Pyculiarity Python ของพอร์ตดูเหมือนจะทำให้เกิดปัญหาในการใช้งานในสภาพแวดล้อม Windows สำหรับฉัน
Skyline ความพยายามครั้งต่อไปของฉันดูเหมือนจะถูกยกเลิกไปค่อนข้างมาก (จากปัญหา GitHub ) ฉันไม่ได้เจาะลึกลงไปในเรื่องนี้เนื่องจากดูเหมือนว่าจะมีการสนับสนุนออนไลน์เพียงเล็กน้อย
scikit เรียนรู้ฉันยังคงสำรวจ แต่ดูเหมือนว่าจะเป็นคู่มือมากขึ้น วิธีการแบบ down-in-the-weeds นั้นใช้ได้สำหรับฉัน แต่ภูมิหลังของฉันในเครื่องมือการเรียนรู้อ่อนแอดังนั้นฉันต้องการกล่องดำสำหรับแง่มุมทางเทคนิคเช่นอัลกอริทึมคล้ายกับ Splunk + Prelert
คำนิยามปัญหาและคำถาม: ฉันกำลังมองหาซอฟต์แวร์โอเพนซอร์ซที่สามารถช่วยฉันในการตรวจจับความผิดปกติจากไฟล์บันทึกอนุกรมเวลาใน Python ผ่านทางแพ็คเกจหรือไลบรารีโดยอัตโนมัติ
- สิ่งเหล่านี้มีอยู่เพื่อช่วยเหลืองานที่ทำอยู่ของฉันหรือว่าพวกเขาจินตนาการในใจของฉันหรือไม่?
- ทุกคนสามารถช่วยเหลือขั้นตอนที่เป็นรูปธรรมเพื่อช่วยให้ฉันบรรลุเป้าหมายของฉันรวมถึงพื้นฐานหรือแนวคิดพื้นฐานได้หรือไม่?
- นี่เป็นชุมชน StackExchange ที่ดีที่สุดในการถามหรือว่าเป็นสถิติคณิตศาสตร์หรือแม้แต่ความปลอดภัยหรือ Stackoverflow ตัวเลือกที่ดีกว่า
แก้ไข [2015-07-23] โปรดทราบว่าการอัปเดตล่าสุดสำหรับความแปลกใหม่ดูเหมือนว่าจะได้รับการแก้ไขสำหรับสภาพแวดล้อม Windows! ฉันยังไม่ได้ยืนยัน แต่ควรเป็นอีกเครื่องมือที่มีประโยชน์สำหรับชุมชน
แก้ไข [2016-01-19] การอัปเดตเล็กน้อย ฉันไม่มีเวลาที่จะทำสิ่งนี้และการวิจัย แต่ฉันกำลังย้อนกลับไปทำความเข้าใจพื้นฐานของปัญหานี้ก่อนที่จะทำการวิจัยในรายละเอียดที่เฉพาะเจาะจงต่อไป ตัวอย่างเช่นสองขั้นตอนที่เป็นรูปธรรมที่ฉันทำคือ:
เริ่มต้นด้วยบทความ Wikipedia สำหรับการตรวจจับความผิดปกติ [ https://en.wikipedia.org/wiki/Anomaly_detection ] ทำความเข้าใจอย่างเต็มที่แล้วเลื่อนขึ้นหรือลงในลำดับชั้นแนวคิดของบทความ Wikipedia ที่เชื่อมโยงอื่น ๆ เช่น [ https: // en.wikipedia.org/wiki/K-nearest_neighbor_algorithm ] จากนั้นไปที่ [ https://en.wikipedia.org/wiki/Machine_learning ]
เทคนิคการสำรวจในการสำรวจครั้งใหญ่โดย Chandola et al 2009 "การตรวจจับความผิดปกติ: การสำรวจ" [ http://www-users.cs.umn.edu/~banerjee/papers/09/anomaly.pdf ] และ Hodge et al 2004 "การสำรวจวิธีการตรวจหาค่าผิดปกติ" [ http://eprints.whiterose.ac.uk/767/1/hodgevj4.pdf ]
เมื่อแนวคิดเป็นที่เข้าใจดีขึ้น (ฉันหวังว่าจะเล่นกับตัวอย่างของเล่นที่ฉันไปเพื่อพัฒนาด้านการปฏิบัติเช่นกัน) ฉันหวังว่าจะเข้าใจว่าเครื่องมือ Python โอเพ่นซอร์สใดเหมาะกับปัญหาของฉันมากขึ้น