คำถามติดแท็ก anomaly-detection

9
ฉันควรใช้อัลกอริทึมใดในการตรวจจับความผิดปกติในอนุกรมเวลา
พื้นหลัง ฉันทำงานในศูนย์ปฏิบัติการเครือข่ายเราตรวจสอบระบบคอมพิวเตอร์และประสิทธิภาพของระบบ หนึ่งในตัวชี้วัดหลักในการตรวจสอบคือจำนวนผู้เยี่ยมชม \ ลูกค้าที่เชื่อมต่อกับเซิร์ฟเวอร์ของเราในปัจจุบัน เพื่อให้มองเห็นได้เรา (ทีม Ops) รวบรวมตัวชี้วัดเช่นข้อมูลอนุกรมเวลาและวาดกราฟ กราไฟต์ช่วยให้เราสามารถทำมันได้มี API ที่สวยงามซึ่งฉันใช้ในการสร้างระบบการแจ้งเตือนเพื่อแจ้งทีมของเราหากมีการลดลงอย่างกะทันหัน (ส่วนใหญ่) และการเปลี่ยนแปลงอื่น ๆ เกิดขึ้น สำหรับตอนนี้ฉันได้ตั้งค่าสแตติกแบบคงที่ตามค่าเฉลี่ยของ AVG แต่มันใช้งานไม่ได้ดี (มีจำนวนบวกเท็จ) เนื่องจากการโหลดที่แตกต่างกันในระหว่างวันและสัปดาห์ (ปัจจัยด้านฤดูกาล) ดูเหมือนว่านี้: ข้อมูลจริง (ตัวอย่างสำหรับหนึ่งตัวชี้วัด, ช่วงเวลา 15 นาที, หมายเลขแรกคือจำนวนผู้ใช้, การประทับครั้งที่สอง): [{"target": "metric_name", "datapoints": [[175562.0, 1431803460], [176125.0, 1431803520], [176125.0, 1431803580], [175710.0, 1431803640], [175710.0, 1431803700], [175733.0, 1431803760], [175733.0, 1431803820], [175839.0, 1431803880], [175839.0, …

4
อัลกอริทึมสำหรับการตรวจจับความผิดปกติของอนุกรมเวลา
ฉันกำลังใช้ทวิตเตอร์ของ AnomalyDetection ใน R: https://github.com/twitter/AnomalyDetection อัลกอริทึมนี้ให้การตรวจจับความผิดปกติของอนุกรมเวลาสำหรับข้อมูลที่มีฤดูกาล คำถาม: มีอัลกอริธึมอื่น ๆ ที่คล้ายกันนี้หรือไม่ (การควบคุมตามฤดูกาลไม่สำคัญ) ฉันพยายามทำอัลกอริธึมอนุกรมเวลาให้ได้มากที่สุดเท่าที่จะเป็นไปได้ในข้อมูลของฉันเพื่อที่ฉันจะได้เลือกชุดที่ดีที่สุด

2
การตรวจจับความผิดปกติพร้อมคุณสมบัติหลอกตา
TL; DR เป็นวิธีที่แนะนำให้จัดการกับอะไร discreteข้อมูลเมื่อทำการตรวจจับความผิดปกติคืออะไร? เป็นวิธีที่แนะนำให้จัดการกับอะไร categoricalข้อมูลเมื่อทำการตรวจจับความผิดปกติคืออะไร? คำตอบนี้แนะนำให้ใช้ข้อมูลแบบไม่ต่อเนื่องเพื่อกรองผลลัพธ์ อาจแทนที่ค่าหมวดหมู่ด้วยโอกาสในการสังเกต Intro นี่เป็นครั้งแรกที่ฉันโพสต์ที่นี่ดังนั้นโปรดหากมีสิ่งใดที่ดูเหมือนว่าไม่ถูกต้องทางเทคนิคไม่ว่าจะเป็นการจัดรูปแบบหรือการใช้คำจำกัดความที่ถูกต้องฉันสนใจที่จะรู้ว่าควรใช้สิ่งใดแทน ต่อมา เมื่อเร็ว ๆ นี้ฉันได้เป็นส่วนหนึ่งของการเรียนรู้ของMachine Learningโดย Andrew Ng สำหรับการตรวจจับความผิดปกติเราได้รับการสอนให้พิจารณาว่าพารามิเตอร์การกระจายแบบปกติ / แบบเกาส์เซียนคืออะไรสำหรับคุณสมบัติ / ตัวแปรที่กำหนดภายในชุดข้อมูลจากนั้นพิจารณาความน่าจะเป็นของชุดการฝึกอบรม / ตัวอย่างการสังเกต การกระจายแบบเกาส์จากนั้นนำผลคูณของความน่าจะเป็นของฟีเจอร์xixi{x_i} วิธี เลือกมี / ตัวแปรที่เราคิดว่าอธิบายกิจกรรมในคำถาม: { x 1 , x 2 , ... , x ฉัน }xixix_i{x1,x2,…,xi}{x1,x2,…,xi}\{x_1, x_2,\dots,x_i\} พอดีกับพารามิเตอร์ของ Gaussian สำหรับแต่ละคุณลักษณะ: σ2=1μj=1m∑i=1mx(i)jμj=1m∑i=1mxj(i)\mu_j = \frac{1}{m}\sum_{i = 1}^m …

1
PCA ที่แข็งแกร่งเทียบกับระยะทาง Mahalanobis ที่แข็งแกร่งสำหรับการตรวจจับค่าผิดปกติ
PCA แข็งแกร่ง (ตามที่พัฒนาโดยCandes et al, 2009หรือดีกว่ายังNetrepalli et al, 2014 ) เป็นวิธีที่นิยมใช้สำหรับการตรวจสอบค่าผิดปกติหลายตัวแปรแต่ Mahalanobis ระยะนอกจากนี้ยังสามารถนำมาใช้สำหรับการตรวจสอบขอบเขตที่กำหนดแข็งแกร่งประมาณการ regularized ของเมทริกซ์ความแปรปรวนร่วม ฉันอยากรู้เกี่ยวกับข้อดี (dis) ของการใช้วิธีหนึ่งกับอีกวิธีหนึ่ง สัญชาตญาณของฉันบอกฉันว่าความแตกต่างที่ยิ่งใหญ่ที่สุดระหว่างสองคือเมื่อข้อมูลชุด "เล็ก" (ในความหมายทางสถิติ), PCA ที่แข็งแกร่งจะให้ความแปรปรวนร่วมอันดับที่ต่ำกว่าในขณะที่การประมาณค่าความแปรปรวนร่วมที่แข็งแกร่งจะแทน อันดับความแปรปรวนเนื่องจากการทำให้เป็นปกติ Ledoit-Wolf สิ่งนี้จะส่งผลกระทบต่อการตรวจหาค่าผิดปกติอย่างไร


1
ความแตกต่างระหว่างค่าผิดปกติและค่าเริ่มต้น
ฉันสะดุดกับคำที่มาก่อนในการวัด LOF (Local Outlier Factor) ฉันคุ้นเคยกับเงื่อนไขของค่าผิดปกติ (โดยทั่วไปคือ liers - อินสแตนซ์ที่ไม่ทำงานเหมือนกับอินสแตนซ์อื่น ๆ ) 'Inliers' หมายถึงอะไรในบริบทของการตรวจจับความผิดปกติ และวิธีการที่เกี่ยวข้องกับ (แตกต่างจาก) ค่าผิดปกติ?

3
การตรวจจับความผิดปกติของอนุกรมเวลาด้วย Python
ฉันต้องใช้การตรวจจับความผิดปกติกับชุดข้อมูลอนุกรมเวลาหลายชุด ฉันไม่เคยทำแบบนี้มาก่อนและหวังว่าจะได้รับคำแนะนำ ฉันพอใจกับ python ดังนั้นฉันจึงชอบที่จะใช้งานโซลูชันนี้ (ส่วนใหญ่โค้ดของฉันคือ python สำหรับส่วนอื่น ๆ ของงานของฉัน) คำอธิบายของข้อมูล: เป็นข้อมูลอนุกรมเวลารายเดือนที่เพิ่งเริ่มเก็บในช่วง 2 ปีที่ผ่านมาหรือมากกว่านั้น (เช่นช่วงเวลา 24-36 เท่านั้น) โดยพื้นฐานแล้วมีตัวชี้วัดหลายตัวที่ถูกตรวจสอบเป็นรายเดือนสำหรับลูกค้าหลายราย time_period client metric score 01-2013 client1 metric1 100 02-2013 client1 metric1 119 01-2013 client2 metric1 50 02-2013 client2 metric2 500 ... นี่คือสิ่งที่ฉันกำลังคิด: ดึงข้อมูลลงใน dataframe (pandas) จากนั้นคำนวณค่าเฉลี่ย 6 เดือนสำหรับลูกค้า / คู่เมตริกแต่ละราย หากค่าของช่วงเวลาปัจจุบันเกินขีด จำกัด …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.