Scalable Outlier / Anomaly Detection


10

ฉันกำลังพยายามติดตั้งโครงสร้างพื้นฐานข้อมูลขนาดใหญ่โดยใช้ Hadoop, Hive, Elastic Search (รวมถึงอื่น ๆ ) และฉันต้องการเรียกใช้อัลกอริทึมบางอย่างกับชุดข้อมูลบางชุด ฉันต้องการอัลกอริทึมที่สามารถปรับขนาดได้ดังนั้นสิ่งนี้ไม่รวมการใช้เครื่องมือเช่น Weka, R หรือ RHadoop ควาญช้างห้องสมุด Apacheน่าจะเป็นตัวเลือกที่ดีและมันมีขั้นตอนวิธีการสำหรับงานที่ถดถอยและการจัดกลุ่ม

สิ่งที่ฉันดิ้นรนเพื่อค้นหาเป็นวิธีการตรวจหาความผิดปกติหรือผิดปกติ

เนื่องจาก Mahout นำเสนอ Hidden Markov Models และเทคนิคการจัดกลุ่มที่หลากหลาย (รวมถึง K-Means) ฉันสงสัยว่ามันจะเป็นไปได้ไหมที่จะสร้างแบบจำลองเพื่อตรวจจับค่าผิดปกติในอนุกรมเวลาโดยใช้สิ่งนี้ ฉันจะขอบคุณถ้าใครมีประสบการณ์เกี่ยวกับเรื่องนี้สามารถแนะนำฉัน

  1. ถ้าเป็นไปได้และในกรณีที่เป็น
  2. วิธีการทำรวมทั้ง
  3. การประเมินความพยายามที่เกี่ยวข้องและ
  4. ความแม่นยำ / ปัญหาของวิธีนี้

1
นี่มันคลุมเครือเกินกว่าจะตอบได้ อนุกรมเวลานั้นแตกต่างกันมากเกินกว่าที่จะโยน k-mean กับพวกมันและทำให้ทุกอย่างมีประโยชน์ มันหนักขึ้นอยู่กับข้อมูลของคุณ
จบแล้ว - Anony-Mousse

1
สำหรับการตรวจจับที่ล้าสมัยให้ดูที่อัลกอริทึมใน ELKI นั่นดูเหมือนจะเป็นชุดที่สมบูรณ์ที่สุดของการตรวจจับค่าผิดปกติ
จบแล้ว - Anony-Mousse

รุ่น Elasticsearch รุ่นใหม่มีการตรวจจับความผิดปกติของอนุกรมเวลา (ฉันคิดว่าคุณต้องซื้อ X-Pack) ฉันไม่แน่ใจว่าใช้อัลกอริธึมอะไร แต่มันอาจคุ้มค่าที่จะตรวจสอบวิธีแก้ปัญหาแบบนอกชั้นวาง
ทอม

คำตอบ:


7

ฉันจะใช้เวลาดูที่เสื้อย่อยอัลกอริทึม มันถูกรวมเข้ากับควาญช้างและเป็นส่วนหนึ่งของห้องสมุดอื่น ๆสำหรับการสตรีมข้อมูลขนาดใหญ่ คุณสามารถรับข้อมูลเพิ่มเติมเกี่ยวกับอัลกอริทึมนี้โดยเฉพาะและการตรวจจับความผิดปกติของข้อมูลขนาดใหญ่โดยทั่วไปในแหล่งข้อมูลถัดไป:

  1. การเรียนรู้เครื่องตรวจจับการปฏิบัติหนังสือความผิดปกติ
  2. การสัมมนาผ่านเว็บ: การตรวจจับความผิดปกติเมื่อคุณไม่รู้ว่าคุณต้องการค้นหาอะไร
  3. การตรวจสอบความผิดปกติใน ElasticSearch
  4. เอาชนะการฉ้อโกงพันล้านดอลลาร์โดยใช้การตรวจจับความผิดปกติ: วิธีการประมวลผลสัญญาณโดยใช้ Argyle Data บนแพลตฟอร์มข้อมูล Hortonworks ด้วย Accumulo

t-digest เปรียบเทียบกับอัลกอริทึม p-square อย่างไร
David Marx

ขอบคุณสำหรับคำตอบ: นี่เป็นแบบจำลองง่ายๆในการคำนวณควอนไทล์ที่มากและฉันคิดว่ามันจะเหมาะกับความต้องการของฉัน อย่างไรก็ตามสำหรับอนุกรมเวลาที่ซับซ้อนมากขึ้นซึ่งไม่ได้มีการแจกแจงแบบคงที่เกือบวิธีนี้อาจล้มเหลวและนั่นคือเมื่อฉันคิดว่าเราจะต้องมีสิ่งที่ปรับตัวเช่นโซ่มาร์คอฟ
doublebyte

0

คุณสามารถอ้างถึงคำตอบของฉันที่เกี่ยวข้องกับวิธีการตรวจจับความผิดปกติ h2o R หรือ Python ในstackexchangeเนื่องจากสามารถปรับขนาดได้เช่นกัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.