Scalable Outlier / Anomaly Detection

10

ฉันกำลังพยายามติดตั้งโครงสร้างพื้นฐานข้อมูลขนาดใหญ่โดยใช้ Hadoop, Hive, Elastic Search (รวมถึงอื่น ๆ ) และฉันต้องการเรียกใช้อัลกอริทึมบางอย่างกับชุดข้อมูลบางชุด ฉันต้องการอัลกอริทึมที่สามารถปรับขนาดได้ดังนั้นสิ่งนี้ไม่รวมการใช้เครื่องมือเช่น Weka, R หรือ RHadoop ควาญช้างห้องสมุด Apacheน่าจะเป็นตัวเลือกที่ดีและมันมีขั้นตอนวิธีการสำหรับงานที่ถดถอยและการจัดกลุ่ม

สิ่งที่ฉันดิ้นรนเพื่อค้นหาเป็นวิธีการตรวจหาความผิดปกติหรือผิดปกติ

เนื่องจาก Mahout นำเสนอ Hidden Markov Models และเทคนิคการจัดกลุ่มที่หลากหลาย (รวมถึง K-Means) ฉันสงสัยว่ามันจะเป็นไปได้ไหมที่จะสร้างแบบจำลองเพื่อตรวจจับค่าผิดปกติในอนุกรมเวลาโดยใช้สิ่งนี้ ฉันจะขอบคุณถ้าใครมีประสบการณ์เกี่ยวกับเรื่องนี้สามารถแนะนำฉัน

ถ้าเป็นไปได้และในกรณีที่เป็น
วิธีการทำรวมทั้ง
การประเมินความพยายามที่เกี่ยวข้องและ
ความแม่นยำ / ปัญหาของวิธีนี้

— doublebyte
แหล่งที่มา

1

นี่มันคลุมเครือเกินกว่าจะตอบได้ อนุกรมเวลานั้นแตกต่างกันมากเกินกว่าที่จะโยน k-mean กับพวกมันและทำให้ทุกอย่างมีประโยชน์ มันหนักขึ้นอยู่กับข้อมูลของคุณ

— จบแล้ว - Anony-Mousse

1

สำหรับการตรวจจับที่ล้าสมัยให้ดูที่อัลกอริทึมใน ELKI นั่นดูเหมือนจะเป็นชุดที่สมบูรณ์ที่สุดของการตรวจจับค่าผิดปกติ

— จบแล้ว - Anony-Mousse

รุ่น Elasticsearch รุ่นใหม่มีการตรวจจับความผิดปกติของอนุกรมเวลา (ฉันคิดว่าคุณต้องซื้อ X-Pack) ฉันไม่แน่ใจว่าใช้อัลกอริธึมอะไร แต่มันอาจคุ้มค่าที่จะตรวจสอบวิธีแก้ปัญหาแบบนอกชั้นวาง

— ทอม

7

ฉันจะใช้เวลาดูที่เสื้อย่อยอัลกอริทึม มันถูกรวมเข้ากับควาญช้างและเป็นส่วนหนึ่งของห้องสมุดอื่น ๆสำหรับการสตรีมข้อมูลขนาดใหญ่ คุณสามารถรับข้อมูลเพิ่มเติมเกี่ยวกับอัลกอริทึมนี้โดยเฉพาะและการตรวจจับความผิดปกติของข้อมูลขนาดใหญ่โดยทั่วไปในแหล่งข้อมูลถัดไป:

— prudenko
แหล่งที่มา

t-digest เปรียบเทียบกับอัลกอริทึม p-square อย่างไร

— David Marx

ขอบคุณสำหรับคำตอบ: นี่เป็นแบบจำลองง่ายๆในการคำนวณควอนไทล์ที่มากและฉันคิดว่ามันจะเหมาะกับความต้องการของฉัน อย่างไรก็ตามสำหรับอนุกรมเวลาที่ซับซ้อนมากขึ้นซึ่งไม่ได้มีการแจกแจงแบบคงที่เกือบวิธีนี้อาจล้มเหลวและนั่นคือเมื่อฉันคิดว่าเราจะต้องมีสิ่งที่ปรับตัวเช่นโซ่มาร์คอฟ

— doublebyte

0

คุณสามารถอ้างถึงคำตอบของฉันที่เกี่ยวข้องกับวิธีการตรวจจับความผิดปกติ h2o R หรือ Python ในstackexchangeเนื่องจากสามารถปรับขนาดได้เช่นกัน

— 0xF
แหล่งที่มา