Scalable Outlier / Anomaly Detection
ฉันกำลังพยายามติดตั้งโครงสร้างพื้นฐานข้อมูลขนาดใหญ่โดยใช้ Hadoop, Hive, Elastic Search (รวมถึงอื่น ๆ ) และฉันต้องการเรียกใช้อัลกอริทึมบางอย่างกับชุดข้อมูลบางชุด ฉันต้องการอัลกอริทึมที่สามารถปรับขนาดได้ดังนั้นสิ่งนี้ไม่รวมการใช้เครื่องมือเช่น Weka, R หรือ RHadoop ควาญช้างห้องสมุด Apacheน่าจะเป็นตัวเลือกที่ดีและมันมีขั้นตอนวิธีการสำหรับงานที่ถดถอยและการจัดกลุ่ม สิ่งที่ฉันดิ้นรนเพื่อค้นหาเป็นวิธีการตรวจหาความผิดปกติหรือผิดปกติ เนื่องจาก Mahout นำเสนอ Hidden Markov Models และเทคนิคการจัดกลุ่มที่หลากหลาย (รวมถึง K-Means) ฉันสงสัยว่ามันจะเป็นไปได้ไหมที่จะสร้างแบบจำลองเพื่อตรวจจับค่าผิดปกติในอนุกรมเวลาโดยใช้สิ่งนี้ ฉันจะขอบคุณถ้าใครมีประสบการณ์เกี่ยวกับเรื่องนี้สามารถแนะนำฉัน ถ้าเป็นไปได้และในกรณีที่เป็น วิธีการทำรวมทั้ง การประเมินความพยายามที่เกี่ยวข้องและ ความแม่นยำ / ปัญหาของวิธีนี้