ฉันกำลังพยายามติดตั้งโครงสร้างพื้นฐานข้อมูลขนาดใหญ่โดยใช้ Hadoop, Hive, Elastic Search (รวมถึงอื่น ๆ ) และฉันต้องการเรียกใช้อัลกอริทึมบางอย่างกับชุดข้อมูลบางชุด ฉันต้องการอัลกอริทึมที่สามารถปรับขนาดได้ดังนั้นสิ่งนี้ไม่รวมการใช้เครื่องมือเช่น Weka, R หรือ RHadoop ควาญช้างห้องสมุด Apacheน่าจะเป็นตัวเลือกที่ดีและมันมีขั้นตอนวิธีการสำหรับงานที่ถดถอยและการจัดกลุ่ม
สิ่งที่ฉันดิ้นรนเพื่อค้นหาเป็นวิธีการตรวจหาความผิดปกติหรือผิดปกติ
เนื่องจาก Mahout นำเสนอ Hidden Markov Models และเทคนิคการจัดกลุ่มที่หลากหลาย (รวมถึง K-Means) ฉันสงสัยว่ามันจะเป็นไปได้ไหมที่จะสร้างแบบจำลองเพื่อตรวจจับค่าผิดปกติในอนุกรมเวลาโดยใช้สิ่งนี้ ฉันจะขอบคุณถ้าใครมีประสบการณ์เกี่ยวกับเรื่องนี้สามารถแนะนำฉัน
- ถ้าเป็นไปได้และในกรณีที่เป็น
- วิธีการทำรวมทั้ง
- การประเมินความพยายามที่เกี่ยวข้องและ
- ความแม่นยำ / ปัญหาของวิธีนี้