คำถามติดแท็ก outlier

2
เครื่องมือสำหรับการตรวจจับความผิดปกติอัตโนมัติในตาราง SQL?
ฉันมีตาราง SQL ขนาดใหญ่ที่เป็นบันทึก ข้อมูลค่อนข้างซับซ้อนและฉันพยายามค้นหาวิธีการระบุความผิดปกติโดยที่ฉันไม่เข้าใจข้อมูลทั้งหมด ฉันพบเครื่องมือมากมายสำหรับการตรวจจับความผิดปกติ แต่ส่วนใหญ่ต้องการเครื่องมือ "คนกลาง" ประเภทต่าง ๆ เช่น Elastic Search, Splunk เป็นต้น ไม่มีใครรู้เครื่องมือที่สามารถทำงานกับตาราง SQL ที่สร้างพื้นฐานและการแจ้งเตือนของความผิดปกติโดยอัตโนมัติ? สิ่งนี้อาจฟังดูขี้เกียจ แต่ฉันใช้เวลาหลายสิบชั่วโมงในการเขียนสคริปต์การรายงานแต่ละรายการเนื่องจากฉันเรียนรู้ว่าแต่ละประเภทเหตุการณ์หมายถึงอะไรและฟิลด์อื่น ๆ ไปกับแต่ละกิจกรรมและฉันไม่รู้สึกใกล้ชิดกับความสามารถในการเตือนปัญหาจริง ๆ วิธีที่มีความหมาย ตารางมี 41 คอลัมน์และมีจำนวนถึง 500 ล้านแถว (3 ปีของข้อมูล)

2
Scalable Outlier / Anomaly Detection
ฉันกำลังพยายามติดตั้งโครงสร้างพื้นฐานข้อมูลขนาดใหญ่โดยใช้ Hadoop, Hive, Elastic Search (รวมถึงอื่น ๆ ) และฉันต้องการเรียกใช้อัลกอริทึมบางอย่างกับชุดข้อมูลบางชุด ฉันต้องการอัลกอริทึมที่สามารถปรับขนาดได้ดังนั้นสิ่งนี้ไม่รวมการใช้เครื่องมือเช่น Weka, R หรือ RHadoop ควาญช้างห้องสมุด Apacheน่าจะเป็นตัวเลือกที่ดีและมันมีขั้นตอนวิธีการสำหรับงานที่ถดถอยและการจัดกลุ่ม สิ่งที่ฉันดิ้นรนเพื่อค้นหาเป็นวิธีการตรวจหาความผิดปกติหรือผิดปกติ เนื่องจาก Mahout นำเสนอ Hidden Markov Models และเทคนิคการจัดกลุ่มที่หลากหลาย (รวมถึง K-Means) ฉันสงสัยว่ามันจะเป็นไปได้ไหมที่จะสร้างแบบจำลองเพื่อตรวจจับค่าผิดปกติในอนุกรมเวลาโดยใช้สิ่งนี้ ฉันจะขอบคุณถ้าใครมีประสบการณ์เกี่ยวกับเรื่องนี้สามารถแนะนำฉัน ถ้าเป็นไปได้และในกรณีที่เป็น วิธีการทำรวมทั้ง การประเมินความพยายามที่เกี่ยวข้องและ ความแม่นยำ / ปัญหาของวิธีนี้

4
การตรวจวัดปริมาณการใช้ก๊าซ - โครงการโครงข่ายประสาทเทียม ผลลัพธ์ไม่ดี
ฉันพยายามตรวจหาคนนอกในการใช้ก๊าซพลังงานของอาคารดัตช์บางแห่งสร้างแบบจำลองโครงข่ายประสาทเทียม ฉันมีผลลัพธ์ที่แย่มาก แต่ฉันไม่สามารถหาสาเหตุได้ ฉันไม่ใช่ผู้เชี่ยวชาญดังนั้นฉันอยากจะถามคุณว่าฉันสามารถปรับปรุงอะไรได้บ้างและฉันทำอะไรผิด นี่คือคำอธิบายที่สมบูรณ์: https://github.com/denadai2/Gas-consumption-outliers เครือข่ายนิวรัลคือเครือข่าย FeedFoward พร้อม Back Propagation ตามที่อธิบายไว้ที่นี่ฉันแยกชุดข้อมูลในชุดข้อมูล "เล็ก" ของแถว 41'000, 9 คุณสมบัติและฉันพยายามเพิ่มคุณสมบัติเพิ่มเติม ฉันฝึกเครือข่าย แต่ผลลัพธ์มี 14.14 RMSE ดังนั้นจึงไม่สามารถคาดการณ์ปริมาณการใช้ก๊าซได้อย่างดีฉันไม่สามารถใช้กลไกการตรวจจับค่าผิดปกติได้ดีอย่างต่อเนื่อง ฉันเห็นว่าในเอกสารบางฉบับที่แม้ว่าพวกเขาทำนายการใช้พลังงานไฟฟ้ารายวันหรือรายชั่วโมงพวกเขามีข้อผิดพลาดเช่น MSE = 0.01 ฉันจะปรับปรุงอะไรดี ผมทำอะไรผิดหรือเปล่า? คุณสามารถดูคำอธิบายของฉันได้ไหม?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.