จากการกำหนดคำถามฉันคิดว่าไม่มี "ตัวอย่าง" ของความผิดปกติ (เช่นป้ายกำกับ) ใด ๆ ด้วยสมมติฐานดังกล่าววิธีการที่เป็นไปได้คือการใช้autoencoders : เครือข่ายประสาทที่ได้รับเป็นการป้อนข้อมูลของคุณและได้รับการฝึกฝนให้ส่งออกข้อมูลเดียวกันมาก แนวคิดก็คือการฝึกอบรมได้อนุญาตให้สุทธิเพื่อเรียนรู้การเป็นตัวแทนของการกระจายข้อมูลอินพุตในรูปแบบของตัวแปรแฝง
มี autoencoder ประเภทหนึ่งที่เรียกว่าdenoising autoencoderซึ่งได้รับการฝึกอบรมเกี่ยวกับข้อมูลต้นฉบับที่เสียหายเป็นอินพุตและมีข้อมูลต้นฉบับที่ไม่เสียหายเป็นเอาต์พุต สิ่งนี้จะให้เครือข่ายที่สามารถกำจัดสัญญาณรบกวน (เช่นข้อมูลเสียหาย) จากอินพุต
คุณสามารถฝึกอบรมโปรแกรมสร้างรหัสอัตโนมัติด้วยข้อมูลรายวัน จากนั้นใช้กับข้อมูลรายวันใหม่ วิธีนี้คุณจะมีข้อมูลรายวันดั้งเดิมและข้อมูลที่ไม่มีการตัดทอนของข้อมูลเดียวกันมาก จากนั้นคุณสามารถเปรียบเทียบทั้งสองเพื่อตรวจจับความแตกต่างที่สำคัญ
กุญแจสำคัญในที่นี้คือนิยามความแตกต่างที่สำคัญที่คุณเลือก คุณสามารถคำนวณระยะทางแบบยุคลิดและคิดว่าถ้ามันเกินขีด จำกัด ตามอำเภอใจคุณก็มีความผิดปกติ อีกปัจจัยที่สำคัญคือความเสียหายที่คุณแนะนำ พวกเขาควรจะใกล้เคียงที่สุดกับความผิดปกติที่สมเหตุสมผล
อีกทางเลือกหนึ่งคือการใช้เครือข่ายที่ไม่พึงประสงค์ทั่วไป ผลพลอยได้จากการฝึกอบรมเป็นเครือข่ายผู้แบ่งแยกที่บอกข้อมูลรายวันปกตินอกเหนือจากข้อมูลผิดปกติ