TL; DR
- เป็นวิธีที่แนะนำให้จัดการกับอะไร
discrete
ข้อมูลเมื่อทำการตรวจจับความผิดปกติคืออะไร? - เป็นวิธีที่แนะนำให้จัดการกับอะไร
categorical
ข้อมูลเมื่อทำการตรวจจับความผิดปกติคืออะไร? - คำตอบนี้แนะนำให้ใช้ข้อมูลแบบไม่ต่อเนื่องเพื่อกรองผลลัพธ์
- อาจแทนที่ค่าหมวดหมู่ด้วยโอกาสในการสังเกต
Intro
นี่เป็นครั้งแรกที่ฉันโพสต์ที่นี่ดังนั้นโปรดหากมีสิ่งใดที่ดูเหมือนว่าไม่ถูกต้องทางเทคนิคไม่ว่าจะเป็นการจัดรูปแบบหรือการใช้คำจำกัดความที่ถูกต้องฉันสนใจที่จะรู้ว่าควรใช้สิ่งใดแทน
ต่อมา
เมื่อเร็ว ๆ นี้ฉันได้เป็นส่วนหนึ่งของการเรียนรู้ของMachine Learningโดย Andrew Ng
สำหรับการตรวจจับความผิดปกติเราได้รับการสอนให้พิจารณาว่าพารามิเตอร์การกระจายแบบปกติ / แบบเกาส์เซียนคืออะไรสำหรับคุณสมบัติ / ตัวแปรที่กำหนดภายในชุดข้อมูลจากนั้นพิจารณาความน่าจะเป็นของชุดการฝึกอบรม / ตัวอย่างการสังเกต การกระจายแบบเกาส์จากนั้นนำผลคูณของความน่าจะเป็นของฟีเจอร์
วิธี
เลือกมี / ตัวแปรที่เราคิดว่าอธิบายกิจกรรมในคำถาม: { x 1 , x 2 , ... , x ฉัน }
พอดีกับพารามิเตอร์ของ Gaussian สำหรับแต่ละคุณลักษณะ: σ2=1
สำหรับแต่ละตัวอย่างการฝึกอบรมคำนวณ: p ( x ) = n ∏ j = 1 p ( x j ; μ j , σ 2 j )
จากนั้นเราตั้งค่าสถานะเป็นความผิดปกติ ( ) ที่ให้: y = { 1
สิ่งนี้ทำให้เรามีวิธีการที่จะตรวจสอบว่าตัวอย่างต้องมีการตรวจสอบเพิ่มเติม
คำถามของฉัน
ดูเหมือนว่าจะดีสำหรับตัวแปร / คุณสมบัติอย่างต่อเนื่องแต่ไม่มีการแยกข้อมูลที่ไม่ต่อเนื่อง
คำถาม: (อัปเดต: 2015-11-24)
มีอีกวิธีหนึ่งที่คำนึงถึงสิ่งที่ฉันถามที่นี่ว่าฉันสามารถค้นคว้าเพิ่มเติม / เรียนรู้เพิ่มเติมได้หรือไม่?- วิธีที่แนะนำในการจัดการกับ
discrete
ข้อมูลเมื่อทำการตรวจจับความผิดปกติคืออะไร? - วิธีที่แนะนำในการจัดการกับ
categorical
ข้อมูลเมื่อทำการตรวจจับความผิดปกติคืออะไร?
แก้ไข: 2017-05-03
- คำตอบนี้แนะนำให้ใช้ข้อมูลแบบไม่ต่อเนื่องเพื่อกรองผลลัพธ์
- อาจแทนที่ค่าหมวดหมู่ด้วยโอกาสในการสังเกต