วิธีที่ดีที่สุดในการเลือกคุณสมบัติโดยอัตโนมัติสำหรับการตรวจจับความผิดปกติคืออะไร?
ผมปกติการรักษาความผิดปกติของการตรวจสอบเป็นขั้นตอนวิธีการที่คุณสมบัติที่ได้รับการคัดเลือกโดยผู้เชี่ยวชาญของมนุษย์: สิ่งที่สำคัญคือการส่งออกช่วง (ในขณะที่ "การป้อนข้อมูลที่ผิดปกติ - ส่งออกผิดปกติ") ดังนั้นแม้จะมีคุณสมบัติหลายอย่างที่คุณสามารถมากับชุดย่อยขนาดเล็กมากโดยการรวม คุณสมบัติ.
อย่างไรก็ตามสมมติว่าในกรณีทั่วไปรายการคุณลักษณะอาจมีขนาดใหญ่บางทีการเรียนรู้แบบอัตโนมัติบางครั้งก็เป็นที่นิยมกว่า เท่าที่ฉันเห็นมีความพยายามบางอย่าง:
- "การเลือกคุณสมบัติอัตโนมัติสำหรับการตรวจจับความผิดปกติ" ( pdf ) ซึ่งสรุปคำอธิบายข้อมูลเวกเตอร์สนับสนุน
- "ระบบตรวจจับการบุกรุกบนโฮสต์ที่รวดเร็วโดยใช้ทฤษฎีการตั้งค่าแบบคร่าวๆ" (ไม่มีไฟล์ PDF ให้ใช้?) ซึ่งฉันเดาว่าใช้ทฤษฎีการตั้งค่าแบบหยาบ
- "กฎการเรียนรู้สำหรับการตรวจจับความผิดปกติของการรับส่งข้อมูลเครือข่ายที่ไม่เป็นมิตร" ( pdf , วิดีโอ ) ซึ่งใช้วิธีการทางสถิติ
ดังนั้นตอนนี้ฉันสงสัยว่าใครสามารถบอกได้ - สมมติว่ามีการตรวจจับความผิดปกติและชุดคุณลักษณะที่มีขนาดใหญ่มาก (หลายร้อย?):
- ฟีเจอร์ที่ยิ่งใหญ่เหล่านี้เหมาะสมหรือไม่? เราไม่ควรลดคุณสมบัติที่ตั้งไว้พูดสองสามสิบแล้วใช่มั้ย
- หากชุดคุณลักษณะขนาดใหญ่เข้ากันได้อย่างใดอย่างหนึ่งในวิธีการด้านบนจะให้การคาดการณ์ที่ดีขึ้นและทำไม? มีอะไรที่ไม่ได้ระบุไว้ซึ่งดีกว่ามาก?
- ทำไมพวกเขาควรให้ผลลัพธ์ที่ดีกว่าเมื่อเปรียบเทียบกับพูดลดขนาดหรือสร้างโครงสร้างผ่านการจัดกลุ่ม / อันดับ / ฯลฯ