การเลือกคุณสมบัติอัตโนมัติสำหรับการตรวจจับความผิดปกติ


11

วิธีที่ดีที่สุดในการเลือกคุณสมบัติโดยอัตโนมัติสำหรับการตรวจจับความผิดปกติคืออะไร?

ผมปกติการรักษาความผิดปกติของการตรวจสอบเป็นขั้นตอนวิธีการที่คุณสมบัติที่ได้รับการคัดเลือกโดยผู้เชี่ยวชาญของมนุษย์: สิ่งที่สำคัญคือการส่งออกช่วง (ในขณะที่ "การป้อนข้อมูลที่ผิดปกติ - ส่งออกผิดปกติ") ดังนั้นแม้จะมีคุณสมบัติหลายอย่างที่คุณสามารถมากับชุดย่อยขนาดเล็กมากโดยการรวม คุณสมบัติ.

อย่างไรก็ตามสมมติว่าในกรณีทั่วไปรายการคุณลักษณะอาจมีขนาดใหญ่บางทีการเรียนรู้แบบอัตโนมัติบางครั้งก็เป็นที่นิยมกว่า เท่าที่ฉันเห็นมีความพยายามบางอย่าง:

  • "การเลือกคุณสมบัติอัตโนมัติสำหรับการตรวจจับความผิดปกติ" ( pdf ) ซึ่งสรุปคำอธิบายข้อมูลเวกเตอร์สนับสนุน
  • "ระบบตรวจจับการบุกรุกบนโฮสต์ที่รวดเร็วโดยใช้ทฤษฎีการตั้งค่าแบบคร่าวๆ" (ไม่มีไฟล์ PDF ให้ใช้?) ซึ่งฉันเดาว่าใช้ทฤษฎีการตั้งค่าแบบหยาบ
  • "กฎการเรียนรู้สำหรับการตรวจจับความผิดปกติของการรับส่งข้อมูลเครือข่ายที่ไม่เป็นมิตร" ( pdf , วิดีโอ ) ซึ่งใช้วิธีการทางสถิติ

ดังนั้นตอนนี้ฉันสงสัยว่าใครสามารถบอกได้ - สมมติว่ามีการตรวจจับความผิดปกติและชุดคุณลักษณะที่มีขนาดใหญ่มาก (หลายร้อย?):

  1. ฟีเจอร์ที่ยิ่งใหญ่เหล่านี้เหมาะสมหรือไม่? เราไม่ควรลดคุณสมบัติที่ตั้งไว้พูดสองสามสิบแล้วใช่มั้ย
  2. หากชุดคุณลักษณะขนาดใหญ่เข้ากันได้อย่างใดอย่างหนึ่งในวิธีการด้านบนจะให้การคาดการณ์ที่ดีขึ้นและทำไม? มีอะไรที่ไม่ได้ระบุไว้ซึ่งดีกว่ามาก?
  3. ทำไมพวกเขาควรให้ผลลัพธ์ที่ดีกว่าเมื่อเปรียบเทียบกับพูดลดขนาดหรือสร้างโครงสร้างผ่านการจัดกลุ่ม / อันดับ / ฯลฯ

ลิงก์ของคุณไม่ได้นำคำถามเฉพาะมาให้ฉัน คุณสามารถให้คำอธิบายสั้น ๆ ของปัญหาได้หรือไม่? วัตถุประสงค์คืออะไร มันเป็นปัญหาการเรียนรู้แบบมีผู้สอนหรือไม่ได้รับการดูแลหรือไม่?
AdamO

คำถามมาจาก ML.SE ซึ่งปิดตอนนี้ - ผู้ดูแลระบบไม่ได้รวมในทุกคำถาม ฉันแก้ไขข้อความตอนนี้เพื่อระบุปัญหาอย่างชัดเจน!
andreister

คำตอบ:


1

วิธีการปฏิบัติหนึ่งวิธี (ในกรณีของการเรียนรู้ภายใต้การดูแลอย่างน้อย) คือการรวมเอาคุณสมบัติที่เกี่ยวข้องทั้งหมดและใช้โมเดลเชิงเส้น (ทั่วไป) (การถดถอยโลจิสติก, svm เชิงเส้นเป็นต้น) ด้วยการทำให้เป็นมาตรฐาน (L1 และ / หรือ L2) มีเครื่องมือโอเพนซอร์ซ (เช่น Vowpal Wabbit) ที่สามารถจัดการกับตัวอย่าง / คุณลักษณะหลายล้านชุดสำหรับโมเดลประเภทนี้ดังนั้นความสามารถในการปรับขยายจึงไม่เป็นปัญหา (นอกจากนี้ยังสามารถใช้การสุ่มตัวอย่างย่อยได้เสมอ) การทำให้เป็นปกติจะช่วยจัดการกับการเลือกคุณสมบัติ


แต่วิธีการเลือกคุณสมบัติในการตั้งค่าที่ไม่ได้รับการดูแล (โดยไม่จำเป็นต้องใช้โมเดลเชิงเส้น ฯลฯ เพื่อหาคุณสมบัติที่สำคัญ) วิธีหนึ่งที่ฉันสามารถคิดได้คือการใช้ PCA เพื่อรักษาความแปรปรวนและลดขนาดข้อมูล แต่อีกครั้งการลดข้อมูลในปัญหาการตรวจจับความผิดปกติดูเหมือนว่าจะอันตรายเนื่องจากคุณอาจพบว่ามีค่าผิดพลาดที่เกิดขึ้นจริงที่คุณต้องการคาดการณ์ ดังนั้นความสับสน
exAres
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.