การจัดการชุดคุณลักษณะที่เพิ่มขึ้นเป็นประจำ


10

ฉันกำลังทำงานกับระบบตรวจจับการฉ้อโกง ในฟิลด์นี้การฉ้อโกงใหม่จะปรากฏขึ้นเป็นประจำเพื่อให้มีการเพิ่มฟีเจอร์ใหม่ในโมเดลอย่างต่อเนื่อง

ฉันสงสัยว่าอะไรคือวิธีที่ดีที่สุดในการจัดการกับมัน (จากมุมมองกระบวนการพัฒนา) เพียงแค่เพิ่มคุณสมบัติใหม่ลงในเวกเตอร์ฟีเจอร์และการฝึกอบรมตัวจําแนกใหม่ดูเหมือนว่าจะไร้เดียงสาเพราะจะใช้เวลามากเกินไปในการเรียนรู้คุณสมบัติเก่าใหม่อีกครั้ง

ฉันคิดว่าวิธีการฝึกอบรมตัวจําแนกสำหรับแต่ละคุณสมบัติ (หรือสองสามคุณสมบัติที่เกี่ยวข้อง) แล้วรวมผลของตัวแยกประเภทเหล่านั้นกับลักษณนามโดยรวม มีข้อเสียของวิธีการนี้หรือไม่? ฉันจะเลือกอัลกอริทึมสำหรับตัวจําแนกโดยรวมได้อย่างไร

คำตอบ:


4

ในโลกอุดมคติคุณเก็บข้อมูลประวัติทั้งหมดของคุณและทำการรันโมเดลใหม่ด้วยฟีเจอร์ใหม่ที่ดึงข้อมูลย้อนหลังออกจากข้อมูลประวัติ ฉันยืนยันว่าทรัพยากรการคำนวณที่ใช้ไปกับสิ่งนี้มีประโยชน์มาก มันเป็นปัญหาจริงเหรอ?

ใช่มันเป็นเทคนิคที่ได้รับการยอมรับอย่างกว้างขวางในการสร้างกลุ่มของตัวแยกประเภทและรวมผลลัพธ์ของพวกเขา คุณสามารถสร้างรูปแบบใหม่พร้อมกันเพียงแค่คุณสมบัติใหม่และค่าเฉลี่ยในการทำนาย สิ่งนี้ควรเพิ่มคุณค่า แต่คุณจะไม่จับภาพการโต้ตอบระหว่างคุณลักษณะใหม่และเก่าด้วยวิธีนี้เนื่องจากจะไม่ปรากฏร่วมกันในตัวจําแนก


2

นี่เป็นแนวคิดที่เพิ่งโผล่ออกมาจากสีน้ำเงิน - จะเป็นอย่างไรถ้าคุณใช้การสุ่มตัวอย่าง Subspace (ตามที่ฌอนโอเว่นแนะนำไว้แล้ว) เพื่อฝึกอบรมตัวแยกประเภทใหม่ ๆ ทุกครั้งที่มีคุณลักษณะใหม่ปรากฏขึ้น (โดยใช้คุณสมบัติย่อยแบบสุ่ม ฟีเจอร์ชุดใหม่) คุณสามารถฝึกฝนโมเดลเหล่านั้นบนกลุ่มย่อยของตัวอย่างได้เช่นกันเพื่อประหยัดเวลาในการฝึกอบรม

วิธีนี้ทำให้คุณมีตัวแยกประเภทใหม่ที่อาจใช้ทั้งคุณลักษณะใหม่และเก่าและในเวลาเดียวกันก็รักษาตัวแยกประเภทเก่าของคุณ คุณอาจแม้กระทั่งใช้เทคนิคการตรวจสอบความถูกต้องไขว้กันเพื่อวัดประสิทธิภาพของตัวจําแนกแต่ละคนสามารถฆ่าสิ่งที่มีประสิทธิภาพที่เลวร้ายที่สุดได้หลังจากผ่านไประยะหนึ่งเพื่อหลีกเลี่ยงตัวแบบที่พองตัว


0

สิ่งที่คุณอธิบายตรงกับหมวดหมู่ของแนวความคิดในการเรียนรู้เครื่อง คุณอาจพบคิดที่น่าสนใจและดำเนินการในเรื่องนี้กระดาษสรุปและคุณจะพบอนุกรมวิธานของที่เป็นไปได้แนวทางในภาพนิ่งเหล่านี้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.