ฉันมี 2 ชุดข้อมูลหนึ่งชุดมีอินสแตนซ์ที่เป็นบวกของสิ่งที่ฉันต้องการตรวจจับและอีกชุดมีอินสแตนซ์ที่ไม่มีชื่อ ฉันสามารถใช้วิธีการใดได้บ้าง?
ตัวอย่างเช่นสมมติว่าเราต้องการทำความเข้าใจการตรวจจับอีเมลขยะโดยดูจากลักษณะโครงสร้างอีเมลบางส่วน เรามีหนึ่งชุดของอีเมลสแปม 10,000 ชุดและหนึ่งชุดของอีเมล 100,000 ชุดที่เราไม่ทราบว่าเป็นสแปมหรือไม่
เราจะแก้ไขปัญหานี้ได้อย่างไร (โดยไม่ต้องติดป้ายกำกับใด ๆ ของข้อมูลที่ไม่มีชื่อ)
เราจะทำอย่างไรถ้าเรามีข้อมูลเพิ่มเติมเกี่ยวกับสัดส่วนของสแปมในข้อมูลที่ไม่มีป้ายกำกับ (เช่นถ้าเราประเมินว่าระหว่าง 20-40% ของอีเมลที่ไม่มีป้ายกำกับ 100000 รายการเป็นจดหมายขยะ)