เพื่อความเรียบง่ายสมมติว่าฉันทำงานกับตัวอย่างคลาสสิกของอีเมลสแปม / จดหมายขยะ
ฉันมีอีเมลหนึ่งชุด ในบรรดาสิ่งเหล่านี้ฉันรู้ว่า 2000 เป็นสแปม แต่ฉันไม่มีตัวอย่างของอีเมลขยะ ฉันต้องการที่จะคาดการณ์ว่าส่วนที่เหลืออีก 18,000 เป็นสแปมหรือไม่ ตามหลักการแล้วผลลัพธ์ที่ฉันค้นหาคือความน่าจะเป็น (หรือค่า p) ที่อีเมลเป็นสแปม
ฉันสามารถใช้อัลกอริทึมใดในการทำนายอย่างสมเหตุสมผลในสถานการณ์นี้
ในขณะนี้ฉันกำลังคิดถึงวิธีการทางไกลที่จะบอกฉันว่าอีเมลของฉันคล้ายกับอีเมลสแปมที่รู้จักกันอย่างไร ฉันมีตัวเลือกอะไรบ้าง
โดยทั่วไปฉันสามารถใช้วิธีการเรียนรู้แบบมีผู้สอนหรือฉันจำเป็นต้องมีกรณีที่เป็นลบในชุดฝึกอบรมเพื่อทำเช่นนั้นหรือไม่? ฉัน จำกัด วิธีการเรียนรู้ที่ไม่ได้รับการดูแลหรือไม่? วิธีการกึ่งควบคุมดูแล?