สร้างตัวจําแนกไบนารีด้วยข้อมูลเชิงบวกและไม่มีป้ายกำกับเท่านั้น

11

ฉันมี 2 ชุดข้อมูลหนึ่งชุดมีอินสแตนซ์ที่เป็นบวกของสิ่งที่ฉันต้องการตรวจจับและอีกชุดมีอินสแตนซ์ที่ไม่มีชื่อ ฉันสามารถใช้วิธีการใดได้บ้าง?

ตัวอย่างเช่นสมมติว่าเราต้องการทำความเข้าใจการตรวจจับอีเมลขยะโดยดูจากลักษณะโครงสร้างอีเมลบางส่วน เรามีหนึ่งชุดของอีเมลสแปม 10,000 ชุดและหนึ่งชุดของอีเมล 100,000 ชุดที่เราไม่ทราบว่าเป็นสแปมหรือไม่

เราจะแก้ไขปัญหานี้ได้อย่างไร (โดยไม่ต้องติดป้ายกำกับใด ๆ ของข้อมูลที่ไม่มีชื่อ)

เราจะทำอย่างไรถ้าเรามีข้อมูลเพิ่มเติมเกี่ยวกับสัดส่วนของสแปมในข้อมูลที่ไม่มีป้ายกำกับ (เช่นถ้าเราประเมินว่าระหว่าง 20-40% ของอีเมลที่ไม่มีป้ายกำกับ 100000 รายการเป็นจดหมายขยะ)

classification semi-supervised-learning

— nassimhddd
แหล่งที่มา

1

โพสต์ควรเพิ่มแท็ก semi-supervised และ pu-learning แท็กเหล่านี้ยังไม่มีอยู่และปัจจุบันฉันไม่สามารถสร้างได้

— DaL

@DanLevin Yeah, [tag: การเรียนแบบกึ่งมีผู้ดูแล] เหมาะสม ที่เพิ่มเข้ามา :) ฉันไม่แน่ใจในส่วนของ pu-learning (อย่างน้อยฉันก็ไม่รู้) ดังนั้นคนอื่นสามารถทำได้!

— Dawny33

1

PU-learning เป็นกรณีเฉพาะของการเรียนแบบกึ่งมีผู้สอน มันเป็นเรื่องธรรมดาน้อยกว่า (ผลลัพธ์ 7K ที่ Google) จากนั้นมีการควบคุมแบบกึ่ง (298K ผลลัพธ์ที่ Google) ว่าคำถามนี้คือ PU (ชุดข้อมูลที่ติดป้ายกำกับนั้นเป็นผลบวก) ในขณะที่หัวข้อถูกกล่าวถึงสถานศึกษา (เช่นcs.uic.edu/~liub/NSF/PSC-IIS-0307239.html ) เป็นไปได้ที่คำถามนี้จะอยู่คนเดียวกับแท็กนี้เป็นระยะเวลานาน

— DaL

7

ข้อเสนอแนะของฉันจะพยายามสร้างการจัดกลุ่มบางอย่างในข้อมูลที่ไม่มีป้ายกำกับของคุณซึ่งค่อนข้างใกล้เคียงกับชุดข้อมูลที่มีป้ายกำกับ เหตุผลมีมากหรือน้อยดังนี้:

คุณมีคุณสมบัติเวกเตอร์สำหรับแสดงเอกสารของคุณ
ขึ้นอยู่กับคุณสมบัติของเวกเตอร์นั้นคุณสามารถสร้างคลัสเตอร์จำนวนมากด้วยวิธีการจัดกลุ่มแบบฟัซซี่หยาบหรือคลาส
เมื่อทราบว่าตัวอย่างเชิงบวกมีลักษณะอย่างไรคุณสามารถประเมินความคล้ายคลึงโดยรวมของคลัสเตอร์กับคลัสเตอร์เชิงบวกของคุณได้อย่างรวดเร็ว
เมื่อรู้ว่าควรมีเพียงสองกลุ่มเท่านั้นคุณสามารถปรับเปลี่ยนพารามิเตอร์ในวิธีการทำคลัสเตอร์ของคุณเพื่อให้ทั้งสองตัวชี้วัดด้านบนใกล้เคียงกับความพึงพอใจมากขึ้น
ด้วยสองกลุ่มคุณมีโอกาสใกล้เคียงกับชุดข้อมูลที่มีป้ายกำกับซึ่งคุณสามารถใช้เป็นคลังข้อมูลประเภทเงินมาตรฐานเพื่อฝึกฝนแบบจำลองของคุณได้

หวังว่าจะทำให้ความรู้สึกถ้าคุณกำลังมองหาเฉพาะขั้นตอนวิธีการจัดกลุ่มไม่กี่ที่ผมเองสนุกกับการที่อาจจะดีในสถานการณ์นี้มีเปลวไฟและtsne อีกวิธีหนึ่งการดูห้องสมุดgensimที่น่าตื่นเต้นในหลามจะช่วยให้คุณไปสู่การจัดกลุ่มที่คุณต้องการ

หวังว่าจะช่วยและทำให้รู้สึกออกความคิดเห็นหากคุณมีคำถามใด ๆ

— Indico
แหล่งที่มา

ขอบคุณสำหรับคำตอบ. ฉันเข้าใจถูกต้องหรือไม่: จุดเริ่มต้นของคุณคือการรวมชุดข้อมูล 2 ชุด

— nassimhddd

@ cafe876 นั่นเป็นวิธีหนึ่งในการเริ่มต้นและจากนั้นพยายามสร้างกลุ่มที่ใกล้เคียงกับต้นฉบับโดยทั่วไป

— indico

3

ปัญหาของคุณอยู่ในกรอบของการเรียนรู้ PU (บวกเท่านั้นจำนวนมากไม่มีป้ายกำกับ)

นอกจากนี้ยังใกล้กับกรอบทั่วไปของ การเรียนรู้แบบกึ่งภายใต้การดูแล (มีผลบวกและลบน้อยมาก, ไม่มีป้ายกำกับจำนวนมาก)

มีเอกสารสำรวจจำนวนมากที่คุณสามารถค้นหาบนสนามได้

วิธีการแบบคลาสสิกในสาขาที่ได้รับการทดสอบเกี่ยวกับสแปมเช่นเดียวกับในกรณีของคุณคือการฝึกอบรม ร่วมในการฝึกอบรมร่วมคุณสร้างผู้เรียนอิสระสองคน (เช่นหนึ่งขึ้นอยู่กับเนื้อหาของอีเมลและอีกวิธีหนึ่งตามรูปแบบการส่ง) ผลลัพธ์ของการฝึกอีกอย่างหนึ่งและในทางกลับกัน

— Dal
แหล่งที่มา

2

ฝึกโมเดล 2 กำเนิดหนึ่งชุดสำหรับแต่ละชุดข้อมูล (สแปมเท่านั้นสแปมบวกแฮม) ซึ่งจะทำให้คุณมีความน่าจะเป็นที่ดาต้าพอยน์ถูกดึงมาจากการแจกแจงความน่าจะเป็นแบบเดียวกันของข้อมูลการฝึกอบรม กำหนดอีเมลเป็นสแปมหรือแฮมตามรูปแบบที่ให้ความน่าจะเป็นสูงสุดของเอกสารที่เกิดจากข้อมูลการฝึกอบรมที่ใช้ในการฝึกอบรม ตัวอย่างโมเดลทั่วไปคือ RBM's, autoencoders (ในกรณีนั้น, โมเดลใดมีข้อผิดพลาดในการสร้างใหม่ต่ำสุด) มีแนวโน้มว่าตัวแบบกำเนิดแบบเบย์บางอันก็จะกำหนดความน่าจะเป็นให้กับจุดข้อมูลตามข้อมูลการฝึกอบรมบางอย่าง

ตัวเลือกที่ดีที่สุดคือการใช้เวลาในการดูแลชุดข้อมูลชุดที่สองที่มีเฉพาะแฮม ที่จะให้ความแม่นยำในการจำแนกประเภทที่สูงขึ้น สมมติว่ามีสัดส่วนของสแปมที่ต่ำกว่าต่ออีเมลแฮมซึ่งไม่ควรยากเกินไป คุณยังสามารถใช้เครื่องกลเติร์กได้หากคุณไม่มีเวลาหรือทรัพยากร (หรือนักเรียนนักศึกษาฝึกงานหรือแรงงานราคาถูกอื่น ๆ )

— ไซมอน
แหล่งที่มา

ขอบคุณสำหรับคำตอบ. มันเป็นตัวอย่างที่ยอดเยี่ยมของแบบจำลองเชิงกำเนิดที่สามารถทำแบบจำลองที่จำแนกไม่ได้

— nassimhddd