ฉันได้ดูวิธีการเรียนรู้แบบกึ่งภายใต้การดูแลและได้พบกับแนวคิดของ "การติดฉลากหลอก"
ตามที่ฉันเข้าใจแล้วด้วยการติดฉลากหลอกคุณมีชุดของข้อมูลที่มีป้ายกำกับรวมถึงชุดของข้อมูลที่ไม่มีป้ายกำกับ คุณฝึกอบรมโมเดลโดยใช้ข้อมูลที่มีป้ายกำกับเท่านั้น จากนั้นคุณใช้ข้อมูลเริ่มต้นนั้นเพื่อจัดประเภท (แนบป้ายกำกับชั่วคราว) กับข้อมูลที่ไม่มีป้ายกำกับ จากนั้นคุณป้อนทั้งข้อมูลที่มีป้ายกำกับและไม่มีป้ายกำกับกลับสู่การฝึกอบรมแบบจำลองของคุณ (อีกครั้ง) ปรับให้เหมาะสมกับทั้งป้ายกำกับที่รู้จักและป้ายกำกับที่คาดการณ์ (ทำซ้ำกระบวนการนี้ติดฉลากใหม่ด้วยรุ่นที่อัปเดตแล้ว)
ผลประโยชน์ที่อ้างสิทธิ์คือคุณสามารถใช้ข้อมูลเกี่ยวกับโครงสร้างของข้อมูลที่ไม่มีป้ายกำกับเพื่อปรับปรุงแบบจำลอง การเปลี่ยนแปลงของรูปต่อไปนี้มักจะแสดง "แสดงให้เห็น" ว่ากระบวนการสามารถทำให้ขอบเขตการตัดสินใจที่ซับซ้อนมากขึ้นตามที่ข้อมูล (ไม่มีป้ายกำกับ) อยู่
ภาพจากWikimedia Commonsโดย Techerin CC BY-SA 3.0
อย่างไรก็ตามฉันไม่ค่อยซื้อคำอธิบายแบบง่ายๆ อย่างไร้เดียงสาถ้าผลการฝึกอย่างเดียวที่มีป้ายกำกับดั้งเดิมคือขอบเขตการตัดสินใจระดับสูงจะมีการกำหนดป้ายหลอกโดยขึ้นอยู่กับขอบเขตการตัดสินใจนั้น ซึ่งจะกล่าวว่ามือซ้ายของเส้นโค้งส่วนบนจะเป็นป้ายขาวหลอกและมือขวาของเส้นโค้งล่างจะเป็นป้ายดำหลอก คุณจะไม่ได้รับขอบเขตการตัดสินใจโค้งที่ดีหลังจากการฝึกอบรมซ้ำเนื่องจากป้ายหลอกใหม่จะช่วยเสริมขอบเขตการตัดสินใจปัจจุบัน
หรือกล่าวอีกนัยหนึ่งขอบเขตการตัดสินใจที่มีป้ายกำกับเท่านั้นในปัจจุบันจะมีความแม่นยำในการทำนายที่สมบูรณ์แบบสำหรับข้อมูลที่ไม่มีชื่อ (นั่นคือสิ่งที่เราใช้ในการสร้าง) ไม่มีแรงผลักดัน (ไม่มีการไล่ระดับสี) ซึ่งจะทำให้เราเปลี่ยนที่ตั้งของขอบเขตการตัดสินใจเพียงแค่เพิ่มข้อมูลที่ติดฉลากหลอก
ฉันถูกต้องในการคิดว่าคำอธิบายที่เป็นตัวเป็นตนโดยแผนภาพขาด หรือมีบางอย่างที่ฉันขาดหายไป? ถ้าไม่ได้ประโยชน์ของป้ายกำกับหลอกคืออะไรเนื่องจากขอบเขตการตัดสินใจสั่งสอนขึ้นใหม่มีความแม่นยำที่สมบูรณ์แบบเหนือป้ายกำกับหลอก?