เหตุใดการใช้การติดป้ายกำกับโดยไม่ส่งผลกระทบต่อผลลัพธ์เล็กน้อย


19

ฉันได้ดูวิธีการเรียนรู้แบบกึ่งภายใต้การดูแลและได้พบกับแนวคิดของ "การติดฉลากหลอก"

ตามที่ฉันเข้าใจแล้วด้วยการติดฉลากหลอกคุณมีชุดของข้อมูลที่มีป้ายกำกับรวมถึงชุดของข้อมูลที่ไม่มีป้ายกำกับ คุณฝึกอบรมโมเดลโดยใช้ข้อมูลที่มีป้ายกำกับเท่านั้น จากนั้นคุณใช้ข้อมูลเริ่มต้นนั้นเพื่อจัดประเภท (แนบป้ายกำกับชั่วคราว) กับข้อมูลที่ไม่มีป้ายกำกับ จากนั้นคุณป้อนทั้งข้อมูลที่มีป้ายกำกับและไม่มีป้ายกำกับกลับสู่การฝึกอบรมแบบจำลองของคุณ (อีกครั้ง) ปรับให้เหมาะสมกับทั้งป้ายกำกับที่รู้จักและป้ายกำกับที่คาดการณ์ (ทำซ้ำกระบวนการนี้ติดฉลากใหม่ด้วยรุ่นที่อัปเดตแล้ว)

ผลประโยชน์ที่อ้างสิทธิ์คือคุณสามารถใช้ข้อมูลเกี่ยวกับโครงสร้างของข้อมูลที่ไม่มีป้ายกำกับเพื่อปรับปรุงแบบจำลอง การเปลี่ยนแปลงของรูปต่อไปนี้มักจะแสดง "แสดงให้เห็น" ว่ากระบวนการสามารถทำให้ขอบเขตการตัดสินใจที่ซับซ้อนมากขึ้นตามที่ข้อมูล (ไม่มีป้ายกำกับ) อยู่

ขอบเขตการตัดสินใจในวิธีกึ่งแบบมีผู้ควบคุม

ภาพจากWikimedia Commonsโดย Techerin CC BY-SA 3.0

อย่างไรก็ตามฉันไม่ค่อยซื้อคำอธิบายแบบง่ายๆ อย่างไร้เดียงสาถ้าผลการฝึกอย่างเดียวที่มีป้ายกำกับดั้งเดิมคือขอบเขตการตัดสินใจระดับสูงจะมีการกำหนดป้ายหลอกโดยขึ้นอยู่กับขอบเขตการตัดสินใจนั้น ซึ่งจะกล่าวว่ามือซ้ายของเส้นโค้งส่วนบนจะเป็นป้ายขาวหลอกและมือขวาของเส้นโค้งล่างจะเป็นป้ายดำหลอก คุณจะไม่ได้รับขอบเขตการตัดสินใจโค้งที่ดีหลังจากการฝึกอบรมซ้ำเนื่องจากป้ายหลอกใหม่จะช่วยเสริมขอบเขตการตัดสินใจปัจจุบัน

หรือกล่าวอีกนัยหนึ่งขอบเขตการตัดสินใจที่มีป้ายกำกับเท่านั้นในปัจจุบันจะมีความแม่นยำในการทำนายที่สมบูรณ์แบบสำหรับข้อมูลที่ไม่มีชื่อ (นั่นคือสิ่งที่เราใช้ในการสร้าง) ไม่มีแรงผลักดัน (ไม่มีการไล่ระดับสี) ซึ่งจะทำให้เราเปลี่ยนที่ตั้งของขอบเขตการตัดสินใจเพียงแค่เพิ่มข้อมูลที่ติดฉลากหลอก

ฉันถูกต้องในการคิดว่าคำอธิบายที่เป็นตัวเป็นตนโดยแผนภาพขาด หรือมีบางอย่างที่ฉันขาดหายไป? ถ้าไม่ได้ประโยชน์ของป้ายกำกับหลอกคืออะไรเนื่องจากขอบเขตการตัดสินใจสั่งสอนขึ้นใหม่มีความแม่นยำที่สมบูรณ์แบบเหนือป้ายกำกับหลอก?

คำตอบ:


16

การติดป้ายหลอกไม่ทำงานกับปัญหาของเล่นที่กำหนด

Oliver et al. (2018) ประเมินอัลกอริทึมการเรียนรู้แบบกึ่งภายใต้การดูแลที่แตกต่างกัน รูปแรกของพวกเขาแสดงให้เห็นว่าการใช้ฉลากหลอก (และวิธีการอื่น ๆ ) ทำงานอย่างไรกับปัญหาของเล่นเดียวกับในคำถามของคุณ (เรียกว่าชุดข้อมูล 'สองดวง'):

ป้อนคำอธิบายรูปภาพที่นี่

พล็อตแสดงดาต้าพอยน์ที่มีป้ายกำกับและไม่มีป้ายกำกับและขอบเขตการตัดสินใจที่ได้รับหลังจากฝึกอบรมโครงข่ายประสาทโดยใช้วิธีการเรียนรู้แบบกึ่งภายใต้การดูแลที่แตกต่างกัน ตามที่คุณสงสัยว่าการติดฉลากหลอกจะไม่ทำงานได้ดีในสถานการณ์นี้ พวกเขาบอกว่าการติดฉลากหลอก "เป็นวิธีแก้ปัญหาแบบง่าย ๆ ที่ใช้กันอย่างแพร่หลายในทางปฏิบัติอาจเป็นเพราะความเรียบง่ายและความเป็นทั่วไป" แต่: "ในขณะที่ใช้งานง่าย แต่ก็สามารถสร้างผลลัพธ์ที่ไม่ถูกต้องเมื่อฟังก์ชันการคาดการณ์สร้างเป้าหมายที่ไม่ช่วยเหลือสำหรับ [ข้อมูลที่ไม่มีป้ายกำกับ] ดังที่แสดงในรูปที่ 1"

ทำไมการติดป้ายกำกับหลอกถึงทำงานเมื่อไหร่

Lee (2013) เปิดตัว Pseudo-labeling ดังนั้นคุณสามารถหารายละเอียดเพิ่มเติมได้ที่นี่

สมมติฐานคลัสเตอร์

เหตุผลทางทฤษฎีที่ลีให้กับการใช้ฉลากหลอกก็คือมันคล้ายกับกฎเกณฑ์เอนโทรปี การทำให้เป็นมาตรฐานของเอนโทรปี (Grandvalet และ Bengio 2005) เป็นอีกหนึ่งเทคนิคการเรียนรู้แบบกึ่งกำกับซึ่งส่งเสริมให้ผู้จําแนกการคาดคะเนความมั่นใจในข้อมูลที่ไม่มีป้ายกำกับ ตัวอย่างเช่นเราต้องการให้จุดที่ไม่มีป้ายกำกับถูกกำหนดให้มีความน่าจะเป็นสูงในการเรียนในระดับใดระดับหนึ่งแทนที่จะเป็นความน่าจะเป็นที่กระจายไปทั่วชั้นเรียนหลายชั้น จุดประสงค์คือการใช้ประโยชน์จากข้อสันนิษฐานที่ว่าข้อมูลจะถูกจัดกลุ่มตามระดับ (เรียกว่า "การสันนิษฐานกลุ่ม" ในการเรียนรู้แบบกึ่งภายใต้การดูแล) ดังนั้นคะแนนที่อยู่ใกล้เคียงจึงมีคลาสเดียวกันและคะแนนในคลาสที่แตกต่างกันนั้นแยกกันอย่างกว้างขวางมากขึ้นเช่นขอบเขตการตัดสินใจที่แท้จริงจะไหลผ่านพื้นที่ที่มีความหนาแน่นต่ำของพื้นที่อินพุต

ทำไมการติดป้ายหลอกอาจล้มเหลว

จากที่กล่าวมาข้างต้นดูเหมือนว่ามีเหตุผลที่จะเดาได้ว่าการสันนิษฐานของคลัสเตอร์เป็นเงื่อนไขที่จำเป็นสำหรับการติดฉลากหลอกให้ทำงานได้ แต่เห็นได้ชัดว่ามันไม่เพียงพอเนื่องจากปัญหาที่เกิดจากดวงจันทร์สองดวงข้างต้นไม่เป็นไปตามสมมติฐานของคลัสเตอร์ แต่การติดฉลากแบบหลอกไม่ทำงาน ในกรณีนี้ฉันสงสัยว่าปัญหาคือมีจุดติดป้ายน้อยมากและโครงสร้างคลัสเตอร์ที่เหมาะสมไม่สามารถระบุได้จากจุดเหล่านี้ ดังนั้นเช่นเดียวกับ Oliver และคณะ อธิบาย (และในขณะที่คุณชี้ให้เห็นในคำถามของคุณ), ป้ายหลอกที่เป็นผลลัพธ์จะนำตัวจําแนกไปยังขอบเขตการตัดสินใจที่ผิด บางทีมันอาจทำงานได้กับข้อมูลที่มีป้ายกำกับ ตัวอย่างเช่นตรงกันข้ามกับกรณี MNIST ที่อธิบายด้านล่างโดยที่การติดฉลากหลอกทำงาน

มันทำงานที่ไหน

Lee (2013) แสดงให้เห็นว่าการติดฉลากหลอกสามารถช่วยในชุดข้อมูล MNIST (ด้วยตัวอย่างที่ติดฉลาก 100-3,000 รายการ) ในรูป 1 ของกระดาษที่คุณจะเห็นว่ากำไรสุทธิของระบบประสาทการฝึกอบรมใน 600 ตัวอย่างที่มีป้ายกำกับ (โดยไม่ต้องมีการเรียนรู้กึ่งภายใต้การดูแล) สามารถแล้วกู้คืนโครงสร้างคลัสเตอร์หมู่เรียน ดูเหมือนว่าการติดฉลากหลอกจะช่วยปรับปรุงโครงสร้าง โปรดทราบว่านี่ไม่เหมือนตัวอย่างสองดวงจันทร์ที่มีจุดที่มีป้ายกำกับหลายจุดไม่เพียงพอที่จะเรียนรู้กลุ่มที่เหมาะสม

กระดาษยังกล่าวถึงผลลัพธ์ที่ไม่เสถียรด้วยตัวอย่างที่มีป้ายกำกับเพียง 100 รายการ สิ่งนี้สนับสนุนแนวคิดที่ว่าการติดฉลากหลอกมีความอ่อนไหวต่อการคาดการณ์เริ่มต้นและการคาดการณ์เบื้องต้นที่ดีนั้นต้องการจุดที่มีป้ายกำกับจำนวนเพียงพอ

ลียังแสดงให้เห็นว่าไม่มีการฝึกอบรมล่วงหน้าโดยใช้ denoising autoencoders ช่วยเพิ่มเติม แต่สิ่งนี้ดูเหมือนจะเป็นวิธีที่แยกจากการใช้ประโยชน์จากโครงสร้างในข้อมูลที่ไม่มีฉลาก น่าเสียดายที่ไม่มีการเปรียบเทียบกับการฝึกอบรมล่วงหน้าที่ไม่มีผู้ดูแลเพียงอย่างเดียว (โดยไม่มีการติดฉลากหลอก)

Grandvalet และ Bengio (2005) รายงานว่าจังหวะการติดฉลากหลอกแบบเรียนรู้ภายใต้ชุดข้อมูล CIFAR-10 และ SVHN (พร้อมตัวอย่างที่มีป้ายกำกับ 4000 และ 1,000 รายการตามลำดับ) ดังที่กล่าวมาข้างต้นนี่เป็นข้อมูลที่มีป้ายกำกับมากกว่าจุดที่มีป้ายกำกับ 6 จุดในปัญหาสองดวง

อ้างอิง

  • Grandvalet และ Bengio (2005) การเรียนรู้แบบกึ่งกำกับดูแลโดยลดเอนโทรปี

  • ลี (2013) Pseudo-Label: วิธีการเรียนรู้แบบกึ่งเรียบง่ายและมีประสิทธิภาพสำหรับเครือข่ายประสาทลึก

  • Oliver et al. (2018) การประเมินผลจริงของอัลกอริทึมการเรียนรู้แบบกึ่งภายใต้การดูแล


5

สิ่งที่คุณอาจเห็นในการฝึกอบรมด้วยตนเองคือ:

  1. มันเป็นการวนซ้ำไม่ใช่การยิงครั้งเดียว

  2. คุณใช้ตัวจําแนกที่ส่งคืนค่าความน่าจะเป็น ในการวนซ้ำแต่ละครั้งคุณเพิ่มป้ายกำกับ psuedo สำหรับกรณีที่อัลกอริทึมของคุณแน่นอนที่สุดเท่านั้น

ในตัวอย่างของคุณบางทีการทำซ้ำครั้งแรกอาจมีความมั่นใจมากพอที่จะติดป้ายหนึ่งหรือสองจุดใกล้กับแต่ละจุดที่ระบุ ในการทำซ้ำครั้งต่อไปเขตแดนจะหมุนเล็กน้อยเพื่อรองรับจุดสี่ถึงหกที่มีป้ายกำกับเหล่านี้และหากไม่ใช่เชิงเส้นก็อาจเริ่มโค้งงอเล็กน้อย ทำซ้ำ

มันไม่ได้รับประกันว่าจะทำงาน มันขึ้นอยู่กับตัวจําแนกฐานของคุณอัลกอริทึมของคุณ (คุณต้องแน่ใจได้อย่างไรว่าจะต้องกำหนดป้ายกำกับหลอก ฯลฯ ) ข้อมูลของคุณและอื่น ๆ

นอกจากนี้ยังมีอัลกอริธึมอื่น ๆ ที่ทรงพลังกว่าหากคุณสามารถใช้มันได้ สิ่งที่ฉันเชื่อว่าคุณกำลังอธิบายคือการฝึกฝนตัวเองซึ่งง่ายต่อการเขียนโค้ด แต่คุณกำลังใช้ตัวจําแนกเดี่ยวที่ดูข้อมูลเดิมซ้ำ ๆ Co-training ใช้ตัวแยกประเภทหลายตัวที่แต่ละคนกำลังดูข้อมูลที่แตกต่างกันสำหรับแต่ละจุด (นี่ค่อนข้างคล้ายคลึงกับป่าสุ่ม) นอกจากนี้ยังมีเทคนิคกึ่งควบคุมอื่น ๆ - เช่นเทคนิคที่จัดกลุ่มอย่างชัดเจน - แม้ว่าจะไม่มีภาพรวม "วิธีนี้ใช้ได้ผลเสมอและนี่คือผู้ชนะ"

ตอบสนองต่อความคิดเห็น: ฉันไม่ได้เป็นผู้เชี่ยวชาญในสาขานี้ เราเห็นว่าเหมาะสมกับสิ่งที่เรามักจะทำกับลูกค้าดังนั้นฉันกำลังเรียนรู้และไม่มีคำตอบทั้งหมด

สิ่งที่ได้รับความนิยมสูงสุดเมื่อฉันค้นหาภาพรวมการเรียนรู้แบบกึ่งภายใต้การดูแลคือ: การสำรวจวรรณกรรมการเรียนรู้แบบกึ่งกำกับจากปี 2008 นั่นเป็นสมัยก่อนคอมพิวเตอร์ฉลาด แต่มันพูดถึงสิ่งที่ฉันพูดถึงที่นี่

ฉันได้ยินคุณว่าตัวจําแนกสามารถจัดอันดับคะแนนแบบไม่มีป้ายกำกับซึ่งอยู่ไกลที่สุดจากโหนดที่ติดฉลากด้วยความมั่นใจมากที่สุด ในทางกลับกันสัญชาติญาณของเราอาจหลอกเรา ตัวอย่างเช่นลองพิจารณากราฟิกที่คุณได้รับจาก Wikipedia ด้วยโหนดสีดำสีขาวและสีเทา

อย่างแรกนี่เป็นแบบ 2 มิติและปัญหาที่สมจริงที่สุดจะอยู่ในมิติที่สูงขึ้นซึ่งสัญชาตญาณของเรามักทำให้เราเข้าใจผิด พื้นที่มิติสูงทำหน้าที่แตกต่างกันในหลาย ๆ ด้าน - บางแง่ลบและบางส่วนมีประโยชน์จริง ๆ

ประการที่สองเราอาจเดาได้ว่าในการทำซ้ำครั้งแรกจุดสีเทาด้านขวาสุดและล่างสุดส่วนใหญ่ทั้งสองจะถูกระบุว่าเป็นสีดำเนื่องจากจุดที่มีป้ายสีดำอยู่ใกล้กับจุดนั้นมากกว่าจุดที่มีป้ายสีขาว แต่ถ้าสิ่งนั้นเกิดขึ้นทั้งสองด้านขอบเขตการตัดสินใจตามแนวตั้งจะยังคงเอียงและไม่เป็นแนวตั้งอีกต่อไป อย่างน้อยในจินตนาการของฉันถ้ามันเป็นเส้นตรงมันจะลงไปในพื้นที่ว่างในแนวทแยงระหว่างจุดที่มีป้ายกำกับสองจุด มันจะยังแยกเสี้ยวสองไม่ถูกต้องออกมา แต่มันจะถูกจัดแนวให้สอดคล้องกับข้อมูลมากขึ้นในตอนนี้ การวนซ้ำอย่างต่อเนื่อง - โดยเฉพาะกับขอบเขตการตัดสินใจที่ไม่ใช่เชิงเส้น - อาจให้คำตอบที่ดีกว่าที่เราคาดไว้

ประการที่สามฉันไม่แน่ใจว่าติดป้ายครั้งเดียวติดป้ายเสมอว่ามันควรใช้งานได้จริง ขึ้นอยู่กับว่าคุณทำมันอย่างไรและวิธีการทำงานของอัลกอริธึมคุณอาจจบลงด้วยการเอียงเขตแดนก่อนในขณะที่โค้งงอ (สมมติว่าไม่ใช่เชิงเส้น) จากนั้นส่วนที่ผิดประเภทบางส่วนของเสี้ยว

ความกล้าหาญของฉันคือว่าจุดสามจุดเหล่านั้นรวมกับข้อมูลที่เหมาะสม (อาจเป็นมิติที่สูงกว่า) และตัวแยกประเภทที่เหมาะสมสามารถทำได้ดีกว่าแบบตรงขึ้นโดยมีตัวอย่างการฝึกอบรมจำนวนน้อยมาก ไม่มีการรับประกันและในการทดลองของฉันฉันพบว่า - ฉันโทษมันบนชุดข้อมูลที่ง่ายเกินไป - การควบคุมแบบกึ่งอาจปรับปรุงได้เพียงเล็กน้อยจากการควบคุมและในบางครั้งก็ล้มเหลวอย่างรุนแรง จากนั้นอีกครั้งฉันกำลังเล่นกับสองอัลกอริทึมที่ฉันสร้างขึ้นซึ่งอาจจริงหรือไม่ดี


2
คุณสามารถขยายประเภทของตัวแยกประเภท / สถานการณ์ที่จะใช้งานได้หรือไม่ ความเข้าใจของฉันเกี่ยวกับตัวจําแนกส่วนใหญ่ที่ทำงานกับข้อมูลตัวอย่างที่แสดงให้เห็นว่ามันเป็นจุดที่ห่างจากขอบเขตการตัดสินใจ (เทียบกับจุดที่รู้จัก) ซึ่งจะได้รับความมั่นใจสูง ตัวอย่าง. (นอกจากนี้การอ้างอิงใด ๆ / การอ่านเพิ่มเติมที่คุณสามารถชี้ให้เห็นได้อย่างมีประสิทธิภาพเกี่ยวกับการใช้ pseudolabeling และเทคนิคที่เกี่ยวข้องจะได้รับการชื่นชม)
RM

@RM แก้ไขแล้ว วิธีที่ว่า?
Wayne

1

คำเตือนฉันไม่ใช่ผู้เชี่ยวชาญเกี่ยวกับขั้นตอนนี้ ความล้มเหลวในการสร้างผลลัพธ์ที่ดีของฉันไม่ได้พิสูจน์ว่าเทคนิคไม่สามารถทำงานได้ นอกจากนี้ภาพของคุณยังมีคำอธิบายทั่วไปเกี่ยวกับการเรียนรู้ "กึ่งมีผู้ดูแล" ซึ่งเป็นพื้นที่กว้างที่มีเทคนิคหลากหลาย

ฉันเห็นด้วยกับสัญชาตญาณของคุณฉันไม่เห็นว่าเทคนิคแบบนี้สามารถใช้งานได้นอกกรอบ ในคำอื่น ๆ ผมคิดว่าคุณจะต้องมีจำนวนมากของความพยายามที่จะทำให้มันทำงานได้ดีสำหรับการใช้งานที่เฉพาะเจาะจงและความพยายามที่จะไม่จำเป็นต้องเป็นประโยชน์ในการใช้งานอื่น ๆ

ฉันลองสองอินสแตนซ์ที่ต่างกันหนึ่งรายการที่มีชุดข้อมูลที่มีรูปร่างเหมือนกล้วยในภาพตัวอย่างและอีกชุดข้อมูลที่ง่ายกว่าที่มีกลุ่มการกระจายทั่วไปสองกลุ่มที่เรียบง่าย ในทั้งสองกรณีฉันไม่สามารถปรับปรุงตัวจําแนกเริ่มต้นได้

เป็นความพยายามเล็กน้อยที่จะสนับสนุนสิ่งต่าง ๆ ฉันเพิ่มเสียงให้กับความน่าจะเป็นที่คาดการณ์ไว้ทั้งหมดด้วยความหวังว่าสิ่งนี้จะทำให้ผลลัพธ์ดีขึ้น

ตัวอย่างแรกฉันสร้างภาพด้านบนขึ้นใหม่อย่างซื่อสัตย์เท่าที่จะทำได้ ฉันไม่คิดว่าการติดฉลากแบบ psuedo จะสามารถช่วยเหลือได้ที่นี่

ตรวจสอบข้อมูลที่มีรูปร่างเหมือนกล้วย

ตัวอย่างที่สองนั้นง่ายกว่ามาก แต่ถึงแม้ที่นี่จะไม่สามารถปรับปรุงตัวแยกประเภทเริ่มต้นได้ ฉันเลือกจุดที่มีป้ายกำกับจากจุดกึ่งกลางของชั้นเรียนโดยเฉพาะและด้านขวาของชั้นเรียนที่ถูกต้องหวังว่ามันจะเปลี่ยนไปในทิศทางที่ถูกต้องไม่มีโชคเช่นนั้น

ตัวอย่างที่สองข้อมูลแบบกระจาย 2D ปกติ] =

รหัสสำหรับตัวอย่าง 1 (ตัวอย่างที่ 2 คล้ายกันมากพอที่ฉันจะไม่ทำซ้ำที่นี่):

import numpy as np
from sklearn.ensemble import RandomForestClassifier
import matplotlib.pyplot as plt
import seaborn

np.random.seed(2018-10-1)
N = 1000

_x = np.linspace(0, np.pi, num=N)
x0 = np.array([_x, np.sin(_x)]).T
x1 = -1 * x0 + [np.pi / 2, 0]

scale = 0.15
x0 += np.random.normal(scale=scale, size=(N, 2))
x1 += np.random.normal(scale=scale, size=(N, 2))

X = np.vstack([x0, x1])

proto_0 = np.array([[0], [0]]).T # the single "labeled" 0
proto_1 = np.array([[np.pi / 2], [0]]).T # the single "labeled" 1

model = RandomForestClassifier()
model.fit(np.vstack([proto_0, proto_1]), np.array([0, 1]))
for itercount in range(100):
    labels = model.predict_proba(X)[:, 0]
    labels += (np.random.random(labels.size) - 0.5) / 10 # add some noise
    labels = labels > 0.5
    model = RandomForestClassifier()
    model.fit(X, labels)

f, axs = plt.subplots(1, 2, squeeze=True, figsize=(10, 5))

axs[0].plot(x0[:, 0], x0[:, 1], '.', alpha=0.25, label='unlabeled x0')
axs[0].plot(proto_0[:, 0], proto_0[:, 1], 'o', color='royalblue', markersize=10, label='labeled x0')
axs[0].plot(x1[:, 0], x1[:, 1], '.', alpha=0.25, label='unlabeled x1')
axs[0].plot(proto_1[:, 0], proto_1[:, 1], 'o', color='coral', markersize=10, label='labeled x1')
axs[0].legend()

axs[1].plot(X[~labels, 0], X[~labels, 1], '.', alpha=0.25, label='predicted class 0')
axs[1].plot(X[labels, 0], X[labels, 1], '.', alpha=0.25, label='predicted class 1')
axs[1].plot([np.pi / 4] * 2, [-1.5, 1.5], 'k--', label='halfway between labeled data')
axs[1].legend()
plt.show()

1

นี่คือเดาของฉัน (ฉันไม่ทราบมากเกี่ยวกับหัวข้อนี้ทั้งต้องการเพียงแค่เพิ่มสองเซ็นต์ของฉันในการสนทนานี้)

ฉันคิดว่าคุณพูดถูกไม่มีประโยชน์ในการฝึกอบรมโมเดลคลาสสิคและใช้การทำนายเป็นข้อมูลเพราะอย่างที่คุณพูดไม่มีแรงจูงใจให้ผู้เพิ่มประสิทธิภาพทำอะไรได้ดีกว่า ฉันเดาว่าอัลกอริธึมเริ่มต้นแบบสุ่มมีแนวโน้มที่จะหาสิ่งที่ดีที่สุดเพราะพวกเขาจะ "มั่นใจมากขึ้น" ว่าสิ่งที่พบก่อนหน้านี้เหมาะสมที่สุดนั้นถูกต้องเนื่องจากชุดข้อมูลที่มีขนาดใหญ่ขึ้น แต่สิ่งนี้ไม่เกี่ยวข้อง

นั่นคือคำตอบแรกที่คุณได้รับมีจุดตัวอย่างในวิกิพีเดียพูดถึงการจัดกลุ่มและฉันคิดว่านั่นทำให้เกิดความแตกต่าง เมื่อคุณมีข้อมูลที่ไม่มีป้ายกำกับคุณจะมีจุดที่ไม่มีป้ายกำกับติดอยู่บนพื้นที่ "คุณลักษณะแฝง" ที่ใช้ร่วมกันบางรายการเป็นป้ายกำกับอื่น ๆ คุณสามารถเท่านั้นจริงๆทำดีกว่าขั้นตอนวิธีการจัดหมวดหมู่การฝึกอบรมเกี่ยวกับข้อมูลที่ระบุว่าถ้าคุณสามารถค้นพบความจริงที่ว่าจุดไม่ติดฉลากสามารถแยกออกและจากนั้นจัดขึ้นอยู่กับสิ่งที่มีป้ายกำกับระดับจุดที่อยู่ในในพื้นที่คุณลักษณะนี้แฝง

สิ่งที่ฉันหมายถึงคือคุณต้องทำสิ่งนี้:

ล.aอีล.ล.อีddaเสื้อaล.ยูsเสื้ออีRผมnก.ล.assผมผมaเสื้อผมโอn

... แล้วทำซ้ำกับข้อมูลที่ไม่มีป้ายกำกับ ที่นี่ขอบเขตของคลัสเตอร์ที่เรียนรู้จะไม่เหมือนกันเนื่องจากการจัดกลุ่มไม่สนใจเลเบลของชั้นเรียนทั้งหมดที่บัญชีนั้นเปลี่ยนพื้นที่ให้เป็นฟีเจอร์ การจัดกลุ่มจะสร้างพื้นที่ของคุณสมบัติแฝงซึ่งเรียนรู้ขอบเขตการจำแนกและสิ่งนี้ขึ้นอยู่กับข้อมูลที่ติดฉลากเท่านั้น

ฉันเชื่อว่าอัลกอริทึมที่ไม่ได้ทำการจัดกลุ่มใด ๆ จะไม่สามารถเปลี่ยนการปรับให้เหมาะสมตามชุดข้อมูลที่ไม่ได้ติดฉลาก

รูปภาพที่คุณเชื่อมโยงนั้นเป็นงานที่ยุติธรรมฉันคิดว่าจะอธิบายสิ่งที่เกิดขึ้นที่นี่ ขอบเขตการตัดสินใจจะเรียนรู้ตามอัลกอริทึมการจัดกลุ่มเท่านั้น คุณไม่มีความคิดว่าคลาสที่ถูกต้องอยู่ที่นี่ - อาจเป็นกรณีที่พวกเขาทั้งหมดสุ่ม - เราไม่รู้ ทั้งหมดที่เราทำได้คือดูเหมือนจะมีโครงสร้างบางส่วนในพื้นที่คุณลักษณะและดูเหมือนว่าจะมีการแมปจากพื้นที่คุณลักษณะไปยังป้ายชื่อคลาส

ไม่มีการอ้างอิงจริง ๆ แต่บนโพสต์ Reddit นี้ฉันเข้าใจแล้วมีการอภิปรายเกี่ยวกับการเรียนรู้แบบกึ่งกำกับดูแล GAN มันเป็นลางสังหรณ์ของฉันที่จะทำการจัดกลุ่มตามด้วยการจัดหมวดหมู่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.