มีความแตกต่างระหว่างการนิเทศแบบไกลการฝึกฝนด้วยตนเองการเรียนรู้แบบกำกับตนเองและการนิเทศแบบอ่อนหรือไม่?


12

จากสิ่งที่ฉันได้อ่าน:


การดูแลที่ห่างไกล :

A Distant supervision algorithm usually has the following steps: 
1] It may have some labeled training data 
2] It "has" access to a pool of unlabeled data 
3] It has an operator that allows it to sample from this unlabeled 
   data and label them and this operator is expected to be noisy in its labels 
4] The algorithm then collectively utilizes the original labeled training data
    if it had and this new noisily labeled data to give the final output.

การฝึกอบรมด้วยตนเอง :

ป้อนคำอธิบายรูปภาพที่นี่


การเรียนรู้ด้วยตนเอง ( Yates, Alexander, et al. "Textrunner: การดึงข้อมูลแบบเปิดบนเว็บ" การดำเนินการของเทคโนโลยีภาษามนุษย์: การประชุมประจำปีของสมาคมบทภาษาศาสตร์คอมพิวเตอร์: การสาธิตในอเมริกาเหนือสมาคมสาธิตภาษาศาสตร์เชิงคำนวณ 2550 ):

ผู้เรียนดำเนินการในสองขั้นตอน ก่อนอื่นจะติดป้ายกำกับข้อมูลการฝึกอบรมของตัวเองโดยอัตโนมัติว่าเป็นบวกหรือลบ ประการที่สองมันใช้ข้อมูลที่มีป้ายกำกับนี้เพื่อฝึกอบรมตัวจําแนก Naive Bayes


การกำกับดูแลที่อ่อนแอ (Hoffmann, Raphael, et al. "การควบคุมที่อ่อนแอตามความรู้สำหรับการดึงข้อมูลของความสัมพันธ์ที่ทับซ้อนกัน" การประชุมวิชาการประจำปีครั้งที่ 49 ของสมาคมภาษาศาสตร์คอมพิวเตอร์: ภาษาเทคโนโลยีเล่ม 1 สมาคมภาษาศาสตร์คอมพิวเตอร์ 2011 .)

แนวทางที่มีแนวโน้มมากขึ้นซึ่งมักเรียกว่าการควบคุมแบบ "อ่อนแอ" หรือ "ไกล" สร้างข้อมูลการฝึกอบรมของตนเองโดยการจับคู่เนื้อหาของฐานข้อมูลกับข้อความที่ตรงกัน


มันฟังดูเหมือนกันกับฉันยกเว้นว่าการฝึกอบรมด้วยตนเองดูเหมือนว่าจะแตกต่างกันเล็กน้อยว่าฮิวริสติกการติดฉลากเป็นลักษณนามที่ผ่านการฝึกอบรมและมีห่วงระหว่างขั้นตอนการติดฉลากและขั้นตอนการฝึกอบรมลักษณนาม อย่างไรก็ตามYao, Limin, Sebastian Riedel และ Andrew McCallum "การรวมความสัมพันธ์ข้ามเอกสารโดยรวมโดยไม่มีข้อมูลที่มีป้ายกำกับ " การประชุมวิชาการวิธีการเชิงประจักษ์ในการประมวลผลภาษาธรรมชาติปี 2010 สมาคมภาษาศาสตร์คอมพิวเตอร์, 2010อ้างว่าการกำกับดูแลที่ห่างไกล == การฝึกอบรมด้วยตนเอง == การกำกับดูแลที่อ่อนแอ

นอกจากนี้จะมีคำพ้องความหมายอื่น ๆ ?


คำถามที่น่าสนใจ นี่อาจเป็นของวิทยาศาสตร์ข้อมูลหรือไม่
goangit

@goangit น่าจะเป็นเว็บไซต์ที่ดี;)
Franck Dernoncourt

คำตอบ:


8

คำศัพท์ต่าง ๆ ที่คุณให้มีสองด้านคือ: 1] กระบวนการรับข้อมูลการฝึกอบรม 2] อัลกอริทึมที่ฝึกหรือตัวจําแนกf

อัลกอริทึมที่ฝึกอบรมไม่ว่าข้อมูลนั้นจะได้รับการดูแลอย่างไรก็ตาม ความแตกต่างในการกำกับดูแลที่ห่างไกล, การเรียนรู้ด้วยตนเอง, การกำกับดูแลตนเองหรือการกำกับดูแลที่อ่อนแอ, หมดจดแล้วในวิธีการได้รับข้อมูลการฝึกอบรมf

ตามเนื้อผ้าในกระดาษเรียนรู้การเรียนรู้แบบใช้เครื่องควบคุมจะพบว่ากระดาษโดยนัยถือว่าข้อมูลการฝึกอบรมที่มีอยู่และสิ่งที่คุ้มค่ามันมักจะสันนิษฐานว่าฉลากมีความแม่นยำและไม่มีความคลุมเครือในฉลาก ที่ให้กับอินสแตนซ์ในข้อมูลการฝึกอบรม อย่างไรก็ตามด้วยเอกสารการกำกับดูแลที่ห่างไกล / อ่อนแอผู้คนตระหนักว่าข้อมูลการฝึกอบรมของพวกเขามีฉลากที่ไม่ชัดเจนและสิ่งที่พวกเขาต้องการเน้นในงานของพวกเขาคือพวกเขาได้รับผลลัพธ์ที่ดีแม้จะมีข้อเสียเปรียบอย่างชัดเจน เพื่อเอาชนะปัญหาของฉลากที่ไม่ถูกต้องโดยมีกระบวนการกรองเพิ่มเติม ฯลฯ และโดยปกติแล้วเอกสารต้องการเน้นว่ากระบวนการเพิ่มเติมเหล่านี้มีความสำคัญและมีประโยชน์) สิ่งนี้ก่อให้เกิดคำว่า "อ่อนแอ" หรือ "ห่างไกล" เพื่อระบุว่าฉลากบนข้อมูลการฝึกอบรมไม่ถูกต้อง โปรดทราบว่าสิ่งนี้ไม่จำเป็นต้องส่งผลกระทบต่อแง่มุมการเรียนรู้ของตัวจําแนก ตัวจําแนกที่คนเหล่านี้ใช้ยังคงถือว่าอยู่ในใจว่าฉลากมีความแม่นยำและขั้นตอนวิธีการฝึกอบรมนั้นแทบจะไม่เคยเปลี่ยนเลย

การฝึกฝนตนเองในทางกลับกันค่อนข้างพิเศษในแง่นั้น ตามที่คุณได้สังเกตแล้วมันจะได้รับฉลากของมันจากลักษณนามของตัวเองและมีวงข้อเสนอแนะเล็กน้อยสำหรับการแก้ไข โดยทั่วไปเราศึกษาตัวแยกประเภทภายใต้การดูแลภายใต้ขอบเขตของอัลกอริทึม "อุปนัย" ที่มีขนาดเล็กกว่าเล็กน้อยซึ่งตัวแยกประเภทที่เรียนรู้เป็นการอนุมานแบบอุปนัยที่ทำจากข้อมูลการฝึกอบรมเกี่ยวกับข้อมูลทั้งหมด ผู้คนได้ศึกษารูปแบบอื่นซึ่งเราเรียกว่าการอนุมานแบบถอดความโดยที่การอนุมานแบบอุปนัยไม่ใช่ผลลัพธ์ของอัลกอริทึม แต่อัลกอริทึมนั้นใช้ทั้งข้อมูลการฝึกอบรมและข้อมูลการทดสอบเป็นอินพุตและสร้างฉลากบนข้อมูลการทดสอบ อย่างไรก็ตามผู้คนคิดว่าทำไมไม่ใช้การอนุมานแบบอุปนัยในการเรียนรู้แบบอุปนัยเพื่อให้ได้ลักษณนามที่มีข้อมูลการฝึกอบรมที่มากขึ้น

หวังว่าฉันจะไม่ทำให้คุณสับสนอีกต่อไปอย่าลังเลที่จะแสดงความคิดเห็นและขอคำชี้แจงเพิ่มเติมหากจำเป็น

[1] อาจมีประโยชน์ - http://www.is.tuebingen.mpg.de/fileadmin/user_upload/files/publications/pdf2527.pdf


ขอบคุณคำตอบของคุณน่าสนใจมาก! การเรียนรู้ด้วยตนเองเป็นอย่างไร? เหมือนกับการกำกับดูแลที่ห่างไกล / อ่อนแอ?
Franck Dernoncourt

1
ใช่. ฉันไม่เห็นความแตกต่างระหว่างการเรียนรู้ด้วยตนเองและการกำกับดูแลที่ห่างไกล / อ่อนแอเนื่องจากฉลากได้รับแยกต่างหากจากแหล่งที่ไม่แน่ชัดแล้วส่งไปยังตัวจําแนกภายใต้การดูแล
TenaliRaman
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.