Word2Vec กับ Sentence2Vec กับ Doc2Vec


18

ฉันเพิ่งเจอคำศัพท์Word2Vec , Sentence2VecและDoc2Vecและสับสนเพราะฉันยังใหม่กับซีแมนทิกส์เวกเตอร์ ใครช่วยได้โปรดอธิบายความแตกต่างของวิธีการเหล่านี้ด้วยคำพูดง่ายๆ งานที่เหมาะสมที่สุดสำหรับแต่ละวิธีคืออะไร

คำตอบ:


22

ชื่อก็ค่อนข้างตรงไปตรงมาและควรให้แนวคิดที่ชัดเจนเกี่ยวกับการเป็นตัวแทนเวกเตอร์

อัลกอริทึม Word2Vec สร้างการกระจายความหมายของคำแทนความหมาย มีสองวิธีหลักในการฝึกอบรมกระจายกระเป๋าคำและรูปแบบการข้ามกรัม หนึ่งเกี่ยวข้องกับการทำนายคำบริบทโดยใช้คำกลางในขณะที่อื่น ๆ ที่เกี่ยวข้องกับการทำนายคำโดยใช้คำบริบท คุณสามารถอ่านเกี่ยวกับเรื่องนี้ในรายละเอียดมากในการ Mikolov ของ กระดาษ

แนวคิดเดียวกันนี้สามารถขยายไปยังประโยคและเอกสารที่สมบูรณ์ซึ่งแทนที่จะเป็นการเรียนรู้การแทนคุณสมบัติของคำคุณเรียนรู้มันสำหรับประโยคหรือเอกสาร อย่างไรก็ตามเพื่อให้ได้ความคิดทั่วไปของ SentenceToVec ให้คิดว่ามันเป็นค่าเฉลี่ยทางคณิตศาสตร์ของการแทนเวกเตอร์คำของคำทั้งหมดในประโยค คุณสามารถได้รับการประมาณที่ดีมากเพียงแค่หาค่าเฉลี่ยและโดยไม่ต้องฝึกอบรม SentenceToVec ใด ๆ แต่แน่นอนว่ามันมีข้อ จำกัด

Doc2Vec ขยายแนวคิดของ SentenceToVec หรือ Word2Vec แทนเพราะประโยคนั้นถือได้ว่าเป็นเอกสาร ความคิดของการฝึกอบรมยังคงคล้ายกัน คุณสามารถอ่าน Doc2Vec Mikolov ของกระดาษสำหรับรายละเอียดเพิ่มเติม

การมาที่แอปพลิเคชั่นนั้นมันจะขึ้นอยู่กับงาน Word2Vec สามารถรวบรวมความสัมพันธ์ทางความหมายระหว่างคำต่าง ๆ ได้อย่างมีประสิทธิภาพดังนั้นจึงสามารถใช้ในการคำนวณความคล้ายคลึงกันของคำหรือป้อนเป็นฟีเจอร์สำหรับงาน NLP ต่าง ๆ เช่นการวิเคราะห์ความเชื่อมั่นเป็นต้น ไม่ใช่แค่คำพูด ตัวอย่างเช่นหากคุณพยายามคิดว่าคำถามล้นสแต็คสองคำถามนั้นซ้ำซ้อนกันหรือไม่

การค้นหา google อย่างง่ายจะนำคุณไปสู่แอปพลิเคชันจำนวนมากของอัลกอริทึมเหล่านี้


อะไรคือความแตกต่างระหว่างค่าเฉลี่ยเวกเตอร์คำกับการใช้ doc2vec แล้ว? doc2vec มีการคำนึงถึงสภาพแวดล้อมของคำในประโยคขณะที่สร้างเวกเตอร์หรือไม่
John Strood

1
Doc2Vec เรียนรู้เวกเตอร์ที่เริ่มต้นแบบสุ่มสำหรับเอกสารพร้อมกับคำว่า (เอกสารอาจเป็นประโยค) การหาค่าเฉลี่ยของเวกเตอร์คำด้วยตนเองนั้นไม่ได้มีความจุเท่ากันเพราะมันไม่สามารถเรียนรู้จากเอกสารทั้งหมดได้ เมื่อเร็ว ๆ นี้เวกเตอร์ Paragram มีการใช้งานอย่างมากในขณะที่ทำงานกับความคล้ายคลึงกันของเอกสารเป็นต้น
Himanshu Rai
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.