Word2Vec และ Doc2Vec เป็นทั้งการกระจายแบบเป็นตัวแทนและแบบกระจายหรือไม่?


10

ฉันได้อ่านว่าการเป็นตัวแทนแบบกระจายขึ้นอยู่กับสมมติฐานการกระจายที่คำที่เกิดขึ้นในบริบทที่คล้ายกันมีแนวโน้มที่จะมีความหมายที่คล้ายกัน

Word2Vec และ Doc2Vec ทั้งสองมีรูปแบบตามสมมติฐานนี้ แต่ในกระดาษเดิมแม้พวกเขาจะมีบรรดาศักดิ์เป็นและDistributed representation of words and phrases Distributed representation of sentences and documentsดังนั้นอัลกอริทึมเหล่านี้อยู่บนพื้นฐานของการเป็นตัวแทนแบบกระจายหรือเป็นตัวแทนแบบกระจาย

แล้วรุ่นอื่น ๆ เช่น LDA และ LSA

คำตอบ:


5

อย่างมีประสิทธิภาพ Word2Vec / Doc2Vec ขึ้นอยู่distributional hypothesisกับบริบทของแต่ละคำว่าเป็นคำใกล้เคียง ในทำนองเดียวกัน LSA ใช้เอกสารทั้งหมดเป็นบริบท เทคนิคทั้งสองแก้word embeddingปัญหา - ฝังคำลงในช่องว่างเวกเตอร์ต่อเนื่องในขณะที่รักษาคำที่เกี่ยวข้องกับความหมายไว้ใกล้กัน

ในทางกลับกัน LDA ไม่ได้ถูกสร้างขึ้นเพื่อแก้ไขปัญหาเดียวกัน พวกเขาจัดการกับปัญหาต่าง ๆ ที่เรียกว่าtopic modelingซึ่งกำลังค้นหาหัวข้อแฝงในชุดของเอกสาร


ฉันได้รับการตอบกลับจากกลุ่ม google ระบุว่ามีทั้งแบบกระจายและแบบกระจายในมุมมองที่แตกต่างกัน การกระจายในแง่ของสมมติฐานที่ใช้และกระจายในแง่ของคุณสมบัติการกระจายในพื้นที่เวกเตอร์
yazhi

vkingmaleroyalvqueenfemaleroyalvkingvqueenvmanvwoman

2

Turian, Joseph, Lev Ratinov และ Yoshua Bengio "การเป็นตัวแทนของ Word: วิธีการที่ง่ายและทั่วไปสำหรับการเรียนรู้แบบกึ่งภายใต้การดูแล " การประชุมวิชาการประจำปีครั้งที่ 48 ของสมาคมภาษาศาสตร์คอมพิวเตอร์ สมาคมภาษาศาสตร์คอมพิวเตอร์, 2010กำหนดการเป็นตัวแทนจำหน่ายและการเป็นตัวแทนกระจายดังนี้

  • FW×CWFwwFcFFwWFwFd<<CFwwdgF

  • การนำเสนอแบบกระจายมีความหนาแน่นมิติต่ำและมูลค่าจริง การนำเสนอคำแบบกระจายเรียกว่าคำว่า embeddings แต่ละมิติของการฝังหมายถึงคุณลักษณะที่แฝงอยู่ของคำโดยหวังว่าจะได้รับประโยชน์ด้านไวยากรณ์และความหมายที่เป็นประโยชน์ การแจกแจงแบบกระจายนั้นมีขนาดกะทัดรัดในแง่ที่ว่ามันสามารถเป็นตัวแทนของกลุ่มเลขชี้กำลังในจำนวนมิติ

FYI: อะไรคือความแตกต่างระหว่างคำเวกเตอร์การแทนคำและการแต่งงานเวกเตอร์?


2
ความสับสนเดียวกันยังคงอยู่ในคำตอบด้วย มันมีคุณสมบัติจากการเป็นตัวแทนทั้งสอง ให้ดูว่ามันมีอะไรที่เหมือนกัน Distributional: มันมีเมทริกซ์ขนาด WxC และลดลงเป็น Wxd โดยที่ d คือขนาดเวกเตอร์การฝัง มันใช้ขนาดหน้าต่างเพื่อกำหนดบริบท Distributed: เวกเตอร์หนาแน่นมิติต่ำ มันรักษาคุณสมบัติแฝง (คุณสมบัติความหมาย) ในมิติเหล่านั้น
yazhi

2

การตอบกลับจาก Andrey Kutuzov ผ่านกลุ่ม Google รู้สึกเป็นที่น่าพอใจ

ฉันจะบอกว่าอัลกอริทึม word2vec ขึ้นอยู่กับทั้งสอง

เมื่อคนพูดdistributional representationพวกเขามักจะหมายถึงลักษณะทางภาษา: ความหมายคือบริบทรู้คำศัพท์จาก บริษัท และคำพูดที่มีชื่อเสียงอื่น ๆ

แต่เมื่อมีคนพูดว่าdistributed representationส่วนใหญ่ไม่มีอะไรเกี่ยวข้องกับภาษาศาสตร์ มันเกี่ยวกับวิทยาศาสตร์คอมพิวเตอร์มากขึ้น ถ้าฉันเข้าใจ Mikolov และอื่น ๆ อย่างถูกต้องคำ distributedในเอกสารของพวกเขาหมายความว่าแต่ละองค์ประกอบของการเป็นตัวแทนเวกเตอร์ไม่มีความหมายของตัวเอง คุณลักษณะที่ตีความได้ (ตัวอย่างเช่นบริบทของคำในกรณีของ word2vec) จะถูกซ่อนและdistributedในหมู่องค์ประกอบเวกเตอร์ที่ไม่สามารถตีความได้: แต่ละองค์ประกอบมีหน้าที่รับผิดชอบต่อคุณสมบัติที่ตีความได้หลายประการและคุณลักษณะที่ตีความได้แต่ละอย่าง

ดังนั้น word2vec (และ doc2vec) ใช้การแทนแบบกระจายทางเทคนิคเป็นวิธีการแทนความหมายของคำศัพท์ และในเวลาเดียวกันมันก็ขึ้นอยู่กับแนวคิดตามสมมติฐานการกระจาย: มันทำงานได้เพียงเพราะสมมติฐานการกระจายเป็นจริง (ความหมายของคำมีความสัมพันธ์กับบริบททั่วไปของพวกเขา)

แต่แน่นอนบ่อยครั้งที่ข้อตกลงdistributedและdistributionalใช้แทนกันได้เพิ่มความเข้าใจผิด :)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.