Word2Vec และ Doc2Vec เป็นทั้งการกระจายแบบเป็นตัวแทนและแบบกระจายหรือไม่?

10

ฉันได้อ่านว่าการเป็นตัวแทนแบบกระจายขึ้นอยู่กับสมมติฐานการกระจายที่คำที่เกิดขึ้นในบริบทที่คล้ายกันมีแนวโน้มที่จะมีความหมายที่คล้ายกัน

Word2Vec และ Doc2Vec ทั้งสองมีรูปแบบตามสมมติฐานนี้ แต่ในกระดาษเดิมแม้พวกเขาจะมีบรรดาศักดิ์เป็นและDistributed representation of words and phrases Distributed representation of sentences and documentsดังนั้นอัลกอริทึมเหล่านี้อยู่บนพื้นฐานของการเป็นตัวแทนแบบกระจายหรือเป็นตัวแทนแบบกระจาย

แล้วรุ่นอื่น ๆ เช่น LDA และ LSA

— yazhi
แหล่งที่มา

5

อย่างมีประสิทธิภาพ Word2Vec / Doc2Vec ขึ้นอยู่distributional hypothesisกับบริบทของแต่ละคำว่าเป็นคำใกล้เคียง ในทำนองเดียวกัน LSA ใช้เอกสารทั้งหมดเป็นบริบท เทคนิคทั้งสองแก้word embeddingปัญหา - ฝังคำลงในช่องว่างเวกเตอร์ต่อเนื่องในขณะที่รักษาคำที่เกี่ยวข้องกับความหมายไว้ใกล้กัน

ในทางกลับกัน LDA ไม่ได้ถูกสร้างขึ้นเพื่อแก้ไขปัญหาเดียวกัน พวกเขาจัดการกับปัญหาต่าง ๆ ที่เรียกว่าtopic modelingซึ่งกำลังค้นหาหัวข้อแฝงในชุดของเอกสาร

— Tu N.
แหล่งที่มา

ฉันได้รับการตอบกลับจากกลุ่ม google ระบุว่ามีทั้งแบบกระจายและแบบกระจายในมุมมองที่แตกต่างกัน การกระจายในแง่ของสมมติฐานที่ใช้และกระจายในแง่ของคุณสมบัติการกระจายในพื้นที่เวกเตอร์

— yazhi

v_{k i n g}

$v_{king}$ maleroyal

v_{q u e e n}

$v_{queen}$ femaleroyal

v_{k i n g} - v_{q u e e n} \sim v_{m a n} - v_{w o m a n}

$v_{king} - v_{queen} \sim v_{man} - v_{woman}$

2

Turian, Joseph, Lev Ratinov และ Yoshua Bengio "การเป็นตัวแทนของ Word: วิธีการที่ง่ายและทั่วไปสำหรับการเรียนรู้แบบกึ่งภายใต้การดูแล " การประชุมวิชาการประจำปีครั้งที่ 48 ของสมาคมภาษาศาสตร์คอมพิวเตอร์ สมาคมภาษาศาสตร์คอมพิวเตอร์, 2010กำหนดการเป็นตัวแทนจำหน่ายและการเป็นตัวแทนกระจายดังนี้

$F$ $W×C$ $W$ $F_w$ $w$ $F_c$ $F$ $F_w$ $W$ $F_w$ $F$ $d << C$ $F_w$ $w$ $d$ $g$ $F$

การนำเสนอแบบกระจายมีความหนาแน่นมิติต่ำและมูลค่าจริง การนำเสนอคำแบบกระจายเรียกว่าคำว่า embeddings แต่ละมิติของการฝังหมายถึงคุณลักษณะที่แฝงอยู่ของคำโดยหวังว่าจะได้รับประโยชน์ด้านไวยากรณ์และความหมายที่เป็นประโยชน์ การแจกแจงแบบกระจายนั้นมีขนาดกะทัดรัดในแง่ที่ว่ามันสามารถเป็นตัวแทนของกลุ่มเลขชี้กำลังในจำนวนมิติ

FYI: อะไรคือความแตกต่างระหว่างคำเวกเตอร์การแทนคำและการแต่งงานเวกเตอร์?

— Franck Dernoncourt
แหล่งที่มา

2

ความสับสนเดียวกันยังคงอยู่ในคำตอบด้วย มันมีคุณสมบัติจากการเป็นตัวแทนทั้งสอง ให้ดูว่ามันมีอะไรที่เหมือนกัน Distributional: มันมีเมทริกซ์ขนาด WxC และลดลงเป็น Wxd โดยที่ d คือขนาดเวกเตอร์การฝัง มันใช้ขนาดหน้าต่างเพื่อกำหนดบริบท Distributed: เวกเตอร์หนาแน่นมิติต่ำ มันรักษาคุณสมบัติแฝง (คุณสมบัติความหมาย) ในมิติเหล่านั้น

— yazhi

2

การตอบกลับจาก Andrey Kutuzov ผ่านกลุ่ม Google รู้สึกเป็นที่น่าพอใจ

ฉันจะบอกว่าอัลกอริทึม word2vec ขึ้นอยู่กับทั้งสอง

เมื่อคนพูดdistributional representationพวกเขามักจะหมายถึงลักษณะทางภาษา: ความหมายคือบริบทรู้คำศัพท์จาก บริษัท และคำพูดที่มีชื่อเสียงอื่น ๆ

แต่เมื่อมีคนพูดว่าdistributed representationส่วนใหญ่ไม่มีอะไรเกี่ยวข้องกับภาษาศาสตร์ มันเกี่ยวกับวิทยาศาสตร์คอมพิวเตอร์มากขึ้น ถ้าฉันเข้าใจ Mikolov และอื่น ๆ อย่างถูกต้องคำ distributedในเอกสารของพวกเขาหมายความว่าแต่ละองค์ประกอบของการเป็นตัวแทนเวกเตอร์ไม่มีความหมายของตัวเอง คุณลักษณะที่ตีความได้ (ตัวอย่างเช่นบริบทของคำในกรณีของ word2vec) จะถูกซ่อนและdistributedในหมู่องค์ประกอบเวกเตอร์ที่ไม่สามารถตีความได้: แต่ละองค์ประกอบมีหน้าที่รับผิดชอบต่อคุณสมบัติที่ตีความได้หลายประการและคุณลักษณะที่ตีความได้แต่ละอย่าง

ดังนั้น word2vec (และ doc2vec) ใช้การแทนแบบกระจายทางเทคนิคเป็นวิธีการแทนความหมายของคำศัพท์ และในเวลาเดียวกันมันก็ขึ้นอยู่กับแนวคิดตามสมมติฐานการกระจาย: มันทำงานได้เพียงเพราะสมมติฐานการกระจายเป็นจริง (ความหมายของคำมีความสัมพันธ์กับบริบททั่วไปของพวกเขา)

แต่แน่นอนบ่อยครั้งที่ข้อตกลงdistributedและdistributionalใช้แทนกันได้เพิ่มความเข้าใจผิด :)

— yazhi
แหล่งที่มา