เนื่องจากคุณใช้ gensim คุณจึงควรใช้ doc2vec doc2vec เป็นส่วนขยายของ word2vec ไปยังระดับวลีประโยคและระดับเอกสาร มันเป็นส่วนขยายที่ค่อนข้างเรียบง่ายอธิบายไว้ที่นี่
http://cs.stanford.edu/~quocle/paragraph_vector.pdf
Gensim นั้นดีเพราะใช้งานง่ายรวดเร็วและยืดหยุ่น สิ่งที่ยอดเยี่ยมคือคุณสามารถใช้การฝังคำที่ผ่านการฝึกอบรมมาแล้วจากหน้า word2vec อย่างเป็นทางการและชั้น syn0 ของโมเดล Doc2Vec ของ gensim จะถูกเปิดเผยเพื่อให้คุณสามารถเริ่มต้นการฝังคำด้วยเวกเตอร์คุณภาพสูงเหล่านี้ได้!
GoogleNews-vectors-negative300.bin.gz (ตามที่เชื่อมโยงในGoogle Code )
ฉันคิดว่า gensim เป็นเครื่องมือที่ง่ายที่สุด (และสำหรับฉันแล้วนั่นคือเครื่องมือที่ดีที่สุด) สำหรับการฝังประโยคในปริภูมิเวกเตอร์
มีเทคนิคประโยคต่อเวกเตอร์อื่น ๆ นอกเหนือจากที่เสนอไว้ในกระดาษของ Le & Mikolov ด้านบน Socher และ Manning จาก Stanford เป็นนักวิจัยที่มีชื่อเสียงที่สุดสองคนที่ทำงานในด้านนี้ งานของพวกเขาตั้งอยู่บนหลักการขององค์ประกอบ - ความหมายของประโยคมาจาก:
1. semantics of the words
2. rules for how these words interact and combine into phrases
พวกเขาได้เสนอแบบจำลองดังกล่าวสองสามแบบ (ซับซ้อนมากขึ้นเรื่อย ๆ ) สำหรับวิธีใช้การเรียบเรียงเพื่อสร้างการแสดงระดับประโยค
2011 - การคลี่ตัวเข้ารหัสอัตโนมัติแบบเรียกซ้ำ (ค่อนข้างง่ายมากเริ่มที่นี่หากสนใจ)
2012 - เครือข่ายประสาทเทียมเมทริกซ์เวกเตอร์
2013 - เครือข่ายเทนเซอร์ประสาท
2015 - Tree LSTM
เอกสารของเขามีอยู่ที่ socher.org บางรุ่นมีวางจำหน่าย แต่ฉันยังคงแนะนำ doc2vec ของ gensim ประการแรก URAE ปี 2011 ไม่ได้ทรงพลังเป็นพิเศษ นอกจากนี้ยังมาพร้อมกับน้ำหนักที่เหมาะสมสำหรับการถอดความข้อมูลข่าวสาร -y รหัสที่เขาระบุไม่อนุญาตให้คุณฝึกอบรมเครือข่ายอีกครั้ง คุณไม่สามารถสลับเวกเตอร์คำต่างๆได้ดังนั้นคุณจึงติดอยู่กับการฝังตัวก่อน word2vec จาก Turian ในปี 2011 เวกเตอร์เหล่านี้ไม่ได้อยู่ในระดับของ word2vec หรือ GloVe อย่างแน่นอน
ยังไม่ได้ทำงานกับ Tree LSTM แต่ดูเหมือนว่าจะมีแนวโน้มมาก!
tl; dr ใช่ใช้ doc2vec ของ gensim แต่วิธีอื่นมีอยู่จริง!