ไม่แน่ใจว่านี่เป็นไซต์สแต็กที่ถูกต้องหรือไม่
วิธีการ. ความคุ้นเคยทำงานอย่างไร
ว้าว spaCy ยอดเยี่ยมมาก! รูปแบบ tfidf นั้นง่ายกว่า แต่ w2v มีโค้ดเพียงบรรทัดเดียว!
ในบทช่วยสอน 10 บรรทัดของเขา บน spaCy andrazhribernik แสดงให้เราเห็นถึงวิธีการ. similarity ที่สามารถเรียกใช้บนโทเค็น, เซ็นต์, การส่งคำ, ชิ้นคำและเอกสาร
หลังจากnlp = spacy.load('en')
และdoc = nlp(raw_text)
เราสามารถทำ. สอบถามความคล้ายคลึงกันระหว่างโทเค็นและชิ้น อย่างไรก็ตามการคำนวณอะไรที่อยู่เบื้องหลังของฉากใน.similarity
วิธีนี้?
SpaCy มีความเรียบง่ายอย่างไม่น่าเชื่อ.vector
ซึ่งคำนวณเวกเตอร์ w2v ที่ผ่านการฝึกอบรมจากแบบจำลอง GloVe (วิธี.tfidf
หรือ.fasttext
วิธีการที่ยอดเยี่ยมจะเป็นอย่างไร)
แบบจำลองนั้นคำนวณความคล้ายคลึงโคไซน์ระหว่างสอง w2v, .vector, เวกเตอร์หรือการเปรียบเทียบเมทริกซ์อื่น ๆ หรือไม่? ข้อมูลเฉพาะไม่ชัดเจนในเอกสาร ; ความช่วยเหลือใด ๆ ชื่นชม!