สถิติและข้อมูลขนาดใหญ่ nltk

ไม่แน่ใจว่านี่เป็นไซต์สแต็กที่ถูกต้องหรือไม่ วิธีการ. ความคุ้นเคยทำงานอย่างไร ว้าว spaCy ยอดเยี่ยมมาก! รูปแบบ tfidf นั้นง่ายกว่า แต่ w2v มีโค้ดเพียงบรรทัดเดียว! ในบทช่วยสอน 10 บรรทัดของเขา บน spaCy andrazhribernik แสดงให้เราเห็นถึงวิธีการ. similarity ที่สามารถเรียกใช้บนโทเค็น, เซ็นต์, การส่งคำ, ชิ้นคำและเอกสาร หลังจากnlp = spacy.load('en')และdoc = nlp(raw_text) เราสามารถทำ. สอบถามความคล้ายคลึงกันระหว่างโทเค็นและชิ้น อย่างไรก็ตามการคำนวณอะไรที่อยู่เบื้องหลังของฉากใน.similarityวิธีนี้? SpaCy มีความเรียบง่ายอย่างไม่น่าเชื่อ.vectorซึ่งคำนวณเวกเตอร์ w2v ที่ผ่านการฝึกอบรมจากแบบจำลอง GloVe (วิธี.tfidfหรือ.fasttextวิธีการที่ยอดเยี่ยมจะเป็นอย่างไร) แบบจำลองนั้นคำนวณความคล้ายคลึงโคไซน์ระหว่างสอง w2v, .vector, เวกเตอร์หรือการเปรียบเทียบเมทริกซ์อื่น ๆ หรือไม่? ข้อมูลเฉพาะไม่ชัดเจนในเอกสาร ; ความช่วยเหลือใด ๆ ชื่นชม!

13 natural-language word2vec tf-idf nltk

คำถามติดแท็ก nltk