ฉันต้องการเปรียบเทียบความแตกต่างระหว่างคำเดียวกันที่กล่าวถึงในแหล่งข้อมูลที่แตกต่างกัน นั่นคือวิธีที่ผู้เขียนต่างกันในการใช้คำที่ไม่ถูกต้องเช่น "ประชาธิปไตย"
แผนสั้น ๆ คือ
- นำหนังสือที่พูดถึงคำว่า "ประชาธิปไตย" เป็นข้อความธรรมดา
- ในหนังสือแต่ละเล่มให้แทนที่
democracy
ด้วยdemocracy_%AuthorName%
- ฝึกฝน
word2vec
โมเดลในหนังสือเหล่านี้ - คำนวณระยะทางระหว่าง
democracy_AuthorA
,democracy_AuthorB
และการกล่าวถึง relabeled อื่น ๆ ของ "ประชาธิปไตย"
ดังนั้น "ประชาธิปไตย" ของผู้เขียนแต่ละคนจึงได้เวกเตอร์ของตัวเองซึ่งใช้สำหรับการเปรียบเทียบ
แต่ดูเหมือนว่าword2vec
จะต้องมีมากกว่าหนังสือหลายเล่ม (แต่ละคำที่มีป้ายกำกับใหม่เกิดขึ้นเฉพาะในชุดย่อยของหนังสือ) เพื่อฝึกฝนเวกเตอร์ที่เชื่อถือได้ หน้าอย่างเป็นทางการขอแนะนำชุดข้อมูลรวมทั้งพันล้านคำ
ฉันแค่อยากจะถามว่าหนังสือชุดหนึ่งของผู้แต่งเล่มหนึ่งมีขนาดใหญ่เท่าไรในการอนุมานด้วยword2vec
หรือเครื่องมือทางเลือกถ้ามี
window
ชุดพารามิเตอร์กี่คำในบริบทที่มีการใช้ในการฝึกอบรมแบบจำลองสำหรับคำพูดของคุณW