ฉันต้องการเปรียบเทียบความแตกต่างระหว่างคำเดียวกันที่กล่าวถึงในแหล่งข้อมูลที่แตกต่างกัน นั่นคือวิธีที่ผู้เขียนต่างกันในการใช้คำที่ไม่ถูกต้องเช่น "ประชาธิปไตย"
แผนสั้น ๆ คือ
- นำหนังสือที่พูดถึงคำว่า "ประชาธิปไตย" เป็นข้อความธรรมดา
- ในหนังสือแต่ละเล่มให้แทนที่
democracyด้วยdemocracy_%AuthorName% - ฝึกฝน
word2vecโมเดลในหนังสือเหล่านี้ - คำนวณระยะทางระหว่าง
democracy_AuthorA,democracy_AuthorBและการกล่าวถึง relabeled อื่น ๆ ของ "ประชาธิปไตย"
ดังนั้น "ประชาธิปไตย" ของผู้เขียนแต่ละคนจึงได้เวกเตอร์ของตัวเองซึ่งใช้สำหรับการเปรียบเทียบ
แต่ดูเหมือนว่าword2vecจะต้องมีมากกว่าหนังสือหลายเล่ม (แต่ละคำที่มีป้ายกำกับใหม่เกิดขึ้นเฉพาะในชุดย่อยของหนังสือ) เพื่อฝึกฝนเวกเตอร์ที่เชื่อถือได้ หน้าอย่างเป็นทางการขอแนะนำชุดข้อมูลรวมทั้งพันล้านคำ
ฉันแค่อยากจะถามว่าหนังสือชุดหนึ่งของผู้แต่งเล่มหนึ่งมีขนาดใหญ่เท่าไรในการอนุมานด้วยword2vecหรือเครื่องมือทางเลือกถ้ามี
windowชุดพารามิเตอร์กี่คำในบริบทที่มีการใช้ในการฝึกอบรมแบบจำลองสำหรับคำพูดของคุณW