word2vec ต้องการข้อมูลการฝึกอบรมเท่าใด

ฉันต้องการเปรียบเทียบความแตกต่างระหว่างคำเดียวกันที่กล่าวถึงในแหล่งข้อมูลที่แตกต่างกัน นั่นคือวิธีที่ผู้เขียนต่างกันในการใช้คำที่ไม่ถูกต้องเช่น "ประชาธิปไตย"

แผนสั้น ๆ คือ

นำหนังสือที่พูดถึงคำว่า "ประชาธิปไตย" เป็นข้อความธรรมดา
ในหนังสือแต่ละเล่มให้แทนที่democracyด้วยdemocracy_%AuthorName%
ฝึกฝนword2vecโมเดลในหนังสือเหล่านี้
คำนวณระยะทางระหว่างdemocracy_AuthorA, democracy_AuthorBและการกล่าวถึง relabeled อื่น ๆ ของ "ประชาธิปไตย"

ดังนั้น "ประชาธิปไตย" ของผู้เขียนแต่ละคนจึงได้เวกเตอร์ของตัวเองซึ่งใช้สำหรับการเปรียบเทียบ

แต่ดูเหมือนว่าword2vecจะต้องมีมากกว่าหนังสือหลายเล่ม (แต่ละคำที่มีป้ายกำกับใหม่เกิดขึ้นเฉพาะในชุดย่อยของหนังสือ) เพื่อฝึกฝนเวกเตอร์ที่เชื่อถือได้ หน้าอย่างเป็นทางการขอแนะนำชุดข้อมูลรวมทั้งพันล้านคำ

ฉันแค่อยากจะถามว่าหนังสือชุดหนึ่งของผู้แต่งเล่มหนึ่งมีขนาดใหญ่เท่าไรในการอนุมานด้วยword2vecหรือเครื่องมือทางเลือกถ้ามี

text-mining word-embeddings

— Anton Tarasenko
แหล่งที่มา

หนังสือที่คุณใช้อยู่ในหัวข้อประชาธิปไตยเพียงอย่างเดียวหรือไม่หากไม่คุณไม่สามารถวัดระยะทางของคุณได้รับผลกระทบจากความแตกต่างที่มากขึ้นระหว่างเนื้อหาของหนังสือ นี่คือผลข้างเคียงของปัญหาของคุณที่อยู่ในพื้นที่มิติที่สูงมากและถูกสัมผัสด้วยมือของคำสาปแห่งมิติ บางทีการใช้พื้นที่ข้อความเล็ก ๆ รอบ ๆ คำที่น่าสนใจอาจช่วยได้ แต่ก็ยังเป็นปัญหากับมิติที่สำคัญ

— image_doctor

ใช่นั่นคือสาระสำคัญของสิ่งนั้น ที่นี่ไปด้วยคำอุปมาที่คิดไม่ดี ลองจินตนาการถึงบทของหนังสือที่แสดงด้วยสี และหนังสือเล่มหนึ่งแสดงให้เห็นว่าเป็นส่วนผสมของทุกสีของบท หนังสือเกี่ยวกับประชาธิปไตยในยุโรปตะวันตกมีแนวโน้มที่จะจบลงด้วยสีแดงโดยรวมเป็นบทรวมของมัน ถ้าเราเป็นตัวแทนของการท่องเที่ยวด้วยสีน้ำเงินหนังสือเกี่ยวกับการท่องเที่ยวในคิวบาที่มีเพียงบทเดียวเกี่ยวกับประชาธิปไตยและมันมีอิทธิพลต่อการพัฒนาเศรษฐกิจจะมีสีฟ้าเข้ม ดังนั้นหนังสือสองเล่มจะปรากฏแตกต่างกันมากเมื่อมองโดยรวม

— image_doctor

นั่นเป็นวิธีที่เข้าถึงได้ง่ายขึ้นในการบอกว่านักวิทยาศาสตร์ด้านข้อมูลวลีใดที่เวกเตอร์สำหรับหนังสือสองเล่มนี้จะแยกออกจากกันในพื้นที่ของฟีเจอร์และดูเหมือนจะไม่เหมือนกัน เป็นการยากที่จะหาปริมาณล่วงหน้าจำนวนตัวอย่างที่คุณต้องการโดยไม่ต้องเล่นกับข้อมูล แต่ภาษานั้นบอบบางและมีเลเยอร์ดังนั้นคุณอาจต้องการได้มากเท่าที่คุณจะได้รับ .... และอาจจะมากกว่านั้น ในที่สุดคุณจะไม่รู้จนกว่าคุณจะลอง มันไม่ใช่คำตอบที่เป็นรูปธรรม แต่ถ้าไม่มีใครมีประสบการณ์ตรงในการทำสิ่งเดียวกันมันอาจจะดีที่สุดที่คุณจะได้รับ

— image_doctor

word2vec ใช้คำว่า "ข้อความเล็ก ๆ รอบคำที่น่าสนใจ" เท่านั้น windowชุดพารามิเตอร์กี่คำในบริบทที่มีการใช้ในการฝึกอบรมแบบจำลองสำหรับคำพูดของคุณW

— jamesmf

@politicalscientist ฉันยังไม่เสร็จสิ้นโครงการนี้

— Anton Tarasenko

ดูเหมือนว่า doc2vec (หรือย่อหน้า / บริบทเวกเตอร์) อาจเหมาะสมสำหรับปัญหานี้

โดยสังเขปนอกเหนือจากคำว่าเวกเตอร์คุณเพิ่ม "บริบทเวกเตอร์" (ในกรณีของคุณการฝังสำหรับผู้เขียน) ที่ใช้ในการทำนายคำกลางหรือคำบริบท

ซึ่งหมายความว่าคุณจะได้รับประโยชน์จากข้อมูลทั้งหมดเกี่ยวกับ "ประชาธิปไตย" แต่ยังรวมถึงการฝังสำหรับผู้แต่งซึ่งจะช่วยให้คุณวิเคราะห์อคติของผู้เขียนแต่ละคนด้วยข้อมูลที่ จำกัด เกี่ยวกับผู้แต่งแต่ละคน

คุณสามารถใช้การดำเนินงานของ gensim เอกสารมีลิงก์ไปยังเอกสารต้นฉบับ

— ฮาล์ฟลิง
แหล่งที่มา