จำนวนของยุคในการนำ Gensim Word2Vec มาใช้


14

มีiterพารามิเตอร์ในการgensimใช้งาน Word2Vec

คลาส gensim.models.word2vec.Word2Vec (ประโยค = ไม่มี, ขนาด = 100, อัลฟ่า = 0.025, หน้าต่าง = 5, min_count = 5, max_vocab_size = ไม่มี, ตัวอย่าง = 0, คนงาน = 1, min_alpha = 0.0001, sg = 1, hs = 1, negative = 0, cbow_mean = 0, hashfxn =, iter = 1 , null_word = 0, trim_rule = ไม่มี, sort_vocab = 1)

ที่ระบุจำนวนยุคเช่น:

iter = จำนวนการวนซ้ำ (ยุค) เหนือคลังข้อมูล

มีใครรู้บ้างไหมว่าสิ่งนั้นช่วยในการปรับปรุงโมเดลมากกว่าคลังข้อมูลหรือไม่?

มีเหตุผลใดที่iterตั้งเป็น 1 โดยค่าเริ่มต้น? มีผลไม่มากในการเพิ่มหมายเลข ของยุค

มีการประเมินทางวิทยาศาสตร์ / เชิงประจักษ์เกี่ยวกับวิธีตั้งหมายเลข ของยุค

แตกต่างจากงานการจำแนก / การถดถอยวิธีการค้นหาแบบกริดจะไม่ทำงานจริง ๆ เนื่องจากเวกเตอร์ถูกสร้างขึ้นในลักษณะที่ไม่ได้รับการดูแล

มีกลไกการหยุด แต่เนิ่นๆเพื่อตัดสั้นหมายเลข ของยุคเมื่อเวกเตอร์มาบรรจบกัน? softmax แบบลำดับชั้นหรือวัตถุประสงค์การสุ่มตัวอย่างเชิงลบสามารถมาบรรจบกันได้หรือไม่?

คำตอบ:


5

การเพิ่มจำนวนของยุคมักจะเป็นประโยชน์ต่อคุณภาพของการเป็นตัวแทนของคำ ในการทดลองฉันได้ทำตรงที่เป้าหมายคือการใช้คำว่า embeddings เป็นคุณสมบัติสำหรับการจัดหมวดหมู่ข้อความการตั้งค่ายุคถึง 15 แทน 5 เพิ่มประสิทธิภาพ


2

ผมมองที่นี่และพบว่าค่าเริ่มต้นเปลี่ยนจาก 1 ถึง 5 เห็นได้ชัดว่าผู้เขียนเชื่อว่ายุคสมัยมากขึ้นจะปรับปรุงผล

ฉันไม่สามารถบอกได้จากประสบการณ์


2

ฉันฝึกรุ่น w2v ของฉันใน google news 300 สำหรับ [2, 10, 100] ยุคและหนึ่งที่ดีที่สุดคือบน 10 ยุค หลังจากการรอคอยทั้งหมดฉันก็ตกใจที่ 100 ยุคไม่ดี

epoch   wall                    
------ ------                    
2       56 s                    
10      4m 44s (284s)           
100     47m 27s (2847 s)    

1

การเพิ่มจำนวน iter (จำนวนยุค) เพิ่มเวลาการฝึกอย่างมาก Word2Vec ให้ผลลัพธ์ที่มีคุณภาพเฉพาะเมื่อคุณป้อนเอกสารจำนวนมากดังนั้นการวนซ้ำแม้แต่สองครั้งก็ไม่สมเหตุสมผลแม้ว่าจริงๆแล้วมันจะทำให้คำที่ถูกต้องฝังอยู่ในเอกสารนั้นถูกต้องมากขึ้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.