ฉันควรทำให้เวกเตอร์คำของ word2vec เป็นปกติก่อนที่จะใช้หรือไม่


36

หลังการฝึกอบรมคำเวกเตอร์ด้วย word2vec จะดีกว่าหรือไม่ที่จะทำให้ปกติก่อนใช้สำหรับแอพพลิเคชั่นดาวน์สตรีม คืออะไร pros / cons ของ normalizing พวกเขาคืออะไร?


ในงานที่มีลักษณะคล้ายคลึงกันการทำให้เป็นมาตรฐานทำให้ประสิทธิภาพของระบบดีขึ้นเล็กน้อย
keramat

ที่เกี่ยวข้อง: stackoverflow.com/q/36034454/1709587
Mark Amery

คำตอบ:


29

เมื่อแอปพลิเคชันดาวน์สตรีมสนใจเฉพาะทิศทางของเวกเตอร์คำเท่านั้น (เช่นพวกเขาให้ความสนใจกับความคล้ายคลึงของโคไซน์ของคำสองคำเท่านั้น) จากนั้นทำให้เป็นมาตรฐานและลืมความยาว

อย่างไรก็ตามหากแอปพลิเคชันดาวน์สตรีมสามารถ (หรือจำเป็นต้อง) พิจารณาประเด็นที่มีเหตุผลมากขึ้นเช่นความสำคัญของคำหรือความสอดคล้องในการใช้คำ (ดูด้านล่าง) การทำให้เป็นมาตรฐานอาจไม่ใช่ความคิดที่ดี


จากLevy et al., 2015 (และที่จริงแล้ววรรณกรรมส่วนใหญ่เกี่ยวกับงานแต่งงานคำ):

เวกเตอร์จะถูกทำให้เป็นมาตรฐานความยาวหน่วยก่อนที่พวกเขาจะใช้สำหรับการคำนวณความคล้ายคลึงกันทำให้โคไซน์มีความคล้ายคลึงกันและเทียบเท่าจุดผลิตภัณฑ์

และจากWilson และ Schakel ในปี 2015 :

แอปพลิเคชั่นส่วนใหญ่ของ embeddings คำไม่สำรวจคำว่าตัวเองเวกเตอร์ แต่ความสัมพันธ์ระหว่างพวกเขาที่จะแก้ปัญหาเช่นงานที่คล้ายกันและคำที่เกี่ยวข้อง สำหรับงานเหล่านี้พบว่าการใช้คำเวกเตอร์ปกติทำให้การทำงานดีขึ้น โดยทั่วไปแล้วความยาวของเวกเตอร์ Word นั้นจะถูกละเว้น

การทำให้เป็นมาตรฐานนั้นเทียบเท่ากับการสูญเสียแนวคิดเรื่องความยาว นั่นคือเมื่อคุณทำให้คำเวกเตอร์เป็นปกติคุณจะลืมความยาว (บรรทัดฐานโมดูล) ที่พวกเขามีหลังจากการฝึกซ้อม

อย่างไรก็ตามบางครั้งมันก็คุ้มค่าที่จะคำนึงถึงความยาวดั้งเดิมของคำว่าเวกเตอร์

Schakel and Wilson, 2015สังเกตข้อเท็จจริงที่น่าสนใจบางอย่างเกี่ยวกับความยาวของเวกเตอร์คำ:

คำที่ใช้อย่างสม่ำเสมอในบริบทที่คล้ายกันจะถูกแสดงด้วยเวกเตอร์ที่ยาวกว่าคำที่มีความถี่เดียวกันที่ใช้ในบริบทที่แตกต่างกัน

ไม่เพียง แต่ทิศทางเท่านั้น แต่ยังรวมถึงความยาวของคำว่าเวกเตอร์ที่มีข้อมูลสำคัญ

ความยาวของคำเวกเตอร์นั้นรวมกับความถี่ของคำซึ่งเป็นประโยชน์ในการวัดความสำคัญของคำ


เราสามารถทำอย่างละเอียดได้หรือไม่ "พบว่าการใช้คำเวกเตอร์ปกติทำให้การทำงานดีขึ้น"? การทำให้เป็นมาตรฐานไม่ใช่การคำนวณเพิ่มเติมหรือไม่
neurite

4
@neurite เป็นบริบทที่มีประสิทธิภาพที่ดีขึ้นหมายถึงคะแนนที่ดีขึ้นในงานการประเมินผล
turdus-merula
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.