หลังการฝึกอบรมคำเวกเตอร์ด้วย word2vec จะดีกว่าหรือไม่ที่จะทำให้ปกติก่อนใช้สำหรับแอพพลิเคชั่นดาวน์สตรีม คืออะไร pros / cons ของ normalizing พวกเขาคืออะไร?
หลังการฝึกอบรมคำเวกเตอร์ด้วย word2vec จะดีกว่าหรือไม่ที่จะทำให้ปกติก่อนใช้สำหรับแอพพลิเคชั่นดาวน์สตรีม คืออะไร pros / cons ของ normalizing พวกเขาคืออะไร?
คำตอบ:
เมื่อแอปพลิเคชันดาวน์สตรีมสนใจเฉพาะทิศทางของเวกเตอร์คำเท่านั้น (เช่นพวกเขาให้ความสนใจกับความคล้ายคลึงของโคไซน์ของคำสองคำเท่านั้น) จากนั้นทำให้เป็นมาตรฐานและลืมความยาว
อย่างไรก็ตามหากแอปพลิเคชันดาวน์สตรีมสามารถ (หรือจำเป็นต้อง) พิจารณาประเด็นที่มีเหตุผลมากขึ้นเช่นความสำคัญของคำหรือความสอดคล้องในการใช้คำ (ดูด้านล่าง) การทำให้เป็นมาตรฐานอาจไม่ใช่ความคิดที่ดี
จากLevy et al., 2015 (และที่จริงแล้ววรรณกรรมส่วนใหญ่เกี่ยวกับงานแต่งงานคำ):
เวกเตอร์จะถูกทำให้เป็นมาตรฐานความยาวหน่วยก่อนที่พวกเขาจะใช้สำหรับการคำนวณความคล้ายคลึงกันทำให้โคไซน์มีความคล้ายคลึงกันและเทียบเท่าจุดผลิตภัณฑ์
และจากWilson และ Schakel ในปี 2015 :
แอปพลิเคชั่นส่วนใหญ่ของ embeddings คำไม่สำรวจคำว่าตัวเองเวกเตอร์ แต่ความสัมพันธ์ระหว่างพวกเขาที่จะแก้ปัญหาเช่นงานที่คล้ายกันและคำที่เกี่ยวข้อง สำหรับงานเหล่านี้พบว่าการใช้คำเวกเตอร์ปกติทำให้การทำงานดีขึ้น โดยทั่วไปแล้วความยาวของเวกเตอร์ Word นั้นจะถูกละเว้น
การทำให้เป็นมาตรฐานนั้นเทียบเท่ากับการสูญเสียแนวคิดเรื่องความยาว นั่นคือเมื่อคุณทำให้คำเวกเตอร์เป็นปกติคุณจะลืมความยาว (บรรทัดฐานโมดูล) ที่พวกเขามีหลังจากการฝึกซ้อม
อย่างไรก็ตามบางครั้งมันก็คุ้มค่าที่จะคำนึงถึงความยาวดั้งเดิมของคำว่าเวกเตอร์
Schakel and Wilson, 2015สังเกตข้อเท็จจริงที่น่าสนใจบางอย่างเกี่ยวกับความยาวของเวกเตอร์คำ:
คำที่ใช้อย่างสม่ำเสมอในบริบทที่คล้ายกันจะถูกแสดงด้วยเวกเตอร์ที่ยาวกว่าคำที่มีความถี่เดียวกันที่ใช้ในบริบทที่แตกต่างกัน
ไม่เพียง แต่ทิศทางเท่านั้น แต่ยังรวมถึงความยาวของคำว่าเวกเตอร์ที่มีข้อมูลสำคัญ
ความยาวของคำเวกเตอร์นั้นรวมกับความถี่ของคำซึ่งเป็นประโยชน์ในการวัดความสำคัญของคำ