การจัดการคำที่ไม่รู้จักในงานสร้างแบบจำลองภาษาโดยใช้ LSTM


11

สำหรับภารกิจการประมวลผลภาษาธรรมชาติ (NLP) มักใช้เวกเตอร์ word2vecเพื่อฝังคำ อย่างไรก็ตามอาจมีคำที่ไม่รู้จักจำนวนมากที่ไม่ได้ถูกจับโดย word2vec vector เพียงเพราะคำเหล่านี้ไม่ได้เห็นบ่อยในข้อมูลการฝึกอบรม (การใช้งานจำนวนมากใช้การนับขั้นต่ำก่อนเพิ่มคำลงในคำศัพท์) นี่อาจเป็นกรณีที่มีข้อความจากเช่น Twitter ซึ่งคำมักสะกดผิด

ควรจัดการคำที่ไม่รู้จักเช่นนั้นอย่างไรเมื่อสร้างแบบจำลองงาน NLP เช่นการคาดการณ์ความเชื่อมั่นโดยใช้เครือข่ายระยะสั้นระยะยาว (LSTM) ฉันเห็นสองตัวเลือก:

  1. การเพิ่มโทเค็น 'คำที่ไม่รู้จัก' ในพจนานุกรม word2vec
  2. การลบคำที่ไม่รู้จักเหล่านี้ออกไปเพื่อที่ LSTM จะไม่รู้แม้แต่คำนั้นในประโยค

วิธีที่เหมาะสมในการจัดการคำเหล่านี้คืออะไร?


2
ฉันตอบคำถามที่คล้ายกันก่อนหน้านี้; ในขณะที่คำถามนั้นไม่เฉพาะเจาะจงกับ LSTMs ดูเหมือนว่าสิ่งที่ฉันเขียนส่วนใหญ่จะมีผลบังคับใช้: stats.stackexchange.com/questions/163005/…
fnl

คำตอบ:


12

ตัวเลือก 1 (เพิ่มโทเค็นคำที่ไม่รู้จัก) เป็นวิธีที่คนส่วนใหญ่แก้ปัญหานี้

ตัวเลือกที่ 2 (การลบคำที่ไม่รู้จัก) เป็นแนวคิดที่ไม่ดีเพราะมันจะแปลงประโยคในลักษณะที่ไม่สอดคล้องกับวิธีการฝึก LSTM

อีกทางเลือกหนึ่งที่ได้รับการพัฒนาขึ้นเมื่อเร็ว ๆ นี้คือการสร้างคำที่ฝังอยู่ในแต่ละคำโดยใช้เครือข่ายประสาทเทียมหรือ LSTM แยกจากกันซึ่งประมวลผลอักขระของแต่ละคำทีละคำ การใช้เทคนิคนี้โมเดลของคุณจะไม่พบคำที่ไม่สามารถสร้างการฝังได้


สวัสดีแอรอนคุณช่วยชี้ให้ฉันสองสามตัว (เอกสารหรือรหัส) ที่ใช้ตัวเลือกที่สามของคุณได้ไหม
คำทำนาย

arxiv.org/abs/1508.02096นี่คืออันเดียว
แอรอน


1
อีกหนึ่งรายการล่าสุด (EMNLP 2017) arxiv.org/abs/1707.06961พร้อมรหัสgithub.com/yuvalpinter/Mimick
jayelm

-1

การทำแผนที่คำที่หายากเพียงแค่หมายความว่าเราลบคำเหล่านั้นและแทนที่ด้วยโทเค็นในข้อมูลการฝึกอบรม ดังนั้นโมเดลของเราไม่ทราบคำที่หายาก มันเป็นรูปแบบที่หยาบของการปรับให้เรียบเพราะตัวแบบสันนิษฐานว่าโทเค็นจะไม่เกิดขึ้นจริงในข้อมูลจริงหรือดีกว่า


4
โปรดเพิ่มคำตอบนี้อย่างมาก เช่นสำรองการอ้างสิทธิ์ว่า "การเพิ่มโทเค็นคำที่ไม่รู้จักเป็นตัวเลือกที่ดีที่สุด"
Jim
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.