การจัดการคำที่ไม่รู้จักในงานสร้างแบบจำลองภาษาโดยใช้ LSTM

สำหรับภารกิจการประมวลผลภาษาธรรมชาติ (NLP) มักใช้เวกเตอร์ word2vecเพื่อฝังคำ อย่างไรก็ตามอาจมีคำที่ไม่รู้จักจำนวนมากที่ไม่ได้ถูกจับโดย word2vec vector เพียงเพราะคำเหล่านี้ไม่ได้เห็นบ่อยในข้อมูลการฝึกอบรม (การใช้งานจำนวนมากใช้การนับขั้นต่ำก่อนเพิ่มคำลงในคำศัพท์) นี่อาจเป็นกรณีที่มีข้อความจากเช่น Twitter ซึ่งคำมักสะกดผิด

ควรจัดการคำที่ไม่รู้จักเช่นนั้นอย่างไรเมื่อสร้างแบบจำลองงาน NLP เช่นการคาดการณ์ความเชื่อมั่นโดยใช้เครือข่ายระยะสั้นระยะยาว (LSTM) ฉันเห็นสองตัวเลือก:

การเพิ่มโทเค็น 'คำที่ไม่รู้จัก' ในพจนานุกรม word2vec
การลบคำที่ไม่รู้จักเหล่านี้ออกไปเพื่อที่ LSTM จะไม่รู้แม้แต่คำนั้นในประโยค

วิธีที่เหมาะสมในการจัดการคำเหล่านี้คืออะไร?

— pir
แหล่งที่มา

ฉันตอบคำถามที่คล้ายกันก่อนหน้านี้; ในขณะที่คำถามนั้นไม่เฉพาะเจาะจงกับ LSTMs ดูเหมือนว่าสิ่งที่ฉันเขียนส่วนใหญ่จะมีผลบังคับใช้: stats.stackexchange.com/questions/163005/…

— fnl

คำตอบ:

ตัวเลือก 1 (เพิ่มโทเค็นคำที่ไม่รู้จัก) เป็นวิธีที่คนส่วนใหญ่แก้ปัญหานี้

ตัวเลือกที่ 2 (การลบคำที่ไม่รู้จัก) เป็นแนวคิดที่ไม่ดีเพราะมันจะแปลงประโยคในลักษณะที่ไม่สอดคล้องกับวิธีการฝึก LSTM

อีกทางเลือกหนึ่งที่ได้รับการพัฒนาขึ้นเมื่อเร็ว ๆ นี้คือการสร้างคำที่ฝังอยู่ในแต่ละคำโดยใช้เครือข่ายประสาทเทียมหรือ LSTM แยกจากกันซึ่งประมวลผลอักขระของแต่ละคำทีละคำ การใช้เทคนิคนี้โมเดลของคุณจะไม่พบคำที่ไม่สามารถสร้างการฝังได้

— แอรอน
แหล่งที่มา

สวัสดีแอรอนคุณช่วยชี้ให้ฉันสองสามตัว (เอกสารหรือรหัส) ที่ใช้ตัวเลือกที่สามของคุณได้ไหม

— คำทำนาย

arxiv.org/abs/1508.02096นี่คืออันเดียว

— แอรอน

รหัส: github.com/wlin12/JNN

— chentc

อีกหนึ่งรายการล่าสุด (EMNLP 2017) arxiv.org/abs/1707.06961พร้อมรหัสgithub.com/yuvalpinter/Mimick

— jayelm

-1

การทำแผนที่คำที่หายากเพียงแค่หมายความว่าเราลบคำเหล่านั้นและแทนที่ด้วยโทเค็นในข้อมูลการฝึกอบรม ดังนั้นโมเดลของเราไม่ทราบคำที่หายาก มันเป็นรูปแบบที่หยาบของการปรับให้เรียบเพราะตัวแบบสันนิษฐานว่าโทเค็นจะไม่เกิดขึ้นจริงในข้อมูลจริงหรือดีกว่า

— คอนสแตนติ
แหล่งที่มา

โปรดเพิ่มคำตอบนี้อย่างมาก เช่นสำรองการอ้างสิทธิ์ว่า "การเพิ่มโทเค็นคำที่ไม่รู้จักเป็นตัวเลือกที่ดีที่สุด"

— Jim