ฉันจะใช้คำศัพท์เพื่อฝังแผนที่เอกสารกับเวกเตอร์ฟีเจอร์ได้อย่างไรเหมาะสำหรับใช้กับการเรียนรู้ภายใต้การดูแล
ฝังคำแผนที่แต่ละคำเพื่อเวกเตอร์ที่บางจำนวนไม่มากเกินไปขนาดใหญ่ (เช่น 500) ที่เป็นที่นิยมembeddings คำได้แก่word2vecและถุงมือ
ฉันต้องการใช้การเรียนรู้ภายใต้การดูแลเพื่อจำแนกเอกสาร ขณะนี้ฉันกำลังทำแผนที่เอกสารแต่ละฉบับกับเวกเตอร์คุณลักษณะโดยใช้การแทนคำถุงจากนั้นจึงใช้ตัวจําแนกแบบลักษณนาม ฉันต้องการแทนที่เวกเตอร์คุณลักษณะถุงคำ - คำด้วยการฝังคำที่มีการฝึกอบรมไว้ล่วงหน้าเพื่อใช้ประโยชน์จากความรู้เชิงความหมายที่มีอยู่ในการฝังคำ มีวิธีมาตรฐานในการทำเช่นนั้น?
ฉันสามารถจินตนาการถึงความเป็นไปได้บ้าง แต่ฉันไม่รู้ว่ามีบางอย่างที่สมเหตุสมผลที่สุดหรือไม่ วิธีการสมัครที่ฉันเคยพิจารณา:
ฉันสามารถคำนวณเวกเตอร์สำหรับแต่ละคำในเอกสารและเฉลี่ยพวกเขาทั้งหมด อย่างไรก็ตามดูเหมือนว่ามันอาจสูญเสียข้อมูลจำนวนมาก ตัวอย่างเช่นด้วยการใช้ถุงแทนคำถ้ามีคำไม่กี่คำที่มีความเกี่ยวข้องอย่างสูงกับงานการจัดหมวดหมู่และคำที่ไม่เกี่ยวข้องส่วนใหญ่ตัวจําแนกสามารถเรียนรู้ได้ง่าย ถ้าฉันเฉลี่ยเวกเตอร์สำหรับคำทั้งหมดในเอกสารตัวจําแนกไม่มีโอกาส
การต่อเวกเตอร์เข้ากับคำทั้งหมดไม่ทำงานเพราะจะไม่นำไปสู่เวกเตอร์ที่มีขนาดคงที่ นอกจากนี้ดูเหมือนว่าเป็นความคิดที่ไม่ดีเพราะมันจะไวเกินไปต่อการจัดวางคำเฉพาะ
ฉันสามารถใช้คำนั้นเพื่อจัดกลุ่มคำศัพท์ของทุกคำให้เป็นกระจุกกลุ่มคงที่พูดกันว่า 1000 กลุ่มซึ่งฉันใช้ความคล้ายคลึงโคไซน์บนเวกเตอร์เพื่อวัดความคล้ายคลึงกันของคำ จากนั้นแทนที่จะเป็นถุงคำคำฉันสามารถมีถุงแบบกลุ่ม: เวกเตอร์คุณลักษณะที่ฉันจัดหาให้กับ classifer อาจเป็น 1000- เวกเตอร์ซึ่งองค์ประกอบที่นับจำนวนคำในเอกสารที่ เป็นส่วนหนึ่งของคลัสเตอร์ฉัน
ป.ร. ให้คำเหล่านี้ embeddings คำให้ฉันคำนวณชุดของด้านบน 20 มากที่สุดคำที่คล้ายกันและคะแนนความคล้ายคลึงกันของพวกเขา{20} ฉันสามารถปรับเวกเตอร์ลักษณะคล้ายคำถุงด้วยการใช้สิ่งนี้ เมื่อผมเห็นคำว่าที่นอกเหนือไปจากการเพิ่มองค์ประกอบที่สอดคล้องกับคำโดย , ฉันยังสามารถเพิ่มองค์ประกอบที่สอดคล้องกับคำโดย , เพิ่มองค์ประกอบที่สอดคล้องกับคำโดยและอื่น ๆ
มีวิธีการเฉพาะที่น่าจะทำงานได้ดีสำหรับการจำแนกเอกสารหรือไม่?
ฉันไม่ได้กำลังหาย่อหน้า 2vec หรือ doc2vec; สิ่งเหล่านี้ต้องการการฝึกอบรมในคลังข้อมูลขนาดใหญ่และฉันไม่มีคลังข้อมูลขนาดใหญ่ ฉันต้องการใช้คำที่มีอยู่แล้วแทน