วิทยาศาสตร์ข้อมูล text

การทำนายความคล้ายคลึงกันของประโยค

ฉันกำลังมองหาที่จะแก้ปัญหาต่อไปนี้: ฉันมีชุดประโยคเป็นชุดข้อมูลของฉันและฉันต้องการที่จะสามารถพิมพ์ประโยคใหม่และค้นหาประโยคที่ประโยคใหม่คล้ายกับในชุดข้อมูล ตัวอย่างจะมีลักษณะดังนี้: ประโยคใหม่: " I opened a new mailbox" การทำนายขึ้นอยู่กับชุดข้อมูล: Sentence | Similarity A dog ate poop 0% A mailbox is good 50% A mailbox was opened by me 80% ฉันได้อ่านว่าโคไซน์ที่คล้ายคลึงกันสามารถใช้ในการแก้ปัญหาประเภทนี้ที่จับคู่กับ tf-idf (และ RNN ไม่ควรนำการปรับปรุงที่สำคัญไปใช้กับวิธีการพื้นฐาน) หรือword2vecใช้สำหรับปัญหาที่คล้ายกัน สิ่งเหล่านี้มีประโยชน์สำหรับการใช้งานในกรณีนี้หรือไม่ มีเทคนิค / อัลกอริธึมอื่น ๆ ที่จะแก้ปัญหานี้ (โดยเฉพาะกับ Python และ SKLearn แต่ฉันเปิดกว้างเพื่อเรียนรู้เกี่ยวกับ TensorFlow ด้วย)

15 python nlp scikit-learn similarity text

คุณใช้ SMOTE กับการจำแนกข้อความได้อย่างไร

Oversampling เทคนิคการสังเคราะห์ของผู้ถือหุ้นส่วนน้อย (SMOTE) เป็นเทคนิคการ oversampling ที่ใช้ในปัญหาชุดข้อมูลที่ไม่สมดุล จนถึงตอนนี้ฉันมีความคิดว่าจะใช้กับข้อมูลทั่วไปที่มีโครงสร้างได้อย่างไร แต่เป็นไปได้หรือไม่ที่จะใช้กับปัญหาการจำแนกข้อความ? ส่วนใดของข้อมูลที่คุณจำเป็นต้องใช้ในการดูตัวอย่าง มีอีกคำถามหนึ่งเกี่ยวกับเรื่องนี้ แต่ไม่มีคำตอบ ฉันสามารถเรียนรู้ที่จะเริ่มต้นกับสิ่งนี้ได้ที่ไหน?

14 unbalanced-classes text smote

คำถามติดแท็ก text