มีปัญหาที่เราพยายามแก้ไขในที่ที่เราต้องการค้นหาความหมายของชุดข้อมูลของเรานั่นคือเรามีข้อมูลเฉพาะโดเมน (ตัวอย่าง: ประโยคที่พูดถึงรถยนต์)
ข้อมูลของเราเป็นเพียงประโยคจำนวนหนึ่งและสิ่งที่เราต้องการคือการให้วลีและกลับประโยคที่:
- คล้ายกับวลีนั้น
- มีส่วนหนึ่งของประโยคที่คล้ายกับวลี
- ประโยคที่มีความหมายคล้ายบริบท
ให้ฉันลองยกตัวอย่างให้ฉันสมมติว่าฉันค้นหาวลี "ประสบการณ์การซื้อ" ฉันควรได้ประโยคดังนี้:
- ฉันไม่เคยคิดเลยว่าการซื้อรถอาจใช้เวลาน้อยกว่า 30 นาทีในการเซ็นและซื้อ
ฉันพบรถที่ฉันชอบและขั้นตอนการซื้อนั้น
ง่ายและตรงไปตรงมาฉันเกลียดการช็อปปิ้งรถยนต์อย่างแน่นอน แต่วันนี้ฉันดีใจที่ฉันทำ
ฉันต้องการเน้นความจริงที่ว่าเรากำลังมองหาความคล้ายคลึงกันตามบริบทและไม่ใช่แค่การค้นหาคำที่ดุร้าย
หากประโยคใช้คำที่แตกต่างกันก็ควรจะสามารถค้นหาได้
สิ่งที่เราได้ลองไปแล้ว:
Open Semantic Searchปัญหาที่เราประสบอยู่ที่นี่คือการสร้าง ontology จากข้อมูลที่เรามีหรือเพื่อการค้นหา ontology ที่มีอยู่จากโดเมนต่าง ๆ ที่เราสนใจ
การค้นหาแบบยืดหยุ่น (BM25 + เวกเตอร์ (tf-idf)) เราลองสิ่งนี้ในที่ซึ่งมันมีประโยคไม่กี่ประโยค แต่ความแม่นยำนั้นไม่ค่อยดีนัก ความแม่นยำก็ไม่ดีเช่นกัน เราพยายามเทียบกับชุดข้อมูลที่มนุษย์เป็นผู้ดูแลมันสามารถรับประมาณ 10% ของประโยคเท่านั้น
เราลองใช้งานแต่งงานที่แตกต่างกันเช่นที่กล่าวถึงครั้งเดียวในประโยคเปลี่ยนรูปและลองดูตัวอย่างและลองประเมินผลกับชุดที่มนุษย์เป็นผู้ดูแลของเราและนั่นก็มีความแม่นยำต่ำมาก
เราพยายามELMO สิ่งนี้ดีกว่า แต่ก็ยังมีความแม่นยำต่ำกว่าที่เราคาดไว้และมีภาระการรับรู้เพื่อตัดสินใจค่าโคไซน์ด้านล่างซึ่งเราไม่ควรพิจารณาประโยค สิ่งนี้ใช้กับจุดที่ 3
ความช่วยเหลือใด ๆ ที่จะได้รับการชื่นชม. ขอบคุณมากสำหรับความช่วยเหลือล่วงหน้า