1
การเรียนรู้ของเครื่องรวมอยู่ในการออกแบบเครื่องมือค้นหาอย่างไร
ขณะนี้ฉันกำลังสร้างเครื่องมือค้นหาภายในองค์กรขนาดเล็กโดยใช้ Apache Lucene จุดประสงค์ของมันคือเรียบง่าย - จากคำหลักบางคำมันจะแนะนำบทความที่เขียนภายใน บริษัท ของเรา ฉันใช้การให้คะแนน TF-IDF ที่ค่อนข้างเป็นมาตรฐานในฐานะตัวชี้วัดพื้นฐานและสร้างกลไกการให้คะแนนของฉันเองอยู่ด้านบน สิ่งเหล่านี้ดูเหมือนจะทำงานได้อย่างยอดเยี่ยมยกเว้นในบางกรณีที่การจัดอันดับดูยุ่งเหยิง ดังนั้นสิ่งที่ฉันวางแผนจะทำคือการเพิ่มลิงค์ที่เกี่ยวข้อง / ไม่เกี่ยวข้องขนาดเล็กลงในหน้าผลการค้นหาเพื่อให้ผู้ใช้สามารถคลิกที่ลิงค์ใดลิงก์หนึ่งขึ้นอยู่กับการรับรู้ของพวกเขาว่าควรรวมผลลัพธ์นั้นไว้ด้วยหรือไม่ ความคิดของฉัน ปฏิบัติต่อป้ายกำกับที่เกี่ยวข้อง / ไม่เกี่ยวข้องเหล่านี้และสร้างข้อมูลการฝึกอบรม ใช้ข้อมูลนี้เพื่อฝึกฝนลักษณนาม (เช่น SVM) รวมโมเดลนี้ลงในเครื่องมือค้นหาเช่นผลลัพธ์ใหม่ทุกรายการจะผ่านตัวแยกประเภทและจะได้รับการกำหนดป้ายกำกับว่าเกี่ยวข้องหรือไม่ วิธีนี้ดูเหมือนง่ายสำหรับฉัน แต่ฉันไม่แน่ใจว่าจะใช้งานได้จริงหรือไม่ ฉันมีคำถามสองข้อ: คุณสมบัติทั้งหมดที่ฉันควรแยกคืออะไร มีวิธีที่ดีกว่าในการรวมส่วนประกอบการเรียนรู้ของเครื่องเข้ากับเครื่องมือค้นหาหรือไม่ เป้าหมายสุดท้ายของฉันคือ "เรียนรู้" ฟังก์ชั่นการจัดอันดับตามตรรกะทางธุรกิจเช่นเดียวกับความคิดเห็นของผู้ใช้