4
ทางเลือกแทน TF-IDF และ Cosine Similarity เมื่อเปรียบเทียบเอกสารที่มีรูปแบบต่างกัน
ฉันทำงานเกี่ยวกับโครงการส่วนตัวขนาดเล็กซึ่งใช้ทักษะการทำงานของผู้ใช้และแนะนำอาชีพที่เหมาะสมที่สุดสำหรับพวกเขาตามทักษะเหล่านั้น ฉันใช้ฐานข้อมูลของรายการงานเพื่อให้ได้สิ่งนี้ ในขณะนี้รหัสทำงานดังนี้: 1) ประมวลผลข้อความของแต่ละรายการงานเพื่อแยกทักษะที่ระบุไว้ในรายการ 2) สำหรับแต่ละอาชีพ (เช่น "นักวิเคราะห์ข้อมูล") ให้รวมข้อความที่ประมวลผลของรายการงานสำหรับอาชีพนั้นไว้ในเอกสารเดียว 3) คำนวณ TF-IDF ของแต่ละทักษะภายในเอกสารประกอบอาชีพ หลังจากนี้ฉันไม่แน่ใจว่าวิธีการใดที่ฉันควรใช้เพื่อจัดอันดับอาชีพตามรายการทักษะของผู้ใช้ วิธีที่ได้รับความนิยมมากที่สุดที่ฉันเคยเห็นก็คือการใช้ทักษะของผู้ใช้เป็นเอกสารเช่นกันจากนั้นคำนวณ TF-IDF สำหรับเอกสารทักษะและใช้สิ่งที่คล้ายโคไซน์เพื่อคำนวณความคล้ายคลึงกันระหว่างเอกสารทักษะและแต่ละ เอกสารประกอบอาชีพ ดูเหมือนจะไม่เป็นทางออกที่ดีสำหรับฉันเนื่องจากความคล้ายคลึงกันทางโคไซน์นั้นถูกใช้งานได้ดีที่สุดเมื่อเปรียบเทียบเอกสารสองฉบับในรูปแบบเดียวกัน สำหรับเรื่องนั้น TF-IDF ดูเหมือนจะไม่ตรงกับตัวชี้วัดที่เหมาะสมที่จะนำไปใช้กับรายการทักษะของผู้ใช้เลย ตัวอย่างเช่นหากผู้ใช้เพิ่มทักษะเพิ่มเติมลงในรายการ TF ของแต่ละทักษะจะลดลง ในความเป็นจริงฉันไม่สนใจสิ่งที่ความถี่ของทักษะอยู่ในรายการทักษะของผู้ใช้ - ฉันแค่ใส่ใจว่าพวกเขามีทักษะเหล่านั้น (และบางทีพวกเขารู้ทักษะเหล่านั้นดีแค่ไหน) ดูเหมือนว่าตัวชี้วัดที่ดีกว่าจะทำสิ่งต่อไปนี้: 1) สำหรับแต่ละทักษะที่ผู้ใช้มีให้คำนวณ TF-IDF ของทักษะนั้นในเอกสารประกอบอาชีพ 2) สำหรับแต่ละอาชีพสรุปผล TF-IDF สำหรับทักษะทั้งหมดของผู้ใช้ 3) อันดับอาชีพตามผลรวมข้างต้น ฉันกำลังคิดตามบรรทัดที่นี่หรือไม่ ถ้าเป็นเช่นนั้นมีอัลกอริทึมใดบ้างที่ใช้งานได้ตามบรรทัดเหล่านี้ แต่มีความซับซ้อนมากกว่าผลรวมแบบง่ายหรือไม่? ขอบคุณสำหรับความช่วยเหลือ!