นี่เป็นหนึ่งในปัญหาที่ดีที่ขอบเขตอาจแตกต่างไปจากการบ้านที่มอบหมายให้กับโครงการขนาดของ Google
แน่นอนคุณสามารถเริ่มต้นด้วยการเกิดขึ้นของคำ (เช่นความน่าจะเป็นเงื่อนไข) คุณจะค้นพบได้อย่างรวดเร็วว่าคุณได้รับรายการคำหยุดที่เกี่ยวข้องกับคำส่วนใหญ่เพียงเพราะพวกเขาเป็นที่นิยมมาก การใช้ความน่าจะเป็นแบบมีเงื่อนไขจะช่วยดูแลคำหยุด แต่จะทำให้ความสัมพันธ์มีแนวโน้มที่จะเกิดข้อผิดพลาดในจำนวนเล็กน้อย (ในกรณีส่วนใหญ่ของคุณ) คุณอาจลองJacardแต่เนื่องจากสมมาตรจะมีความสัมพันธ์มากมายจึงไม่พบ
จากนั้นคุณอาจพิจารณาความสัมพันธ์ที่ปรากฏในระยะสั้นจากคำฐานเท่านั้น คุณสามารถ (และควร) พิจารณาความสัมพันธ์บนพื้นฐานของคลังข้อมูลทั่วไป (เช่น Wikipedia) และข้อมูลเฉพาะของผู้ใช้ (เช่นอีเมลของเขา)
ไม่นานคุณจะมีมาตรการที่เกี่ยวข้องมากมายเมื่อมาตรการทั้งหมดดีและมีข้อได้เปรียบเหนือผู้อื่น
เพื่อรวมมาตรการดังกล่าวฉันต้องการลดปัญหาให้เป็นปัญหาการจำแนกประเภท
คุณควรสร้างชุดข้อมูลของคำศัพท์และติดป้ายกำกับว่า "สัมพันธ์" ในการสร้างชุดข้อมูลที่มีป้ายกำกับขนาดใหญ่คุณสามารถ:
- ใช้แหล่งที่มาของคำที่เกี่ยวข้องที่รู้จัก (เช่นหมวดหมู่ Wikipedia เก่าดี) เพื่อผลบวก
- คำที่ไม่รู้จักที่เกี่ยวข้องส่วนใหญ่ไม่เกี่ยวข้อง
จากนั้นใช้มาตรการทั้งหมดที่คุณมีเป็นคุณสมบัติของคู่ ตอนนี้คุณอยู่ในโดเมนของปัญหาการจำแนกประเภทภายใต้การดูแล สร้างตัวจําแนกในชุดข้อมูลประเมินตามความต้องการของคุณและรับการวัดความคล้ายคลึงกันที่เหมาะกับความต้องการของคุณ