คำถามติดแท็ก information-retrieval

11
วิธีที่ดีที่สุดในการคำนวณหัวข้อหรือแท็กมีแนวโน้มคืออะไร
เว็บไซต์หลายแห่งมีสถิติเช่น "หัวข้อที่ร้อนแรงที่สุดใน 24 ชั่วโมงที่ผ่านมา" ตัวอย่างเช่น Topix.com แสดงสิ่งนี้ในส่วน "แนวโน้มข่าว" ที่นั่นคุณสามารถดูหัวข้อที่มีจำนวนการกล่าวถึงที่เติบโตเร็วที่สุด ฉันต้องการคำนวณ "Buzz" สำหรับหัวข้อด้วย ฉันจะทำสิ่งนี้ได้อย่างไร อัลกอริทึมควรน้ำหนักหัวข้อที่ร้อนน้อยกว่าเสมอ หัวข้อที่ปกติ (เกือบ) ไม่มีใครพูดถึงควรเป็นหัวข้อที่ร้อนแรงที่สุด Google เสนอ "แนวโน้มร้อนแรง", topix.com แสดง "หัวข้อน่าสนใจ", fav.or.it แสดง "แนวโน้มคำหลัก" - บริการทั้งหมดมีสิ่งหนึ่งที่เหมือนกัน: พวกเขาจะแสดงเฉพาะแนวโน้มที่กำลังมาถึงซึ่งกำลังร้อนแรงอย่างผิดปกติในขณะนี้ คำเช่น "Britney Spears", "weather" หรือ "Paris Hilton" จะไม่ปรากฏในรายการเหล่านี้เพราะพวกเขามักจะร้อนและบ่อยครั้ง บทความนี้เรียกสิ่งนี้ว่า "ปัญหาของ Britney Spears" คำถามของฉัน: คุณจะเขียนอัลกอริทึมหรือใช้วิธีที่มีอยู่เพื่อแก้ปัญหานี้ได้อย่างไร มีรายการที่มีคำค้นหาใน 24 ชั่วโมงล่าสุดอัลกอริทึมควรแสดง 10 สุด (ตัวอย่าง) สุดร้อนแรง …

6
Python: tf-idf-cosine: เพื่อค้นหาความคล้ายคลึงกันของเอกสาร
ผมต่อไปกวดวิชาซึ่งเป็นใช้ได้ในส่วนที่ 1และส่วนที่ 2 น่าเสียดายที่ผู้เขียนไม่มีเวลาสำหรับส่วนสุดท้ายซึ่งเกี่ยวข้องกับการใช้ความคล้ายคลึงกันของโคไซน์เพื่อหาระยะห่างระหว่างเอกสารสองฉบับ ฉันติดตามตัวอย่างในบทความด้วยความช่วยเหลือของลิงค์ต่อไปนี้จากstackoverflowซึ่งรวมอยู่ในรหัสที่กล่าวถึงในลิงค์ด้านบน (เพื่อให้ชีวิตง่ายขึ้น) from sklearn.feature_extraction.text import CountVectorizer from sklearn.feature_extraction.text import TfidfTransformer from nltk.corpus import stopwords import numpy as np import numpy.linalg as LA train_set = ["The sky is blue.", "The sun is bright."] # Documents test_set = ["The sun in the sky is bright."] # Query stopWords …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.