คำตอบนั้นตรงไปตรงมามาก: TF-IDF สามารถบรรลุผลลัพธ์ที่ดีกว่าความถี่ระยะง่ายเมื่อรวมกับวิธีการควบคุมบางอย่าง
ตัวอย่างที่ยอมรับได้คือการใช้ความคล้ายคลึงโคไซน์เป็นการวัดความคล้ายคลึงกันระหว่างเอกสาร การใช้มุมมองโคไซน์ของมุมมองระหว่างการแทนเวกเตอร์ TF-IDF ของเอกสารสามารถดึงเอกสารที่คล้ายกันที่เกี่ยวข้องได้สำเร็จและมีความแม่นยำสูงกว่า TF เพียงอย่างเดียว
นี่เป็นเพราะ IDF ลดน้ำหนักที่กำหนดให้กับคำทั่วไปและเน้นคำที่ผิดปกติในเอกสาร บทความข่าวส่วนใหญ่ไม่ได้เกี่ยวกับนกกระจอกเทศดังนั้นบทความข่าวที่มี "นกกระจอกเทศ" นั้นผิดปกติและเราต้องการทราบว่าเมื่อพยายามค้นหาเอกสารที่คล้ายกัน
  แต่ในกรณีของการจัดหมวดหมู่ข้อความโดยใช้เทคนิค ML แบบมาตรฐานภายใต้การดูแลทำไมต้องลดน้ำหนักลงด้วยความถี่ของเอกสารในคลังข้อมูล ผู้เรียนจะไม่ตัดสินใจตัดสินความสำคัญของแต่ละคำ / การรวมกันของคำศัพท์หรือไม่?
xyxyy) จากนั้นเราได้ทำให้งานของเราง่ายขึ้นและคอมพิวเตอร์ที่ทำงานหนักเกินไปของเรา! ฉันคิดว่านี่เป็นองค์ประกอบที่ไม่ค่อยได้รับการยอมรับในแวดวงนี้ผู้คนใช้เวลาศึกษาและพิจารณาอัลกอริธึมเป็นจำนวนมากเพราะพวกเขาไม่ขึ้นกับโดเมน แต่รู้เพิ่มเติมเกี่ยวกับข้อมูลของคุณและปัญหาที่คุณพยายามแก้ไขสามารถแนะนำเส้นทางไป การรวบรวมข้อมูลที่ได้รับการปรับปรุงหรือการแสดงข้อมูลซึ่งทำให้งานง่ายขึ้นมากและง่ายมากจนไม่จำเป็นต้องมีรูปแบบของความซับซ้อนหรูหรา
สามารถพบทรัพยากรจำนวนมากที่นี่ซึ่งฉันทำซ้ำเพื่อความสะดวก
- K. Sparck Jones "การตีความทางสถิติของคำเฉพาะเจาะจงและการนำไปใช้ในการสืบค้น". วารสารเอกสาร 28 (1) 1972 
- G. Salton และ Edward Fox และ Wu Harry Wu "การดึงข้อมูลบูลีนเสริม". การสื่อสารของ ACM, 26 (11) 1983 
- G. Salton และ MJ McGill "ความรู้เบื้องต้นเกี่ยวกับการดึงข้อมูลสมัยใหม่" 1983 
- G. Salton และ C. Buckley "วิธีการถ่วงน้ำหนักในการดึงข้อความอัตโนมัติ" การประมวลผลและการจัดการข้อมูล, 24 (5) 1988 
- H. Wu และ R. Luk และ K. Wong และ K. Kwok "การตีความน้ำหนักเทอม TF-IDF ว่าเป็นการตัดสินใจที่เกี่ยวข้อง" ธุรกรรม ACM ในระบบสารสนเทศ, 26 (3) 2008