คำตอบนั้นตรงไปตรงมามาก: TF-IDF สามารถบรรลุผลลัพธ์ที่ดีกว่าความถี่ระยะง่ายเมื่อรวมกับวิธีการควบคุมบางอย่าง
ตัวอย่างที่ยอมรับได้คือการใช้ความคล้ายคลึงโคไซน์เป็นการวัดความคล้ายคลึงกันระหว่างเอกสาร การใช้มุมมองโคไซน์ของมุมมองระหว่างการแทนเวกเตอร์ TF-IDF ของเอกสารสามารถดึงเอกสารที่คล้ายกันที่เกี่ยวข้องได้สำเร็จและมีความแม่นยำสูงกว่า TF เพียงอย่างเดียว
นี่เป็นเพราะ IDF ลดน้ำหนักที่กำหนดให้กับคำทั่วไปและเน้นคำที่ผิดปกติในเอกสาร บทความข่าวส่วนใหญ่ไม่ได้เกี่ยวกับนกกระจอกเทศดังนั้นบทความข่าวที่มี "นกกระจอกเทศ" นั้นผิดปกติและเราต้องการทราบว่าเมื่อพยายามค้นหาเอกสารที่คล้ายกัน
แต่ในกรณีของการจัดหมวดหมู่ข้อความโดยใช้เทคนิค ML แบบมาตรฐานภายใต้การดูแลทำไมต้องลดน้ำหนักลงด้วยความถี่ของเอกสารในคลังข้อมูล ผู้เรียนจะไม่ตัดสินใจตัดสินความสำคัญของแต่ละคำ / การรวมกันของคำศัพท์หรือไม่?
xyxyy) จากนั้นเราได้ทำให้งานของเราง่ายขึ้นและคอมพิวเตอร์ที่ทำงานหนักเกินไปของเรา! ฉันคิดว่านี่เป็นองค์ประกอบที่ไม่ค่อยได้รับการยอมรับในแวดวงนี้ผู้คนใช้เวลาศึกษาและพิจารณาอัลกอริธึมเป็นจำนวนมากเพราะพวกเขาไม่ขึ้นกับโดเมน แต่รู้เพิ่มเติมเกี่ยวกับข้อมูลของคุณและปัญหาที่คุณพยายามแก้ไขสามารถแนะนำเส้นทางไป การรวบรวมข้อมูลที่ได้รับการปรับปรุงหรือการแสดงข้อมูลซึ่งทำให้งานง่ายขึ้นมากและง่ายมากจนไม่จำเป็นต้องมีรูปแบบของความซับซ้อนหรูหรา
สามารถพบทรัพยากรจำนวนมากที่นี่ซึ่งฉันทำซ้ำเพื่อความสะดวก
K. Sparck Jones "การตีความทางสถิติของคำเฉพาะเจาะจงและการนำไปใช้ในการสืบค้น". วารสารเอกสาร 28 (1) 1972
G. Salton และ Edward Fox และ Wu Harry Wu "การดึงข้อมูลบูลีนเสริม". การสื่อสารของ ACM, 26 (11) 1983
G. Salton และ MJ McGill "ความรู้เบื้องต้นเกี่ยวกับการดึงข้อมูลสมัยใหม่" 1983
G. Salton และ C. Buckley "วิธีการถ่วงน้ำหนักในการดึงข้อความอัตโนมัติ" การประมวลผลและการจัดการข้อมูล, 24 (5) 1988
H. Wu และ R. Luk และ K. Wong และ K. Kwok "การตีความน้ำหนักเทอม TF-IDF ว่าเป็นการตัดสินใจที่เกี่ยวข้อง" ธุรกรรม ACM ในระบบสารสนเทศ, 26 (3) 2008