ในแอปพลิเคชันการทำเหมืองข้อความวิธีการง่ายๆอย่างหนึ่งคือการใช้การแก้ปัญหาเพื่อสร้างเวกเตอร์เป็นการนำเสนอที่กระจัดกระจายของเอกสาร นี่เป็นเรื่องปกติสำหรับการตั้งค่าแบบแบตช์ซึ่งเป็นที่รู้จักทั้งคลังข้อมูล a-Priori เนื่องจากต้องการทั้งคลังข้อมูลฉันd f
โดยที่คือคำศัพท์,คือเอกสาร,คือคลังเอกสาร, และ (ไม่แสดง) เป็นพจนานุกรมd D T
อย่างไรก็ตามโดยทั่วไปแล้วจะได้รับเอกสารใหม่เมื่อเวลาผ่านไป ทางเลือกหนึ่งคือการใช้ที่มีอยู่ต่อไปจนกว่าจะได้รับเอกสารใหม่จำนวนหนึ่งและทำการคำนวณใหม่ อย่างไรก็ตามเรื่องนี้ดูเหมือนจะไม่มีประสิทธิภาพ ไม่มีใครรู้ของรูปแบบการปรับปรุงที่เพิ่มขึ้นที่ (อาจจะประมาณ) มาบรรจบกับค่าถ้าข้อมูลทั้งหมดถูกเห็นล่วงหน้า? หรืออีกวิธีหนึ่งจะมีมาตรการอื่นที่จับความคิดเดียวกัน แต่สามารถคำนวณในแบบที่เพิ่มขึ้น?
นอกจากนี้ยังมีคำถามที่เกี่ยวข้องว่ายังคงใช้งานได้ดีเมื่อเวลาผ่านไป เนื่องจาก idf รวบรวมความคิดเกี่ยวกับความถี่ของคำศัพท์ของคลังข้อมูลมันเป็นไปได้ที่เอกสารเก่าในคลังข้อมูล (เช่นตัวอย่างเช่นคลังข้อมูลของฉันครอบคลุมบทความวารสารกว่า 100 ปี) เนื่องจากความถี่ของคำที่แตกต่างกันเปลี่ยนแปลงไปตามกาลเวลา ในกรณีนี้มันจริงอาจจะเหมาะสมที่จะโยนออกเอกสารเก่าเมื่อคนใหม่เข้ามาในผลการใช้หน้าต่างบานเลื่อนIDFน่าจะเป็นไปได้ที่เราสามารถเก็บเวกเตอร์ก่อนหน้านี้ทั้งหมดได้เมื่อใหม่แล้วถ้าเราต้องการเรียกเอกสารจาก 2463-2473 เราสามารถใช้คำนวณได้จากเอกสารในช่วงวันที่นั้น วิธีนี้เหมาะสมหรือไม่ฉันวันที่ฉฉันวันที่ฉฉันวันที่ฉ
แก้ไข: มีปัญหาที่แยกต่างหาก แต่ที่เกี่ยวข้องเกี่ยวกับพจนานุกรมTเมื่อเวลาวิวัฒนาการจะมีคำศัพท์ใหม่ในพจนานุกรมที่ไม่เคยปรากฏมาก่อนดังนั้นจะต้องเติบโตและด้วยเหตุนี้ความยาวของเวกเตอร์ดูเหมือนว่าสิ่งนี้จะไม่เป็นปัญหาเนื่องจากศูนย์สามารถต่อท้ายเวกเตอร์เก่าได้| T | ฉันวันที่ฉฉันวันที่ฉ