เป็นคุณจะเห็นชี้ให้เห็นที่อื่น ๆที่ TF-IDF จะกล่าวถึงมีการตกลงกันในระดับสากลไม่มีสูตรเดียวสำหรับการคำนวณTF-IDFหรือแม้กระทั่ง (ในขณะที่คำถามของคุณ) IDF วัตถุประสงค์ของการ+ 1คือการบรรลุวัตถุประสงค์หนึ่งในสองข้อ: a) เพื่อหลีกเลี่ยงการหารด้วยศูนย์เมื่อคำหนึ่งปรากฏในเอกสารไม่มีแม้ว่าสิ่งนี้จะไม่เกิดขึ้นในแนวทาง "ถุงคำ" หรือ b) เพื่อกำหนดขอบเขตล่างให้ หลีกเลี่ยงคำที่ได้รับน้ำหนักเป็นศูนย์เพียงเพราะมันปรากฏในเอกสารทั้งหมด
จริง ๆ แล้วฉันไม่เคยเห็นสูตร l o g( 1 +ยังไม่มีข้อความnเสื้อ)แม้ว่าคุณจะพูดถึงตำราเรียน แต่จุดประสงค์ก็เพื่อกำหนดขอบเขตล่างของl o g( 2 )แทนที่จะเป็นศูนย์ในขณะที่คุณตีความอย่างถูกต้อง ฉันได้เห็น1 +l o g(ยังไม่มีข้อความnเสื้อ)ซึ่งกำหนดขอบเขตที่ต่ำกว่า 1 การคำนวณที่ใช้บ่อยที่สุดน่าจะเป็น l o g(ยังไม่มีข้อความnเสื้อ)เช่นเดียวกับใน Manning, Christopher D, Prabhakar Raghavan และ Hinrich Schütze (2008) ข้อมูลการสืบค้นเบื้องต้นสำนักพิมพ์มหาวิทยาลัยเคมบริดจ์, p118 หรือWikipedia (อ้างอิงจากแหล่งข้อมูลที่คล้ายคลึงกัน)
ไม่เกี่ยวข้องโดยตรงกับการค้นหาของคุณ แต่ขอบเขตบนไม่ได้ ∞, แต่ k + l o g( N/ s) ที่ไหน k , s ∈ 0 , 1ขึ้นอยู่กับสูตรการปรับให้เรียบของคุณ สิ่งนี้เกิดขึ้นสำหรับคำที่ปรากฏในเอกสาร 0 หรือ 1 (อีกครั้งขึ้นอยู่กับว่าคุณปรับให้เรียบหรือไม่sเพื่อกำหนดให้มีข้อกำหนดสำหรับศูนย์ที่มีความถี่เอกสารเป็นศูนย์ - หากไม่ใช่แล้วค่าสูงสุดจะเกิดขึ้นสำหรับคำที่ปรากฏในเอกสารเพียงฉบับเดียว) IDF→ ∞ เมื่อไหร่ 1 +nเสื้อ= 1 และ ยังไม่มีข้อความ→ ∞.