เพิ่มหนึ่งในความถี่เอกสารผกผันทำไม?

ตำราเรียนของฉันแสดงรายการ idf เป็นโดยที่ $log(1+\frac{N}{n_t})$

$N$ : จำนวนเอกสาร
$n_t$ : จำนวนเอกสารที่มีคำศัพท์ $t$

รายการวิกิพีเดียสูตรนี้เป็นรุ่นที่เรียบของจริง{n_t}) สิ่งหนึ่งที่ฉันเข้าใจ: มันมีตั้งแต่ถึงซึ่งดูเหมือนจะเข้าใจง่าย แต่จากเป็นซึ่งดูแปลกมาก ... ฉันรู้เรื่องการปรับให้เรียบจากการสร้างแบบจำลองภาษาเล็กน้อย แต่คุณจะเพิ่มบางอย่างในตัวเศษ เช่นเดียวกับในตัวหารเพราะคุณเป็นห่วงเกี่ยวกับมวลความน่าจะเป็น แต่การเพิ่มไม่สมเหตุสมผลสำหรับฉัน เราพยายามทำอะไรให้สำเร็จที่นี่? $log(\frac{N}{n_t})$ $log(\frac{N}{N})=0$ $\infty$
$log(1+\frac{N}{n_t})$ $log(1+1)$ $\infty$
$1$

text-mining natural-language smoothing

— user2740
แหล่งที่มา

เกี่ยวข้อง แต่ไม่ซ้ำกัน: stats.stackexchange.com/questions/152182/ …

— Sycorax พูดว่า Reinstate Monica

การปรับให้เรียบจะถูกต้อง

เข้าสู่ระบบ (\frac{ยังไม่มีข้อความ}{(1 + n_{เสื้อ})})

$\log(\frac N {(1+n_{t})})$

— ashishpatel.co.in

เป็นคุณจะเห็นชี้ให้เห็นที่อื่น ๆที่ TF-IDF จะกล่าวถึงมีการตกลงกันในระดับสากลไม่มีสูตรเดียวสำหรับการคำนวณTF-IDFหรือแม้กระทั่ง (ในขณะที่คำถามของคุณ) IDF วัตถุประสงค์ของการ $+ 1$ คือการบรรลุวัตถุประสงค์หนึ่งในสองข้อ: a) เพื่อหลีกเลี่ยงการหารด้วยศูนย์เมื่อคำหนึ่งปรากฏในเอกสารไม่มีแม้ว่าสิ่งนี้จะไม่เกิดขึ้นในแนวทาง "ถุงคำ" หรือ b) เพื่อกำหนดขอบเขตล่างให้ หลีกเลี่ยงคำที่ได้รับน้ำหนักเป็นศูนย์เพียงเพราะมันปรากฏในเอกสารทั้งหมด

จริง ๆ แล้วฉันไม่เคยเห็นสูตร $log(1+\frac{N}{n_t})$ แม้ว่าคุณจะพูดถึงตำราเรียน แต่จุดประสงค์ก็เพื่อกำหนดขอบเขตล่างของ $log(2)$ แทนที่จะเป็นศูนย์ในขณะที่คุณตีความอย่างถูกต้อง ฉันได้เห็น1 + $log(\frac{N}{n_t})$ ซึ่งกำหนดขอบเขตที่ต่ำกว่า 1 การคำนวณที่ใช้บ่อยที่สุดน่าจะเป็น $log(\frac{N}{n_t})$ เช่นเดียวกับใน Manning, Christopher D, Prabhakar Raghavan และ Hinrich Schütze (2008) ข้อมูลการสืบค้นเบื้องต้นสำนักพิมพ์มหาวิทยาลัยเคมบริดจ์, p118 หรือWikipedia (อ้างอิงจากแหล่งข้อมูลที่คล้ายคลึงกัน)

ไม่เกี่ยวข้องโดยตรงกับการค้นหาของคุณ แต่ขอบเขตบนไม่ได้ $\infty$ , แต่ $k + log(N/s)$ ที่ไหน $k, s \in {0, 1}$ ขึ้นอยู่กับสูตรการปรับให้เรียบของคุณ สิ่งนี้เกิดขึ้นสำหรับคำที่ปรากฏในเอกสาร 0 หรือ 1 (อีกครั้งขึ้นอยู่กับว่าคุณปรับให้เรียบหรือไม่ $s$ เพื่อกำหนดให้มีข้อกำหนดสำหรับศูนย์ที่มีความถี่เอกสารเป็นศูนย์ - หากไม่ใช่แล้วค่าสูงสุดจะเกิดขึ้นสำหรับคำที่ปรากฏในเอกสารเพียงฉบับเดียว) IDF $\rightarrow \infty$ เมื่อไหร่ $1 + n_t=1$ และ $N \rightarrow \infty$ .

— เคนเบอนัวต์
แหล่งที่มา