เพิ่มหนึ่งในความถี่เอกสารผกผันทำไม?


9

ตำราเรียนของฉันแสดงรายการ idf เป็นโดยที่ล.โอก.(1+ยังไม่มีข้อความnเสื้อ)

  • ยังไม่มีข้อความ : จำนวนเอกสาร
  • nเสื้อ : จำนวนเอกสารที่มีคำศัพท์เสื้อ

รายการวิกิพีเดียสูตรนี้เป็นรุ่นที่เรียบของจริง{n_t}) สิ่งหนึ่งที่ฉันเข้าใจ: มันมีตั้งแต่ถึงซึ่งดูเหมือนจะเข้าใจง่าย แต่จากเป็นซึ่งดูแปลกมาก ... ฉันรู้เรื่องการปรับให้เรียบจากการสร้างแบบจำลองภาษาเล็กน้อย แต่คุณจะเพิ่มบางอย่างในตัวเศษ เช่นเดียวกับในตัวหารเพราะคุณเป็นห่วงเกี่ยวกับมวลความน่าจะเป็น แต่การเพิ่มไม่สมเหตุสมผลสำหรับฉัน เราพยายามทำอะไรให้สำเร็จที่นี่?ล.โอก.(ยังไม่มีข้อความnเสื้อ)ล.โอก.(ยังไม่มีข้อความยังไม่มีข้อความ)=0
ล.โอก.(1+ยังไม่มีข้อความnเสื้อ)ล.โอก.(1+1)
1


เกี่ยวข้อง แต่ไม่ซ้ำกัน: stats.stackexchange.com/questions/152182/ …
Sycorax พูดว่า Reinstate Monica

การปรับให้เรียบจะถูกต้อง
เข้าสู่ระบบ(ยังไม่มีข้อความ(1+nเสื้อ))
ashishpatel.co.in

คำตอบ:


7

เป็นคุณจะเห็นชี้ให้เห็นที่อื่น ๆที่ TF-IDF จะกล่าวถึงมีการตกลงกันในระดับสากลไม่มีสูตรเดียวสำหรับการคำนวณTF-IDFหรือแม้กระทั่ง (ในขณะที่คำถามของคุณ) IDF วัตถุประสงค์ของการ+1คือการบรรลุวัตถุประสงค์หนึ่งในสองข้อ: a) เพื่อหลีกเลี่ยงการหารด้วยศูนย์เมื่อคำหนึ่งปรากฏในเอกสารไม่มีแม้ว่าสิ่งนี้จะไม่เกิดขึ้นในแนวทาง "ถุงคำ" หรือ b) เพื่อกำหนดขอบเขตล่างให้ หลีกเลี่ยงคำที่ได้รับน้ำหนักเป็นศูนย์เพียงเพราะมันปรากฏในเอกสารทั้งหมด

จริง ๆ แล้วฉันไม่เคยเห็นสูตร ล.โอก.(1+ยังไม่มีข้อความnเสื้อ)แม้ว่าคุณจะพูดถึงตำราเรียน แต่จุดประสงค์ก็เพื่อกำหนดขอบเขตล่างของล.โอก.(2)แทนที่จะเป็นศูนย์ในขณะที่คุณตีความอย่างถูกต้อง ฉันได้เห็น1 +ล.โอก.(ยังไม่มีข้อความnเสื้อ)ซึ่งกำหนดขอบเขตที่ต่ำกว่า 1 การคำนวณที่ใช้บ่อยที่สุดน่าจะเป็น ล.โอก.(ยังไม่มีข้อความnเสื้อ)เช่นเดียวกับใน Manning, Christopher D, Prabhakar Raghavan และ Hinrich Schütze (2008) ข้อมูลการสืบค้นเบื้องต้นสำนักพิมพ์มหาวิทยาลัยเคมบริดจ์, p118 หรือWikipedia (อ้างอิงจากแหล่งข้อมูลที่คล้ายคลึงกัน)

ไม่เกี่ยวข้องโดยตรงกับการค้นหาของคุณ แต่ขอบเขตบนไม่ได้ , แต่ k+ล.โอก.(ยังไม่มีข้อความ/s) ที่ไหน k,s0,1ขึ้นอยู่กับสูตรการปรับให้เรียบของคุณ สิ่งนี้เกิดขึ้นสำหรับคำที่ปรากฏในเอกสาร 0 หรือ 1 (อีกครั้งขึ้นอยู่กับว่าคุณปรับให้เรียบหรือไม่sเพื่อกำหนดให้มีข้อกำหนดสำหรับศูนย์ที่มีความถี่เอกสารเป็นศูนย์ - หากไม่ใช่แล้วค่าสูงสุดจะเกิดขึ้นสำหรับคำที่ปรากฏในเอกสารเพียงฉบับเดียว) IDF เมื่อไหร่ 1+nเสื้อ=1 และ ยังไม่มีข้อความ.

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.