ทำความเข้าใจเกี่ยวกับการใช้ลอการิทึมในลอการิทึม TF-IDF


10

ฉันกำลังอ่าน:

https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition

แต่ฉันไม่สามารถเข้าใจได้อย่างชัดเจนว่าทำไมสูตรจึงสร้างในแบบที่มันเป็น

ฉันเข้าใจอะไร:

iDF ควรที่จะวัดระดับความบ่อยครั้งที่คำ S ปรากฏในเอกสารแต่ละฉบับลดลงตามมูลค่าเมื่อคำนั้นปรากฏบ่อยขึ้น

จากมุมมองนั้น

ผมDF(S)=# ของเอกสาร# ของเอกสารที่มี S

นอกจากนี้ความถี่เทอมสามารถอธิบายได้อย่างถูกต้องว่า

เสื้อ(S,D)=# ของการเกิดขึ้นของ S ในเอกสาร D# จำนวนครั้งสูงสุดของสตริง Q ใด ๆ ในเอกสาร D

ดังนั้นการวัด

ผมDF(S)×เสื้อ(S,D)

เป็นวิธีการตามสัดส่วนกับความถี่ที่คำปรากฏในเอกสารที่กำหนดและความพิเศษของคำนั้นอยู่เหนือชุดเอกสาร

สิ่งที่ฉันไม่เข้าใจ

แต่สูตรที่ให้อธิบายมันเป็น

(เข้าสู่ระบบ(ผมDF(S)))(12+เข้าสู่ระบบ(12เสื้อ(S,D)))

ฉันต้องการเข้าใจความต้องการลอการิทึมที่อธิบายไว้ในคำจำกัดความ ทำไมพวกเขาถึงอยู่ที่นั่น? พวกเขาเน้นเรื่องอะไร

คำตอบ:


9

มุมมองที่เน้นคือความเกี่ยวข้องของคำหรือเอกสารไม่ได้เพิ่มขึ้นตามสัดส่วนของความถี่ (หรือเอกสาร) ตามสัดส่วน การใช้ฟังก์ชั่นย่อยเชิงเส้นจึงช่วยทิ้งผลกระทบนี้ เพื่อขยายอิทธิพลของค่าที่มากหรือเล็กมาก (เช่นคำที่หายากมาก) จะถูกตัดจำหน่ายด้วย ในที่สุดเมื่อคนส่วนใหญ่รับรู้ฟังก์ชั่นการให้คะแนนที่ค่อนข้างเติมแต่งโดยใช้ลอการิทึมจะทำให้ความน่าจะเป็นของเงื่อนไขอิสระที่แตกต่างจากให้ดูเหมือน(B))บันทึก( P ( A , B ) ) = บันทึก( P ( A ) ) + บันทึก( P ( B ) )P(A,B)=P(A)P(B)เข้าสู่ระบบ(P(A,B))=เข้าสู่ระบบ(P(A))+เข้าสู่ระบบ(P(B))

ในฐานะที่เป็นบทความ Wikipedia คุณเชื่อมโยงบันทึกความชอบธรรมของ TF-IDF ยังไม่เป็นที่ยอมรับ; มันเป็น / เป็นฮิวริสติกที่เราต้องการสร้างความเข้มงวดไม่ใช่แนวคิดที่เข้มงวดที่เราต้องการถ่ายโอนไปยังโลกแห่งความจริง ดังกล่าวโดย @ anony-มูสเป็นอ่านที่ดีมากในเรื่องนี้ก็คือโรเบิร์ตเข้าใจผกผันเอกสารความถี่: ในข้อโต้แย้งทฤษฎี IDF มันให้ภาพรวมที่กว้างของกรอบทั้งหมดและพยายามที่จะเริ่มต้นวิธีการ TF-IDF กับน้ำหนักที่เกี่ยวข้องของคำค้นหา


4
การหาเหตุผลบางอย่างของ TF-IDF สามารถพบได้ใน "การศึกษาอย่างเป็นทางการของการดึงข้อมูลฮิวริสติก", 2004 โดย Fang, Hui et al ( pdf )
Alexey Grigorev

3
ฉันคิดว่านี่เป็นข้อมูลอ้างอิงที่ดีกว่าสำหรับการพิสูจน์ TF-IDF: Robertson, S. (2004) "การทำความเข้าใจความถี่เอกสารผกผัน: ในข้อโต้แย้งเชิงทฤษฎีสำหรับ IDF" วารสารเอกสาร 60 (5): 503–520
มี QUIT - Anony-Mousse

ขอบคุณสำหรับความคิดเห็นของคุณสุภาพบุรุษ (และขอขอบคุณเป็นพิเศษ Alexey สำหรับการแก้ไขที่\logฉันลืมพวกเขาตลอดเวลา); +1 ทั้งคู่ ฉันเคยเห็นกระดาษโรเบิร์ตสันส์และใคร่ครวญเพิ่มเติมแล้ว มันเป็นการอ่านที่ดีจริงๆฉันจะเพิ่มเข้าไปในเนื้อหาหลัก
usεr11852

@ Anony-Mousse (pdf)
Walrus the Cat

ฉันต้องการที่จะรู้ว่าทำไม "จำนวนสูงสุดของการเกิดขึ้นสำหรับการใด ๆ สตริง Q ในเอกสาร D" number of occurrences for all strings in document Dถูกนำมาใช้แทน เหตุใดเราจึงต้องการให้การนับคำที่พบบ่อยที่สุดแทนการนับจำนวนคำทั้งหมด
Xeoncross
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.