ทำความเข้าใจเกี่ยวกับการใช้ลอการิทึมในลอการิทึม TF-IDF

ฉันกำลังอ่าน:

https://en.wikipedia.org/wiki/Tf%E2%80%93idf#Definition

แต่ฉันไม่สามารถเข้าใจได้อย่างชัดเจนว่าทำไมสูตรจึงสร้างในแบบที่มันเป็น

ฉันเข้าใจอะไร:

iDF ควรที่จะวัดระดับความบ่อยครั้งที่คำ S ปรากฏในเอกสารแต่ละฉบับลดลงตามมูลค่าเมื่อคำนั้นปรากฏบ่อยขึ้น

จากมุมมองนั้น

ผม D F (S) = \frac{# ของเอกสาร}{# ของเอกสารที่มี S}

$iDF(S) = \frac{\# \text{ of Documents}}{\# \text{ of Documents containing S}}$

นอกจากนี้ความถี่เทอมสามารถอธิบายได้อย่างถูกต้องว่า

เสื้อ ฉ (S, D) = \frac{# ของการเกิดขึ้นของ S ในเอกสาร D}{# จำนวนครั้งสูงสุดของสตริง Q ใด ๆ ในเอกสาร D}

$tf(S,D) = \frac{\# \ \text{of Occurrences of S in document D}}{\# \ \text{maximum number of occurrences for any string Q in document D}}$

ดังนั้นการวัด

ผม D F (S) \times เสื้อ ฉ (S, D)

$iDF(S) \times tf(S,D)$

เป็นวิธีการตามสัดส่วนกับความถี่ที่คำปรากฏในเอกสารที่กำหนดและความพิเศษของคำนั้นอยู่เหนือชุดเอกสาร

สิ่งที่ฉันไม่เข้าใจ

แต่สูตรที่ให้อธิบายมันเป็น

(เข้าสู่ระบบ (ผม D F (S))) (\frac{1}{2} + เข้าสู่ระบบ (\frac{1}{2} เสื้อ ฉ (S, D)))

$\left( \log(iDF(S)) \right) \left( \frac{1}{2} + \log(\frac{1}{2} tf(S,D)) \right)$

ฉันต้องการเข้าใจความต้องการลอการิทึมที่อธิบายไว้ในคำจำกัดความ ทำไมพวกเขาถึงอยู่ที่นั่น? พวกเขาเน้นเรื่องอะไร

— frogeyedpeas
แหล่งที่มา

มุมมองที่เน้นคือความเกี่ยวข้องของคำหรือเอกสารไม่ได้เพิ่มขึ้นตามสัดส่วนของความถี่ (หรือเอกสาร) ตามสัดส่วน การใช้ฟังก์ชั่นย่อยเชิงเส้นจึงช่วยทิ้งผลกระทบนี้ เพื่อขยายอิทธิพลของค่าที่มากหรือเล็กมาก (เช่นคำที่หายากมาก) จะถูกตัดจำหน่ายด้วย ในที่สุดเมื่อคนส่วนใหญ่รับรู้ฟังก์ชั่นการให้คะแนนที่ค่อนข้างเติมแต่งโดยใช้ลอการิทึมจะทำให้ความน่าจะเป็นของเงื่อนไขอิสระที่แตกต่างจากให้ดูเหมือน(B)) $P(A, B) = P(A) \, P(B)$ $\log(P(A,B)) = \log(P(A)) + \log(P(B))$

ในฐานะที่เป็นบทความ Wikipedia คุณเชื่อมโยงบันทึกความชอบธรรมของ TF-IDF ยังไม่เป็นที่ยอมรับ; มันเป็น / เป็นฮิวริสติกที่เราต้องการสร้างความเข้มงวดไม่ใช่แนวคิดที่เข้มงวดที่เราต้องการถ่ายโอนไปยังโลกแห่งความจริง ดังกล่าวโดย @ anony-มูสเป็นอ่านที่ดีมากในเรื่องนี้ก็คือโรเบิร์ตเข้าใจผกผันเอกสารความถี่: ในข้อโต้แย้งทฤษฎี IDF มันให้ภาพรวมที่กว้างของกรอบทั้งหมดและพยายามที่จะเริ่มต้นวิธีการ TF-IDF กับน้ำหนักที่เกี่ยวข้องของคำค้นหา

— usεr11852
แหล่งที่มา

การหาเหตุผลบางอย่างของ TF-IDF สามารถพบได้ใน "การศึกษาอย่างเป็นทางการของการดึงข้อมูลฮิวริสติก", 2004 โดย Fang, Hui et al ( pdf )

— Alexey Grigorev

ฉันคิดว่านี่เป็นข้อมูลอ้างอิงที่ดีกว่าสำหรับการพิสูจน์ TF-IDF: Robertson, S. (2004) "การทำความเข้าใจความถี่เอกสารผกผัน: ในข้อโต้แย้งเชิงทฤษฎีสำหรับ IDF" วารสารเอกสาร 60 (5): 503–520

— มี QUIT - Anony-Mousse

ขอบคุณสำหรับความคิดเห็นของคุณสุภาพบุรุษ (และขอขอบคุณเป็นพิเศษ Alexey สำหรับการแก้ไขที่\logฉันลืมพวกเขาตลอดเวลา); +1 ทั้งคู่ ฉันเคยเห็นกระดาษโรเบิร์ตสันส์และใคร่ครวญเพิ่มเติมแล้ว มันเป็นการอ่านที่ดีจริงๆฉันจะเพิ่มเข้าไปในเนื้อหาหลัก

— usεr11852

@ Anony-Mousse (pdf)

— Walrus the Cat

ฉันต้องการที่จะรู้ว่าทำไม "จำนวนสูงสุดของการเกิดขึ้นสำหรับการใด ๆ สตริง Q ในเอกสาร D" number of occurrences for all strings in document Dถูกนำมาใช้แทน เหตุใดเราจึงต้องการให้การนับคำที่พบบ่อยที่สุดแทนการนับจำนวนคำทั้งหมด

— Xeoncross