ตามแดน Jurafsky และเจมส์เอชมาร์ตินหนังสือ:
อย่างไรก็ตามปรากฎว่าความถี่ง่าย ๆ ไม่ใช่ตัวชี้วัดความสัมพันธ์ระหว่างคำที่ดีที่สุดปัญหาหนึ่งก็คือความถี่ดิบนั้นเบ้มากและไม่เลือกปฏิบัติมากหากเราต้องการทราบว่าบริบทใดที่แอปริคอทและสับปะรดแบ่งปันกัน แต่ไม่ใช่ด้วยดิจิตอลและข้อมูลเราจะไม่ได้รับการเลือกปฏิบัติที่ดีจากคำเช่นมันหรือพวกเขาซึ่งเกิดขึ้นบ่อยครั้งกับคำทุกประเภทและไม่ได้ให้ข้อมูลเกี่ยวกับคำใดคำหนึ่งโดยเฉพาะ "
บางครั้งเราแทนที่ความถี่ดิบนี้ด้วยข้อมูลร่วมกันที่เป็นบวก
PPMI(w,c)=max(log2P(w,c)P(w)P(c),0)
PMI ด้วยตนเองแสดงให้เห็นว่าเป็นไปได้มากน้อยเพียงใดที่จะสังเกตคำศัพท์ด้วยบริบทบริบท C เปรียบเทียบกับการสังเกตพวกมันด้วยตนเอง ใน PPMI เราเก็บค่า PMI ที่เป็นบวกเท่านั้น ลองคิดดูว่าเมื่อ PMI เป็น + หรือ - และทำไมเราเก็บค่าลบไว้เท่านั้น:
PMI เชิงบวกหมายถึงอะไร
P(w,c)(P(w)P(c))>1
P(w,c)>(P(w)P(c))
มันเกิดขึ้นเมื่อและเกิดขึ้นพร้อมกันมากกว่าทีละอย่างเช่นเตะและบอล เราต้องการเก็บสิ่งเหล่านี้!wc
PMI เชิงลบหมายถึงอะไร
P(w,c)(P(w)P(c))<1
P(w,c)<(P(w)P(c))
มันหมายถึงทั้งและหรือหนึ่งในนั้นมีแนวโน้มที่จะเกิดขึ้นเป็นรายบุคคล! มันอาจบ่งบอกถึงสถิติที่ไม่น่าเชื่อถือเนื่องจากข้อมูล จำกัด ('the' เกิดขึ้นกับคำส่วนใหญ่เช่นกัน)wc
PMI หรือ PPMI โดยเฉพาะอย่างยิ่งช่วยให้เราสามารถจับสถานการณ์ดังกล่าวด้วยการเกิดร่วมข้อมูล