ข้อดีและข้อเสียของการใช้ข้อมูลร่วมกันแบบจุดในเมทริกซ์การคิดคำก่อน SVD คืออะไร?


11

วิธีหนึ่งในการสร้างคำ embeddings มีดังนี้ ( กระจก ):

  1. รับ corpora เช่น "ฉันสนุกกับการบินฉันชอบ NLP ฉันชอบการเรียนรู้ลึก"
  2. สร้างเมทริกซ์การทับซ้อนของคำจากมัน:

ป้อนคำอธิบายรูปภาพที่นี่

  1. ดำเนินการ SVD บนXและเก็บคอลัมน์kแรกของ U

ป้อนคำอธิบายรูปภาพที่นี่

U1:|V|,1:k

ระหว่างขั้นตอนที่ 2 และ 3 ข้อมูลบางอย่างจะถูกนำมาใช้ร่วมกันในบางจุด(เช่นA. Herbelot และ EM Vecchi 2015. การสร้างโลกที่ใช้ร่วมกัน: การทำแผนที่การกระจายไปยังพื้นที่เชิงความหมายแบบจำลองเชิงทฤษฎีในการประชุม . ลิสบอน, โปรตุเกส .)

ข้อดีและข้อเสียของการใช้ข้อมูลร่วมกันแบบจุดในเมทริกซ์การคิดคำก่อน SVD คืออะไร?

คำตอบ:


11

ตามแดน Jurafsky และเจมส์เอชมาร์ตินหนังสือ:

อย่างไรก็ตามปรากฎว่าความถี่ง่าย ๆ ไม่ใช่ตัวชี้วัดความสัมพันธ์ระหว่างคำที่ดีที่สุดปัญหาหนึ่งก็คือความถี่ดิบนั้นเบ้มากและไม่เลือกปฏิบัติมากหากเราต้องการทราบว่าบริบทใดที่แอปริคอทและสับปะรดแบ่งปันกัน แต่ไม่ใช่ด้วยดิจิตอลและข้อมูลเราจะไม่ได้รับการเลือกปฏิบัติที่ดีจากคำเช่นมันหรือพวกเขาซึ่งเกิดขึ้นบ่อยครั้งกับคำทุกประเภทและไม่ได้ให้ข้อมูลเกี่ยวกับคำใดคำหนึ่งโดยเฉพาะ "

บางครั้งเราแทนที่ความถี่ดิบนี้ด้วยข้อมูลร่วมกันที่เป็นบวก

PPMI(w,c)=max(log2P(w,c)P(w)P(c),0)

PMI ด้วยตนเองแสดงให้เห็นว่าเป็นไปได้มากน้อยเพียงใดที่จะสังเกตคำศัพท์ด้วยบริบทบริบท C เปรียบเทียบกับการสังเกตพวกมันด้วยตนเอง ใน PPMI เราเก็บค่า PMI ที่เป็นบวกเท่านั้น ลองคิดดูว่าเมื่อ PMI เป็น + หรือ - และทำไมเราเก็บค่าลบไว้เท่านั้น:

PMI เชิงบวกหมายถึงอะไร

  • P(w,c)(P(w)P(c))>1

  • P(w,c)>(P(w)P(c))

  • มันเกิดขึ้นเมื่อและเกิดขึ้นพร้อมกันมากกว่าทีละอย่างเช่นเตะและบอล เราต้องการเก็บสิ่งเหล่านี้!wc

PMI เชิงลบหมายถึงอะไร

  • P(w,c)(P(w)P(c))<1

  • P(w,c)<(P(w)P(c))

  • มันหมายถึงทั้งและหรือหนึ่งในนั้นมีแนวโน้มที่จะเกิดขึ้นเป็นรายบุคคล! มันอาจบ่งบอกถึงสถิติที่ไม่น่าเชื่อถือเนื่องจากข้อมูล จำกัด ('the' เกิดขึ้นกับคำส่วนใหญ่เช่นกัน)wc

PMI หรือ PPMI โดยเฉพาะอย่างยิ่งช่วยให้เราสามารถจับสถานการณ์ดังกล่าวด้วยการเกิดร่วมข้อมูล

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.