กระเป๋าคำเทียบกับเวกเตอร์สเปซโมเดล?


12

อะไรคือความแตกต่างระหว่างโมเดลการแทนค่าข้อความเหล่านี้: กระเป๋าคำและโมเดลเวกเตอร์สเปซ?


กระเป๋าคำเป็นชุดที่แสดงถึงคำที่ไม่ซ้ำกันในฐานะนับ ศัพท์เวกเตอร์สเปซเป็นเวกเตอร์บูลีนเบาบางที่บันทึกตำแหน่งคำ ฉันคิด.
user122160

คำตอบ:


16

Bag-of-wordและmodel space modelอ้างถึงแง่มุมต่าง ๆ ของการอธิบายลักษณะของเนื้อความของข้อความเช่นเอกสาร พวกเขาอธิบายได้ดีในตำราเรียน "การพูดและการประมวลผลภาษา" โดย Jurafsky และ Martin, 2009, ในส่วน 23.1 ในการดึงข้อมูล การอ้างอิงสั้น ๆ คือ "รู้เบื้องต้นเกี่ยวกับการดึงข้อมูล" โดย Manning, Raghavan และSchütze, 2008, ในหัวข้อ "The space space vector สำหรับการให้คะแนน"

Bag-of-words หมายถึงข้อมูลประเภทใดที่คุณสามารถดึงออกมาจากเอกสาร (กล่าวคือคำ unigram) โมเดลพื้นที่เวกเตอร์หมายถึงโครงสร้างข้อมูลสำหรับเอกสารแต่ละฉบับ (กล่าวคือคุณลักษณะของเวกเตอร์ของคำศัพท์คู่น้ำหนัก & คำศัพท์) ทั้งสองด้านช่วยเติมเต็มซึ่งกันและกัน

โดยเฉพาะอย่างยิ่ง:

Bag-of-words : สำหรับเอกสารที่กำหนดให้คุณแยกเฉพาะคำ unigram (คำศัพท์ aka) เพื่อสร้างรายการคำที่ไม่เรียงลำดับ ไม่มีแท็ก POS ไม่มีไวยากรณ์ไม่มีความหมายไม่มีตำแหน่งไม่มีกราฟขนาดใหญ่ไม่มีตรีโกณมิติ มีเพียงคำ unigram เท่านั้นที่ทำเพื่อกลุ่มคำที่จะใช้แทนเอกสาร ดังนั้น: กระเป๋าของคำ

โมเดลพื้นที่ว่างของเวกเตอร์ : ด้วยคำที่คุณแยกออกมาจากเอกสารคุณสร้างเวกเตอร์ฟีเจอร์สำหรับเอกสารโดยที่แต่ละคุณลักษณะคือคำ (คำ) และค่าของคุณสมบัติคือน้ำหนักของคำ คำว่าน้ำหนักอาจเป็น:

  • ค่าไบนารี (ที่มี 1 ระบุว่าคำนี้เกิดขึ้นในเอกสารและ 0 บ่งชี้ว่ามันไม่ได้เป็น)
  • ค่าความถี่ของคำศัพท์ (ระบุจำนวนคำที่เกิดขึ้นในเอกสาร) หรือ
  • ค่า TF-IDF (เช่นหมายเลขทศนิยมเล็ก ๆ เช่น 1.23)

เอกสารทั้งหมดจึงเป็นเวกเตอร์คุณลักษณะและแต่ละคุณลักษณะเวกเตอร์สอดคล้องกับจุดในปริภูมิเวกเตอร์ แบบจำลองสำหรับปริภูมิเวกเตอร์นี้มีแกนสำหรับทุกเทอมในคำศัพท์และเวกเตอร์สเปซคือV -dimensional โดยที่Vคือขนาดของคำศัพท์ เวกเตอร์ควรมีแนวคิดเป็นV -dimensional พร้อมคุณลักษณะสำหรับคำศัพท์ทุกคำ อย่างไรก็ตามเนื่องจากคำศัพท์อาจมีขนาดใหญ่ (ตามลำดับของV = 100,000s ของข้อกำหนด) เวกเตอร์คุณลักษณะของเอกสารจึงมักจะมีเฉพาะคำศัพท์ที่เกิดขึ้นในเอกสารนั้นและตัดคำที่ไม่ได้ใช้ เวกเตอร์คุณลักษณะดังกล่าวถือว่าเบาบาง

ตัวอย่างการแสดงเวกเตอร์ของเอกสารจึงอาจมีลักษณะเช่นนี้:

DOCUMENT_ID_42 LABEL_POLITICS a 55 ability 1 about 5 absent 2 abuse 1 access 1
accompanied 1 accompanying 2 according 2 account 1 accounted 1 accurate 1
acknowledge 4 activities 1 actual 1 actually 2 administering 1 ...

ตัวอย่างที่เวกเตอร์นี้มีรหัสเอกสาร (เช่น 42) ป้ายกำกับความจริงภาคพื้นดิน (เช่นการเมือง) และรายการคุณลักษณะและค่าคุณลักษณะที่ประกอบด้วยคู่ความถี่คำศัพท์และคำศัพท์ ที่นี่จะเห็นได้ว่าคำว่า "ขาด" เกิดขึ้น 2 ครั้งในเอกสารนี้


1

มันคือการใช้กระเป๋าของคำที่คุณกำหนดความถี่ของคำให้กับองค์ประกอบเมทริกซ์เอกสารระยะและในองค์ประกอบเวกเตอร์รูปแบบเอกสารระยะเวกเตอร์พื้นที่เวกเตอร์ค่อนข้างทั่วไปตราบใดที่การดำเนินงาน (ผลิตภัณฑ์ dot) ในพื้นที่เวกเตอร์ทำให้รู้สึก ตัวอย่าง)?


ใช่ฉันยังคิดว่า VSM เป็นรุ่นปรับปรุงคำศัพท์
samsamara
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.