อะไรคือความแตกต่างระหว่างโมเดลการแทนค่าข้อความเหล่านี้: กระเป๋าคำและโมเดลเวกเตอร์สเปซ?
อะไรคือความแตกต่างระหว่างโมเดลการแทนค่าข้อความเหล่านี้: กระเป๋าคำและโมเดลเวกเตอร์สเปซ?
คำตอบ:
Bag-of-wordและmodel space modelอ้างถึงแง่มุมต่าง ๆ ของการอธิบายลักษณะของเนื้อความของข้อความเช่นเอกสาร พวกเขาอธิบายได้ดีในตำราเรียน "การพูดและการประมวลผลภาษา" โดย Jurafsky และ Martin, 2009, ในส่วน 23.1 ในการดึงข้อมูล การอ้างอิงสั้น ๆ คือ "รู้เบื้องต้นเกี่ยวกับการดึงข้อมูล" โดย Manning, Raghavan และSchütze, 2008, ในหัวข้อ "The space space vector สำหรับการให้คะแนน"
Bag-of-words หมายถึงข้อมูลประเภทใดที่คุณสามารถดึงออกมาจากเอกสาร (กล่าวคือคำ unigram) โมเดลพื้นที่เวกเตอร์หมายถึงโครงสร้างข้อมูลสำหรับเอกสารแต่ละฉบับ (กล่าวคือคุณลักษณะของเวกเตอร์ของคำศัพท์คู่น้ำหนัก & คำศัพท์) ทั้งสองด้านช่วยเติมเต็มซึ่งกันและกัน
โดยเฉพาะอย่างยิ่ง:
Bag-of-words : สำหรับเอกสารที่กำหนดให้คุณแยกเฉพาะคำ unigram (คำศัพท์ aka) เพื่อสร้างรายการคำที่ไม่เรียงลำดับ ไม่มีแท็ก POS ไม่มีไวยากรณ์ไม่มีความหมายไม่มีตำแหน่งไม่มีกราฟขนาดใหญ่ไม่มีตรีโกณมิติ มีเพียงคำ unigram เท่านั้นที่ทำเพื่อกลุ่มคำที่จะใช้แทนเอกสาร ดังนั้น: กระเป๋าของคำ
โมเดลพื้นที่ว่างของเวกเตอร์ : ด้วยคำที่คุณแยกออกมาจากเอกสารคุณสร้างเวกเตอร์ฟีเจอร์สำหรับเอกสารโดยที่แต่ละคุณลักษณะคือคำ (คำ) และค่าของคุณสมบัติคือน้ำหนักของคำ คำว่าน้ำหนักอาจเป็น:
เอกสารทั้งหมดจึงเป็นเวกเตอร์คุณลักษณะและแต่ละคุณลักษณะเวกเตอร์สอดคล้องกับจุดในปริภูมิเวกเตอร์ แบบจำลองสำหรับปริภูมิเวกเตอร์นี้มีแกนสำหรับทุกเทอมในคำศัพท์และเวกเตอร์สเปซคือV -dimensional โดยที่Vคือขนาดของคำศัพท์ เวกเตอร์ควรมีแนวคิดเป็นV -dimensional พร้อมคุณลักษณะสำหรับคำศัพท์ทุกคำ อย่างไรก็ตามเนื่องจากคำศัพท์อาจมีขนาดใหญ่ (ตามลำดับของV = 100,000s ของข้อกำหนด) เวกเตอร์คุณลักษณะของเอกสารจึงมักจะมีเฉพาะคำศัพท์ที่เกิดขึ้นในเอกสารนั้นและตัดคำที่ไม่ได้ใช้ เวกเตอร์คุณลักษณะดังกล่าวถือว่าเบาบาง
ตัวอย่างการแสดงเวกเตอร์ของเอกสารจึงอาจมีลักษณะเช่นนี้:
DOCUMENT_ID_42 LABEL_POLITICS a 55 ability 1 about 5 absent 2 abuse 1 access 1
accompanied 1 accompanying 2 according 2 account 1 accounted 1 accurate 1
acknowledge 4 activities 1 actual 1 actually 2 administering 1 ...
ตัวอย่างที่เวกเตอร์นี้มีรหัสเอกสาร (เช่น 42) ป้ายกำกับความจริงภาคพื้นดิน (เช่นการเมือง) และรายการคุณลักษณะและค่าคุณลักษณะที่ประกอบด้วยคู่ความถี่คำศัพท์และคำศัพท์ ที่นี่จะเห็นได้ว่าคำว่า "ขาด" เกิดขึ้น 2 ครั้งในเอกสารนี้
มันคือการใช้กระเป๋าของคำที่คุณกำหนดความถี่ของคำให้กับองค์ประกอบเมทริกซ์เอกสารระยะและในองค์ประกอบเวกเตอร์รูปแบบเอกสารระยะเวกเตอร์พื้นที่เวกเตอร์ค่อนข้างทั่วไปตราบใดที่การดำเนินงาน (ผลิตภัณฑ์ dot) ในพื้นที่เวกเตอร์ทำให้รู้สึก ตัวอย่าง)?