รูปแบบหัวข้อและวิธีการเกิดร่วมคำ


26

โมเดลหัวข้อยอดนิยมเช่น LDA มักจัดกลุ่มคำที่มีแนวโน้มที่จะเกิดร่วมกันในหัวข้อเดียวกัน (คลัสเตอร์)

อะไรคือความแตกต่างหลักระหว่างโมเดลหัวข้อดังกล่าวและวิธีการจัดกลุ่มแบบง่าย ๆ ที่เกิดขึ้นร่วมกันเช่น PMI (PMI ย่อมาจาก Pointwise Information Mutual และใช้เพื่อระบุคำที่เกิดขึ้นร่วมกับคำที่กำหนด)

คำตอบ:


32

เมื่อเร็ว ๆ นี้มีบทความวรรณกรรมจำนวนมากที่พูดถึงวิธีการดึงข้อมูลจากข้อความที่เขียนได้เติบโตขึ้น ดังนั้นฉันจะอธิบายสี่เหตุการณ์สำคัญ / รุ่นยอดนิยมและข้อดี / ข้อเสียของพวกเขาและดังนั้นจึงเน้น (บางส่วน) ความแตกต่างหลัก (หรืออย่างน้อยสิ่งที่ฉันคิดว่าเป็นความแตกต่างหลัก / ที่สำคัญที่สุด)

คุณพูดถึงวิธีที่ "ง่ายที่สุด" ซึ่งจะจัดกลุ่มเอกสารโดยการจับคู่เอกสารเหล่านั้นกับข้อความค้นหาที่กำหนดไว้ล่วงหน้า (เช่นเดียวกับใน PMI) วิธีการจับคู่ศัพท์เหล่านี้อาจไม่ถูกต้องเนื่องจาก polysemy (ความหมายหลายอย่าง) และคำพ้องความหมาย (คำหลายคำที่มีความหมายคล้ายกัน) ของคำเดียว

ในฐานะวิธีการรักษาดัชนีแฝงความหมายแฝง ( LSI ) พยายามที่จะเอาชนะสิ่งนี้โดยการจับคู่คำและเอกสารในพื้นที่ความหมายแฝงผ่านการสลายตัวของค่าเอกพจน์ ผลลัพธ์ของ LSI เป็นตัวบ่งชี้ความหมายที่แข็งแกร่งกว่าคำศัพท์เฉพาะบุคคล อย่างไรก็ตามข้อเสียเปรียบอย่างหนึ่งของ LSI ก็คือมันขาดรากฐานที่มั่นคง

นี่เป็นส่วนหนึ่งที่ได้รับการแก้ไขโดยการประดิษฐ์ probabilistic LSI ( pLSI ) ในแบบจำลอง pLSI แต่ละคำในเอกสารถูกดึงมาจากตัวแบบผสมที่ระบุผ่านตัวแปรสุ่มแบบหลายช่องทาง นี่เป็นขั้นตอนสำคัญในการสร้างแบบจำลองข้อความที่น่าจะเป็น แต่ก็ไม่สมบูรณ์ในแง่ที่ว่ามันไม่มีโครงสร้างความน่าจะเป็นในระดับของเอกสาร

Latent Dirichlet Allocation ( LDA ) ช่วยลดสิ่งนี้และเป็นรูปแบบความน่าจะเป็นอย่างแรกสำหรับการจัดกลุ่มข้อความ Blei และคณะ (2003) แสดงให้เห็นว่า pLSI เป็นรูปแบบ LDA สูงสุดหลังการประเมินภายใต้ Dirichlet ที่เหมือนกันมาก่อน

โปรดทราบว่าแบบจำลองดังกล่าวข้างต้น (LSI, pLSI, LDA) มีเหมือนกันว่าพวกเขาจะขึ้นอยู่กับสมมติฐาน "ถุง - คำ -" - นั่นคือภายในเอกสารคำแลกเปลี่ยนได้คือลำดับของคำในเอกสารสามารถ ถูกทอดทิ้ง ข้อสันนิษฐานของความสามารถในการแลกเปลี่ยนนี้นำเสนอข้อพิสูจน์เพิ่มเติมสำหรับ LDA ในแนวทางอื่น ๆ : สมมติว่าไม่เพียง แต่คำภายในเอกสารเท่านั้นที่สามารถแลกเปลี่ยนได้ แต่ยังรวมถึงเอกสารเช่นคำสั่งของเอกสารภายในคลังข้อมูลสามารถถูกละเลยทฤษฎีบทของ De Finettiระบุว่าชุดตัวแปรสุ่มใด ๆ ที่แลกเปลี่ยนได้มีการแทนค่าเป็นการกระจายแบบผสม ดังนั้นหากการแลกเปลี่ยนเอกสารและคำต่าง ๆ ในเอกสารเป็นสิ่งจำเป็น นี่คือสิ่งที่ LDA ประสบความสำเร็จโดยทั่วไป แต่ PMI หรือ LSI ทำไม่ได้ (และแม้แต่ pLSI ไม่สวยงามเท่า LDA)


2
1/2 ขอบคุณ! ชัดเจนมาก ให้ฉันตรวจสอบว่าฉันได้รับสิทธินี้หรือไม่: ใน LSI เอกสารจะถูกสร้างขึ้นด้วยการผสมผสานของคำ (ไม่มีความคิดของหัวข้อ) และคำและเอกสารถูกแมปกับพื้นที่ความหมายเชิงมิติที่ต่ำกว่าโดยใช้ SVD เนื่องจากคำที่มีความหมายทางความหมายคล้ายกันถูกแมปใกล้เคียงจึงสามารถจัดการกับคำพ้องความหมาย แต่มีปัญหากับ polisemy pLSI แก้ปัญหา polisemy โดยแนะนำแนวคิดของหัวข้อ ใน pLSI คำถูกดึงมาจากการกระจายคำหลายคำ (หัวข้อ) คำเดียวกันอาจเป็นของหลายหัวข้อและเอกสารมีหลายหัวข้อแม้ว่าจะไม่ได้เป็นแบบจำลองอย่างชัดเจน
kanzen_master

2
ฉันคิดว่าโดยทั่วไปคุณทำให้ถูกต้อง การแก้ไขเล็ก ๆ บางอย่าง: LSI ถือว่าใช้ได้ทั้ง polysemy และ synomy pLSI นั้นเป็นสูตรเพื่อให้บรรลุสิ่งที่ LSI มุ่งมั่นด้วยเครื่องมือของการวิเคราะห์ระดับชั้น / แบบผสมและความน่าจะเป็นที่ซ่อนเร้นมากกว่าแค่พีชคณิตเชิงเส้น LDA เมื่อเปรียบเทียบกับ pLSI เป็นรูปแบบการกำเนิดเต็มรูปแบบโดยการระบุการกระจายหัวข้อต่อเอกสาร
Momo

1
เกี่ยวกับคะแนนของคุณเกี่ยวกับการ overfitting และการทำนายฉันไม่ได้มีความรู้เพียงพอสำหรับคำสั่งที่มีคุณสมบัติเหมาะสม แต่สำหรับมูลค่าทั้งหมดฉันไม่เห็นว่าทำไม LDA จึงควรมีแนวโน้มที่จะมีน้ำหนักเกินกว่า pLSI น้อยกว่า (เนื่องจาก LDA นั้นเพิ่งเพิ่มรุ่นก่อนหน้าของรุ่น pLSI) ทั้งสองไม่มีการแก้ไขที่สร้างขึ้นสำหรับ overfitting หรือไม่ชอบ "การคาดการณ์" ของเอกสารใหม่อาจจะง่ายกว่าหรือเป็นไปได้ด้วยตัวแบบจำลองที่สมบูรณ์แบบเช่น LDA ดูstats.stackexchange.com/questions/9315/แต่ฉันจะเห็น LDA เป็นแบบจำลองที่ไม่มีผู้อธิบาย
Momo

1
ขอบคุณอีกครั้ง! เพียง 2 คำถามสุดท้าย: (1) เกี่ยวกับ polysemy ใน pdf นี้ท้ายหน้า 3ฮอฟแมนกล่าวว่าหนึ่งในความแตกต่างของ PLSI เทียบกับ LSI คือ polysemy เนื่องจากคำเดียวกันสามารถเป็นของการแจกแจงคำที่แตกต่างกัน (หัวข้อ); นั่นคือเหตุผลที่ฉันคิดว่า LSI ไม่ทำงานกับ polysemy (2) เกี่ยวกับการ overfitting บล็อกนี้ระบุว่าการเพิ่มพารามิเตอร์เชิงเส้นแนะนำว่าแบบจำลองมีแนวโน้มที่จะ overfitting คุณคิดอย่างไร ?
kanzen_master

2
ไม่มีปัญหา. คุณรู้เรื่องเหล่านี้มามากแล้วดังนั้นฉันจึงเรียนรู้สิ่งต่าง ๆ เช่นกัน โฆษณา (1) ตามปกติมันขึ้นอยู่กับ: LSI สามารถจัดการ polysemy ได้เนื่องจากการรวมกันเชิงเส้นของคำเช่นเดียวกับใน PCA มันจะทำได้ดีกว่ากับคำพ้องความหมาย แต่ในระดับหนึ่งด้วย polysemy โดยทั่วไปคำ polysemous ที่คล้ายกันคือการเพิ่มองค์ประกอบของคำที่ใช้ความหมายที่คล้ายกัน อย่างไรก็ตามมันทำได้ดีกว่า pLSI น้อยมากเนื่องจากการเกิดขึ้นของคำแต่ละคำที่แสดงเป็นจุดเดียวในอวกาศ การแทนค่าคำจึงเป็นค่าเฉลี่ยของความหมายที่แตกต่างกันทั้งหมดของคลังคำ
Momo

5

LDA สามารถจับภาพคำศัพท์ที่เกิดขึ้นร่วมกันได้สูงกว่า (เนื่องจากข้อสันนิษฐานของแต่ละหัวข้อคือการแจกแจงพหุนามมากกว่าคำ) ซึ่งเป็นไปไม่ได้โดยการคำนวณ PMI ระหว่างคำศัพท์


4
ขอบคุณ! คำจำกัดความของ "ลำดับสูงของการเกิดร่วม" คืออะไร
kanzen_master

5

ฉันอาจจะสาย 3 ปี แต่ฉันต้องการติดตามคำถามของคุณในตัวอย่างของ "ลำดับสูงของการเกิดขึ้นร่วม"

โดยพื้นฐานแล้วหากคำว่า t1 co-เกิดขึ้นกับคำว่า t2 ที่เกิดขึ้นร่วมกับคำว่า t3 ดังนั้นคำว่า t1 จึงเป็นคำสั่งที่เกิดขึ้นครั้งที่ 2 ร่วมกับคำว่า t3 คุณสามารถไปที่ลำดับที่สูงขึ้นถ้าคุณต้องการ แต่ในตอนท้ายคุณสามารถควบคุมความคล้ายคลึงกันของสองคำ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.