เมื่อเร็ว ๆ นี้มีบทความวรรณกรรมจำนวนมากที่พูดถึงวิธีการดึงข้อมูลจากข้อความที่เขียนได้เติบโตขึ้น ดังนั้นฉันจะอธิบายสี่เหตุการณ์สำคัญ / รุ่นยอดนิยมและข้อดี / ข้อเสียของพวกเขาและดังนั้นจึงเน้น (บางส่วน) ความแตกต่างหลัก (หรืออย่างน้อยสิ่งที่ฉันคิดว่าเป็นความแตกต่างหลัก / ที่สำคัญที่สุด)
คุณพูดถึงวิธีที่ "ง่ายที่สุด" ซึ่งจะจัดกลุ่มเอกสารโดยการจับคู่เอกสารเหล่านั้นกับข้อความค้นหาที่กำหนดไว้ล่วงหน้า (เช่นเดียวกับใน PMI) วิธีการจับคู่ศัพท์เหล่านี้อาจไม่ถูกต้องเนื่องจาก polysemy (ความหมายหลายอย่าง) และคำพ้องความหมาย (คำหลายคำที่มีความหมายคล้ายกัน) ของคำเดียว
ในฐานะวิธีการรักษาดัชนีแฝงความหมายแฝง ( LSI ) พยายามที่จะเอาชนะสิ่งนี้โดยการจับคู่คำและเอกสารในพื้นที่ความหมายแฝงผ่านการสลายตัวของค่าเอกพจน์ ผลลัพธ์ของ LSI เป็นตัวบ่งชี้ความหมายที่แข็งแกร่งกว่าคำศัพท์เฉพาะบุคคล อย่างไรก็ตามข้อเสียเปรียบอย่างหนึ่งของ LSI ก็คือมันขาดรากฐานที่มั่นคง
นี่เป็นส่วนหนึ่งที่ได้รับการแก้ไขโดยการประดิษฐ์ probabilistic LSI ( pLSI ) ในแบบจำลอง pLSI แต่ละคำในเอกสารถูกดึงมาจากตัวแบบผสมที่ระบุผ่านตัวแปรสุ่มแบบหลายช่องทาง นี่เป็นขั้นตอนสำคัญในการสร้างแบบจำลองข้อความที่น่าจะเป็น แต่ก็ไม่สมบูรณ์ในแง่ที่ว่ามันไม่มีโครงสร้างความน่าจะเป็นในระดับของเอกสาร
Latent Dirichlet Allocation ( LDA ) ช่วยลดสิ่งนี้และเป็นรูปแบบความน่าจะเป็นอย่างแรกสำหรับการจัดกลุ่มข้อความ Blei และคณะ (2003) แสดงให้เห็นว่า pLSI เป็นรูปแบบ LDA สูงสุดหลังการประเมินภายใต้ Dirichlet ที่เหมือนกันมาก่อน
โปรดทราบว่าแบบจำลองดังกล่าวข้างต้น (LSI, pLSI, LDA) มีเหมือนกันว่าพวกเขาจะขึ้นอยู่กับสมมติฐาน "ถุง - คำ -" - นั่นคือภายในเอกสารคำแลกเปลี่ยนได้คือลำดับของคำในเอกสารสามารถ ถูกทอดทิ้ง ข้อสันนิษฐานของความสามารถในการแลกเปลี่ยนนี้นำเสนอข้อพิสูจน์เพิ่มเติมสำหรับ LDA ในแนวทางอื่น ๆ : สมมติว่าไม่เพียง แต่คำภายในเอกสารเท่านั้นที่สามารถแลกเปลี่ยนได้ แต่ยังรวมถึงเอกสารเช่นคำสั่งของเอกสารภายในคลังข้อมูลสามารถถูกละเลยทฤษฎีบทของ De Finettiระบุว่าชุดตัวแปรสุ่มใด ๆ ที่แลกเปลี่ยนได้มีการแทนค่าเป็นการกระจายแบบผสม ดังนั้นหากการแลกเปลี่ยนเอกสารและคำต่าง ๆ ในเอกสารเป็นสิ่งจำเป็น นี่คือสิ่งที่ LDA ประสบความสำเร็จโดยทั่วไป แต่ PMI หรือ LSI ทำไม่ได้ (และแม้แต่ pLSI ไม่สวยงามเท่า LDA)