ฉันจะลอง 'พับ' นี่หมายถึงการรับเอกสารใหม่หนึ่งฉบับเพิ่มไปยังคลังข้อมูลจากนั้นเรียกใช้การสุ่มตัวอย่างของกิ๊บส์กับคำในเอกสารใหม่นั้นโดยให้การกำหนดหัวข้อของเอกสารเก่าเหมือนกัน โดยปกติแล้วจะมาบรรจบกันอย่างรวดเร็ว (อาจเป็น 5-10-20 ครั้ง) และคุณไม่จำเป็นต้องสุ่มตัวอย่างคลังข้อมูลเก่าของคุณดังนั้นจึงสามารถรันได้อย่างรวดเร็ว ในตอนท้ายคุณจะได้รับมอบหมายหัวข้อสำหรับทุกคำในเอกสารใหม่ สิ่งนี้จะให้การกระจายของหัวข้อในเอกสารนั้น
ในตัวอย่าง Gibbs ของคุณคุณอาจมีบางอย่างที่คล้ายกับรหัสต่อไปนี้:
// This will initialize the matrices of counts, N_tw (topic-word matrix) and N_dt (document-topic matrix)
for doc = 1 to N_Documents
for token = 1 to N_Tokens_In_Document
Assign current token to a random topic, updating the count matrices
end
end
// This will do the Gibbs sampling
for doc = 1 to N_Documents
for token = 1 to N_Tokens_In_Document
Compute probability of current token being assigned to each topic
Sample a topic from this distribution
Assign the token to the new topic, updating the count matrices
end
end
การพับเข้านั้นเหมือนกันยกเว้นคุณเริ่มต้นด้วยเมทริกซ์ที่มีอยู่เพิ่มโทเค็นของเอกสารใหม่ให้กับพวกเขาและทำการสุ่มตัวอย่างสำหรับโทเค็นใหม่เท่านั้น เช่น:
Start with the N_tw and N_dt matrices from the previous step
// This will update the count matrices for folding-in
for token = 1 to N_Tokens_In_New_Document
Assign current token to a random topic, updating the count matrices
end
// This will do the folding-in by Gibbs sampling
for token = 1 to N_Tokens_In_New_Document
Compute probability of current token being assigned to each topic
Sample a topic from this distribution
Assign the token to the new topic, updating the count matrices
end
หากคุณใช้ LDA มาตรฐานเป็นไปได้ยากที่เอกสารทั้งหมดจะถูกสร้างโดยหนึ่งหัวข้อ ดังนั้นฉันไม่รู้ว่ามันมีประโยชน์แค่ไหนในการคำนวณความน่าจะเป็นของเอกสารภายใต้หัวข้อเดียว แต่ถ้าคุณยังต้องการที่จะทำมันง่าย จากทั้งสองเมทริกซ์ที่คุณได้รับคุณสามารถคำนวณน่าจะเป็นของคำว่าในหัวข้อฉันรับเอกสารใหม่ของคุณ สมมติว่า 'คำ TH เป็นw_jคำเหล่านี้มีความเป็นอิสระตามหัวข้อดังนั้นความน่าจะเป็นเป็นเพียง (โปรดทราบว่าคุณอาจต้องคำนวณในพื้นที่บันทึก)พีผมWWผมJWJ
ΠJพีผมWJ