จะคำนวณความสับสนของโฮลด์ได้อย่างไรด้วย Latent Dirichlet Allocation


18

ฉันสับสนเกี่ยวกับวิธีการคำนวณความฉงนสนเท่ห์ของตัวอย่างที่เก็บไว้เมื่อทำการจัดสรร Latent Dirichlet (LDA) เอกสารในหัวข้อง่ายกว่าทำให้ฉันคิดว่าฉันขาดอะไรบางอย่างที่ชัดเจน ...

ความงุนงงถูกมองว่าเป็นตัวชี้วัดประสิทธิภาพที่ดีสำหรับ LDA แนวคิดคือให้คุณเก็บตัวอย่างของการพักการฝึกอบรม LDA ของคุณในส่วนที่เหลือของข้อมูลจากนั้นคำนวณความน่าฉงนของการถือออก

ความน่างงสามารถกำหนดโดยสูตร:

per(Dtest)=exp{d=1Mlogp(wd)d=1MNd}

(นำมาจากการดึงภาพในฐานข้อมูลภาพขนาดใหญ่, Horster และคณะ )

นี่ คือจำนวนของเอกสาร (ในตัวอย่างทดสอบสมมุติ) W dหมายถึงคำในเอกสารd , N วันที่จำนวนของคำในเอกสารdMwddNdd

มันไม่ชัดเจนสำหรับฉันที่จะประกาศอย่างสมเหตุสมผลเนื่องจากเราไม่มีหัวข้อผสมสำหรับเอกสารที่จัดขึ้น โดยหลักการแล้วเราจะรวมเข้ากับ Dirichlet ก่อนสำหรับการผสมหัวข้อที่เป็นไปได้ทั้งหมดและใช้หัวข้อมัลตินิเคชันที่เราเรียนรู้ การคำนวณอินทิกรัลนี้ดูเหมือนจะไม่ใช่เรื่องง่ายp(wd)

หรือเราอาจพยายามเรียนรู้หัวข้อที่เหมาะสมที่สุดสำหรับแต่ละเอกสารที่จัดไว้ (กำหนดหัวข้อที่เรียนรู้ของเรา) และใช้สิ่งนี้เพื่อคำนวณความงุนงง นี่น่าจะเป็นไปได้ แต่มันก็ไม่สำคัญเหมือนเอกสารเช่น Horter et al และ Blei et al ดูเหมือนว่าจะแนะนำและไม่ชัดเจนสำหรับฉันทันทีว่าผลลัพธ์จะเทียบเท่ากับกรณีอุดมคติข้างต้น

คำตอบ:


17

นี่คือสิ่งที่มักจะคัดสรร

บางคนกำลังทำสิ่งที่หน้าด้าน: ถือสัดส่วนของคำในแต่ละเอกสารและให้ใช้ความน่าจะเป็นคำทำนายของคำที่จัดขึ้นเหล่านี้ให้ได้รับการผสมของหัวข้อเอกสารเช่นเดียวกับการผสมคำหัวข้อ เห็นได้ชัดว่าไม่เหมาะอย่างยิ่งเนื่องจากไม่ได้ประเมินประสิทธิภาพของเอกสารที่ถูกระงับใด ๆ

ในการดำเนินการอย่างถูกต้องกับเอกสารที่ถูกระงับตามที่แนะนำคุณจะต้อง "รวมเข้ากับ Dirichlet ก่อนสำหรับการผสมหัวข้อที่เป็นไปได้ทั้งหมด" http://people.cs.umass.edu/~wallach/talks/evaluation.pdf จะแสดงความคิดเห็นเกี่ยวกับวิธีการแก้ไขปัญหาอินทิกรัลที่ไม่พึงประสงค์เล็กน้อยนี้ ฉันกำลังจะลองและใช้งานตัวเองในความเป็นจริงโชคดีมาก!


3
ขอบคุณที่ขุดคำถามนี้ขึ้นมา! Wallach et al ยังมีกระดาษในการประเมินรูปแบบหัวข้อ: วิธีการประเมินผลสำหรับรูปแบบหัวข้อ
drevicko

1
ไม่ต้องห่วง. ฉันพบว่ามีโค้ดสำหรับวิธีการทางซ้าย - ขวาของ Wallach ในกล่องเครื่องมือการสร้างแบบจำลองหัวข้อ MALLET หากคุณยินดีที่จะใช้การใช้งาน LDA ของพวกเขามันเป็นเรื่องง่ายที่จะชนะ จากหัวข้อที่เรียนรู้ที่อื่นจาก LDA ที่แตกต่างกันซึ่งเป็นสิ่งที่ฉันต้องการทำ ฉันลงเอยด้วยการใช้ตัวประมาณแบบ Chib จากบทความของพวกเขาโดยใช้รหัส matlab ที่พวกเขาให้เป็นแนวทางแม้ว่าจะต้องแก้ไขปัญหาสองข้อในการทำเช่นนั้นแจ้งให้เราทราบหากคุณต้องการรหัส
แมตต์

สวัสดี @Matt เป็นไปได้หรือไม่ที่จะส่งรหัส MATLAB ให้ฉันเพื่อการประเมินที่ซับซ้อนของ LDA? ขอบคุณ
เจ้าหญิงแห่งเปอร์เซีย

@ Princessofpersia ฉันคิดว่าผู้เขียนแก้ไขปัญหาที่ฉันพูดถึงด้วยรหัส matlab ดูที่นี่: homepages.inf.ed.ac.uk/imurray2/pub/09etm
แมตต์

0

เรารู้ว่าพารามิเตอร์ของ LDA นั้นประมาณผ่านการอนุมานแบบ Variational ดังนั้น

logp(w|α,β)=E[logp(θ,z,w|α,β)]E[logq(θ,z)]+D(q(θ,z)||p(θ,z))

D(q(θ,z)||p(θ,z))=0logp(w|α,β)=E[logp(θ,z,w|α,β)]E[logq(θ,z)]

logp(w|α,β)


1
ฉันคิดว่ามันเป็นไปได้ที่จะปรับปรุงคำตอบให้เฉพาะเจาะจงมากขึ้นเกี่ยวกับวิธีการคำนวณความฉงนสนเท่ห์ในชุดทดสอบ
Momo
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.