ฉันสับสนเกี่ยวกับวิธีการคำนวณความฉงนสนเท่ห์ของตัวอย่างที่เก็บไว้เมื่อทำการจัดสรร Latent Dirichlet (LDA) เอกสารในหัวข้อง่ายกว่าทำให้ฉันคิดว่าฉันขาดอะไรบางอย่างที่ชัดเจน ...
ความงุนงงถูกมองว่าเป็นตัวชี้วัดประสิทธิภาพที่ดีสำหรับ LDA แนวคิดคือให้คุณเก็บตัวอย่างของการพักการฝึกอบรม LDA ของคุณในส่วนที่เหลือของข้อมูลจากนั้นคำนวณความน่าฉงนของการถือออก
ความน่างงสามารถกำหนดโดยสูตร:
(นำมาจากการดึงภาพในฐานข้อมูลภาพขนาดใหญ่, Horster และคณะ )
นี่ คือจำนวนของเอกสาร (ในตัวอย่างทดสอบสมมุติ) W dหมายถึงคำในเอกสารd , N วันที่จำนวนของคำในเอกสารd
มันไม่ชัดเจนสำหรับฉันที่จะประกาศอย่างสมเหตุสมผลเนื่องจากเราไม่มีหัวข้อผสมสำหรับเอกสารที่จัดขึ้น โดยหลักการแล้วเราจะรวมเข้ากับ Dirichlet ก่อนสำหรับการผสมหัวข้อที่เป็นไปได้ทั้งหมดและใช้หัวข้อมัลตินิเคชันที่เราเรียนรู้ การคำนวณอินทิกรัลนี้ดูเหมือนจะไม่ใช่เรื่องง่าย
หรือเราอาจพยายามเรียนรู้หัวข้อที่เหมาะสมที่สุดสำหรับแต่ละเอกสารที่จัดไว้ (กำหนดหัวข้อที่เรียนรู้ของเรา) และใช้สิ่งนี้เพื่อคำนวณความงุนงง นี่น่าจะเป็นไปได้ แต่มันก็ไม่สำคัญเหมือนเอกสารเช่น Horter et al และ Blei et al ดูเหมือนว่าจะแนะนำและไม่ชัดเจนสำหรับฉันทันทีว่าผลลัพธ์จะเทียบเท่ากับกรณีอุดมคติข้างต้น