การแจกแจง Dirichlet เป็นการกระจายหลายตัวแปร เราสามารถแสดงพารามิเตอร์ของ Dirichlet เป็นเวกเตอร์ขนาด K ของรูปแบบ ~ ที่เป็นเวกเตอร์ของขนาดKของพารามิเตอร์และΣxฉัน=11B(a)⋅∏ixai−1iaK∑xi=1
ตอนนี้ LDA ใช้โครงสร้างบางอย่างเช่น:
- เอกสารสามารถมีหลายหัวข้อ (เนื่องจากหลายหลากนี้เราต้องกระจาย Dirichlet); และมีการแจกแจงไดริชเลต์ซึ่งเป็นแบบจำลองความสัมพันธ์นี้
- คำอาจอยู่ในหลายหัวข้อเมื่อคุณพิจารณาคำเหล่านี้นอกเอกสาร ดังนั้นที่นี่เราต้องการ Dirichlet อีกอันเพื่อสร้างโมเดลนี้
สองรายการก่อนหน้าคือการแจกแจงซึ่งคุณไม่เห็นจากข้อมูลจริงๆนี่คือเหตุผลที่เรียกว่าแฝงหรือซ่อนอยู่
xθ
p(θ|x)=p(x|θ)p(θ|α)p(x|α)⟺posterior probability=likelihood×prior probabilitymarginal likelihood
α
พารามิเตอร์ของก่อนที่จะเรียกว่าhyperparameters ดังนั้นใน LDA ทั้งการแจกแจงหัวข้อเอกสารและคำต่าง ๆ ก็มีนักบวชผู้สื่อข่าวซึ่งมักแสดงด้วยอัลฟ่าและเบต้าและเพราะพารามิเตอร์ของการแจกแจงก่อนหน้านี้เรียกว่าพารามิเตอร์
αkx
αk
αk
αk
เพิ่มเติมโปรดทราบว่าค่าสำหรับพารามิเตอร์ priors สร้างไฟล์ PDF ที่ราบรื่นของการแจกแจงเนื่องจากค่าของพารามิเตอร์นั้นอยู่ใกล้ 1 ดังนั้นหากคุณมีความมั่นใจอย่างยิ่งว่ามีบางสิ่งที่ชัดเจนในแบบที่คุณรู้ด้วยความมั่นใจระดับสูงกว่า ค่าที่อยู่ห่างจาก 1 ในค่าสัมบูรณ์จะถูกนำมาใช้ถ้าคุณไม่มีความรู้แบบนั้นมากกว่าค่าที่อยู่ใกล้ 1 จะเข้ารหัสความรู้นี้ มันง่ายที่จะเห็นว่าทำไม 1 มีบทบาทดังกล่าวในการแจกแจง Dirichlet จากสูตรการกระจายตัวเอง
αkαk
หวังว่ามันจะช่วย