พารามิเตอร์อัลฟาและเบต้ามีส่วนช่วยอะไรในการจัดสรร Latent Dirichlet


19

LDA มีพารามิเตอร์หลายตัวสองค่าการปรับเปลี่ยนหัวข้อที่ถูกชักจูง

พารามิเตอร์อัลฟาและเบต้ามีส่วนร่วมใน LDA อย่างไร

หัวข้อเปลี่ยนไปอย่างไรหากพารามิเตอร์อย่างใดอย่างหนึ่งหรือพารามิเตอร์อื่น ๆ เพิ่มขึ้นหรือลดลง?

ทำไมถึงเป็น hyperparamters และไม่ใช่แค่พารามิเตอร์?


นี่คือคำตอบบางส่วนที่ดี: stats.stackexchange.com/a/37444/156252
Greenish

คำตอบ:


16

การแจกแจง Dirichlet เป็นการกระจายหลายตัวแปร เราสามารถแสดงพารามิเตอร์ของ Dirichlet เป็นเวกเตอร์ขนาด K ของรูปแบบ ~ ที่เป็นเวกเตอร์ของขนาดKของพารามิเตอร์และΣxฉัน=11B(a)ixiai1aKxi=1

ตอนนี้ LDA ใช้โครงสร้างบางอย่างเช่น:

  • เอกสารสามารถมีหลายหัวข้อ (เนื่องจากหลายหลากนี้เราต้องกระจาย Dirichlet); และมีการแจกแจงไดริชเลต์ซึ่งเป็นแบบจำลองความสัมพันธ์นี้
  • คำอาจอยู่ในหลายหัวข้อเมื่อคุณพิจารณาคำเหล่านี้นอกเอกสาร ดังนั้นที่นี่เราต้องการ Dirichlet อีกอันเพื่อสร้างโมเดลนี้

สองรายการก่อนหน้าคือการแจกแจงซึ่งคุณไม่เห็นจากข้อมูลจริงๆนี่คือเหตุผลที่เรียกว่าแฝงหรือซ่อนอยู่

xθ

p(θ|x)=p(x|θ)p(θ|α)p(x|α)posterior probability=likelihood×prior probabilitymarginal likelihood
α

พารามิเตอร์ของก่อนที่จะเรียกว่าhyperparameters ดังนั้นใน LDA ทั้งการแจกแจงหัวข้อเอกสารและคำต่าง ๆ ก็มีนักบวชผู้สื่อข่าวซึ่งมักแสดงด้วยอัลฟ่าและเบต้าและเพราะพารามิเตอร์ของการแจกแจงก่อนหน้านี้เรียกว่าพารามิเตอร์

αkx

αk

αk

αk

เพิ่มเติมโปรดทราบว่าค่าสำหรับพารามิเตอร์ priors สร้างไฟล์ PDF ที่ราบรื่นของการแจกแจงเนื่องจากค่าของพารามิเตอร์นั้นอยู่ใกล้ 1 ดังนั้นหากคุณมีความมั่นใจอย่างยิ่งว่ามีบางสิ่งที่ชัดเจนในแบบที่คุณรู้ด้วยความมั่นใจระดับสูงกว่า ค่าที่อยู่ห่างจาก 1 ในค่าสัมบูรณ์จะถูกนำมาใช้ถ้าคุณไม่มีความรู้แบบนั้นมากกว่าค่าที่อยู่ใกล้ 1 จะเข้ารหัสความรู้นี้ มันง่ายที่จะเห็นว่าทำไม 1 มีบทบาทดังกล่าวในการแจกแจง Dirichlet จากสูตรการกระจายตัวเอง

αkαk

หวังว่ามันจะช่วย


เรากลับบ้าน / หวังว่าจะเหมือนกันเกี่ยวกับการสนับสนุน tex! : D
รูเบนส์

11

สมมติว่าการแจกแจงแบบสมมาตรดีริชเลต์ (เพื่อความง่าย) ค่าอัลฟ่าต่ำทำให้น้ำหนักมากขึ้นในการมีเอกสารแต่ละฉบับที่ประกอบด้วยหัวข้อที่โดดเด่นเพียงไม่กี่หัวข้อ ค่าเบต้าต่ำนั้นให้น้ำหนักมากกว่าในการมีแต่ละหัวข้อประกอบด้วยคำที่เด่นชัดเพียงไม่กี่คำ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.