คำตอบขึ้นอยู่กับว่าคุณสมมติว่าการแจกแจงแบบสมมาตรหรือไม่สมมาตรดีริชเลต์ (หรือมากกว่านั้นในทางเทคนิคไม่ว่าการวัดพื้นฐานจะเหมือนกันหรือไม่) ถ้าไม่มีการระบุอย่างอื่นการใช้งานส่วนใหญ่ของ LDA ถือว่าการกระจายนั้นสมมาตร
สำหรับการกระจายแบบสมมาตรค่าอัลฟาสูงหมายความว่าเอกสารแต่ละฉบับมีแนวโน้มที่จะมีการผสมผสานของหัวข้อส่วนใหญ่และไม่ใช่หัวข้อเดียวโดยเฉพาะ ค่าอัลฟ่าต่ำทำให้ข้อ จำกัด ดังกล่าวน้อยลงในเอกสารและหมายความว่าเป็นไปได้มากกว่าที่เอกสารอาจมีส่วนผสมของหัวข้อเพียงไม่กี่ข้อหรือแม้แต่เพียงข้อเดียว ค่าเบต้าสูงหมายความว่าแต่ละหัวข้อมีแนวโน้มที่จะมีการผสมของคำส่วนใหญ่และไม่ใช่คำใด ๆ โดยเฉพาะในขณะที่ค่าต่ำหมายความว่าหัวข้ออาจมีการผสมผสานของคำเพียงไม่กี่คำ
หากในอีกทางหนึ่งการกระจายเป็นแบบไม่สมมาตรค่าอัลฟาสูงหมายความว่าการแจกแจงหัวข้อที่เฉพาะเจาะจง (ขึ้นอยู่กับการวัดพื้นฐาน) มีโอกาสมากขึ้นสำหรับแต่ละเอกสาร ค่าเบต้าสูงหมายความว่าแต่ละหัวข้อมีแนวโน้มที่จะมีการผสมผสานคำเฉพาะที่กำหนดโดยการวัดพื้นฐาน
ในทางปฏิบัติค่าอัลฟาสูงจะนำไปสู่เอกสารที่มีความคล้ายคลึงกันมากขึ้นในแง่ของสิ่งที่พวกเขามีหัวข้อ ค่าเบต้าสูงจะนำไปสู่หัวข้อที่คล้ายกันมากขึ้นในแง่ของสิ่งที่พวกเขามีคำ
ดังนั้นใช่พารามิเตอร์อัลฟาระบุความเชื่อก่อนหน้าเกี่ยวกับ sparsity หัวข้อ / สม่ำเสมอในเอกสาร ฉันไม่แน่ใจว่าสิ่งที่คุณหมายถึงโดย "ความพิเศษร่วมกันของหัวข้อในแง่ของคำว่า" แม้ว่า
โดยทั่วไปแล้วสิ่งเหล่านี้คือพารามิเตอร์ความเข้มข้นสำหรับการแจกแจงดีริชเลต์ที่ใช้ในโมเดล LDA เพื่อให้เข้าใจถึงวิธีการทำงานของการนำเสนอนี้ประกอบด้วยภาพประกอบที่ดีรวมถึงคำอธิบายที่ดีของ LDA โดยทั่วไป
( α1, α2, . . . , αK)u = ( u1, U2, . . . , UK)αα ∗ u = ( α1, α2, . . . , αK)α( α1, α2, . . . , αK)( α1, α2, . . . , αK)