ฉันต้องการชี้ให้เห็นเนื่องจากนี่เป็นหนึ่งในสุดฮิตของ Google สำหรับหัวข้อนี้นั่นคือ Latent Dirichlet Allocation (LDA), Hierarchical Dirichlet Processes (HDP) และการจัดสรร Latir Dirichlet (hLDA) เป็นแบบจำลองที่แตกต่างกันทั้งหมด
LDA โมเดลเอกสารเป็นชุดผสม dirichlet ของจำนวนคงที่ของหัวข้อที่เลือกเป็นพารามิเตอร์ของโมเดลโดยผู้ใช้ซึ่งอยู่ในชุดผสมของคำ dirichlet สิ่งนี้จะสร้างการจัดกลุ่มคำแบบเรียบและนุ่มน่าจะเป็นหัวข้อและเอกสารลงในหัวข้อ
HDP จำลองหัวข้อเป็นคำผสมเช่น LDA แต่แทนที่จะเป็นเอกสารที่รวมกันเป็นจำนวนคงที่จำนวนหัวข้อจะถูกสร้างขึ้นโดยกระบวนการ dirichlet ทำให้จำนวนหัวข้อเป็นตัวแปรสุ่มเช่นกัน ส่วน "ลำดับชั้น" ของชื่ออ้างอิงถึงอีกระดับหนึ่งที่ถูกเพิ่มเข้ากับแบบจำลอง (กระบวนการ dirichlet สร้างจำนวนหัวข้อ) ไม่ใช่หัวข้อที่ตัวเอง - หัวข้อยังคงเป็นคลัสเตอร์แบบแบน
ในทางกลับกัน hLDA เป็นการปรับตัวของ LDA ที่จำลองหัวข้อเป็นส่วนผสมของหัวข้อระดับใหม่ที่แตกต่างจากการแจกแจงของดีริชเลต์และไม่ใช่กระบวนการ มันยังคงปฏิบัติต่อจำนวนหัวข้อเป็นพารามิเตอร์ไฮเปอร์พารามิเตอร์เช่นเป็นอิสระจากข้อมูล ความแตกต่างคือการจัดกลุ่มเป็นลำดับชั้น - เรียนรู้การจัดกลุ่มหัวข้อชุดแรกด้วยตนเองทำให้เกิดความสัมพันธ์ทั่วไปที่เป็นนามธรรมมากขึ้นระหว่างหัวข้อ (และด้วยเหตุนี้คำและเอกสาร) คิดว่ามันเหมือนกับการรวมกลุ่มการแลกเปลี่ยนสแต็คเป็นคณิตศาสตร์วิทยาศาสตร์การเขียนโปรแกรมประวัติศาสตร์ ฯลฯ เมื่อเทียบกับการจัดกลุ่มข้อมูลวิทยาศาสตร์และการตรวจสอบข้ามเป็นสถิตินามธรรมและหัวข้อการเขียนโปรแกรมที่แบ่งปันแนวคิดบางอย่างกับพูดวิศวกรรมซอฟต์แวร์ แต่วิศวกรรมซอฟต์แวร์ การแลกเปลี่ยนเป็นคลัสเตอร์ในระดับที่เป็นรูปธรรมมากขึ้นด้วยการแลกเปลี่ยนวิทยาการคอมพิวเตอร์และความคล้ายคลึงกันระหว่างการแลกเปลี่ยนที่กล่าวถึงทั้งหมดจะไม่ปรากฏมากนักจนกระทั่งกระจุกตัวของเลเยอร์ชั้นบน