การตีความตามธรรมชาติสำหรับพารามิเตอร์ LDA


21

ใครสามารถอธิบายการตีความตามธรรมชาติของพารามิเตอร์ LDA ได้บ้าง? ALPHAและBETAเป็นพารามิเตอร์ของการแจกแจง Dirichlet สำหรับหัวข้อ (ต่อเอกสาร) และ (ต่อหัวข้อ) การแจกแจงคำตามลำดับ อย่างไรก็ตามบางคนสามารถอธิบายความหมายของการเลือกค่าที่มากขึ้นของพารามิเตอร์เหล่านี้กับค่าที่น้อยลงได้อย่างไร นั่นหมายถึงการใส่ความเชื่อก่อนหน้านี้ในแง่ของหัวข้อที่กระจัดกระจายในเอกสารและการยกเว้นร่วมกันของหัวข้อในแง่ของคำ?

คำถามนี้เกี่ยวกับการจัดสรร Dirichlet ที่แฝงอยู่ แต่ความคิดเห็นโดย BGReene ด้านล่างนี้หมายถึงการวิเคราะห์การจำแนกเชิงเส้นซึ่งทำให้สับสนก็คือ LDA ย่อ


ฉันคิดว่าคุณต้องให้รายละเอียดเพิ่มเติมเกี่ยวกับสูตร LDA ที่คุณใช้ โดยทั่วไปเป็นรุ่น RDA เท่านั้นที่มีพารามิเตอร์เหล่านั้น LDA มักจะถูกกำหนดโดยเวกเตอร์เฉลี่ย, เมทริกซ์ความแปรปรวนร่วมและความน่าจะเป็นก่อนหน้านี้
BGreene

คำตอบ:


11

David Blei มีการพูดคุยที่ดีในการแนะนำ LDA ให้กับนักเรียนในชั้นเรียนภาคฤดูร้อน: http://videolectures.net/mlss09uk_blei_tm/

ในวิดีโอแรกเขาครอบคลุมแนวคิดพื้นฐานเกี่ยวกับการสร้างแบบจำลองหัวข้อและวิธีการแจกแจง Dirichlet สัญกรณ์แผ่นจะมีการอธิบายราวกับว่าตัวแปรที่ซ่อนอยู่ทั้งหมดจะถูกตรวจสอบเพื่อแสดงการพึ่งพา โดยทั่วไปหัวข้อการแจกแจงคำและการแจกแจงเอกสารในหัวข้อ

ในวิดีโอที่สองเขาแสดงให้เห็นถึงผลกระทบของอัลฟากับกราฟตัวอย่างบางส่วน อัลฟาที่มีขนาดเล็กยิ่งกระจายตัวน้อย นอกจากนี้เขายังแนะนำวิธีการอนุมาน


7
นี่ไม่ควรเป็นคำตอบที่ยอมรับ
samsamara

ฉันคิดว่าคุณพูดถูก ฉันลืมไปเลยว่าฉันเขียนสิ่งนี้
Karsten

โอ้! ไม่ได้คาดหวังว่าจะเห็นความคิดเห็นจากผู้เขียน! hehe :)
samsamara

48

คำตอบขึ้นอยู่กับว่าคุณสมมติว่าการแจกแจงแบบสมมาตรหรือไม่สมมาตรดีริชเลต์ (หรือมากกว่านั้นในทางเทคนิคไม่ว่าการวัดพื้นฐานจะเหมือนกันหรือไม่) ถ้าไม่มีการระบุอย่างอื่นการใช้งานส่วนใหญ่ของ LDA ถือว่าการกระจายนั้นสมมาตร

สำหรับการกระจายแบบสมมาตรค่าอัลฟาสูงหมายความว่าเอกสารแต่ละฉบับมีแนวโน้มที่จะมีการผสมผสานของหัวข้อส่วนใหญ่และไม่ใช่หัวข้อเดียวโดยเฉพาะ ค่าอัลฟ่าต่ำทำให้ข้อ จำกัด ดังกล่าวน้อยลงในเอกสารและหมายความว่าเป็นไปได้มากกว่าที่เอกสารอาจมีส่วนผสมของหัวข้อเพียงไม่กี่ข้อหรือแม้แต่เพียงข้อเดียว ค่าเบต้าสูงหมายความว่าแต่ละหัวข้อมีแนวโน้มที่จะมีการผสมของคำส่วนใหญ่และไม่ใช่คำใด ๆ โดยเฉพาะในขณะที่ค่าต่ำหมายความว่าหัวข้ออาจมีการผสมผสานของคำเพียงไม่กี่คำ

หากในอีกทางหนึ่งการกระจายเป็นแบบไม่สมมาตรค่าอัลฟาสูงหมายความว่าการแจกแจงหัวข้อที่เฉพาะเจาะจง (ขึ้นอยู่กับการวัดพื้นฐาน) มีโอกาสมากขึ้นสำหรับแต่ละเอกสาร ค่าเบต้าสูงหมายความว่าแต่ละหัวข้อมีแนวโน้มที่จะมีการผสมผสานคำเฉพาะที่กำหนดโดยการวัดพื้นฐาน

ในทางปฏิบัติค่าอัลฟาสูงจะนำไปสู่เอกสารที่มีความคล้ายคลึงกันมากขึ้นในแง่ของสิ่งที่พวกเขามีหัวข้อ ค่าเบต้าสูงจะนำไปสู่หัวข้อที่คล้ายกันมากขึ้นในแง่ของสิ่งที่พวกเขามีคำ

ดังนั้นใช่พารามิเตอร์อัลฟาระบุความเชื่อก่อนหน้าเกี่ยวกับ sparsity หัวข้อ / สม่ำเสมอในเอกสาร ฉันไม่แน่ใจว่าสิ่งที่คุณหมายถึงโดย "ความพิเศษร่วมกันของหัวข้อในแง่ของคำว่า" แม้ว่า


โดยทั่วไปแล้วสิ่งเหล่านี้คือพารามิเตอร์ความเข้มข้นสำหรับการแจกแจงดีริชเลต์ที่ใช้ในโมเดล LDA เพื่อให้เข้าใจถึงวิธีการทำงานของการนำเสนอนี้ประกอบด้วยภาพประกอบที่ดีรวมถึงคำอธิบายที่ดีของ LDA โดยทั่วไป


(α1,α2,...,αK)ยู=(ยู1,ยู2,...,ยูK)αα* * * *ยู=(α1,α2,...,αK)α(α1,α2,...,αK)(α1,α2,...,αK)


2
+1 คำตอบที่ให้ข้อมูล! ฉันต้องการถามว่าสูง / ต่ำเป็นค่าสูง / ต่ำสำหรับอัลฟ่าและเบต้าโดยทั่วไปหรือไม่
samsamara

เบต้าควรจะเป็นการแจกแจงมากกว่าคำสำหรับแต่ละหัวข้อ (เมทริกซ์) ใช่ไหม ดังนั้นค่าเดียวจะแปลเป็นเมทริกซ์ได้อย่างไร
Noamiko

ฉันถูกต้องในการสรุปว่า alpha สูงหมายความว่าเอกสารมีความคล้ายคลึงกันหรือไม่และ high beta หมายความว่าหัวข้อนั้น ๆ มีความคล้ายคลึงกันหรือไม่
Lewistrick
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.