คำถามติดแท็ก topic-models

4
แพ็กเกจ R สำหรับการสร้างแบบจำลองหัวข้อ / LDA: เพียง `topicmodels` และ` lda` [ปิด]
สำหรับฉันดูเหมือนว่ามีเพียงสองแพ็คเกจ R เท่านั้นที่สามารถดำเนินการจัดสรร Latent Dirichlet : หนึ่งคือldaประพันธ์โดย Jonathan Chang; และอื่น ๆ ที่topicmodelsเขียนโดย Bettina Grünและ Kurt Hornik อะไรคือความแตกต่างระหว่างสองแพ็คเกจนี้ในแง่ของประสิทธิภาพรายละเอียดการติดตั้งและการใช้งานที่เพิ่มขึ้น?

3
รูปแบบหัวข้อและวิธีการเกิดร่วมคำ
โมเดลหัวข้อยอดนิยมเช่น LDA มักจัดกลุ่มคำที่มีแนวโน้มที่จะเกิดร่วมกันในหัวข้อเดียวกัน (คลัสเตอร์) อะไรคือความแตกต่างหลักระหว่างโมเดลหัวข้อดังกล่าวและวิธีการจัดกลุ่มแบบง่าย ๆ ที่เกิดขึ้นร่วมกันเช่น PMI (PMI ย่อมาจาก Pointwise Information Mutual และใช้เพื่อระบุคำที่เกิดขึ้นร่วมกับคำที่กำหนด)

2
ความเสถียรของหัวข้อในแบบจำลองหัวข้อ
ฉันกำลังทำงานในโครงการที่ฉันต้องการดึงข้อมูลบางอย่างเกี่ยวกับเนื้อหาของเรียงความแบบปลายเปิด ในโครงการนี้โดยเฉพาะ 148 คนเขียนบทความเกี่ยวกับองค์กรนักศึกษาสมมุติซึ่งเป็นส่วนหนึ่งของการทดลองที่ใหญ่กว่า แม้ว่าในสาขาของฉัน (จิตวิทยาสังคม) วิธีทั่วไปในการวิเคราะห์ข้อมูลเหล่านี้คือการเขียนเรียงความด้วยมือ แต่ฉันต้องการทำปริมาณเชิงปริมาณเนื่องจากการเขียนโค้ดด้วยมือนั้นใช้ทั้งแรงงานและบิตส่วนตัวเกินไปสำหรับฉัน ลิ้มรส ในระหว่างการสืบสวนเกี่ยวกับวิธีการวิเคราะห์ข้อมูลการตอบสนองเชิงปริมาณฉันพบวิธีการสร้างหัวข้อ (หรือการปันส่วน Dirichlet หรือ LDA) การสร้างแบบจำลองหัวข้อใช้ตัวแทนข้อมูลของคุณ (เมทริกซ์เอกสารระยะ) และใช้ข้อมูลเกี่ยวกับคำว่าเหตุการณ์ร่วมเพื่อแยกหัวข้อแฝงของข้อมูล วิธีนี้เหมาะสำหรับการสมัครของฉัน น่าเสียดายที่เมื่อฉันใช้การสร้างแบบจำลองหัวข้อกับข้อมูลของฉันฉันได้ค้นพบสองประเด็น: หัวข้อที่เปิดโดยการสร้างแบบจำลองหัวข้อบางครั้งยากที่จะตีความ เมื่อฉันเรียกใช้แบบจำลองหัวข้อของฉันอีกครั้งด้วยเมล็ดพันธุ์แบบสุ่มที่แตกต่างกันหัวข้อดูเหมือนจะเปลี่ยนไปอย่างมาก ปัญหาที่ 2 โดยเฉพาะเกี่ยวกับฉัน ดังนั้นฉันมีคำถามที่เกี่ยวข้องสองคำถาม: มีสิ่งใดบ้างที่ฉันสามารถทำได้ในโพรซีเดอร์ LDA เพื่อปรับโมเดลโพรซีเดอร์ของฉันให้เหมาะสมสำหรับการตีความและความเสถียร โดยส่วนตัวฉันไม่สนใจมากนักเกี่ยวกับการหาแบบจำลองที่มีความสับสนและ / หรือแบบจำลองที่ดีที่สุด - ส่วนใหญ่ฉันต้องการใช้ขั้นตอนนี้เพื่อช่วยให้ฉันเข้าใจและอธิบายลักษณะที่ผู้เข้าร่วมในการศึกษานี้เขียนไว้ในบทความของพวกเขา อย่างไรก็ตามฉันไม่ต้องการให้ผลลัพธ์ของฉันเป็นสิ่งประดิษฐ์ของเมล็ดสุ่ม! เกี่ยวข้องกับคำถามข้างต้นมีมาตรฐานใดสำหรับข้อมูลที่คุณต้องใช้ในการทำ LDA เอกสารส่วนใหญ่ที่ฉันเคยเห็นที่ใช้วิธีนี้วิเคราะห์ corpora ขนาดใหญ่ (เช่นเอกสารวิทยาศาสตร์ทั้งหมดที่เก็บไว้ในช่วง 20 ปีที่ผ่านมา) แต่เนื่องจากฉันใช้ข้อมูลการทดลองคลังเอกสารของฉันจึงเล็กกว่ามาก ฉันโพสต์ข้อมูลเรียงความที่นี่สำหรับทุกคนที่ต้องการทำให้มือของเขาหรือเธอสกปรกและฉันได้วางรหัส R ที่ฉันใช้ด้านล่าง require(tm) require(topicmodels) # Create …

2
การตีความตามธรรมชาติสำหรับพารามิเตอร์ LDA
ใครสามารถอธิบายการตีความตามธรรมชาติของพารามิเตอร์ LDA ได้บ้าง? ALPHAและBETAเป็นพารามิเตอร์ของการแจกแจง Dirichlet สำหรับหัวข้อ (ต่อเอกสาร) และ (ต่อหัวข้อ) การแจกแจงคำตามลำดับ อย่างไรก็ตามบางคนสามารถอธิบายความหมายของการเลือกค่าที่มากขึ้นของพารามิเตอร์เหล่านี้กับค่าที่น้อยลงได้อย่างไร นั่นหมายถึงการใส่ความเชื่อก่อนหน้านี้ในแง่ของหัวข้อที่กระจัดกระจายในเอกสารและการยกเว้นร่วมกันของหัวข้อในแง่ของคำ? คำถามนี้เกี่ยวกับการจัดสรร Dirichlet ที่แฝงอยู่ แต่ความคิดเห็นโดย BGReene ด้านล่างนี้หมายถึงการวิเคราะห์การจำแนกเชิงเส้นซึ่งทำให้สับสนก็คือ LDA ย่อ

2
จะคำนวณความสับสนของโฮลด์ได้อย่างไรด้วย Latent Dirichlet Allocation
ฉันสับสนเกี่ยวกับวิธีการคำนวณความฉงนสนเท่ห์ของตัวอย่างที่เก็บไว้เมื่อทำการจัดสรร Latent Dirichlet (LDA) เอกสารในหัวข้อง่ายกว่าทำให้ฉันคิดว่าฉันขาดอะไรบางอย่างที่ชัดเจน ... ความงุนงงถูกมองว่าเป็นตัวชี้วัดประสิทธิภาพที่ดีสำหรับ LDA แนวคิดคือให้คุณเก็บตัวอย่างของการพักการฝึกอบรม LDA ของคุณในส่วนที่เหลือของข้อมูลจากนั้นคำนวณความน่าฉงนของการถือออก ความน่างงสามารถกำหนดโดยสูตร: per(Dtest)=exp{−∑Md=1logp(wd)∑Md=1Nd}per(Dtest)=exp{−∑d=1Mlog⁡p(wd)∑d=1MNd}per(D_{test})=exp\{-\frac{\sum_{d=1}^{M}\log p(\mathbb{w}_d)}{\sum_{d=1}^{M}N_d}\} (นำมาจากการดึงภาพในฐานข้อมูลภาพขนาดใหญ่, Horster และคณะ ) นี่ คือจำนวนของเอกสาร (ในตัวอย่างทดสอบสมมุติ) W dหมายถึงคำในเอกสารd , N วันที่จำนวนของคำในเอกสารdMMMwdwd\mathbb{w}_ddddNdNdN_dddd มันไม่ชัดเจนสำหรับฉันที่จะประกาศอย่างสมเหตุสมผลเนื่องจากเราไม่มีหัวข้อผสมสำหรับเอกสารที่จัดขึ้น โดยหลักการแล้วเราจะรวมเข้ากับ Dirichlet ก่อนสำหรับการผสมหัวข้อที่เป็นไปได้ทั้งหมดและใช้หัวข้อมัลตินิเคชันที่เราเรียนรู้ การคำนวณอินทิกรัลนี้ดูเหมือนจะไม่ใช่เรื่องง่ายp(wd)p(wd)p(\mathbb{w}_d) หรือเราอาจพยายามเรียนรู้หัวข้อที่เหมาะสมที่สุดสำหรับแต่ละเอกสารที่จัดไว้ (กำหนดหัวข้อที่เรียนรู้ของเรา) และใช้สิ่งนี้เพื่อคำนวณความงุนงง นี่น่าจะเป็นไปได้ แต่มันก็ไม่สำคัญเหมือนเอกสารเช่น Horter et al และ Blei et al ดูเหมือนว่าจะแนะนำและไม่ชัดเจนสำหรับฉันทันทีว่าผลลัพธ์จะเทียบเท่ากับกรณีอุดมคติข้างต้น

1
การคาดคะเนหัวข้อโดยใช้การจัดสรร Dirichlet แฝง
ฉันใช้ LDA กับคลังเอกสารแล้วพบบางหัวข้อ ผลลัพธ์ของรหัสของฉันคือสองเมทริกซ์ที่มีความน่าจะเป็น ความน่าจะเป็นหัวข้อเอกสารหนึ่งรายการและความน่าจะเป็นหัวข้อคำอื่น ๆ แต่จริง ๆ แล้วฉันไม่รู้วิธีใช้ผลลัพธ์เหล่านี้เพื่อทำนายหัวข้อของเอกสารใหม่ ฉันใช้การสุ่มตัวอย่างของกิ๊บส์ ไม่มีใครรู้ได้อย่างไร ขอบคุณ

3
แบบจำลองหัวข้อสำหรับเอกสารสั้น ๆ
ได้รับแรงบันดาลใจจากคำถามนี้ฉันสงสัยว่างานใด ๆ ที่ทำกับแบบจำลองหัวข้อสำหรับคอลเลกชันขนาดใหญ่ของข้อความสั้น ๆ เป็นพิเศษหรือไม่ สัญชาตญาณของฉันคือ Twitter ควรเป็นแรงบันดาลใจตามธรรมชาติสำหรับโมเดลดังกล่าว อย่างไรก็ตามจากการทดลองที่ จำกัด บางครั้งดูเหมือนว่าหัวข้อโมเดลมาตรฐาน (LDA ฯลฯ ) จะทำงานได้ค่อนข้างแย่กับข้อมูลประเภทนี้ มีใครรู้บ้างเกี่ยวกับงานที่ทำในด้านนี้บ้างไหม บทความนี้พูดเกี่ยวกับการใช้ LDA กับ Twitter แต่ฉันสนใจจริง ๆ ว่ามีอัลกอริทึมอื่น ๆ ที่ทำงานได้ดีขึ้นในบริบทของเอกสารระยะสั้นหรือไม่
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.