สถิติและข้อมูลขนาดใหญ่ dirichlet-process

2

ฉันกำลังทำงานในโครงการที่ฉันต้องการดึงข้อมูลบางอย่างเกี่ยวกับเนื้อหาของเรียงความแบบปลายเปิด ในโครงการนี้โดยเฉพาะ 148 คนเขียนบทความเกี่ยวกับองค์กรนักศึกษาสมมุติซึ่งเป็นส่วนหนึ่งของการทดลองที่ใหญ่กว่า แม้ว่าในสาขาของฉัน (จิตวิทยาสังคม) วิธีทั่วไปในการวิเคราะห์ข้อมูลเหล่านี้คือการเขียนเรียงความด้วยมือ แต่ฉันต้องการทำปริมาณเชิงปริมาณเนื่องจากการเขียนโค้ดด้วยมือนั้นใช้ทั้งแรงงานและบิตส่วนตัวเกินไปสำหรับฉัน ลิ้มรส ในระหว่างการสืบสวนเกี่ยวกับวิธีการวิเคราะห์ข้อมูลการตอบสนองเชิงปริมาณฉันพบวิธีการสร้างหัวข้อ (หรือการปันส่วน Dirichlet หรือ LDA) การสร้างแบบจำลองหัวข้อใช้ตัวแทนข้อมูลของคุณ (เมทริกซ์เอกสารระยะ) และใช้ข้อมูลเกี่ยวกับคำว่าเหตุการณ์ร่วมเพื่อแยกหัวข้อแฝงของข้อมูล วิธีนี้เหมาะสำหรับการสมัครของฉัน น่าเสียดายที่เมื่อฉันใช้การสร้างแบบจำลองหัวข้อกับข้อมูลของฉันฉันได้ค้นพบสองประเด็น: หัวข้อที่เปิดโดยการสร้างแบบจำลองหัวข้อบางครั้งยากที่จะตีความ เมื่อฉันเรียกใช้แบบจำลองหัวข้อของฉันอีกครั้งด้วยเมล็ดพันธุ์แบบสุ่มที่แตกต่างกันหัวข้อดูเหมือนจะเปลี่ยนไปอย่างมาก ปัญหาที่ 2 โดยเฉพาะเกี่ยวกับฉัน ดังนั้นฉันมีคำถามที่เกี่ยวข้องสองคำถาม: มีสิ่งใดบ้างที่ฉันสามารถทำได้ในโพรซีเดอร์ LDA เพื่อปรับโมเดลโพรซีเดอร์ของฉันให้เหมาะสมสำหรับการตีความและความเสถียร โดยส่วนตัวฉันไม่สนใจมากนักเกี่ยวกับการหาแบบจำลองที่มีความสับสนและ / หรือแบบจำลองที่ดีที่สุด - ส่วนใหญ่ฉันต้องการใช้ขั้นตอนนี้เพื่อช่วยให้ฉันเข้าใจและอธิบายลักษณะที่ผู้เข้าร่วมในการศึกษานี้เขียนไว้ในบทความของพวกเขา อย่างไรก็ตามฉันไม่ต้องการให้ผลลัพธ์ของฉันเป็นสิ่งประดิษฐ์ของเมล็ดสุ่ม! เกี่ยวข้องกับคำถามข้างต้นมีมาตรฐานใดสำหรับข้อมูลที่คุณต้องใช้ในการทำ LDA เอกสารส่วนใหญ่ที่ฉันเคยเห็นที่ใช้วิธีนี้วิเคราะห์ corpora ขนาดใหญ่ (เช่นเอกสารวิทยาศาสตร์ทั้งหมดที่เก็บไว้ในช่วง 20 ปีที่ผ่านมา) แต่เนื่องจากฉันใช้ข้อมูลการทดลองคลังเอกสารของฉันจึงเล็กกว่ามาก ฉันโพสต์ข้อมูลเรียงความที่นี่สำหรับทุกคนที่ต้องการทำให้มือของเขาหรือเธอสกปรกและฉันได้วางรหัส R ที่ฉันใช้ด้านล่าง require(tm) require(topicmodels) # Create …

23 machine-learning model-selection small-sample topic-models dirichlet-process

3

มีวิธีการแบบเบย์ในการประมาณความหนาแน่นหรือไม่

ผมสนใจที่จะประเมินความหนาแน่นต่อเนื่องสุ่มตัวแปรXวิธีหนึ่งในการทำสิ่งนี้ที่ฉันได้เรียนรู้คือการใช้การประมาณความหนาแน่นของเคอร์เนลXXX แต่ตอนนี้ฉันสนใจวิธีการแบบเบย์ที่อยู่ในบรรทัดต่อไปนี้ ผมเริ่มเชื่อว่าต่อไปนี้การกระจายFฉันใช้เวลาอ่านXมีวิธีการอัพเดตตามการอ่านใหม่ของฉันหรือไม่?F n X FXXXFFFnnnXXXFFF ฉันรู้ว่าฉันดูเหมือนว่าฉันจะขัดแย้งกับตัวเอง: ถ้าฉันเชื่อว่าในเป็นการกระจายก่อนหน้านี้ของฉันเท่านั้นไม่มีข้อมูลควรโน้มน้าวฉันเป็นอย่างอื่น แต่สมมติว่ามีและจุดข้อมูลของฉันเป็นเหมือน1.7) เมื่อดูที่เห็นได้ชัดว่าฉันไม่สามารถยึดติดกับรุ่นก่อนหน้าได้ แต่ฉันควรอัปเดตอย่างไรF u n i f [ 0 , 1 ] ( 0.3 , 0.5 , 0.9 , 1.7 ) 1.7FFFFFFUnif[0,1]Unif[0,1]Unif[0,1](0.3,0.5,0.9,1.7)(0.3,0.5,0.9,1.7)(0.3, 0.5, 0.9, 1.7)1.71.71.7 อัปเดต:ตามคำแนะนำในความคิดเห็นที่ฉันได้เริ่มดูกระบวนการ Dirichlet ให้ฉันใช้สัญลักษณ์ต่อไปนี้: G∼DP(α,H)θi|G∼Gxi|θi∼N(θi,σ2)G∼DP(α,H)θi|G∼Gxi|θi∼N(θi,σ2) G \sim DP(\alpha,H)\\ \theta_i | G \sim G\\ x_i | \theta_i \sim N(\theta_i,\sigma^2) …

22 bayesian pdf nonparametric-bayes dirichlet-process

2

Dirichlet กระบวนการสำหรับการทำคลัสเตอร์: วิธีจัดการกับป้ายกำกับ?

Q:วิธีมาตรฐานในการจัดกลุ่มข้อมูลโดยใช้กระบวนการ Dirichlet คืออะไร เมื่อใช้กลุ่มการสุ่มตัวอย่างของกิ๊บส์จะปรากฏขึ้นและหายไประหว่างการสุ่มตัวอย่าง นอกจากนี้เรามีปัญหาในการระบุตัวตนเนื่องจากการกระจายหลังนั้นไม่แปรเปลี่ยนไปจากการจัดกลุ่มใหม่ ดังนั้นเราไม่สามารถพูดได้ว่าเป็นกลุ่มของผู้ใช้ แต่ที่ผู้ใช้สองคนที่อยู่ในกลุ่มเดียวกัน (นั่นคือp(ci=cj)p(ci=cj)p(c_i=c_j) ) เราสามารถสรุปข้อมูลที่ได้รับมอบหมายในชั้นเรียนเพื่อที่ว่าถ้าคือการกำหนดกลุ่มของจุดฉันตอนนี้เราไม่เพียง แต่ที่คฉัน = คเจแต่ที่คฉัน = คJ = คJ = . . = ccicic_iiiici=cjci=cjc_i=c_j ?ci=cj=cj=...=czci=cj=cj=...=czc_i=c_j=c_j=...=c_z นี่เป็นทางเลือกที่ฉันพบและทำไมฉันจึงคิดว่าสิ่งเหล่านี้ไม่สมบูรณ์หรือเข้าใจผิด (1) DP-GMM + การสุ่มตัวอย่าง Gibbs + เมทริกซ์ความสับสนตามคู่ หากต้องการใช้แบบจำลองส่วนผสมของกระบวนการ Dirichlet แบบเกาส์ (DP-GMM) สำหรับการจัดกลุ่มฉันได้นำบทความนี้ไปใช้โดยผู้เขียนเสนอ DP-GMM สำหรับการประเมินความหนาแน่นโดยใช้การสุ่มตัวอย่างแบบกิ๊บส์ เพื่อสำรวจประสิทธิภาพการจัดกลุ่มพวกเขาพูดว่า: เนื่องจากจำนวนของส่วนประกอบเปลี่ยนแปลงไปตลอดห่วงโซ่ [MCMC] เราจะต้องสร้างเมทริกซ์ความสับสนซึ่งแสดงความถี่ของคู่ข้อมูลแต่ละคู่ที่ได้รับมอบหมายให้เป็นองค์ประกอบเดียวกันสำหรับทั้งห่วงโซ่ดูรูปที่ 6 ข้อด้อย : นี่ไม่ใช่การจัดกลุ่มแบบ "สมบูรณ์" จริง แต่เป็นการทำคลัสเตอร์แบบคู่ที่ชาญฉลาด รูปดูดีมากเพราะเรารู้ว่ากลุ่มจริงและจัดเมทริกซ์ตามนั้น …

14 bayesian clustering mcmc dirichlet-process identifiability

3

Multinomial-Dirichlet model ที่มีการแจกแจง hyperprior ในพารามิเตอร์ความเข้มข้น

ฉันจะพยายามอธิบายปัญหาในมือโดยทั่วไปที่สุด ฉันกำลังสร้างแบบจำลองการสังเกตเป็นการกระจายอย่างมีนัยสำคัญกับพารามิเตอร์ความน่าจะเป็นเวกเตอร์ทีต้า จากนั้นผมถือว่า theta พารามิเตอร์เวกเตอร์ต่อไปนี้ก่อน Dirichletกระจายกับพารามิเตอร์\α1, α2, … , αkα1,α2,…,αk\alpha_1,\alpha_2,\ldots,\alpha_k เป็นไปได้หรือไม่ที่จะกำหนดให้มีการแจกแจงเหนือพารามิเตอร์ ? มันจะต้องเป็นการกระจายหลายตัวแปรเช่นการแจกแจงแบบแบ่งหมวดหมู่และแบบดิริชเล็ตหรือไม่? ดูเหมือนว่าอัลฟาจะเป็นบวกเสมอดังนั้นแกมม่าไฮเพอร์ไพน์จึงควรทำงานα1,α2, … ,αkα1,α2,…,αk\alpha_1,\alpha_2,\ldots,\alpha_k ไม่แน่ใจว่ามีใครลองปรับรุ่น overparametrized (อาจจะ) แต่ดูเหมือนว่าสมเหตุสมผลสำหรับฉันที่จะคิดว่าอัลฟ่าไม่ควรได้รับการแก้ไข แต่มาจากการกระจายแกมม่า โปรดพยายามให้ข้อมูลอ้างอิงบางอย่างแก่ฉัน, ให้ข้อมูลเชิงลึกเกี่ยวกับวิธีที่ฉันสามารถลองวิธีการดังกล่าวในทางปฏิบัติ

10 categorical-data multinomial dirichlet-distribution hierarchical-bayesian dirichlet-process

1

การผสานการวัดแบบสุ่มหมายความว่าอย่างไร

ฉันกำลังดูกระดาษแบบจำลองเอฟเฟกต์แบบสุ่มของ Dirichlet และสเปคของโมเดลมีดังนี้: YผมψผมG=Xผมβ+ψผม+εผม∼ กรัม~ D P( α ,G0)Yผม=Xผมβ+ψผม+εผมψผม~GG~DP(α,G0) \begin{align*}y_{i} &= X_{i}\beta + \psi_{i} + \epsilon_{i}\\ \psi_{i} &\sim G \\ G &\sim \mathcal{DP}\left(\alpha, G_{0}\right) \end{align*} ที่ไหน αα\alpha เป็นพารามิเตอร์ขนาดและ G0G0G_{0}เป็นตัวชี้วัดพื้นฐาน ต่อมาในบทความแนะนำว่าเรารวมฟังก์ชั่นเข้ากับการวัดพื้นฐานG0G0G_{0} เช่น ∫ฉ(YJ| θ,ψJ)dG0(ψJ) .∫ฉ(YJ|θ,ψJ)dG0(ψJ). \int f\left(y_{j}|\theta, \psi_{j}\right)\, dG_{0}\left(\psi_{j}\right).การวัดพื้นฐานใน Dirichlet ประมวลผลเป็น cdf หรือว่าเป็น pdf หรือไม่? จะเกิดอะไรขึ้นหากการวัดพื้นฐานคือ Gaussian

9 bayesian dirichlet-distribution dirichlet-process nonparametric-bayes measure-theory

คำถามติดแท็ก dirichlet-process