Dirichlet กระบวนการสำหรับการทำคลัสเตอร์: วิธีจัดการกับป้ายกำกับ?


14

Q:วิธีมาตรฐานในการจัดกลุ่มข้อมูลโดยใช้กระบวนการ Dirichlet คืออะไร

เมื่อใช้กลุ่มการสุ่มตัวอย่างของกิ๊บส์จะปรากฏขึ้นและหายไประหว่างการสุ่มตัวอย่าง นอกจากนี้เรามีปัญหาในการระบุตัวตนเนื่องจากการกระจายหลังนั้นไม่แปรเปลี่ยนไปจากการจัดกลุ่มใหม่ ดังนั้นเราไม่สามารถพูดได้ว่าเป็นกลุ่มของผู้ใช้ แต่ที่ผู้ใช้สองคนที่อยู่ในกลุ่มเดียวกัน (นั่นคือp(ci=cj) )

เราสามารถสรุปข้อมูลที่ได้รับมอบหมายในชั้นเรียนเพื่อที่ว่าถ้าคือการกำหนดกลุ่มของจุดฉันตอนนี้เราไม่เพียง แต่ที่ฉัน = เจแต่ที่ฉัน = J = J = . . = cciici=cj ?ci=cj=cj=...=cz

นี่เป็นทางเลือกที่ฉันพบและทำไมฉันจึงคิดว่าสิ่งเหล่านี้ไม่สมบูรณ์หรือเข้าใจผิด

(1) DP-GMM + การสุ่มตัวอย่าง Gibbs + เมทริกซ์ความสับสนตามคู่

หากต้องการใช้แบบจำลองส่วนผสมของกระบวนการ Dirichlet แบบเกาส์ (DP-GMM) สำหรับการจัดกลุ่มฉันได้นำบทความนี้ไปใช้โดยผู้เขียนเสนอ DP-GMM สำหรับการประเมินความหนาแน่นโดยใช้การสุ่มตัวอย่างแบบกิ๊บส์

เพื่อสำรวจประสิทธิภาพการจัดกลุ่มพวกเขาพูดว่า:

เนื่องจากจำนวนของส่วนประกอบเปลี่ยนแปลงไปตลอดห่วงโซ่ [MCMC] เราจะต้องสร้างเมทริกซ์ความสับสนซึ่งแสดงความถี่ของคู่ข้อมูลแต่ละคู่ที่ได้รับมอบหมายให้เป็นองค์ประกอบเดียวกันสำหรับทั้งห่วงโซ่ดูรูปที่ 6 ป้อนคำอธิบายรูปภาพที่นี่

ข้อด้อย : นี่ไม่ใช่การจัดกลุ่มแบบ "สมบูรณ์" จริง แต่เป็นการทำคลัสเตอร์แบบคู่ที่ชาญฉลาด รูปดูดีมากเพราะเรารู้ว่ากลุ่มจริงและจัดเมทริกซ์ตามนั้น

(2) DP-GMM + ตัวอย่างกิ๊บส์ + ตัวอย่างจนกว่าจะไม่มีอะไรเปลี่ยนแปลง

ฉันค้นหามาแล้วและพบว่ามีบางคนอ้างว่าทำการจัดกลุ่มตามกระบวนการ Dirichlet โดยใช้ตัวอย่าง Gibbs ตัวอย่างเช่นโพสต์นี้พิจารณาว่าเชนมาบรรจบกันเมื่อไม่มีการเปลี่ยนแปลงอีกต่อไปไม่ว่าจะเป็นจำนวนกลุ่มหรือตามวิธีการดังนั้นจึงได้บทสรุปจากที่นั่น

จุดด้อย : ฉันไม่แน่ใจว่าได้รับอนุญาตตั้งแต่ถ้าฉันไม่ผิด:

  • (a) อาจมีการสลับฉลากระหว่าง MCMC

  • (b) แม้ในการกระจายแบบคงที่ตัวอย่างสามารถสร้างบางกลุ่มได้ตลอดเวลา

(3) DP-GMM + การสุ่มตัวอย่าง Gibbs + เลือกตัวอย่างด้วยพาร์ติชันที่น่าจะเป็นไปได้มากที่สุด

ในบทความนี้ผู้เขียนพูดว่า:

หลังจากช่วงเวลา“ เผาไหม้” ตัวอย่างที่ไม่เอนเอียงจากการกระจายหลังของ IGMM สามารถดึงมาจากตัวอย่าง Gibbs ฮาร์ดคลัสเตอร์สามารถพบได้โดยการวาดตัวอย่างจำนวนมากและใช้ตัวอย่างที่มีความน่าจะเป็นร่วมสูงสุดของตัวแปรตัวบ่งชี้คลาส เราใช้การดำเนินการแก้ไข IGMM เขียนโดยเอ็ม Mandel

p(c|θ)p(c)p(c,θ)

(4) DP-GMM พร้อมการอนุมานแบบ Variatonal :

ฉันเคยเห็นแล้วว่าห้องสมุดบางแห่งใช้การอนุมานแบบแปรผัน ฉันไม่ทราบว่าอนุมาน Variational มาก แต่ฉันเดาว่าคุณไม่มีปัญหาในการระบุตัวตนที่นั่น อย่างไรก็ตามฉันต้องการติดกับวิธีการ MCMC (ถ้าเป็นไปได้)

การอ้างอิงใด ๆ จะเป็นประโยชน์


p(c)

p(c)

ว่าเกิดจากการออกแบบ ที่จริงแล้วมันเกินกว่า MCMC: มันเป็นคุณสมบัติในตัวของแบบจำลอง Bayesian ใด ๆ ถ้ามีอะไรก็ตามคุณกำลังประสบปัญหาเพราะคุณกำลังพยายามทำสิ่งที่ผิดธรรมชาติสิ่งที่เราหมกมุ่นอยู่กับการทำ: การยัดเยียดการประเมินแบบกระจายออกเป็นจุดประมาณ
shadowtalker

มีเหตุผลที่ไม่ต้องการทำอะไรแบบนี้ในตอนแรก - มีความรู้สึกต่าง ๆ ที่แบบจำลองกระบวนการผสม Dirichlet ไม่สามารถประมาณจำนวนกลุ่มได้อย่างสม่ำเสมอ (และดังนั้นจึงไม่สามารถกู้คืน " การจัดกลุ่มข้อมูล "จริง") มีบทความล่าสุดที่ NIPS ในหัวข้อนี้
คนที่แต่งตัวประหลาด

1
ดูที่นี่ ฉันคิดว่าพวกเขาเสนอให้นำ Poisson มาแทนจำนวนส่วนประกอบ (และหากระบวนการร้านอาหารเพื่อนำไปใช้) แต่ฉันไม่แน่ใจว่านี่เป็นกระดาษที่พวกเขาทำหรือไม่
คนที่แต่งตัวประหลาด

คำตอบ:


1

cp(c,θ)p(c,θ)p(c|θ)ไม่นั่นคือเหตุผลหนึ่งที่เป็นสัดส่วนกับอีก

เหตุผลที่ฉันพูดคำตอบนี้คือ "ไม่แน่นอน" คือฉันไม่แน่ใจว่าการกำหนดค่าเป็น "พารามิเตอร์" เป็นเพียงเรื่องของความหมายหรือถ้ามีคำจำกัดความด้านเทคนิค / เชิงทฤษฎีมากกว่าหนึ่งในผู้ใช้ระดับปริญญาเอก ที่นี่จะสามารถอธิบายได้


p(c,θ)=p(c|θ)p(θ)p(c)

@berberto อีกครั้งซึ่งไม่เกี่ยวข้องกับรูปแบบนี้และทุกอย่างที่เกี่ยวข้องกับสถิติแบบเบย์ ดูที่นี่: groups.google.com/forum/m/#!topic/stan-users/qH-2Mq219gs และหากคุณกังวลเกี่ยวกับหลาย ๆ โหมดดูที่นี่: groups.google.com/forum/m/#topic/stan-users/RsVo9NUn0yMและที่นี่: stats.stackexchange.com/q/3328/36229
shadowtalker

1

ฉันแค่ต้องการแบ่งปันทรัพยากรบางอย่างในหัวข้อโดยหวังว่าบางคนอาจมีประโยชน์ในการตอบคำถามนี้ มีบทเรียนมากมายบนมีกระบวนการ Dirichlet (DP)รวมทั้งบางส่วนเกี่ยวกับการใช้ DP สำหรับการจัดกลุ่ม พวกเขามีตั้งแต่ "อ่อนโยน" เช่นบทช่วยสอนการนำเสนอนี้ไปจนถึงขั้นสูงขึ้นเช่นบทสอนการนำเสนอนี้ รุ่นหลังเป็นรุ่นปรับปรุงของบทแนะนำเดียวกันที่นำเสนอโดย Yee Whye Teh ที่ MLSS'07 คุณสามารถชมวิดีโอของการพูดคุยว่ามีภาพนิ่งตรงกันที่นี่ เมื่อพูดถึงวิดีโอคุณสามารถดูการพูดคุยที่น่าสนใจและเกี่ยวข้องกับสไลด์ของ Tom Griffith ได้ที่นี่นี่ในส่วนของบทช่วยสอนการจัดรูปแบบกระดาษบทช่วยสอนนี้เป็นวิดีโอที่ได้รับความนิยม

ในที่สุดฉันต้องการแบ่งปันเอกสารที่เกี่ยวข้องสองสามฉบับ บทความเกี่ยวกับ DP แบบลำดับขั้นนี้ดูเหมือนจะมีความสำคัญและเกี่ยวข้อง เช่นเดียวกับบทความนี้โดย Radford Neal หากคุณมีความสนใจในการสร้างแบบจำลองหัวข้อ , แฝงจัดสรร Dirichlet (LDA)มีแนวโน้มมากที่สุดควรจะอยู่ในเรดาร์ของคุณได้เป็นอย่างดี ในกรณีนี้บทความล่าสุดนี้แสดงแนวทางใหม่และปรับปรุง LDA มากขึ้น ในเรื่องโดเมนการสร้างแบบจำลองหัวข้อฉันขอแนะนำให้อ่านรายงานการวิจัยโดย David Blei และผู้ทำงานร่วมกันของเขา บทความนี้เป็นบทความเบื้องต้นส่วนที่เหลือที่คุณสามารถหาได้จากหน้าเอกสารเผยแพร่งานวิจัยของเขา. ฉันตระหนักดีว่าบางส่วนของวัสดุที่ผมเคยแนะนำอาจจะมีพื้นฐานเกินไปสำหรับคุณ แต่ผมคิดว่าโดยรวมถึงทุกอย่างที่ผมวิ่งข้ามในหัวข้อฉันต้องการเพิ่มโอกาสสำหรับคุณที่จะหาคำตอบ


ฉันเข้าใจว่าคุณกำลังพยายามทำอะไรที่นี่ แต่จริงๆแล้วมันไม่ได้ตอบคำถาม
shadowtalker

1
@ssdecontrol: ถ้าคุณเข้าใจสิ่งที่ฉันพยายามทำที่นี่ (ซึ่งช่วยให้ OP ในการค้นพบคำตอบและเรียนรู้สิ่งหนึ่งหรือสอง) แล้วอะไรคือจุดที่คุณแสดงความคิดเห็น ฉันไม่เคยอ้างว่าคำตอบของฉันคือคำตอบ แต่แสดงความหวังว่ามันจะเป็นประโยชน์ซึ่งเป็นที่สุดขึ้นอยู่กับ OP ในการตัดสินใจ หากคุณมีคำตอบที่ดีกว่าฉันแน่ใจว่ามันจะได้รับการชื่นชมจาก OP และชุมชน
Aleksandr Blekh

1
ใช่ฉันเข้าใจโดยสิ้นเชิง นั่นเป็นสิ่งที่ฉันทำที่นี่เช่นกัน แต่คำถามนั้นถามเกี่ยวกับวิธีที่ถูกต้องในการเลือกเลเบลคลัสเตอร์จากผลลัพธ์ MCMC และฉันไม่คิดว่าจะตอบคำถามนี้ได้เลย
shadowtalker

@AleksandrBlekh ฉันจะเห็นด้วยกับ ssdecontrol ว่ามันเป็นเรื่องเล็กน้อยเนื่องจาก OP ดูเหมือนจะรู้ "พื้นฐาน" และถามคำถามเฉพาะ
ทิม

1
@AleksandrBlekh ฉันขอขอบคุณโพสต์ของคุณอย่างน้อยก็เป็นบทสรุปที่ดีสำหรับการแนะนำ DP ฉันรู้พื้นฐาน (ระดับกลางสมมติว่า) แต่อย่างน้อยการอ้างอิงของคุณทำให้ฉันกลับไปที่ LDA และตระหนักว่าพวกเขาเขยิบไปรอบ ๆ ปัญหาเนื่องจากฉลากของพวกเขามักจะไม่เปลี่ยน
alberto
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.