Q:วิธีมาตรฐานในการจัดกลุ่มข้อมูลโดยใช้กระบวนการ Dirichlet คืออะไร
เมื่อใช้กลุ่มการสุ่มตัวอย่างของกิ๊บส์จะปรากฏขึ้นและหายไประหว่างการสุ่มตัวอย่าง นอกจากนี้เรามีปัญหาในการระบุตัวตนเนื่องจากการกระจายหลังนั้นไม่แปรเปลี่ยนไปจากการจัดกลุ่มใหม่ ดังนั้นเราไม่สามารถพูดได้ว่าเป็นกลุ่มของผู้ใช้ แต่ที่ผู้ใช้สองคนที่อยู่ในกลุ่มเดียวกัน (นั่นคือ )
เราสามารถสรุปข้อมูลที่ได้รับมอบหมายในชั้นเรียนเพื่อที่ว่าถ้าคือการกำหนดกลุ่มของจุดฉันตอนนี้เราไม่เพียง แต่ที่คฉัน = คเจแต่ที่คฉัน = คJ = คJ = . . = c ?
นี่เป็นทางเลือกที่ฉันพบและทำไมฉันจึงคิดว่าสิ่งเหล่านี้ไม่สมบูรณ์หรือเข้าใจผิด
(1) DP-GMM + การสุ่มตัวอย่าง Gibbs + เมทริกซ์ความสับสนตามคู่
หากต้องการใช้แบบจำลองส่วนผสมของกระบวนการ Dirichlet แบบเกาส์ (DP-GMM) สำหรับการจัดกลุ่มฉันได้นำบทความนี้ไปใช้โดยผู้เขียนเสนอ DP-GMM สำหรับการประเมินความหนาแน่นโดยใช้การสุ่มตัวอย่างแบบกิ๊บส์
เพื่อสำรวจประสิทธิภาพการจัดกลุ่มพวกเขาพูดว่า:
เนื่องจากจำนวนของส่วนประกอบเปลี่ยนแปลงไปตลอดห่วงโซ่ [MCMC] เราจะต้องสร้างเมทริกซ์ความสับสนซึ่งแสดงความถี่ของคู่ข้อมูลแต่ละคู่ที่ได้รับมอบหมายให้เป็นองค์ประกอบเดียวกันสำหรับทั้งห่วงโซ่ดูรูปที่ 6
ข้อด้อย : นี่ไม่ใช่การจัดกลุ่มแบบ "สมบูรณ์" จริง แต่เป็นการทำคลัสเตอร์แบบคู่ที่ชาญฉลาด รูปดูดีมากเพราะเรารู้ว่ากลุ่มจริงและจัดเมทริกซ์ตามนั้น
(2) DP-GMM + ตัวอย่างกิ๊บส์ + ตัวอย่างจนกว่าจะไม่มีอะไรเปลี่ยนแปลง
ฉันค้นหามาแล้วและพบว่ามีบางคนอ้างว่าทำการจัดกลุ่มตามกระบวนการ Dirichlet โดยใช้ตัวอย่าง Gibbs ตัวอย่างเช่นโพสต์นี้พิจารณาว่าเชนมาบรรจบกันเมื่อไม่มีการเปลี่ยนแปลงอีกต่อไปไม่ว่าจะเป็นจำนวนกลุ่มหรือตามวิธีการดังนั้นจึงได้บทสรุปจากที่นั่น
จุดด้อย : ฉันไม่แน่ใจว่าได้รับอนุญาตตั้งแต่ถ้าฉันไม่ผิด:
(a) อาจมีการสลับฉลากระหว่าง MCMC
(b) แม้ในการกระจายแบบคงที่ตัวอย่างสามารถสร้างบางกลุ่มได้ตลอดเวลา
(3) DP-GMM + การสุ่มตัวอย่าง Gibbs + เลือกตัวอย่างด้วยพาร์ติชันที่น่าจะเป็นไปได้มากที่สุด
ในบทความนี้ผู้เขียนพูดว่า:
หลังจากช่วงเวลา“ เผาไหม้” ตัวอย่างที่ไม่เอนเอียงจากการกระจายหลังของ IGMM สามารถดึงมาจากตัวอย่าง Gibbs ฮาร์ดคลัสเตอร์สามารถพบได้โดยการวาดตัวอย่างจำนวนมากและใช้ตัวอย่างที่มีความน่าจะเป็นร่วมสูงสุดของตัวแปรตัวบ่งชี้คลาส เราใช้การดำเนินการแก้ไข IGMM เขียนโดยเอ็ม Mandel
(4) DP-GMM พร้อมการอนุมานแบบ Variatonal :
ฉันเคยเห็นแล้วว่าห้องสมุดบางแห่งใช้การอนุมานแบบแปรผัน ฉันไม่ทราบว่าอนุมาน Variational มาก แต่ฉันเดาว่าคุณไม่มีปัญหาในการระบุตัวตนที่นั่น อย่างไรก็ตามฉันต้องการติดกับวิธีการ MCMC (ถ้าเป็นไปได้)
การอ้างอิงใด ๆ จะเป็นประโยชน์