จำนวนส่วนประกอบที่เหมาะสมที่สุดในส่วนผสมของเกาส์เซียน


10

ดังนั้นการได้รับ "ความคิด" ของจำนวนที่ดีที่สุดของกลุ่มใน k- หมายถึงเป็นเอกสารที่ดี ฉันพบบทความเกี่ยวกับการทำเช่นนี้ในการผสมแบบเกาส์ แต่ไม่แน่ใจว่าฉันเชื่อมั่นในมันไม่เข้าใจดีนัก มี ... วิธีที่อ่อนโยนกว่าในการทำเช่นนี้?


4
คุณสามารถอ้างอิงบทความหรืออย่างน้อยเค้าร่างวิธีการที่เสนอ? มันยากที่จะเกิดขึ้นด้วยวิธีการ "อ่อนโยน" การทำเช่นนี้ถ้าเราไม่ทราบพื้นฐาน :)
jbowman

1
Geoff McLachlan และคนอื่น ๆ เขียนหนังสือเกี่ยวกับการแจกแจงแบบผสม ฉันแน่ใจว่าวิธีการเหล่านี้รวมถึงการกำหนดจำนวนขององค์ประกอบในการผสม คุณอาจมองไปที่นั่น ฉันเห็นด้วยกับ jbowman ที่จะช่วยลดความสับสนของคุณได้ดีที่สุดถ้าคุณจะบอกให้เรารู้ว่าคุณสับสนอะไร
Michael R. Chernick

การประมาณจำนวนที่เหมาะสมที่สุดของการผสมแบบเกาส์บนพื้นฐานของการเพิ่ม k-mean สำหรับการจำแนกลำโพง ... เป็นชื่อของมัน, มันสามารถดาวน์โหลดได้ฟรี โดยพื้นฐานแล้วมันจะเพิ่มจำนวนของกลุ่ม 1 จนกว่าคุณจะเห็นว่ามีสองกลุ่มที่ต้องพึ่งพาซึ่งกันและกัน ขอบคุณ!
JEquihua

ทำไมไม่เพียงแค่เลือกจำนวนของส่วนประกอบที่เพิ่มความน่าจะเป็นของการประเมินผลการตรวจสอบข้ามให้ได้มากที่สุด มีราคาแพงในการคำนวณ แต่การตรวจสอบข้ามเป็นเรื่องยากที่จะเอาชนะในกรณีส่วนใหญ่สำหรับการเลือกรูปแบบเว้นแต่จะมีพารามิเตอร์จำนวนมากในการปรับ
Dikran Marsupial

คุณช่วยอธิบายได้เล็กน้อยว่าการประเมินความน่าจะเป็นของการตรวจสอบข้ามคืออะไร? ฉันไม่ทราบแนวคิด ขอบคุณ.
JEquihua

คำตอบ:


5

เพียงแค่ส่วนขยายบางส่วนเพื่อความคิดเห็นของ Dikran Marsupial (การตรวจสอบข้าม) แนวคิดหลักคือการแบ่งข้อมูลของคุณออกเป็นชุดการฝึกอบรมและการตรวจสอบความถูกต้องลองใช้จำนวนส่วนประกอบที่แตกต่างกันและเลือกชุดที่ดีที่สุดโดยพิจารณาจากค่าการฝึกอบรมและค่าความน่าเชื่อถือที่สอดคล้องกัน

โอกาสสำหรับ GMM นั้นเป็นเพียงแค่ พี(x|π,μ,Σ)=ΣKπkยังไม่มีข้อความ(x|μk,Σk) ตามคำนิยามที่ไหน K คือจำนวนขององค์ประกอบ (กลุ่ม) และ π,μ,Σเป็นพารามิเตอร์แบบจำลอง โดยการเปลี่ยนค่าของK คุณสามารถพล็อตโอกาส GMM สำหรับชุดการฝึกอบรมและการตรวจสอบดังต่อไปนี้

ป้อนคำอธิบายรูปภาพที่นี่

ในตัวอย่างนี้ควรเห็นได้ชัดว่าจำนวนส่วนประกอบที่เหมาะสมคือประมาณ 20 มีวิดีโอเกี่ยวกับสิ่งนี้ใน Coursera และเป็นที่ที่ฉันได้ภาพด้านบน


อีกวิธีที่ใช้กันทั่วไปคือเกณฑ์ข้อมูลแบบเบย์ (BIC) :

Bผม=-2เข้าสู่ระบบ(L)+Kเข้าสู่ระบบ(n)
ที่ไหน L เป็นโอกาสที่ K จำนวนพารามิเตอร์และ nจำนวนจุดข้อมูล มันสามารถเข้าใจได้ว่าเป็นการเพิ่มบทลงโทษสำหรับจำนวนพารามิเตอร์ในโอกาสในการบันทึก
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.