พบวิธีแก้ไข:
ดังนั้นเพื่อย้ำคำถามทำไมMclust
ฟังก์ชั่นเริ่มต้นกับรุ่นที่มีค่า BIC สูงสุดเป็นรุ่น "ดีที่สุด"?
เป็นคำถามที่ดีมาก! ฉันจะให้คำตอบที่ยืดยาวสำหรับคุณ
TL; DR : ค่า BIC เป็นการประมาณค่าแบบรวม (ไม่สูงสุด) และคุณต้องการแบบจำลองที่มีความน่าจะเป็นแบบบูรณาการมากที่สุด (ตัวประกอบแบบเบย์) ดังนั้นคุณจึงเลือกแบบจำลองด้วย BIC ที่ใหญ่ที่สุด
คำตอบที่ยาวนาน : วัตถุประสงค์ของการใช้การจัดกลุ่มแบบจำลองมากกว่าวิธีการจัดกลุ่มแบบอิงตามฮิวริสติกเช่น k-mean และการจัดกลุ่มแบบลำดับชั้น (agglomerative) คือการให้วิธีที่เป็นทางการและเป็นธรรมชาติมากขึ้นในการเปรียบเทียบและเลือกรูปแบบกลุ่มที่เหมาะสมสำหรับข้อมูลของคุณ
Mclust ใช้เทคนิคการจัดกลุ่มตามแบบจำลองความน่าจะเป็นแบบผสมแบบเกาส์เซียน การใช้แบบจำลองความน่าจะเป็นช่วยให้สามารถพัฒนาวิธีการที่ใช้แบบจำลองเพื่อเปรียบเทียบแบบจำลองและขนาดคลัสเตอร์ที่แตกต่างกัน ดูที่ * วิธีการจำแนกประเภทตามรุ่น: การใช้ซอฟต์แวร์ mclust ใน Chemometrics * ( https://www.jstatsoft.org/article/view/v018i06 ) สำหรับรายละเอียดเพิ่มเติม
ดังที่ได้กล่าวไว้ข้างต้นผู้เขียนกล่าวว่ารูปแบบ "ดีที่สุด" เป็นรุ่นที่มีค่า BIC มากที่สุด นี่คืออีกตัวอย่างจากซอฟต์แวร์การวิเคราะห์การจัดกลุ่มตามรุ่นความหนาแน่นและการวิเคราะห์จำแนก: MCLUST ( https://www.stat.washington.edu/raftery/Research/PDF/fraley2003.pdf ):
Baysian Information Criterion หรือ BIC (?) คือมูลค่าของ loglikelihood ที่ขยายใหญ่สุดพร้อมค่าปรับจำนวนพารามิเตอร์ในแบบจำลองและอนุญาตให้เปรียบเทียบแบบจำลองที่มีการกำหนดพารามิเตอร์ที่แตกต่างกันและ / หรือจำนวนกลุ่มที่แตกต่างกัน โดยทั่วไปยิ่งมูลค่าของ BIC มากขึ้นเท่าไหร่หลักฐานก็ยิ่งแข็งแกร่งขึ้นสำหรับโมเดลและจำนวนกลุ่ม (ดูเช่น Fraley และ Raftery 2002a)
การเลือกรูปแบบ : ตอนนี้มีรูปแบบความน่าจะเป็นที่ติดอยู่กับกลุ่มคุณสามารถใช้เครื่องมือที่มีความซับซ้อนมากขึ้นในการเปรียบเทียบหลายรูปแบบคลัสเตอร์โดยใช้การเลือกแบบจำลองแบบเบย์ผ่านตัวประกอบแบบเบย์
ในกระดาษมีกี่กลุ่ม วิธีการจัดกลุ่มใด รู้รอบผ่านการวิเคราะห์กลุ่มแบบอิง ( http://www.stat.washington.edu/raftery/Research/PDF/fraley1998.pdf )
ปัจจัย Bayes คืออัตราเดิมพันหลังสำหรับรุ่นหนึ่งเทียบกับอีกรุ่นหนึ่งโดยสมมติว่าไม่ได้รับการสนับสนุนมาก่อน Banfield and Raftery [2] ใช้การประมาณค่าฮิวริสติกที่ได้จากการประมาณสองเท่าของ log Bayes factor ที่เรียกว่า 'AWE' เพื่อกำหนดจำนวนกลุ่มในการจัดกลุ่มแบบลำดับชั้นตามความน่าจะเป็นของการจัดกลุ่ม เมื่อ EM ถูกใช้เพื่อค้นหาโอกาสในการผสมสูงสุดการประมาณที่เชื่อถือได้มากขึ้นถึงสองเท่าของ Log Bayes factor ที่เรียกว่า BIC (Schwarz [32])
2log(p(x|M))+constant≈2lM(x,θ^)−mmlog(n)≡BIC
โดยที่คือ (รวม) ความน่าจะเป็นของข้อมูลสำหรับโมเดล M,คือ maixmized - บันทึกความเป็นไปได้ของแบบจำลองสำหรับผสมและ m_M คือจำนวนพารามิเตอร์อิสระ ที่จะประเมินในรูปแบบ จำนวนของคลัสเตอร์ไม่ถือเป็นพารามิเตอร์อิสระสำหรับวัตถุประสงค์ในการคำนวณ BIC ถ้าแต่ละรุ่นเป็นอย่างเท่าเทียมกัน likeliแล้วเป็นสัดส่วนกับความน่าจะเป็นหลังว่าข้อมูลที่สอดคล้องกับรูปแบบMดังนั้นยิ่งมูลค่าของ BIC มากเท่าไหร่หลักฐานก็ยิ่งแข็งแกร่งสำหรับโมเดลp(x|M)lM(x,θ^)a priorip(x|M)M
ดังนั้นโดยสรุป BIC ไม่ควรถูกย่อให้เล็กสุด ผู้ที่ใช้วิธีการทำคลัสเตอร์แบบจำลองนี้ควรมองหารูปแบบที่เพิ่ม BIC ให้มากที่สุดเพราะมันใกล้เคียงกับปัจจัยของเบย์ที่มีความเป็นไปได้สูงที่สุด
คำสั่งสุดท้ายนั้นยังมีการอ้างอิง:
Banfield, JD และ Raftery, AE (1993) การรวมกลุ่มแบบเกาส์และไม่ใช่เกาส์เซียน ชีว, 49, 803– 821
แก้ไข : ขึ้นอยู่กับการแลกเปลี่ยนอีเมล
ในฐานะที่เป็นบันทึกด้านข้างให้ตรวจสอบวิธีการกำหนด BIC ทุกครั้ง บางครั้งตัวอย่างเช่นในบริบทการถดถอยส่วนใหญ่ (ซึ่งโดยทั่วไปแล้วสถิติจะถูกย่อให้เล็กสุดสำหรับการประมาณค่าพารามิเตอร์เช่นผลรวมที่เหลือของกำลังสอง, การเบี่ยงเบน ฯลฯ ) BIC จะคำนวณเป็น -2 * loglik + npar * log (n) สิ่งที่ใช้ใน mclust เห็นได้ชัดว่าในกรณีนั้นควรลด BIC
คำจำกัดความทั่วไปของ BIC คือ
; mclust ไม่รวมองค์ประกอบเชิงลบBIC=−2×ln(L(θ|x))+k×ln(n)