การเลือกรูปแบบ Mclust


11

แพ็คเกจ R mclustใช้ BIC เป็นเกณฑ์สำหรับการเลือกรูปแบบคลัสเตอร์ จากความเข้าใจของฉันควรเลือกรุ่นที่มี BIC ต่ำที่สุดเหนือรุ่นอื่น ๆ (ถ้าคุณสนใจเฉพาะ BIC เท่านั้น) อย่างไรก็ตามเมื่อค่า BIC เป็นลบทั้งหมดMclustฟังก์ชันจะใช้ค่าเริ่มต้นเป็นแบบจำลองที่มีค่า BIC สูงสุด เข้าใจโดยรวมของฉันจากการทดลองต่างๆที่mclustระบุ "ดีที่สุด" รุ่นที่เป็นผู้ที่มี\}max{BICi}

ฉันพยายามที่จะเข้าใจว่าทำไมผู้เขียนตัดสินใจนี้ มันแสดงให้เห็นในเว็บไซต์ CRAN: https://cran.r-project.org/web/packages/mclust/vignettes/mclust.html

นอกจากนี้ผู้เขียนของmclustบรรจุภัณฑ์ยังจดบันทึกสิ่งนี้ไว้ในวิธีการจำแนกประเภทแบบจำลองโดยใช้กระดาษ: การใช้ซอฟต์แวร์ mclust ในเคมีประยุกต์ในหน้า 5

โมเดล 'ที่ดีที่สุด' นั้นถูกนำมาใช้เป็นรุ่นที่มี BIC สูงที่สุดในบรรดารุ่นที่ติดตั้งไว้

ทุกคนสามารถเปล่งแสงในปัญหานี้ได้หรือไม่? ถ้า BIC ที่ต่ำกว่าดีกว่าอยู่เสมอทำไมผู้เขียนถึงไม่เลือกรุ่นที่มี BIC ต่ำสุด แต่แทนที่จะเป็นรุ่นที่มี BIC ที่เล็กที่สุด? ถ้าเป็นไปได้ให้อ้างอิง

คำตอบ:


10

พบวิธีแก้ไข:

ดังนั้นเพื่อย้ำคำถามทำไมMclustฟังก์ชั่นเริ่มต้นกับรุ่นที่มีค่า BIC สูงสุดเป็นรุ่น "ดีที่สุด"?

เป็นคำถามที่ดีมาก! ฉันจะให้คำตอบที่ยืดยาวสำหรับคุณ

TL; DR : ค่า BIC เป็นการประมาณค่าแบบรวม (ไม่สูงสุด) และคุณต้องการแบบจำลองที่มีความน่าจะเป็นแบบบูรณาการมากที่สุด (ตัวประกอบแบบเบย์) ดังนั้นคุณจึงเลือกแบบจำลองด้วย BIC ที่ใหญ่ที่สุด

คำตอบที่ยาวนาน : วัตถุประสงค์ของการใช้การจัดกลุ่มแบบจำลองมากกว่าวิธีการจัดกลุ่มแบบอิงตามฮิวริสติกเช่น k-mean และการจัดกลุ่มแบบลำดับชั้น (agglomerative) คือการให้วิธีที่เป็นทางการและเป็นธรรมชาติมากขึ้นในการเปรียบเทียบและเลือกรูปแบบกลุ่มที่เหมาะสมสำหรับข้อมูลของคุณ

Mclust ใช้เทคนิคการจัดกลุ่มตามแบบจำลองความน่าจะเป็นแบบผสมแบบเกาส์เซียน การใช้แบบจำลองความน่าจะเป็นช่วยให้สามารถพัฒนาวิธีการที่ใช้แบบจำลองเพื่อเปรียบเทียบแบบจำลองและขนาดคลัสเตอร์ที่แตกต่างกัน ดูที่ * วิธีการจำแนกประเภทตามรุ่น: การใช้ซอฟต์แวร์ mclust ใน Chemometrics * ( https://www.jstatsoft.org/article/view/v018i06 ) สำหรับรายละเอียดเพิ่มเติม

ดังที่ได้กล่าวไว้ข้างต้นผู้เขียนกล่าวว่ารูปแบบ "ดีที่สุด" เป็นรุ่นที่มีค่า BIC มากที่สุด นี่คืออีกตัวอย่างจากซอฟต์แวร์การวิเคราะห์การจัดกลุ่มตามรุ่นความหนาแน่นและการวิเคราะห์จำแนก: MCLUST ( https://www.stat.washington.edu/raftery/Research/PDF/fraley2003.pdf ):

Baysian Information Criterion หรือ BIC (?) คือมูลค่าของ loglikelihood ที่ขยายใหญ่สุดพร้อมค่าปรับจำนวนพารามิเตอร์ในแบบจำลองและอนุญาตให้เปรียบเทียบแบบจำลองที่มีการกำหนดพารามิเตอร์ที่แตกต่างกันและ / หรือจำนวนกลุ่มที่แตกต่างกัน โดยทั่วไปยิ่งมูลค่าของ BIC มากขึ้นเท่าไหร่หลักฐานก็ยิ่งแข็งแกร่งขึ้นสำหรับโมเดลและจำนวนกลุ่ม (ดูเช่น Fraley และ Raftery 2002a)

การเลือกรูปแบบ : ตอนนี้มีรูปแบบความน่าจะเป็นที่ติดอยู่กับกลุ่มคุณสามารถใช้เครื่องมือที่มีความซับซ้อนมากขึ้นในการเปรียบเทียบหลายรูปแบบคลัสเตอร์โดยใช้การเลือกแบบจำลองแบบเบย์ผ่านตัวประกอบแบบเบย์

ในกระดาษมีกี่กลุ่ม วิธีการจัดกลุ่มใด รู้รอบผ่านการวิเคราะห์กลุ่มแบบอิง ( http://www.stat.washington.edu/raftery/Research/PDF/fraley1998.pdf )

ปัจจัย Bayes คืออัตราเดิมพันหลังสำหรับรุ่นหนึ่งเทียบกับอีกรุ่นหนึ่งโดยสมมติว่าไม่ได้รับการสนับสนุนมาก่อน Banfield and Raftery [2] ใช้การประมาณค่าฮิวริสติกที่ได้จากการประมาณสองเท่าของ log Bayes factor ที่เรียกว่า 'AWE' เพื่อกำหนดจำนวนกลุ่มในการจัดกลุ่มแบบลำดับชั้นตามความน่าจะเป็นของการจัดกลุ่ม เมื่อ EM ถูกใช้เพื่อค้นหาโอกาสในการผสมสูงสุดการประมาณที่เชื่อถือได้มากขึ้นถึงสองเท่าของ Log Bayes factor ที่เรียกว่า BIC (Schwarz [32])

2log(p(x|M))+constant2lM(x,θ^)mmlog(n)BIC

โดยที่คือ (รวม) ความน่าจะเป็นของข้อมูลสำหรับโมเดล M,คือ maixmized - บันทึกความเป็นไปได้ของแบบจำลองสำหรับผสมและ m_M คือจำนวนพารามิเตอร์อิสระ ที่จะประเมินในรูปแบบ จำนวนของคลัสเตอร์ไม่ถือเป็นพารามิเตอร์อิสระสำหรับวัตถุประสงค์ในการคำนวณ BIC ถ้าแต่ละรุ่นเป็นอย่างเท่าเทียมกัน likeliแล้วเป็นสัดส่วนกับความน่าจะเป็นหลังว่าข้อมูลที่สอดคล้องกับรูปแบบMดังนั้นยิ่งมูลค่าของ BIC มากเท่าไหร่หลักฐานก็ยิ่งแข็งแกร่งสำหรับโมเดลp(x|M)lM(x,θ^)a priorip(x|M)M

ดังนั้นโดยสรุป BIC ไม่ควรถูกย่อให้เล็กสุด ผู้ที่ใช้วิธีการทำคลัสเตอร์แบบจำลองนี้ควรมองหารูปแบบที่เพิ่ม BIC ให้มากที่สุดเพราะมันใกล้เคียงกับปัจจัยของเบย์ที่มีความเป็นไปได้สูงที่สุด

คำสั่งสุดท้ายนั้นยังมีการอ้างอิง:

Banfield, JD และ Raftery, AE (1993) การรวมกลุ่มแบบเกาส์และไม่ใช่เกาส์เซียน ชีว, 49, 803– 821

แก้ไข : ขึ้นอยู่กับการแลกเปลี่ยนอีเมล

ในฐานะที่เป็นบันทึกด้านข้างให้ตรวจสอบวิธีการกำหนด BIC ทุกครั้ง บางครั้งตัวอย่างเช่นในบริบทการถดถอยส่วนใหญ่ (ซึ่งโดยทั่วไปแล้วสถิติจะถูกย่อให้เล็กสุดสำหรับการประมาณค่าพารามิเตอร์เช่นผลรวมที่เหลือของกำลังสอง, การเบี่ยงเบน ฯลฯ ) BIC จะคำนวณเป็น -2 * loglik + npar * log (n) สิ่งที่ใช้ใน mclust เห็นได้ชัดว่าในกรณีนั้นควรลด BIC

คำจำกัดความทั่วไปของ BIC คือ ; mclust ไม่รวมองค์ประกอบเชิงลบBIC=2×ln(L(θ|x))+k×ln(n)


1
ไม่แน่ใจว่า Mclust รุ่นใดที่การตอบกลับอีเมลนี้เกี่ยวข้องกับ Mclust เวอร์ชัน 4 ใช้องค์ประกอบเชิงลบของ BIC ดังนั้นจึงควรขยายให้ใหญ่สุด หวังว่ามันอาจจะมีประโยชน์สำหรับคนที่พยายามจะหาว่าควรจะทำขนาดเล็กสุด
Rasika

ขอบคุณสำหรับการชี้ให้เห็นว่าฉันจะปรับปรุงคำถามนี้เพื่อให้เหมาะสม ฉันอาจดูเอกสารประกอบเพื่อดูว่ามีเหตุผลที่พวกเขาตัดสินใจที่จะทำการเปลี่ยนแปลงนี้หลังจากหลายปี
Jon
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.