ระยะทางระหว่างสองแบบเกาส์นผสมเพื่อประเมินโซลูชันคลัสเตอร์


11

ฉันใช้การจำลองอย่างรวดเร็วเพื่อเปรียบเทียบวิธีการจัดกลุ่มที่แตกต่างกันและในปัจจุบันมีอุปสรรคพยายามประเมินโซลูชั่นคลัสเตอร์

ฉันรู้เกี่ยวกับการตรวจสอบความถูกต้องหลายอย่าง (จำนวนมากที่พบในcluster.stats ()ใน R) แต่ฉันคิดว่าสิ่งเหล่านี้จะถูกใช้ดีที่สุดถ้าจำนวนกลุ่มโดยประมาณจริงเท่ากับจำนวนจริงของกลุ่ม ฉันต้องการรักษาความสามารถในการวัดประสิทธิภาพของวิธีการแก้ปัญหาการจัดกลุ่มเมื่อไม่ได้ระบุจำนวนที่ถูกต้องของกลุ่มในการจำลองแบบดั้งเดิม (เช่นการจำลองข้อมูลวิธีการแก้ปัญหาของกลุ่มที่สามที่จำลองเป็น 4 กลุ่ม สารละลาย). สำหรับข้อมูลของคุณกลุ่มจะถูกจำลองเพื่อให้มีเมทริกซ์ความแปรปรวนร่วมเหมือนกัน

ฉันคิดว่า KL แตกต่างระหว่างสองส่วนผสมของ Gaussians จะเป็นประโยชน์ในการใช้ แต่ไม่มีวิธีแก้ปัญหาแบบปิด ( Hershey และ Olson (2007) ) และการใช้แบบจำลอง Monte Carlo เริ่มมีราคาแพง

มีวิธีแก้ไขปัญหาอื่น ๆ ที่อาจใช้งานง่าย (แม้ว่าจะเป็นเพียงการประมาณ)?


ระยะทาง L2 ระหว่างสองแบบเกาส์เซียนนั้นมีให้ในรูปแบบปิด ใช้สิ่งนี้และคุณควรจะตั้งค่าทั้งหมด

ฉันไม่รู้ว่าคุณจะทำอย่างไร แต่มันฟังดูไม่ดีสำหรับฉัน ผสมส่วนผสมเปลี่ยนชิ้นส่วน (ไม่เปลี่ยนเป็น p (x)) และระยะทาง L2 สามารถเป็นอะไรก็ได้ นอกจากนี้ระยะทาง L2 ไม่ใช่ความคิดที่ดีสำหรับเมทริกซ์ความแปรปรวนร่วม
bayerj

ความน่าจะเป็นแบบทำนายหลังของชุดข้อมูลการทดสอบที่จัดขึ้น ฉันสงสัยว่าคุณต้องการนักบวชใน k
คาดเดา

ลิงก์แรกใช้งานไม่ได้
ttnphns

คำตอบ:


6

สมมติว่าเรามีส่วนผสมของเสียนสองใน : เรียกความหนาแน่นของและตามลำดับและแสดงความหนาแน่นขององค์ประกอบ ,โดย ,S_j)Rd

P=i=1nαiPi=i=1nαiN(μi,Σi)Q=j=1mβjQj=j=1mN(mj,Sj).
p()q()PiQjpi(x)=N(x;μi,Σi)qj(x)=N(x;mj,Sj)

ระยะทางต่อไปนี้ให้บริการในรูปแบบปิด:

  • L2ระยะทางตามที่แนะนำในความคิดเห็นโดยผู้ใช้ 39665 นี่คือ: โปรดสังเกตว่าดังตัวอย่างในหัวข้อ 8.1.8 ของตำราอาหารเมทริกซ์ : เพื่อให้สามารถประเมินได้อย่างง่ายๆในเวลา

    L2(P,Q)2=(p(x)q(x))2dx=(iαipi(x)jβjqj(x))2dx=i,iαiαipi(x)pi(x)dx+j,jβjβjqj(x)qj(x)dx2i,jαiβjpi(x)qj(x)dx.
    N(x;μ,Σ)N(x;μ,Σ)dx=N(μ;μ,Σ+Σ)
    O(mn)

  • ค่าเฉลี่ยความคลาดเคลื่อนสูงสุด (MMD) ด้วยเคอร์เนล Gaussian RBF นี่เป็นระยะทางที่เยี่ยมยอดซึ่งยังไม่เป็นที่รู้จักในหมู่ชุมชนสถิติที่ต้องใช้คณิตศาสตร์ในการกำหนด

    ให้ กำหนดพื้นที่ฮิลแบร์ตเป็น ทำซ้ำเคอร์เนลพื้นที่ Hilbert สอดคล้องกับ :H}

    k(x,y):=exp(12σ2xy2),
    Hkk(x,y)=φ(x),φ(y)H

    กำหนดแผนที่เฉลี่ยเคอร์เนลเป็น

    K(P,Q)=EXP,YQk(X,Y)=EXPφ(X),EYQφ(Y).

    MMD คือ

    MMD(P,Q)=EXP[φ(X)]EYQ[φ(Y)]=K(P,P)+K(Q,Q)2K(P,Q)=supf:fH1EXPf(X)EYQf(Y).

    สำหรับการผสมของเราและทราบว่า และในทำนองเดียวกันสำหรับและQ)PQ

    K(P,Q)=i,jαiβjK(Pi,Qj)
    K(P,P)K(Q,Q)

    มันกลับกลายเป็นว่าใช้กลอุบายที่คล้ายกันกับนั่นคือคือ L2K(N(μ,Σ),N(μ,Σ))

    (2πσ2)d/2N(μ;μ,Σ+Σ+σ2I).

    ในฐานะชัดเจนว่าสิ่งนี้รวมเป็นระยะทางหลายโดยปกติคุณต้องการใช้แตกต่างกันแต่อย่างใดอย่างหนึ่งตามมาตราส่วนของการเปลี่ยนแปลงข้อมูลσ0L2σ

    แบบฟอร์มปิดยังมีให้สำหรับเมล็ดพหุนามใน MMD ดูk

    Muandet, Fukumizu, Dinuzzo และSchölkopf (2012) เรียนรู้จากการแจกแจงผ่านเครื่องวัดการสนับสนุน ในความก้าวหน้าในระบบประมวลผลข้อมูลประสาท ( รุ่นอย่างเป็นทางการ ) arXiv: 1202.6504

    สำหรับคุณสมบัติที่ดีของระยะทางนี้ให้ดู

    Sriperumbudur, Gretton, Fukumizu, Schölkopfและ Lanckriet (2010) งานแต่งงานของ Hilbert Space และการวัดความน่าจะเป็น วารสารเครื่องการเรียนรู้การวิจัย, 11, 1517-1561 arXiv: 0907.5309

  • กำลังสอง Jensen-Rényi divergence Rényi- Entropy ถูกกำหนดเป็น ข้อ จำกัด ของมันคือคือเอนโทรปีของแชนนอน การเซเรนนีเซเรนนี่คือ ที่หมายถึงการผสมกันระหว่างและQปรากฎว่าเมื่อและเมื่อและมีผสมแบบเกาส์ (เป็นที่นี่) คุณสามารถคำนวณรูปแบบปิดสำหรับ\สิ่งนี้ทำโดยα

    Hα(p)=11αlog(p(x)αdx).
    α1
    JRα(p,q)=Hα(p+q2)Hα(p)+Hα(q)2
    p+q2pqα=2PQJR2

    Wang, Syeda-Mahmood, Vemuri, Beymer และ Rangarajan (2009) Jensen-Renyi Divergence แบบปิดสำหรับส่วนผสมของ Gaussians และการประยุกต์ใช้ในการลงทะเบียนรูปร่างกลุ่มอย่างชาญฉลาด Med Image Comput Comput Assist Interv., 12 (1), 648–655 ( รุ่นสาธารณะฟรี )


0

หากกลุ่มของคุณไม่ใช่ส่วนผสมแบบเกาส์ แต่มีรูปร่างโดยพลการผลลัพธ์ของคุณอาจดีขึ้นมากเมื่อคุณสร้างกลุ่มมากขึ้นแล้วรวมบางกลุ่มอีกครั้งในภายหลัง

ในหลายกรณีหนึ่งคนเลือก k ให้สูงตามอำเภอใจเช่น 1,000 สำหรับชุดข้อมูลขนาดใหญ่ โดยเฉพาะอย่างยิ่งเมื่อคุณไม่ได้สนใจโมเดลจริงๆ แต่ต้องการลดความซับซ้อนของชุดข้อมูลผ่านการหาปริมาณเวกเตอร์


ฉันจำลองกลุ่มที่จะดึงมาจากส่วนผสมแบบเกาส์เซียนดังนั้นฉันคิดว่าสมมติฐานของฉันถูกต้อง เป้าหมายที่นี่ไม่ใช่เพื่อลดความซับซ้อนหรือเกิดขึ้นกับเกณฑ์การตัดสินใจสำหรับการเลือก k แต่เพื่อเปรียบเทียบว่ากลุ่ม k k จำลองข้อมูลได้อย่างไรเมื่อ k ไม่ถูกต้อง ตัวเลือกที่ไม่ถูกต้องบางอย่างอาจเป็นแบบจำลองข้อมูลที่ดีกว่าตัวเลือกอื่น ๆ และฉันพยายามที่จะหาปริมาณของความไม่เหมาะสมนี้ด้วยการคำนวณบางอย่าง (เช่น KL divergence แต่ง่ายต่อการนำไปใช้สำหรับการผสมแบบเกาส์)
dmartin

0

นี่คือลักษณะทั่วไปของ Mahalanobis D to GMMs โดยใช้วิธี Fisher Kernel และเทคนิคอื่น ๆ :

ทิป, Michael E. "ฟังก์ชั่นการวิเคราะห์ระยะไกลของคลัสเตอร์จากแบบจำลองการผสมแบบเกาส์" (1999): 815-820 https://pdfs.semanticscholar.org/08d2/0f55442aeb79edfaaaafa7ad54c513ee1dcb.pdf

ดูเพิ่มเติม: มีระยะของ Mahalanobis หลายรูปแบบหรือไม่?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.