เหตุใดการเพิ่มประสิทธิภาพส่วนผสมของเสียนโดยตรงแบบคำนวณได้ยาก?


18

พิจารณาความน่าจะเป็นบันทึกของส่วนผสมของ Gaussians:

l(Sn;θ)=t=1nlogf(x(t)|θ)=t=1nlog{i=1kpif(x(t)|μ(i),σi2)}

ฉันสงสัยว่าทำไมมันจึงยากที่จะคำนวณสมการนั้นโดยตรง ฉันกำลังมองหาปรีชาญาณที่ชัดเจนว่าทำไมมันควรจะชัดเจนว่ามันยากหรืออาจเป็นคำอธิบายที่เข้มงวดมากขึ้นว่าทำไมมันยาก ปัญหานี้เป็นปัญหาที่สมบูรณ์หรือไม่หรือเราไม่ทราบวิธีการแก้ปัญหาหรือไม่ นี่คือเหตุผลที่เราใช้อัลกอริทึมEM (การคาดหวังสูงสุด ) หรือไม่


โน้ต:

Sn = ข้อมูลการฝึกอบรม

x(t) = จุดข้อมูล

θ = ชุดของพารามิเตอร์ที่ระบุ Gaussian, ค่าเฉลี่ย, ค่าเบี่ยงเบนมาตรฐานและความน่าจะเป็นในการสร้างจุดจากแต่ละคลัสเตอร์ / คลาส / Gaussian

pi = ความน่าจะเป็นในการสร้างจุดจากคลัสเตอร์ / คลาส / Gaussian i

คำตอบ:


14

ขั้นแรก GMM เป็นอัลกอริทึมเฉพาะสำหรับการทำคลัสเตอร์ซึ่งคุณพยายามค้นหาการทำป้ายกำกับที่ดีที่สุดสำหรับการสังเกตของคุณ มีkเรียนเป็นไปได้ก็หมายความว่ามีk n labellings เป็นไปได้ของข้อมูลการฝึกอบรมของคุณ นี้จะกลายเป็นใหญ่แล้วสำหรับค่าปานกลางของkและnnkknkn

ประการที่สองฟังก์ชั่นที่คุณพยายามลดให้น้อยที่สุดนั้นไม่ได้นูนออกมาและเมื่อรวมกับขนาดของปัญหาทำให้ยากมาก ฉันรู้แค่ว่า k-mean (สามารถมองเห็น GMM ในรูปแบบ kmeans ที่นุ่มนวล) นั้นเป็น NP-hard แต่ฉันไม่ทราบว่ามันได้รับการพิสูจน์แล้วสำหรับ GMM เช่นกัน

หากต้องการดูว่าปัญหาไม่ได้นูนออกมาให้พิจารณากรณีหนึ่งมิติ: และตรวจสอบว่าคุณไม่สามารถรับประกันได้ว่าd 2 L

L=log(e(x/σ1)2+e(x/σ2)2)
สำหรับทุก xd2Ldx2>0

มีปัญหาแบบไม่นูนหมายความว่าคุณสามารถติดอยู่ในท้องถิ่นน้อยที่สุด โดยทั่วไปคุณไม่ได้รับการรับประกันที่แข็งแกร่งในการเพิ่มประสิทธิภาพของนูนและการค้นหาวิธีแก้ไขก็ยากกว่าเช่นกัน


3
เกี่ยวกับจุดที่สอง: k- หมายถึงสามารถดูเป็นกรณีพิเศษของ GMMs (แม่นยำยิ่งขึ้นกรณีที่ จำกัด ที่ความแปรปรวนจะถูกนำไปเป็นศูนย์) หากเราสามารถลดค่า k-mean ให้เหมาะสมกับ GMM ได้ปัญหาหลังนี้ก็ต้องเป็นปัญหาที่ยากเช่นกัน
ลูคัส

1
@ Lucas: นี่คือลิงค์ Cross Validatedเพื่อพูดของคุณ
ซีอาน

7

นอกจากประเด็นของ juampa แล้วให้ฉันส่งสัญญาณความยากลำบากเหล่านั้น:

  • ฟังก์ชั่นคือมากมายดังนั้นสูงสุดที่แท้จริงคือ+ และสอดคล้องกับการμ ( ฉัน) = x 1 (ตัวอย่างเช่น) และσฉัน = 0 maximiser ที่แท้จริงควรจบด้วยโซลูชันนี้ซึ่งไม่มีประโยชน์สำหรับการประเมินl(θ|Sn)+μ^(i)=x1σ^i=0
  • แม้ว่าจะไม่ได้พิจารณาข้อตกลงในการสลายตัวของผลรวมเป็นผลรวมของผลิตภัณฑ์ในl ( θ | S n )ฟังก์ชันที่จะขยายใหญ่สุดในθนั้นมีหลายโมดอลสูง (นอกเหนือจากการไม่นูน) ดังนั้นความท้าทายสำหรับวิธีการเชิงตัวเลข EM ยอมรับความยากลำบากโดยการแปลงเป็นโหมดโลคัลหรือจุดอานและต้องการการวิ่งหลายครั้ง ตามที่ปรากฏในknl(θ|Sn)θthe image below

นำมาจากหนังสือของฉัน

ข้อสังเกตเพิ่มเติม: หากไม่เรียกใช้อัลกอริธึม EM อาจใช้อัลกอริธึมการปรับให้เหมาะสมแบบมาตรฐาน (เช่น Newton-Raphson) ทีละพารามิเตอร์นั่นคือวนซ้ำ

  • θ1=argmaxθ1l(θ|Sn)
  • θ2=argmaxθ2l(θ1,θ1|Sn)
  • ...
  • θv=argmaxθvl(θv,θv|Sn)

vl(θ|Sn)


ตกลง L ไม่ได้ จำกัด หากความแปรปรวนเป็น 0 แต่ถ้าเราแยกพารามิเตอร์เหล่านั้นออกจากพารามิเตอร์ที่เป็นไปได้ (ดังนั้นเราจึงถือว่าความแปรปรวนทั้งหมด> 0) ดังนั้น L จะไม่สูงมากเมื่อใดก็ตามที่ความแปรปรวนที่เลือกน้อยที่สุด (เพราะประเด็นอื่น ๆ ) ฉันถูกไหม? จากนั้นสำหรับชุดพารามิเตอร์ที่เป็นไปได้นี้ L จะถูก จำกัด ขอบเขตและนี่จะบอกเป็นนัยว่าอัลกอริทึม EM มาบรรจบกัน (เพิ่มลำดับที่ถูกล้อมรอบ)
ahstat

@ahstat: สมมติว่าความแปรปรวนเป็นไปในเชิงบวกอย่างเคร่งครัดไม่ได้ป้องกัน EM ให้เข้าหาการแก้ปัญหาที่เลวร้ายถ้าเริ่มใกล้พอ
ซีอาน
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.