ทำไมอัลกอริธึมการเพิ่มความคาดหวังสูงสุดจึงถูกใช้


22

จากสิ่งเล็ก ๆ น้อย ๆ ที่ฉันรู้ว่าอัลกอริทึม EM สามารถใช้เพื่อค้นหาโอกาสสูงสุดเมื่อตั้งค่าเป็นศูนย์ของอนุพันธ์บางส่วนที่เกี่ยวข้องกับพารามิเตอร์ของโอกาสที่จะให้ชุดของสมการที่ไม่สามารถแก้ไขได้วิเคราะห์ แต่จำเป็นต้องใช้อัลกอริทึม EM แทนการใช้เทคนิคเชิงตัวเลขเพื่อค้นหาโอกาสสูงสุดด้วยความเคารพต่อข้อ จำกัด ของชุดสมการที่กล่าวถึง

คำตอบ:


20

คำถามนั้นถูกต้องและฉันก็สับสนเหมือนกันเมื่อฉันเรียนรู้อัลกอริทึม EM เป็นครั้งแรก

โดยทั่วไปแล้วอัลกอริทึม EM จะกำหนดกระบวนการวนซ้ำที่อนุญาตให้ฟังก์ชันความน่าจะเป็นสูงสุดของแบบจำลองพารามิเตอร์ในกรณีที่ตัวแปรบางตัวของแบบจำลองนั้น (หรือถูกปฏิบัติเหมือน) "แฝง" หรือไม่ทราบ

ในทางทฤษฎีเพื่อจุดประสงค์เดียวกันคุณสามารถใช้อัลกอริธึมการย่อขนาดเพื่อหาตัวเลขสูงสุดของฟังก์ชันความน่าจะเป็นสำหรับพารามิเตอร์ทั้งหมด อย่างไรก็ตามในสถานการณ์จริงการย่อขนาดนี้จะเป็น:

  1. เข้มข้นมากขึ้นคำนวณ
  2. แข็งแกร่งน้อยกว่า

การใช้งานทั่วไปของวิธี EM นั้นเหมาะสมกับตัวแบบผสม ในกรณีนี้พิจารณาตัวแปรที่กำหนดตัวอย่างแต่ละตัวอย่างให้กับหนึ่งในองค์ประกอบเป็นตัวแปร "แฝง" ปัญหาจะง่ายขึ้นอย่างมาก

ให้ดูตัวอย่าง เรามีตัวอย่าง N จำนวนดึงมาจากส่วนผสมของการแจกแจงปกติ 2 ครั้ง ในการค้นหาพารามิเตอร์ที่ไม่มี EM เราควรย่อ:s={sผม}

-เข้าสู่ระบบL(x,θ)=-เข้าสู่ระบบ[a1ประสบการณ์((x-μ1)22σ12)+a2ประสบการณ์((x-μ2)22σ22)]

ในทางตรงกันข้ามการใช้อัลกอริทึม EM อันดับแรกเรา "กำหนด" แต่ละตัวอย่างให้กับองค์ประกอบ ( ขั้นตอน E ) แล้วพอดี (หรือเพิ่มโอกาสของ) แต่ละองค์ประกอบแยกกัน ( ขั้นตอน M ) ในตัวอย่างนี้ขั้นตอน Mเป็นเพียงค่าเฉลี่ยถ่วงน้ำหนักในการค้นหาและ\iterating กว่าทั้งสองขั้นตอนเป็นวิธีที่ง่ายและมีประสิทธิภาพมากขึ้นในการลดtheta)σ k - บันทึกL ( x , θ )μkσk-เข้าสู่ระบบL(x,θ)


12

ไม่จำเป็นต้องใช้ EM แทนการใช้เทคนิคเชิงตัวเลขเนื่องจาก EM เป็นวิธีการเชิงตัวเลขเช่นกัน ดังนั้นจึงไม่ใช่สิ่งทดแทนนิวตัน - ราฟสัน EM สำหรับกรณีเฉพาะเมื่อคุณไม่มีค่าในเมทริกซ์ข้อมูลของคุณ พิจารณาตัวอย่างซึ่งมีเงื่อนไขความหนาแน่นtheta) จากนั้นความเป็นไปได้ของบันทึกคือ สมมติว่าคุณไม่มีชุดข้อมูลที่สมบูรณ์ซึ่งประกอบไปด้วยข้อมูลที่สังเกตได้และหายไป (หรือแฝง) ตัวแปรเช่นว่าZ) จากนั้นความน่าจะเป็นบันทึกสำหรับข้อมูลที่สังเกตได้คือ X | Θ ( x | θ ) l ( θ ; X ) = l o g f X | Θ ( X | θ ) X Y Z X = ( Y , Z ) l o b s ( θ , Y ) =X=(X1,...,Xn)X|Θ(x|θ)

ล.(θ;X)=ล.โอก.X|Θ(X|θ)
XYZX=(Y,Z)
ล.โอs(θ,Y)=ล.โอก.X|Θ(Y,Z|θ)νZ(dZ)
โดยทั่วไปคุณไม่สามารถคำนวณอินทิกรัลนี้ได้โดยตรงและคุณจะไม่ได้รับ วิธีการแก้ปัญหาปิดแบบฟอร์มสำหรับY) เพื่อจุดประสงค์นี้คุณใช้วิธีการ EM มีสองขั้นตอนที่มีการซ้ำสำหรับการมีครั้ง ในขั้นตอนนี้ขั้นตอนเหล่านี้เป็นขั้นตอนการคาดหวังที่คุณคำนวณ โดยที่เป็นค่าประมาณของในขั้นตอนจากนั้นคำนวณขั้นตอนการขยายสูงสุดที่คุณเพิ่มด้วยความเคารพและ setล.โอs(θ,Y)ผม(ผม+1)เสื้อชั่วโมง
Q(θ|θ(ผม))=Eθ(ผม)[ล.(θ;X|Y]
θ(ผม)Θผมเสื้อชั่วโมงQ(θ|θ(ผม))θθ(ผม+1)=ม.axQ(θ|θผม){i}) จากนั้นทำซ้ำขั้นตอนเหล่านี้จนกว่าวิธีการจะรวมเข้ากับค่าบางอย่างซึ่งจะเป็นค่าประมาณ

หากคุณต้องการข้อมูลเพิ่มเติมเกี่ยวกับวิธีการนั้นคุณสมบัติการพิสูจน์หรือแอพพลิเคชั่นให้ดูที่บทความWiki ที่เกี่ยวข้อง


1
+1 ... EM ไม่เพียง แต่สำหรับค่าที่หายไปเท่านั้น
Glen_b -Reinstate Monica

@Andy: แม้ว่าการพิจารณากรณีของข้อมูลที่หายไปฉันยังไม่เข้าใจว่าทำไมใช้วิธีการเชิงตัวเลขทั่วไปเพื่อหาจุดที่อนุพันธ์บางส่วนเป็นศูนย์ไม่ทำงาน
user782220

ขอบคุณเกลนฉันรู้แค่ว่าในบริบทของค่า / ตัวแปรแฝงที่หายไป @ user782220: เมื่อคุณไม่สามารถแก้ปัญหาแบบปิดของอนุพันธ์โอกาสในการบันทึกการตั้งค่าอนุพันธ์เท่ากับศูนย์จะไม่ระบุพารามิเตอร์ของคุณ นี่คือเหตุผลที่คุณใช้วิธีการเชิงตัวเลขในกรณีนี้ สำหรับคำอธิบายและตัวอย่างดูการบรรยายที่นี่: people.stat.sfu.ca/~raltman/stat402/402L5.pdf
Andy

1

EMถูกนำมาใช้เพราะมักจะเป็นไปไม่ได้หรือเป็นไปไม่ได้ที่จะคำนวณพารามิเตอร์ของแบบจำลองโดยตรงที่เพิ่มความน่าจะเป็นของชุดข้อมูลที่ได้รับจากโมเดล

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.