การบรรจบกันของอัลกอริทึม EM ที่มีการกระจายตัวแบบผสมไบวาเรีย
ผมมีรูปแบบผสมซึ่งผมต้องการที่จะหาประมาณค่าความน่าจะเป็นสูงสุดของการได้รับชุดของข้อมูลและชุดของข้อมูลบางส่วนที่สังเกตZฉันได้ดำเนินการทั้ง E-ขั้นตอน (คำนวณความคาดหวังของให้และพารามิเตอร์ปัจจุบัน ) และขั้นตอนเอ็มเพื่อลดเชิงลบเข้าสู่ระบบได้รับโอกาสที่คาดว่าจะZxxxzzzzzzxxxθkθk\theta^kzzz ตามที่ฉันได้เข้าใจแล้วโอกาสสูงสุดที่เพิ่มขึ้นสำหรับการทำซ้ำทุกครั้งซึ่งหมายความว่าโอกาสในการลบเชิงลบจะต้องลดลงสำหรับการทำซ้ำทุกครั้งหรือไม่ อย่างไรก็ตามในขณะที่ฉันทำซ้ำอัลกอริทึมไม่ได้สร้างมูลค่าลดลงของความน่าจะเป็นบันทึกเชิงลบ แต่อาจลดลงและเพิ่มขึ้นได้ ตัวอย่างเช่นนี่คือค่าของความน่าจะเป็นบันทึกเชิงลบจนกระทั่งการลู่เข้า: ที่นี่ฉันเข้าใจผิดไหม? นอกจากนี้สำหรับข้อมูลจำลองเมื่อฉันดำเนินการความเป็นส่วนตัวสูงสุดสำหรับตัวแปรแฝงที่แท้จริง (ไม่มีการตรวจสอบ) ฉันมีความใกล้เคียงกับความสมบูรณ์แบบมากแสดงว่าไม่มีข้อผิดพลาดในการเขียนโปรแกรม สำหรับอัลกอริทึม EM นั้นมักจะรวมตัวกันเป็นโซลูชั่นย่อยที่ชัดเจนโดยเฉพาะอย่างยิ่งสำหรับชุดย่อยเฉพาะของพารามิเตอร์ (เช่นสัดส่วนของตัวแปรการจำแนกประเภท) เป็นที่ทราบกันดีว่าอัลกอริทึมอาจมาบรรจบกันเพื่อท้องถิ่นน้อยหรือจุดหยุดนิ่งจะมีการแก้ปัญหาการค้นหาธรรมดาหรือเช่นเดียวกันเพื่อเพิ่มโอกาสในการหาขั้นต่ำทั่วโลก (หรือสูงสุด) สำหรับปัญหานี้โดยเฉพาะฉันเชื่อว่ามีการจำแนกประเภทมิสจำนวนมากเนื่องจากการผสมสองตัวแปรหนึ่งในสองการแจกแจงใช้ค่าที่มีความน่าจะเป็นที่หนึ่ง (มันคือการผสมผสานของอายุการใช้งานT=zT0+(1−z)∞T=zT0+(1−z)∞T=z T_0 + (1-z)\inftyโดยที่หมายถึงส่วนที่เป็นของการแจกแจงอย่างใดอย่างหนึ่ง ตัวบ่งชี้ถูกตรวจสอบแน่นอนในชุดข้อมูล zzzzzz ฉันเพิ่มตัวเลขที่สองสำหรับเมื่อฉันเริ่มต้นด้วยวิธีแก้ปัญหาเชิงทฤษฎี (ซึ่งควรใกล้เคียงที่สุด) อย่างไรก็ตามตามที่สามารถเห็นได้ถึงความน่าจะเป็นและพารามิเตอร์ที่เบี่ยงเบนจากการแก้ปัญหานี้ไปสู่สิ่งที่ด้อยกว่าอย่างชัดเจน แก้ไข: ข้อมูลทั้งหมดอยู่ในรูปแบบโดยที่เป็นเวลาที่สังเกตสำหรับหัวเรื่อง ,ระบุว่าเวลาเกี่ยวข้องกับเหตุการณ์จริงหรือไม่ หรือถ้ามันถูกเซ็นเซอร์อย่างถูกต้อง (1 หมายถึงเหตุการณ์และ 0 หมายถึงการเซ็นเซอร์ที่ถูกต้อง),คือเวลาตัดปลายของการสังเกต (อาจเป็น 0) ด้วยตัวบ่งชี้การตัดและในที่สุดเป็นตัวบ่งชี้ว่า bivariate มันเราแค่ต้องพิจารณา 0 และ 1)xi=(ti,δi,Li,τi,zi)xi=(ti,δi,Li,τi,zi)\mathbf{x_i}=(t_i,\delta_i,L_i,\tau_i,z_i)titit_iiiiδiδi\delta_iLiLiL_iτiτi\tau_iziziz_i สำหรับเรามีฟังก์ชั่นความหนาแน่นในทำนองเดียวกันก็มีความเกี่ยวข้องกับฟังก์ชันการกระจายหาง1) สำหรับเหตุการณ์ที่น่าสนใจจะไม่เกิดขึ้น แม้ว่าจะไม่มีที่เกี่ยวข้องกับการกระจายนี้เรากำหนดให้เป็นจึงและ 1 สิ่งนี้ยังให้การกระจายแบบเต็มต่อไปนี้:z=1z=1z=1fz(t)=f(t|z=1)fz(t)=f(t|z=1)f_z(t)=f(t|z=1)Sz(t)=S(t|z=1)Sz(t)=S(t|z=1)S_z(t)=S(t|z=1)z=0z=0z=0tttinfinf\inff(t|z=0)=0f(t|z=0)=0f(t|z=0)=0S(t|z=0)=1S(t|z=0)=1S(t|z=0)=1 …