การบรรจบกันของอัลกอริทึม EM ที่มีการกระจายตัวแบบผสมไบวาเรีย


9

ผมมีรูปแบบผสมซึ่งผมต้องการที่จะหาประมาณค่าความน่าจะเป็นสูงสุดของการได้รับชุดของข้อมูลและชุดของข้อมูลบางส่วนที่สังเกตZฉันได้ดำเนินการทั้ง E-ขั้นตอน (คำนวณความคาดหวังของให้และพารามิเตอร์ปัจจุบัน ) และขั้นตอนเอ็มเพื่อลดเชิงลบเข้าสู่ระบบได้รับโอกาสที่คาดว่าจะZxzzxθkz

ตามที่ฉันได้เข้าใจแล้วโอกาสสูงสุดที่เพิ่มขึ้นสำหรับการทำซ้ำทุกครั้งซึ่งหมายความว่าโอกาสในการลบเชิงลบจะต้องลดลงสำหรับการทำซ้ำทุกครั้งหรือไม่ อย่างไรก็ตามในขณะที่ฉันทำซ้ำอัลกอริทึมไม่ได้สร้างมูลค่าลดลงของความน่าจะเป็นบันทึกเชิงลบ แต่อาจลดลงและเพิ่มขึ้นได้ ตัวอย่างเช่นนี่คือค่าของความน่าจะเป็นบันทึกเชิงลบจนกระทั่งการลู่เข้า:

ป้อนคำอธิบายรูปภาพที่นี่

ที่นี่ฉันเข้าใจผิดไหม?

นอกจากนี้สำหรับข้อมูลจำลองเมื่อฉันดำเนินการความเป็นส่วนตัวสูงสุดสำหรับตัวแปรแฝงที่แท้จริง (ไม่มีการตรวจสอบ) ฉันมีความใกล้เคียงกับความสมบูรณ์แบบมากแสดงว่าไม่มีข้อผิดพลาดในการเขียนโปรแกรม สำหรับอัลกอริทึม EM นั้นมักจะรวมตัวกันเป็นโซลูชั่นย่อยที่ชัดเจนโดยเฉพาะอย่างยิ่งสำหรับชุดย่อยเฉพาะของพารามิเตอร์ (เช่นสัดส่วนของตัวแปรการจำแนกประเภท) เป็นที่ทราบกันดีว่าอัลกอริทึมอาจมาบรรจบกันเพื่อท้องถิ่นน้อยหรือจุดหยุดนิ่งจะมีการแก้ปัญหาการค้นหาธรรมดาหรือเช่นเดียวกันเพื่อเพิ่มโอกาสในการหาขั้นต่ำทั่วโลก (หรือสูงสุด) สำหรับปัญหานี้โดยเฉพาะฉันเชื่อว่ามีการจำแนกประเภทมิสจำนวนมากเนื่องจากการผสมสองตัวแปรหนึ่งในสองการแจกแจงใช้ค่าที่มีความน่าจะเป็นที่หนึ่ง (มันคือการผสมผสานของอายุการใช้งานT=zT0+(1z)โดยที่หมายถึงส่วนที่เป็นของการแจกแจงอย่างใดอย่างหนึ่ง ตัวบ่งชี้ถูกตรวจสอบแน่นอนในชุดข้อมูล zzป้อนคำอธิบายรูปภาพที่นี่

ฉันเพิ่มตัวเลขที่สองสำหรับเมื่อฉันเริ่มต้นด้วยวิธีแก้ปัญหาเชิงทฤษฎี (ซึ่งควรใกล้เคียงที่สุด) อย่างไรก็ตามตามที่สามารถเห็นได้ถึงความน่าจะเป็นและพารามิเตอร์ที่เบี่ยงเบนจากการแก้ปัญหานี้ไปสู่สิ่งที่ด้อยกว่าอย่างชัดเจน

แก้ไข: ข้อมูลทั้งหมดอยู่ในรูปแบบโดยที่เป็นเวลาที่สังเกตสำหรับหัวเรื่อง ,ระบุว่าเวลาเกี่ยวข้องกับเหตุการณ์จริงหรือไม่ หรือถ้ามันถูกเซ็นเซอร์อย่างถูกต้อง (1 หมายถึงเหตุการณ์และ 0 หมายถึงการเซ็นเซอร์ที่ถูกต้อง),คือเวลาตัดปลายของการสังเกต (อาจเป็น 0) ด้วยตัวบ่งชี้การตัดและในที่สุดเป็นตัวบ่งชี้ว่า bivariate มันเราแค่ต้องพิจารณา 0 และ 1)xi=(ti,δi,Li,τi,zi)tiiδiLiτizi

สำหรับเรามีฟังก์ชั่นความหนาแน่นในทำนองเดียวกันก็มีความเกี่ยวข้องกับฟังก์ชันการกระจายหาง1) สำหรับเหตุการณ์ที่น่าสนใจจะไม่เกิดขึ้น แม้ว่าจะไม่มีที่เกี่ยวข้องกับการกระจายนี้เรากำหนดให้เป็นจึงและ 1 สิ่งนี้ยังให้การกระจายแบบเต็มต่อไปนี้:z=1fz(t)=f(t|z=1)Sz(t)=S(t|z=1)z=0tinff(t|z=0)=0S(t|z=0)=1

f(t)=i=01pif(t|z=i)=pf(t|z=1)และ S(t)=1p+pSz(t)

เราดำเนินการกำหนดรูปแบบทั่วไปของความน่าจะเป็น:

L(θ;xi)=Πif(ti;θ)δiS(ti;θ)1δiS(Li)τi

ตอนนี้จะสังเกตได้เพียงบางส่วนเมื่อมิฉะนั้นจะไม่ทราบ โอกาสเต็มจะกลายเป็นzδ=1

L(θ,p;xi)=Πi((pfz(ti;θ))zi)δi((1p)(1zi)(pSz(ti;θ))zi)1δi((1p)(1zi)(pSz(Li;θ))zi)τi

โดยที่คือน้ำหนักของการแจกแจงที่สอดคล้องกัน (อาจเกี่ยวข้องกับ covariates และสัมประสิทธิ์ตามลำดับโดยฟังก์ชันลิงก์บางตัว) ในวรรณคดีส่วนใหญ่เรื่องนี้ง่ายต่อการ loglikelihood ต่อไปนี้p

(ziln(p)+(1p)ln(1p)τi(ziln(p)+(1zi)ln(1p))+δizifz(ti;θ)+(1δi)ziSz(ti;θ)τiSz(Li;θ))

สำหรับขั้นตอน Mฟังก์ชั่นนี้จะถูกขยายให้ใหญ่สุดแม้ว่าจะไม่ได้ทั้งหมดในวิธีการเพิ่มประสิทธิภาพสูงสุด 1 วิธี แต่เราไม่ได้ที่ว่านี้สามารถแยกออกเป็นชิ้นส่วนcdot)l(θ,p;)=l1(θ,)+l2(p,)

สำหรับเค: TH + 1 E-ขั้นตอนที่เราจะต้องพบกับค่าที่คาดหวังของ (บางส่วน) สังเกตตัวแปรแฝงz_iเราใช้ความจริงที่ว่าแล้ว 1ziδ=1z=1

E(zi|xi,θ(k),p(k))=δi+(1δi)P(zi=1;θ(k),p(k)|xi)

ที่นี่เรามีโดยP(zi=1;θ(k),p(k)|xi)=P(xi;θ(k),p(k)|zi=1)P(zi=1;θ(k),p(k))P(xi;θ(k),p(k))

ซึ่งทำให้เราP(zi=1;θ(k),p(k)|xi)=pSz(ti;θ(k))1p+pSz(ti;θ(k))

(หมายเหตุที่นี่ที่ดังนั้นจึงไม่มีเหตุการณ์ที่สังเกตดังนั้นความน่าจะเป็นของ dataจะได้รับจากฟังก์ชั่นการกระจายหางδi=0xi


คุณช่วยเขียนตัวแปรของปัญหาของเราตั้งแต่ต้นและสมการ E และ M ของคุณได้ไหม
alberto

1
แน่นอนฉันได้แก้ไขคำถามพร้อมรายละเอียดเพิ่มเติมเกี่ยวกับ E และ M-step
Good Guy Mike

เพื่อชี้แจงค่าที่พล็อตคือ MLE แบบเต็มซึ่งให้ค่าโดยประมาณสำหรับข้อมูลที่ไม่สมบูรณ์
Good Guy Mike

คืออะไร ฉันไม่เข้าใจ "แม้ว่าจะไม่มีความเกี่ยวข้องกับการแจกแจงนี้ แต่เรากำหนดให้เป็น inf ... " Sz
wij

1
อัลกอริทึม EM จะเพิ่มโอกาสในการรับข้อมูลที่สมบูรณ์สูงสุดโดยตรง แต่สามารถรับประกันได้ว่าการเพิ่มขึ้นของความน่าจะเป็นข้อมูลที่สังเกตได้นั้นจะเพิ่มขึ้น คุณกำลังตรวจสอบความเป็นไปได้ที่เพิ่มขึ้นของข้อมูลที่สังเกตได้หรือไม่?
Randel

คำตอบ:


6

วัตถุประสงค์ของ EM คือการเพิ่มความน่าจะเป็นในการบันทึกข้อมูล

l(θ)=iln[zp(xi,z|θ)]

แต่น่าเสียดายที่นี้มีแนวโน้มที่จะเป็นเรื่องยากที่จะเพิ่มประสิทธิภาพด้วยความเคารพ\EM จะสร้างรูปแบบซ้ำ ๆ และเพิ่มฟังก์ชั่นเสริมให้สูงสุดθ

Q(θ,θt)=Ez|θt(ilnp(xi,zi|θ))

ถ้าเพิ่มให้มากที่สุด EM รับประกันว่าθt+1Q(θ,θt)

l(θt+1)Q(θt+1,θt)Q(θt,θt)=l(θt)

หากคุณต้องการทราบอย่างชัดเจนว่าทำไมถึงเป็นเช่นนี้ส่วนที่ 11.4.7 ของการเรียนรู้ของเครื่องของเมอร์ฟี: มุมมองที่น่าจะเป็นให้คำอธิบายที่ดี หากการใช้งานของคุณไม่เป็นไปตามความไม่เท่าเทียมเหล่านี้คุณได้ทำผิดพลาดไปแล้ว พูดในสิ่งที่ชอบ

ฉันมีความใกล้พอเหมาะพอดีแสดงว่าไม่มีข้อผิดพลาดในการเขียนโปรแกรม

อันตราย. ด้วยการเพิ่มประสิทธิภาพและอัลกอริธึมการเรียนรู้มากมายมันง่ายมากที่จะทำผิดพลาด ปรีชาญาณที่ฉันชอบคืออัลกอริธึมเหล่านี้มีจุดประสงค์เพื่อจัดการกับข้อมูลที่ยุ่งเหยิงดังนั้นจึงไม่น่าแปลกใจที่พวกเขาจัดการกับข้อบกพร่องได้เป็นอย่างดี!


อีกครึ่งหนึ่งของคำถามของคุณ

มีการค้นหาแบบฮิวริสติกแบบดั้งเดิมหรือในทำนองเดียวกันเพื่อเพิ่มโอกาสในการค้นหาขั้นต่ำทั่วโลก (หรือสูงสุด)

การรีสตาร์ทแบบสุ่มเป็นวิธีที่ง่ายที่สุด ที่ง่ายที่สุดถัดไปคือการจำลองการอบอ่อนผ่านพารามิเตอร์เริ่มต้น ฉันเคยได้ยินเกี่ยวกับตัวแปรของ EM ที่เรียกว่าการอบอ่อนแบบกำหนดค่าได้แต่ฉันไม่ได้ใช้มันเป็นการส่วนตัวดังนั้นจึงไม่สามารถบอกอะไรคุณได้มากนัก


1
คำตอบที่ดี (+1) มันจะดียิ่งขึ้นถ้าคุณรวมการอ้างอิงที่เป็นทางการ (โดยเฉพาะการอ้างอิงไปยังแหล่งที่มาที่อ้างถึงเพียงบางส่วน "การเรียนรู้ของเครื่อง: มุมมองที่น่าจะเป็น")
Aleksandr Blekh

ขอบคุณมากสำหรับคำตอบ ฉันพบว่าอัลกอริทึมมาบรรจบกันอย่างถูกต้องในขณะนี้หลังจากแก้ไขข้อผิดพลาดในรหัส แต่เมื่อฉันแยกข้อมูลที่ถูกตัดทอนของฉัน มิฉะนั้นมันจะไปยุ่งเหยิง ฉันเชื่อว่านี่เป็นผลมาจากข้อผิดพลาดบางอย่าง
Good Guy Mike

ในความเป็นจริงปัญหาคือว่าฉันจัดการกับ "การตัดทอน " นั่นคือมีจุดตัดแต่ละจุดสำหรับการสังเกตแต่ละครั้งแทนที่จะเป็นเกณฑ์การตัดทอนอย่างเป็นเอกฉันท์สำหรับการสังเกตทั้งหมด ฉันไม่เคยพบหรือไม่พบการตั้งค่าเหล่านี้ในวรรณคดีดังนั้นฉันจึงไม่สามารถตรวจสอบได้ว่าฉันแก้ไขได้ถูกต้องหรือไม่ หากคุณมีโอกาสเห็นการตั้งค่านี้ฉันยินดีที่จะดูการอ้างอิงเหล่านั้น! Li
Good Guy Mike
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.