การใช้ความคาดหวังสูงสุดกับตัวอย่างเหรียญ


18

เมื่อเร็ว ๆ นี้ฉันได้ศึกษาด้วยตนเองถึงความคาดหวังสูงสุดและคว้าตัวอย่างง่ายๆในกระบวนการ:

จากที่นี่ : มีสามเหรียญ ,และมี ,และความน่าจะเป็นที่จะลงจอดบนเฮดเมื่อถูกโยน โยนc_0หากผลลัพธ์คือ Head ให้โยนสามครั้งมิฉะนั้นจะโยนสามครั้ง ข้อมูลที่สังเกตได้ที่ผลิตโดยและเป็นดังนี้: HHH, TTT, HHH, TTT, HHH ข้อมูลที่ซ่อนอยู่เป็นผลมาจากc_0ประมาณการหน้า1 p 2c0c1c2p0p1p2c0c1c2c1c2c 0 c0p0 ,และP_2p1p2

และจากที่นี่ : มีสองเหรียญcAและcBกับpAและpBเป็นความน่าจะเป็นที่จะลงจอดบนหัวเมื่อโยน ในแต่ละรอบเลือกหนึ่งเหรียญโดยการสุ่มและโยนสิบครั้ง; บันทึกผลลัพธ์ ข้อมูลที่สังเกตได้คือผลลัพธ์การโยนที่ได้จากสองเหรียญ อย่างไรก็ตามเราไม่ทราบว่าเหรียญใดถูกเลือกสำหรับรอบหนึ่ง ๆ ประมาณการpAและpBบี

ในขณะที่ฉันสามารถคำนวณได้ แต่ฉันไม่สามารถเกี่ยวข้องกับวิธีที่พวกเขาแก้ไขกับทฤษฎี EM ดั้งเดิมได้ โดยเฉพาะอย่างยิ่งระหว่างขั้นตอน M-Step ของทั้งสองตัวอย่างฉันไม่เห็นว่าพวกเขากำลังเพิ่มประสิทธิภาพสูงสุดอย่างไร ดูเหมือนว่าพวกเขากำลังคำนวณพารามิเตอร์ใหม่และพารามิเตอร์ใหม่นั้นดีกว่าพารามิเตอร์เดิม ยิ่งไปกว่านั้น E-Steps ทั้งสองนั้นไม่ได้มีลักษณะที่เหมือนกันซึ่งไม่ต้องพูดถึง E-Step ของทฤษฎีดั้งเดิม

ดังนั้นตัวอย่างเหล่านี้ทำงานอย่างไร


ในตัวอย่างแรกเราจะได้รับอินสแตนซ์ของการทดสอบเดียวกันกี่อินสแตนซ์ ในตัวอย่างที่สองกฎหมายของ "เลือกหนึ่งเหรียญโดยการสุ่ม" คืออะไร เราสังเกตเห็นกี่รอบ
Raphael

ไฟล์ PDF ที่ฉันเชื่อมโยงได้แก้ไขตัวอย่างทั้งสองนี้แล้วทีละขั้นตอน อย่างไรก็ตามฉันไม่เข้าใจอัลกอริทึม EM ที่ใช้จริงๆ
IcySnow

@IcySnow คุณเข้าใจแนวคิดของความคาดหวังและความคาดหวังตามเงื่อนไขของตัวแปรสุ่มหรือไม่
Nicholas Mancuso

ฉันเข้าใจความคาดหวังพื้นฐานของตัวแปรสุ่มและความน่าจะเป็นแบบมีเงื่อนไข อย่างไรก็ตามฉันไม่คุ้นเคยกับความคาดหวังตามเงื่อนไขอนุพันธ์และสถิติที่เพียงพอ
IcySnow

คำตอบ:


12

(คำตอบนี้ใช้ลิงค์ที่สองที่คุณให้ไว้)

L[θ|X]=Pr[X|θ]=ZPr[X,Z|θ]
θ=(θA,θB)X=(X1,,X5)XiZ=(Z1,,Z5) เป็นเหรียญที่ใช้ในการทดสอบแต่ละครั้ง

เราต้องการที่จะหาโอกาสสูงสุดประมาณการtheta} ความคาดหวัง-การเพิ่มประสิทธิภาพ (EM) ขั้นตอนวิธีการเป็นหนึ่งในวิธีการดังกล่าวเพื่อหา (อย่างน้อยท้องถิ่น)theta} มันทำงานโดยการค้นหาความคาดหวังที่มีเงื่อนไขซึ่งจะถูกใช้เพื่อเพิ่ม\แนวคิดก็คือว่าอย่างต่อเนื่องโดยการหาโอกาสมากขึ้น (เช่นน่าจะมากกว่า) ในแต่ละซ้ำเราอย่างต่อเนื่องจะเพิ่มขึ้น θ θθPr[X,Z| θ]θ^θ^θθPr[X,Z|θ]ซึ่งจะเพิ่มฟังก์ชั่นความน่าจะเป็น มีสามสิ่งที่ต้องทำก่อนที่จะทำการออกแบบอัลกอริธึมที่อิงกับ EM

  1. สร้างแบบจำลอง
  2. คำนวณความคาดหวังตามเงื่อนไขภายใต้โมเดล (E-Step)
  3. เพิ่มโอกาสของเราให้มากที่สุดโดยอัปเดตประมาณการปัจจุบันของ (M-Step)θ

สร้างแบบจำลอง

ก่อนที่เราจะไปต่อกับ EM เราต้องหาว่ามันคืออะไรกันแน่ ใน E-ขั้นตอนที่เรากำลังคำนวณว่าค่าที่คาดหวังสำหรับtheta] แล้วค่านี้คืออะไรจริงเหรอ? สังเกตว่า เหตุผลคือเรามีการทดลอง 5 รายการที่จะพิจารณาและเราไม่ทราบว่ามีการใช้เหรียญใดในแต่ละรายการ ความไม่เท่าเทียมเกิดจากล็อกPr [ X , Z | θ ]logPr[X,Z|θ] เข้าสู่ระบบ

logPr[X,Z|θ]=i=15logC{A,B}Pr[Xi,Zi=C|θ]=i=15logC{A,B}Pr[Zi=C|Xi,θ]Pr[Xi,Zi=C|θ]Pr[Zi=C|Xi,θ]i=15C{A,B}Pr[Zi=C|Xi,θ]logPr[Xi,Zi=C|θ]Pr[Zi=C|Xi,θ].
logเป็นเว้าและใช้ความไม่เท่าเทียมกันของเซ่น เหตุผลที่เราต้องการขอบเขตที่ต่ำกว่าก็คือเราไม่สามารถคำนวณหาค่า max max กับสมการดั้งเดิมได้โดยตรง อย่างไรก็ตามเราสามารถคำนวณได้สำหรับขอบเขตล่างสุดท้าย

ตอนนี้คืออะไร? มันเป็นโอกาสที่เราจะเห็นเหรียญได้รับการทดสอบและ\การใช้ความน่าจะเป็นตามเงื่อนไขที่เรามีC X i θ Pr [ Z i = C | X i , θ ] = Pr [ X i , Z i = C | θ ]ราคา[Zผม=|Xผม,θ]Xผมθ

ราคา[Zผม=|Xผม,θ]=ราคา[Xผม,Zผม=|θ]ราคา[Xผม|θ].

ในขณะที่เราดำเนินการไปแล้วเรายังไม่ได้ทำแบบจำลอง ความน่าจะเป็นที่เหรียญที่ได้รับพลิกเป็นลำดับอย่างไร ให้ ตอนนี้เป็นอย่างชัดเจนเพียงแค่ความเป็นไปได้ภายใต้ความเป็นไปได้ของหรือ B ตั้งแต่เรามี h i = # heads ใน  X i Pr [ X i , Z i = C | θ ] = 1Xผมชั่วโมงผม=#หัวใน Xผม Pr[Xi| θ]Zฉัน=Zฉัน=BPr[Zฉัน=]=Pr[Zฉัน=B]=1/2

Pr[Xi,Zi=C|θ]=12θChi(1θC)10hi,  for  C{A,B}.
Pr[Xi|θ]Zi=AZi=BPr[Zi=A]=Pr[Zi=B]=1/2
ราคา[Xผม|θ]=1/2(ราคา[Xผม|Zผม=A,θ]+ราคา[Xผม|Zผม=B,θ]).

E-ขั้นตอน

โอเค ... นั่นไม่สนุกเท่าไหร่ แต่เราสามารถเริ่มทำงาน EM ได้แล้วตอนนี้ อัลกอริทึม EM เริ่มต้นโดยการสุ่มเดาบางสำหรับ\ในตัวอย่างนี้เรามี(0.6,0.5) เราคำนวณ ค่านี้สอดคล้องกับสิ่งที่อยู่ในกระดาษ ตอนนี้เราสามารถคำนวณจำนวนหัวที่คาดหวังในจากเหรียญ , ทำสิ่งเดียวกันสำหรับเหรียญθ 0 = ( 0.6 , 0.5 ) Pr [ Z 1 = | X 1 , θ ] = 1 / 2 ( 0.6 50.4 5 )θθ0=(0.6,0.5)X1=(H,T,T,T,H,H,T,H,T,H)AE[#หัวด้วยเหรียญ A| X1,θ]

ราคา[Z1=A|X1,θ]=1/2(0.650.45)1/2((0.650.45)+(0.550.55))0.45
X1=(H,T,T,T,H,H,T,H,T,H)A
E[#หัวด้วยเหรียญ A|X1,θ]=ชั่วโมง1ราคา[Z1=A|X1,θ]=50.452.2
Bเราได้มา
E[#หัวด้วยเหรียญ B|X1,θ]=ชั่วโมง1ราคา[Z1=B|X1,θ]=50.552.8
เราสามารถคำนวณเหมือนกันสำหรับจำนวนหางโดยการแทนสำหรับh_1 นี้ยังคงค่าอื่น ๆ ทั้งหมดของและ5 ด้วยความเป็นเส้นตรงของความคาดหวังเราสามารถหา ชั่วโมง110-ชั่วโมง1Xผมชั่วโมงผม 1ผม5
E[#หัวด้วยเหรียญ A|X,θ]=Σผม=15E[#หัวด้วยเหรียญ A|Xผม,θ]

M-ขั้นตอน

ด้วยค่าที่คาดหวังของเราในมือตอนนี้มาถึงขั้นตอน M ที่เราต้องการเพิ่มสูงสุด ตามค่าที่คาดหวังของเรา สิ่งนี้ทำได้โดยการทำให้เป็นมาตรฐานแบบธรรมดา! ในทำนองเดียวกันสำหรับBกระบวนการนี้เริ่มต้นอีกครั้งด้วย E-Step และและดำเนินต่อไปจนกว่าค่าสำหรับมารวมกัน (หรือกับบางเกณฑ์ที่อนุญาต) ในตัวอย่างนี้เรามี 10 ซ้ำและ0.52) ในแต่ละซ้ำค่าของ θ

θA1=E[#หัวมากกว่า X ด้วยเหรียญ A|X,θ]E[#หัวและก้อยมากกว่า X ด้วยเหรียญ A|X,θ]=21.321.3+9.60.71
Bθ1θθ^=θ10=(0.8,0.52)ราคา[X,Z|θ]เพิ่มขึ้นเนื่องจากการประมาณที่ดีขึ้นθ\

ในกรณีนี้แบบจำลองค่อนข้างเรียบง่าย สิ่งที่ได้รับมากความซับซ้อนมากขึ้นสวยได้อย่างรวดเร็ว แต่อัลกอริทึม EM มักจะมาบรรจบกันและมักจะผลิต maxmimum โอกาสประมาณการtheta} อาจเป็นตัวประมาณท้องถิ่นแต่เพื่อให้ได้สิ่งนี้เราสามารถเริ่มกระบวนการ EM ใหม่ด้วยการเริ่มต้นที่แตกต่างกัน เราสามารถทำสิ่งนี้ได้ในจำนวนครั้งที่คงที่และรักษาผลลัพธ์ที่ดีที่สุด (เช่นผู้ที่มีโอกาสสุดท้ายที่สูงที่สุด)θ^


หากส่วนใดไม่ชัดเจนฉันสามารถลองขยายได้
Nicholas Mancuso

ตอนนี้มันชัดเจนมากขึ้น สิ่งที่ฉันไม่ได้รับจริงๆคือทำไมคำนวณจำนวนหัวที่คาดไว้สำหรับเหรียญ A เป็น: E [#heads ด้วยเหรียญ A | X1, θ] = h1⋅Pr [Z1 = A | X1, θ] = 5⋅0.45 ≈2.2? ปัญหาที่กล่าวถึงใน PDF แรกนั้นซับซ้อนกว่า หากคุณไม่เป็นไรคุณสามารถคำนวณตัวอย่างได้ด้วยหรือไม่ ขอบคุณมากสำหรับคำตอบของคุณ
IcySnow

@IcySnow เท่าที่คาดหวัง calc จะไป:theta] เหตุผลก็คือคุณสามารถคิดได้ว่ามีตัวแปรสุ่มตัวบ่งชี้อื่น ๆ หากใช้งานอยู่ การคำนวณความคาดหวังเหนือตัวแปรตัวบ่งชี้นั้นเป็นความน่าจะเป็นของเหตุการณ์ E[# หัวด้วยเหรียญ A|X1,θ]=Σ# หัวใน X1ราคา[Z1=A|X1,θ]=5ราคา[Z1=A|X1,θ]
Nicholas Mancuso

ขออภัยที่ตอบช้า ขอบคุณคุณตอนนี้ฉันสามารถเข้าใจตรรกะที่อยู่เบื้องหลังตัวอย่างเหรียญทั้งสองหลังจากผ่านคำตอบของคุณหลายครั้ง มีสิ่งสุดท้ายที่ฉันอยากถามเกี่ยวกับคำถามนี้: ตัวอย่างที่เริ่มต้นจากหน้า 8 ในสไลด์นี้cs.northwestern.edu/~ddowney/courses/395_Winter2010/em.pptแสดงให้เห็นว่าใน M-Step เราต้องคำนวณก่อน อนุพันธ์ของฟังก์ชันบันทึกความน่าจะเป็นและใช้เพื่อเพิ่มความคาดหวัง เหตุใดจึงไม่เป็นเช่นนั้นในขั้นตอน M-Steps ของเหรียญ เนื่องจาก M-Steps เหล่านี้ดูไม่เหมือนว่ากำลังเพิ่มสิ่งใดให้มากที่สุด
IcySnow

ฉันสับสนโดยสมการที่แสดงครั้งแรกหลังจาก "สร้างโมเดล" คุณช่วยอธิบายได้ไหมว่ามันมาจากไหน? ฉันคิดว่าดังนั้นผลรวมภายในคือ 1 สำหรับทุกคนดังนั้นด้านขวาทั้งหมด กลายเป็นศูนย์ ฉันแน่ใจว่าฉันพลาดอะไรไปหน่อย - คุณช่วยอธิบายเหตุผลเกี่ยวกับวิธีการที่คุณทำกับสมการนี้ได้ไหม? ราคา[Zผม=A|Xผม,θ]+ราคา[Zผม=B|Xผม,θ]=1ผม
DW
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.