คำถามติดแท็ก expectation-maximization

อัลกอริธึมการปรับให้เหมาะสมมักใช้สำหรับการประเมินความเป็นไปได้สูงสุดในการมีข้อมูลที่ขาดหายไป

9
ตัวอย่างเชิงตัวเลขเพื่อทำความเข้าใจเกี่ยวกับความคาดหวังสูงสุด
ฉันพยายามเข้าใจอัลกอริธึม EM อย่างดีเพื่อให้สามารถใช้งานและใช้งานได้ ฉันใช้เวลาทั้งวันในการอ่านทฤษฎีและกระดาษที่ EM ใช้ในการติดตามอากาศยานโดยใช้ข้อมูลตำแหน่งที่มาจากเรดาร์ สุจริตฉันไม่คิดว่าฉันเข้าใจความคิดพื้นฐานทั้งหมด ใครบางคนสามารถชี้ให้ฉันเป็นตัวอย่างของตัวเลขที่แสดงการวนซ้ำสองสาม (3-4) ของ EM สำหรับปัญหาที่ง่ายกว่า (เช่นการประมาณค่าพารามิเตอร์ของการแจกแจงแบบเกาส์หรือลำดับของชุดไซน์หรือปรับเส้นตรง) แม้ว่าใครบางคนสามารถชี้ให้ฉันเห็นชิ้นส่วนของรหัส (ด้วยข้อมูลสังเคราะห์) ฉันสามารถลองผ่านรหัสได้

3
การทำคลัสเตอร์กับ K-Means และ EM: พวกเขาเกี่ยวข้องกันอย่างไร
ฉันได้ศึกษาอัลกอริทึมสำหรับการจัดกลุ่มข้อมูล (การเรียนรู้ที่ไม่สำรอง): EM และ k-mean ฉันอ่านต่อไปนี้: k-mean คือตัวแปรของ EM โดยมีข้อสันนิษฐานว่ากระจุกดาวทรงกลม ใครสามารถอธิบายประโยคข้างต้นได้บ้าง ฉันไม่เข้าใจความหมายของทรงกลมและความสัมพันธ์ของ kmeans และ EM เนื่องจากมีความน่าจะเป็นที่ได้รับมอบหมาย นอกจากนี้ในสถานการณ์ใดควรใช้การจัดกลุ่ม k-mean หรือใช้การทำคลัสเตอร์ EM


1
ความสัมพันธ์ระหว่าง Bayes ผันแปรและ EM
ฉันอ่านบางที่ว่าวิธี Variational Bayes เป็นลักษณะทั่วไปของอัลกอริทึม EM แท้จริงแล้วส่วนซ้ำ ๆ ของอัลกอริทึมนั้นคล้ายกันมาก เพื่อทดสอบว่าอัลกอริทึม EM เป็นเวอร์ชันพิเศษของ Variational Bayes ฉันลองทำสิ่งต่อไปนี้: YYYคือข้อมูลคือชุดของตัวแปรแฝงและคือพารามิเตอร์ ในแปรผัน Bayes เราทำให้สามารถสร้างประมาณดังกล่าวว่าที) ในกรณีที่ s นั้นง่ายกว่าและมีการแจกแจงที่เข้าใจง่ายΘ P ( X , Θ | Y ) ≈ Q X ( X ) Q Θ ( Θ ) QXXXΘΘ\ThetaP( X, Θ | Y) ≈ QX( X) QΘ( Θ …

2
เหตุใดอัลกอริธึมการเพิ่มความคาดหวังจึงรับประกันว่าจะได้มาบรรจบกันเป็นสิ่งที่ดีที่สุดในท้องถิ่น?
ฉันได้อ่านคำอธิบายของอัลกอริทึม EM (เช่นจากการจดจำรูปแบบของอธิการและการเรียนรู้ของเครื่องและจากหลักสูตรแรกของ Roger and Gerolami ในการเรียนรู้ของเครื่อง) การได้มาของ EM ก็โอเคฉันเข้าใจแล้ว ฉันยังเข้าใจว่าทำไมอัลกอริทึมครอบคลุมถึงบางสิ่ง: ในแต่ละขั้นตอนเราปรับปรุงผลลัพธ์และโอกาสถูกล้อมรอบด้วย 1.0 ดังนั้นโดยใช้ข้อเท็จจริงง่าย ๆ (หากฟังก์ชันเพิ่มขึ้นและถูก จำกัด ขอบเขตจากนั้นก็มาบรรจบกัน) เรารู้ว่าอัลกอริทึม ทางออกบางอย่าง อย่างไรก็ตามเราจะรู้ได้อย่างไรว่ามันเป็นขั้นต่ำในท้องถิ่น? ในแต่ละขั้นตอนเรากำลังพิจารณาพิกัดเดียวเท่านั้น (ไม่ว่าจะเป็นตัวแปรแฝงหรือพารามิเตอร์) ดังนั้นเราอาจพลาดอะไรบางอย่างเช่นค่าต่ำสุดในท้องถิ่นต้องการการเคลื่อนย้ายโดยพิกัดทั้งสองพร้อมกัน ฉันเชื่อว่านี่เป็นปัญหาที่คล้ายคลึงกับของขั้นตอนวิธีการปีนเขาทั่วไปซึ่ง EM เป็นตัวอย่างของ ดังนั้นสำหรับอัลกอริทึมการปีนเขาทั่วไปเรามีปัญหานี้สำหรับฟังก์ชั่น f (x, y) = x * y หากเราเริ่มต้นจากจุด (0, 0) ดังนั้นเพียงพิจารณาทั้งสองทิศทางในครั้งเดียวเราสามารถเลื่อนขึ้นจาก 0 ค่า

4
การประมาณการความน่าจะเป็น EM สูงสุดสำหรับการกระจาย Weibull
หมายเหตุ: ฉันกำลังโพสต์คำถามจากนักเรียนเก่าของฉันไม่สามารถโพสต์ด้วยตนเองได้ด้วยเหตุผลทางเทคนิค รับ iid ตัวอย่างจากการแจก Weibull พร้อม pdf มีตัวแปรที่ขาดหายไปที่เป็นประโยชน์ และด้วยเหตุนี้ EM (ความคาดหวัง - การขยายใหญ่สุด) อัลกอริธึมที่สามารถใช้ในการค้นหา MLE ของแทนที่จะใช้ตรงไปตรงมา การเพิ่มประสิทธิภาพเชิงตัวเลข?x1,…,xnx1,…,xnx_1,\ldots,x_nfk(x)=kxk−1e−xkx>0fk(x)=kxk−1e−xkx>0 f_k(x) = k x^{k-1} e^{-x^k} \quad x>0 fk(x)=∫Zgk(x,z)dzfk(x)=∫Zgk(x,z)dzf_k(x) = \int_\mathcal{Z} g_k(x,z)\,\text{d}zkkk

3
ทำไมอัลกอริธึมการเพิ่มความคาดหวังสูงสุดจึงถูกใช้
จากสิ่งเล็ก ๆ น้อย ๆ ที่ฉันรู้ว่าอัลกอริทึม EM สามารถใช้เพื่อค้นหาโอกาสสูงสุดเมื่อตั้งค่าเป็นศูนย์ของอนุพันธ์บางส่วนที่เกี่ยวข้องกับพารามิเตอร์ของโอกาสที่จะให้ชุดของสมการที่ไม่สามารถแก้ไขได้วิเคราะห์ แต่จำเป็นต้องใช้อัลกอริทึม EM แทนการใช้เทคนิคเชิงตัวเลขเพื่อค้นหาโอกาสสูงสุดด้วยความเคารพต่อข้อ จำกัด ของชุดสมการที่กล่าวถึง

4
วิธีการฉายเวกเตอร์ใหม่บนพื้นที่ PCA?
หลังจากทำการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันต้องการฉายเวกเตอร์ใหม่ลงบนพื้นที่ PCA (เช่นค้นหาพิกัดในระบบพิกัด PCA) ผมได้คำนวณ PCA ในภาษา R prcompโดยใช้ ตอนนี้ฉันควรคูณเวกเตอร์ของฉันด้วยเมทริกซ์การหมุน PCA ควรจัดองค์ประกอบหลักในเมทริกซ์นี้เป็นแถวหรือคอลัมน์?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

5
แรงจูงใจของอัลกอริธึมการเพิ่มความคาดหวัง
คำถามนี้ถูกย้ายจาก Mathematics Stack Exchange เพราะสามารถตอบได้ในการตรวจสอบข้าม อพยพ 6 ปีที่แล้ว ในแนวทางของอัลกอริทึม EM ที่เราใช้ความไม่เท่าเทียมกันของเซ่นจะมาถึงที่logp(x|θ)≥∫logp(z,x|θ)p(z|x,θ(k))dz−∫logp(z|x,θ)p(z|x,θ(k))dzlog⁡p(x|θ)≥∫log⁡p(z,x|θ)p(z|x,θ(k))dz−∫log⁡p(z|x,θ)p(z|x,θ(k))dz\log p(x|\theta) \geq \int \log p(z,x|\theta) p(z|x,\theta^{(k)}) dz - \int \log p(z|x,\theta) p(z|x,\theta^{(k)})dz และกำหนดθ(k+1)θ(k+1)\theta^{(k+1)}โดยθ(k+1)=argmaxθ∫logp(z,x|θ)p(z|x,θ(k))dzθ(k+1)=arg⁡maxθ∫log⁡p(z,x|θ)p(z|x,θ(k))dz\theta^{(k+1)}=\arg \max_{\theta}\int \log p(z,x|\theta) p(z|x,\theta^{(k)}) dz ทุกอย่างที่ฉันอ่าน EM ก็แค่ลดทอนลง แต่ฉันก็รู้สึกไม่สบายใจอยู่เสมอโดยไม่มีคำอธิบายว่าทำไมอัลกอริธึม EM จึงเกิดขึ้นเองตามธรรมชาติ ฉันเข้าใจว่าโอกาสในการloglog\logโดยทั่วไปแล้วจะจัดการกับการเพิ่มนอกเหนือจากการคูณ แต่การปรากฏตัวของloglog\logในคำจำกัดความของθ(k+1)θ(k+1)\theta^{(k+1)}ทำให้ฉันรู้สึกไม่คุ้นเคย เหตุใดจึงควรพิจารณาloglog\logและไม่ใช่ฟังก์ชั่นอื่น ๆ ? ด้วยเหตุผลต่าง ๆ ฉันสงสัยว่า "ความหมาย" หรือ "แรงจูงใจ" เบื้องหลังการเพิ่มความคาดหวังมีคำอธิบายบางอย่างในแง่ของทฤษฎีข้อมูลและสถิติที่เพียงพอ หากมีคำอธิบายดังกล่าวที่จะพอใจมากกว่าเพียงแค่อัลกอริทึมนามธรรม

2
อัลกอริทึม EM ดำเนินการด้วยตนเอง
ฉันต้องการใช้อัลกอริทึม EM ด้วยตนเองแล้วเปรียบเทียบกับผลลัพธ์normalmixEMของmixtoolsแพ็คเกจ แน่นอนฉันจะมีความสุขถ้าพวกเขาทั้งสองนำไปสู่ผลลัพธ์เดียวกัน อ้างอิงหลักคือเจฟฟรีย์ McLachlan (2000) จำกัด ผสมรุ่น ฉันมีความหนาแน่นของสอง Gaussians ในรูปแบบทั่วไปบันทึกความเป็นไปได้ที่ได้รับ (McLachlan หน้า 48): logLc(Ψ)=∑i=1g∑j=1nzij{logπi+logfi(yi;θi)}.log⁡Lc(Ψ)=∑i=1g∑j=1nzij{log⁡πi+log⁡fi(yi;θi)}. \log L_c(\Psi) = \sum_{i=1}^g \sum_{j=1}^n z_{ij}\{\log \pi_i + \log f_i(y_i;\theta_i)\}. เป็นถ้าสังเกตได้จาก THความหนาแน่นของส่วนประกอบมิฉะนั้น0คือความหนาแน่นของการกระจายปกติ เป็นสัดส่วนผสมดังนั้นความน่าจะเป็นที่สังเกตจากการกระจายแบบเกาส์เป็นครั้งแรกและความน่าจะเป็นที่สังเกตจากการกระจายเสียนที่สองzijzijz_{ij}111ผมผมi000ฉผมฉผมf_iππ\piπ1π1\pi_1π2π2\pi_2 Eขั้นตอนคือตอนนี้การคำนวณของความคาดหวังที่มีเงื่อนไข: Q ( Ψ ; Ψ( 0 )) = EΨ ( 0 ){ บันทึกLค( | Ψ ) | Y} .Q(Ψ;Ψ(0))=EΨ(0){เข้าสู่ระบบ⁡Lค(|Ψ)|Y}. Q(\Psi;\Psi^{(0)}) …

2
เหตุใดการเพิ่มประสิทธิภาพส่วนผสมของเสียนโดยตรงแบบคำนวณได้ยาก?
พิจารณาความน่าจะเป็นบันทึกของส่วนผสมของ Gaussians: l(Sn;θ)=∑t=1nlogf(x(t)|θ)=∑t=1nlog{∑i=1kpif(x(t)|μ(i),σ2i)}l(Sn;θ)=∑t=1nlog⁡f(x(t)|θ)=∑t=1nlog⁡{∑i=1kpif(x(t)|μ(i),σi2)}l(S_n; \theta) = \sum^n_{t=1}\log f(x^{(t)}|\theta) = \sum^n_{t=1}\log\left\{\sum^k_{i=1}p_i f(x^{(t)}|\mu^{(i)}, \sigma^2_i)\right\} ฉันสงสัยว่าทำไมมันจึงยากที่จะคำนวณสมการนั้นโดยตรง ฉันกำลังมองหาปรีชาญาณที่ชัดเจนว่าทำไมมันควรจะชัดเจนว่ามันยากหรืออาจเป็นคำอธิบายที่เข้มงวดมากขึ้นว่าทำไมมันยาก ปัญหานี้เป็นปัญหาที่สมบูรณ์หรือไม่หรือเราไม่ทราบวิธีการแก้ปัญหาหรือไม่ นี่คือเหตุผลที่เราใช้อัลกอริทึมEM (การคาดหวังสูงสุด ) หรือไม่ โน้ต: SnSnS_n = ข้อมูลการฝึกอบรม x(t)x(t)x^{(t)} = จุดข้อมูล θθ\theta = ชุดของพารามิเตอร์ที่ระบุ Gaussian, ค่าเฉลี่ย, ค่าเบี่ยงเบนมาตรฐานและความน่าจะเป็นในการสร้างจุดจากแต่ละคลัสเตอร์ / คลาส / Gaussian pipip_i = ความน่าจะเป็นในการสร้างจุดจากคลัสเตอร์ / คลาส / Gaussian i

1
ฝึกพื้นฐานการสุ่มมาร์คอฟสำหรับการจำแนกพิกเซลในรูปภาพ
ฉันพยายามเรียนรู้วิธีใช้ Markov Random Fields เพื่อแบ่งส่วนพื้นที่ในรูปภาพ ฉันไม่เข้าใจพารามิเตอร์บางอย่างใน MRF หรือเหตุใดการเพิ่มความคาดหวังสูงสุดที่ฉันดำเนินการจึงล้มเหลวในการรวมเข้ากับโซลูชันในบางครั้ง เริ่มต้นจากทฤษฎีบทของเบย์ฉันมีp(x|y)=p(y|x)p(x)/p(y)p(x|y)=p(y|x)p(x)/p(y)p(x|y) = p(y|x) p(x) / p(y)โดยที่yyyคือค่าระดับสีเทาของพิกเซลและxxxเป็นป้ายกำกับคลาส ฉันเลือกที่จะใช้การแจกแจงแบบเกาส์สำหรับp(y|x)p(y|x)p(y|x)ในขณะที่p(x)p(x)p(x)เป็นแบบจำลองโดยใช้ MRF ฉันใช้ฟังก์ชันที่เป็นไปได้สำหรับ MRF ที่มีทั้งศักยภาพ clique pairwise และค่าที่เป็นไปได้สำหรับเลเบลคลาสของพิกเซลที่ถูกจัดประเภท ค่าพิกเซลที่อาจเกิดขึ้นเพียงครั้งเดียวเป็นบางส่วนคงที่αα\alphaที่ขึ้นอยู่บนฉลากระดับxxxxฟังก์ชันที่มีโอกาสเป็นคู่ได้รับการประเมินสำหรับเพื่อนบ้านที่เชื่อมต่อกัน 4 รายการและส่งกลับค่าบวกββ\betaหากเพื่อนบ้านมีป้ายกำกับคลาสเดียวกันกับพิกเซลนี้และ−β−β-\betaหากป้ายกำกับแตกต่างกัน ที่จุดในการขยายความคาดหวังสูงสุดที่ฉันต้องค้นหาค่าของα(x)α(x)\alpha(x)และββ\betaที่เพิ่มค่าที่คาดหวังของความเป็นไปได้สูงสุดที่บันทึกไว้ฉันใช้วิธีการหาค่าเหมาะที่สุดเชิงตัวเลข พบว่าค่าของββ\betaจะกลายเป็นลบจะเพิ่มขึ้นอย่างมากและการวนซ้ำหรือสองครั้งหลังจากนั้นภาพทั้งหมดจะถูกกำหนดให้กับหนึ่งป้ายเท่านั้นเท่านั้น (พื้นหลัง: การกำหนดป้ายชื่อชั้นเรียนโดยใช้พารามิเตอร์ MRF นั้นใช้ ICM) หากฉันลบอัลฟ่านั่นคือการใช้ศักยภาพของกลุ่มคู่เท่านั้นแล้วการเพิ่มความคาดหวังจะทำได้ดีαα\alpha โปรดอธิบายจุดประสงค์ของอัลฟ่าสำหรับแต่ละชั้นเรียนคืออะไร? ฉันคิดว่าพวกเขาจะเกี่ยวข้องกับจำนวนของคลาสนั้นที่ปรากฏในรูปภาพ แต่ไม่ปรากฏ เมื่อฉันได้ MRF ทำงานด้วยศักยภาพแบบคู่เท่านั้นฉันเปรียบเทียบมันกับแบบจำลองส่วนผสมแบบเกาส์ตรงไปข้างหน้าและพบว่าพวกมันให้ผลลัพธ์ที่เหมือนกันเกือบทั้งหมด ฉันคาดหวังว่าศักยภาพในการจับคู่จะทำให้ชั้นเรียนราบรื่นขึ้นเล็กน้อย แต่นั่นไม่ได้เกิดขึ้น กรุณาแนะนำที่ฉันผิด

1
EM มีคำอธิบายที่เข้าใจง่ายไหม?
ขั้นตอน EM จะปรากฏขึ้นต่อผู้ที่ไม่ได้ฝึกหัดเป็นเวทย์มนตร์ดำมากหรือน้อย ประมาณการพารามิเตอร์ของ HMM (ตัวอย่าง) โดยใช้ข้อมูลที่มีการตรวจสอบ จากนั้นถอดรหัสข้อมูลที่ไม่ได้ติดแท็กโดยใช้การย้อนกลับไปข้างหน้าเพื่อเหตุการณ์ 'นับ' ราวกับว่าข้อมูลถูกแท็กมากหรือน้อย ทำไมสิ่งนี้ถึงทำให้โมเดลดีขึ้น? ฉันรู้อะไรบางอย่างเกี่ยวกับคณิตศาสตร์ แต่ฉันอยากให้ภาพจิตของมัน

2
เหตุใดการเพิ่มความคาดหวังจึงมีความสำคัญสำหรับโมเดลผสม
มีวรรณกรรมมากมายที่เน้นวิธีการเพิ่มความคาดหวังในโมเดลผสม (Mixture of Gaussian, Hidden Markov Model เป็นต้น) ทำไม EM ถึงมีความสำคัญ EM เป็นเพียงวิธีการทำเพิ่มประสิทธิภาพและไม่ได้ใช้กันอย่างแพร่หลายเป็นวิธีการไล่ระดับสีตาม (ลาดดีหรือวิธีการของนิวตัน / กึ่งนิวตัน) หรือการไล่ระดับสีอื่น ๆ ฟรีวิธีการพูดคุยกันที่นี่ นอกจากนี้ EM ยังมีปัญหาขั้นต่ำในท้องถิ่น เป็นเพราะกระบวนการนี้ใช้งานง่ายและสามารถเปลี่ยนเป็นรหัสได้อย่างง่ายดาย? หรือเหตุผลอื่น ๆ

2
เพราะเหตุใด K- ไม่ได้รับการปรับให้เหมาะสมโดยใช้การไล่ระดับสี
ฉันรู้ว่าk หมายถึงมักจะมีการเพิ่มประสิทธิภาพการใช้เพิ่มประสิทธิภาพของความคาดหวัง อย่างไรก็ตามเราสามารถปรับฟังก์ชั่นการสูญเสียของมันให้เป็นแบบเดียวกับที่เราเพิ่มประสิทธิภาพอื่น ๆ ! ฉันพบเอกสารบางอย่างที่ใช้การไล่ระดับสีแบบสโตแคสติกสำหรับวิธี k ขนาดใหญ่ แต่ฉันไม่ได้รับคำตอบ มีใครรู้บ้างไหมว่าเพราะเหตุใด เป็นเพราะความคาดหวังของการรวมกันมาเร็วขึ้น ? มีการรับประกันเป็นพิเศษหรือไม่? หรือมันเป็นเหตุผลทางประวัติศาสตร์ ?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.