คำถามติดแท็ก expectation-maximization

อัลกอริธึมการปรับให้เหมาะสมมักใช้สำหรับการประเมินความเป็นไปได้สูงสุดในการมีข้อมูลที่ขาดหายไป

2
EM ปัญหาการปฏิบัติอัลกอริทึม
นี่เป็นปัญหาการปฏิบัติสำหรับการสอบกลางภาค ปัญหาคือตัวอย่างอัลกอริทึม EM ฉันกำลังมีปัญหากับส่วน (f) ฉันแสดงรายการชิ้นส่วน (a) - (e) เพื่อความสมบูรณ์และในกรณีที่ฉันทำผิดพลาดก่อนหน้านี้ ให้เป็นอิสระตัวแปรสุ่มชี้แจงที่มีอัตราการ\น่าเสียดายที่ไม่มีการตรวจสอบค่าแท้จริงและเราจะสังเกตว่าค่าอยู่ในช่วงเวลาที่กำหนดหรือไม่ ให้ ,และ สำหรับ n ข้อมูลที่สังเกตประกอบด้วย{3j})X1,…,XnX1,…,XnX_1,\ldots,X_nθθ\thetaXXXXXXG1j=1{Xj&lt;1}G1j=1{Xj&lt;1}G_{1j} = \mathbb{1}\left\{X_j < 1\right\}G2j=1{1&lt;Xj&lt;2}G2j=1{1&lt;Xj&lt;2}G_{2j} = \mathbb{1}\left\{1< X_j<2\right\}G3j=1{Xj&gt;2}G3j=1{Xj&gt;2}G_{3j} = \mathbb{1}\left\{X_j > 2\right\}j=1,…,nj=1,…,nj=1,\ldots,n(G1j,G2j,G3j)(G1j,G2j,G3j)(G_{1j},G_{2j},G_{3j}) (a) ให้โอกาสในการสังเกตข้อมูล: L(θ|G)=∏j=1nPr{Xj&lt;1}G1jPr{1&lt;Xj&lt;2}G2jPr{Xj&gt;2}G3j=∏j=1n(1−e−θ)G1j(e−θ−e−2θ)G2j(e−2θ)G3jL(θ|G)=∏j=1nPr{Xj&lt;1}G1jPr{1&lt;Xj&lt;2}G2jPr{Xj&gt;2}G3j=∏j=1n(1−e−θ)G1j(e−θ−e−2θ)G2j(e−2θ)G3j\begin{align*} L(\theta | G) &= \prod_{j=1}^n \text{Pr}\left\{X_j < 1\right\}^{G_{1j}}\text{Pr}\left\{12\right\}^{G_{3j}}\\ &= \prod_{j=1}^n \left(1-e^{-\theta}\right)^{G_{1j}}\left(e^{-\theta}-e^{-2\theta}\right)^{G_{2j}}\left(e^{-2\theta}\right)^{G_{3j}} \end{align*} (b) ให้โอกาสในการเก็บข้อมูลอย่างสมบูรณ์ L(θ|X,G)=∏j=1n(θe−θxj)G1j(θe−θxj)G2j(θe−θxj)G3jL(θ|X,G)=∏j=1n(θe−θxj)G1j(θe−θxj)G2j(θe−θxj)G3j\begin{align*} L(\theta | X,G) &= \prod_{j=1}^n …

1
กำหนดจำนวนที่ตั้งที่ไม่รู้จักในโลกแห่งความจริงจากรายงานที่อิงกับ GPS
ผมทำงานเกี่ยวกับซอฟแวร์บางอย่างที่ควรตรวจสอบสถานที่โลกแห่งความจริง (fe กล้องความเร็ว) จากหลายรายงานจีพีเอสตาม ผู้ใช้จะขับรถเมื่อรายงานตำแหน่งดังนั้นรายงานจะไม่ถูกต้องมาก เพื่อแก้ปัญหานั้นฉันต้องจัดกลุ่มรายงานเกี่ยวกับสถานที่เดียวกันและคำนวณค่าเฉลี่ย คำถามของฉันเป็นเรื่องเกี่ยวกับวิธีการจัดกลุ่มรายงานเหล่านั้น ฉันอ่านเกี่ยวกับอัลกอริทึมการคาดหวัง - สูงสุดและการจัดกลุ่ม k-meanแต่เท่าที่ฉันเข้าใจฉันจะต้องกำหนดจำนวนสถานที่จริงล่วงหน้า มีอัลกอริธึมอื่น ๆ ซึ่งไม่ต้องการจำนวนตำแหน่งจริงแน่นอน แต่ใช้เงื่อนไขขอบ (แทนระยะทางน้อยที่สุด) แทน รายงานมีเส้นแวง , ละติจูดและความถูกต้อง (เมตร) ไม่มีชื่อหรือสิ่งอื่นใดที่สามารถใช้เพื่อระบุรายการที่ซ้ำกันได้ อุปสรรคอีกประการหนึ่งอาจเป็นเรื่องธรรมดาที่จะมีเพียงรายงานเดียวสำหรับที่ตั้งจริง ทำให้แยกความแตกต่างค่าผิดพลาดกับข้อมูลที่ดีได้ยาก

2
ใช้อัลกอริทึม EM สำหรับการเชื่อมโยงบันทึก
ฉันสนใจในการเชื่อมโยงบันทึกข้าม 2 ชุดข้อมูลโดยชื่อนามสกุลและปีเกิด อาจเป็นไปได้ด้วยอัลกอริทึม EM และถ้าเป็นเช่นนั้นได้อย่างไร ลองพิจารณาบันทึกต่อไปนี้ในตัวอย่างที่ 1: Carl McCarthy, 1967 ฉันจะค้นหาข้อมูลทั้งหมดในชุดข้อมูลชุดที่ 2 และกำหนดระยะทาง jaro-winkler ระหว่างชื่อที่ 1 และ Carl และระยะทาง jaro-winkler ระหว่างนามสกุลและ McCarthy ระยะทางเหล่านี้น่าจะเป็นเช่นเดียวกับระยะห่างระหว่างปีเกิด เรารวม 3 ความน่าจะเป็นเหล่านั้น (คูณด้วยค่าเฉลี่ย?) เป็น 1 ตอนนี้ส่วนกฎการตัดสินใจมา ให้เราจัดอันดับความน่าจะเป็นทั้งหมดจากมากไปหาน้อย ก่อนอื่นเราต้องการ P (การเข้าชมครั้งแรกคือการจับคู่)&gt; = ธรณีประตู ประการที่สองเราต้องการ P (การเข้าชมครั้งแรกคือการจับคู่) / P (การเข้าชมครั้งที่สองคือการจับคู่)&gt; = เกณฑ์ถ้า P (การเข้าชมครั้งที่สองเป็นการจับคู่) อยู่ ประการที่สามเราต้องการการโจมตีครั้งแรกในชุดข้อมูลที่สองนี้เพื่อจับคู่ไม่เกิน 1 …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.