ทั้ง (1) และ (1b) ถูกต้อง OP มีสิทธิ์ที่ (ในรุ่นนี้) อาจมีการเปลี่ยนที่t+1และ xt+1ขึ้นอยู่กับว่ามีการเปลี่ยนแปลงหรือไม่ สิ่งนี้ไม่ได้หมายความถึงปัญหาใด ๆ กับ (1) ว่าเป็นค่าที่เป็นไปได้ของrt+1 ถูก "ปิด" อย่างสมบูรณ์โดย P(xt+1∣rt,x1:t). P(xt+1|rt,x1:t) หมายถึงการกระจายเงื่อนไขของ xt+1 เงื่อนไข (rt,x1:t). การแจกแจงแบบมีเงื่อนไขนี้มีค่าเฉลี่ยมากกว่า "ทุกอย่าง" รวมถึงrt+1บนเงื่อนไข (rt,x1:t). เหมือนที่เขียนได้พูดได้P(xt+1000|xt)ซึ่งจะคำนึงถึงการกำหนดค่าที่เป็นไปได้ทั้งหมดของการเปลี่ยนค่ารวมทั้งค่าของ xiเกิดขึ้นระหว่าง t และ t+1000.
ในส่วนที่เหลือฉันแรกได้รับ (1) และจากนั้น (1b) ตาม (1)
แหล่งที่มาของ (1)
สำหรับตัวแปรสุ่มใด ๆ A,B,C, เรามี
P(A∣B)=∑cP(A∣B,C=c)P(C=c∣B),
ตราบเท่าที
Cไม่ต่อเนื่อง (ไม่เช่นนั้นผลรวมจะต้องถูกแทนที่ด้วยอินทิกรัล) ใช้สิ่งนี้กับ
xt+1,x1:t,rt:
P(xt+1∣x1:t)=∑rtP(xt+1∣rt,x1:t)P(rt∣x1:t),
ซึ่งถือไม่ว่าสิ่งที่อ้างอิงระหว่าง
rt,
x1:t,
xt+1คือนั่นคือยังไม่มีการใช้สมมติฐานที่เป็นรูปแบบ ในรูปแบบปัจจุบัน
xt+1 รับ
rt,x(r)t ถูกสันนิษฐานว่า * เป็นเงื่อนไขที่เป็นอิสระจากค่าของ
x จากการวิ่งมาก่อน
x(r)t. สิ่งนี้แสดงถึง
P(xt+1∣rt,x1:t)=P(xt+1∣rt,x(r)t). เราได้สิ่งนี้มาแทนสมการก่อนหน้า
P(xt+1∣x1:t)=∑rtP(xt+1∣rt,x(r)t)P(rt∣x1:t),(1)
ซึ่งคือ (1) ใน OP
แหล่งที่มาของ (1b)
ให้เราพิจารณาการสลายตัวของ P(xt+1∣rt,x(r)t) มากกว่าค่าที่เป็นไปได้ของ rt+1:
P(xt+1∣rt,x(r)t)=∑rt+1P(xt+1∣rt+1,rt,x(r)t)P(rt+1∣rt,x(r)t).
เนื่องจากมันถูกสันนิษฐานว่า * ว่าการเปลี่ยนแปลงเกิดขึ้นที่ t+1 (ระหว่าง xt และ xt+1) ไม่ได้ขึ้นอยู่กับประวัติของ x, เรามี P(rt+1∣rt,x(r)t)=P(rt+1∣rt). Furthermore, since rt+1 determines whether xt+1 belongs into the same run as xt, we have P(xt+1∣rt+1,rt,x(r)t)=P(xt+1∣rt+1,x(r)t). Substituting these two simplifications into the factorization above, we get
P(xt+1∣rt,x(r)t)=∑rt+1P(xt+1∣rt+1,x(r)t)P(rt+1∣rt).
Substituting this into (1), we get
P(xt+1∣x1:t)=∑rt(∑rt+1P(xt+1∣rt+1,x(r)t)P(rt+1∣rt))P(rt∣x1:t),(1b)
which is OP's (1b).
* Remark on the model's conditional independence assumptions
Based on quickly browsing the paper, I would personally like the conditional independence properties to be more explicitly stated somewhere, but I suppose that the intention is that r is Markovian and the x:s associated to different runs are independent (given the runs).