เปลี่ยนจากการทำแบบจำลองกระบวนการโดยใช้การกระจายแบบปัวซงเพื่อใช้การกระจายแบบลบแบบทวินาม?


24

เรามีขั้นตอนการสุ่มที่อาจจะหรืออาจจะไม่เกิดขึ้นหลายครั้งในระยะเวลาที่กำหนดของเวลาTเรามีฟีดข้อมูลจากรูปแบบที่มีอยู่ก่อนของกระบวนการนี้ที่ให้ความน่าจะเป็นของจำนวนของเหตุการณ์ที่เกิดขึ้นในช่วงเวลาที่<T โมเดลที่มีอยู่นี้เก่าและเราจำเป็นต้องเรียกใช้การตรวจสอบสดกับข้อมูลฟีดสำหรับข้อผิดพลาดในการประเมิน รุ่นเก่าผลิตข้อมูลฟีด (ซึ่งจะให้ความน่าจะเป็นของเหตุการณ์ที่เกิดขึ้นในเวลาที่เหลืออีก ) จะอยู่ที่ประมาณ Poisson กระจายT0t<Tnt

ดังนั้นเพื่อตรวจสอบความผิดปกติ / ข้อผิดพลาดเราปล่อยให้tเป็นเวลาที่เหลืออยู่และXtเป็นจำนวนรวมของเหตุการณ์ที่จะเกิดขึ้นในระยะเวลาที่เหลือทีtรุ่นเก่าหมายถึงการประมาณการP(Xtc)ค) ดังนั้นภายใต้สมมติฐานของเราXtPoisson(λt)เรามี:

P(Xtc)=eλk=0cλtkk!.
เพื่อให้ได้อัตราการจัดกิจกรรมของเราλtจากเอ้าท์พุทของโมเดลเก่า (การสังเกตyt ) เราใช้วิธีพื้นที่ของรัฐและสร้างแบบจำลองความสัมพันธ์ของรัฐเป็น:
yt=λt+εt(εtN(0,Ht)).
เรากรองการสังเกตจากแบบจำลองเก่าโดยใช้แบบจำลองพื้นที่รัฐ [การสลายตัวด้วยความเร็วคงที่] สำหรับการวิวัฒนาการของλtเพื่อรับสถานะการกรองE(λt|Yt)และตั้งค่าสถานะความผิดปกติ / ความผิดพลาดในความถี่เหตุการณ์โดยประมาณจาก ที่ฟีดข้อมูลหากE(λt|Yt)<yt<y_t

วิธีการนี้ใช้งานได้ดีในการรับข้อผิดพลาดในเหตุการณ์ที่คาดการณ์นับในช่วงเวลาTเต็มรูปแบบTแต่ไม่ดีถ้าเราต้องการทำเช่นเดียวกันสำหรับช่วงเวลาอื่น0t<σโดยที่σ<23TT ในการหลีกเลี่ยงสิ่งนี้เราได้ตัดสินใจแล้วว่าตอนนี้เราต้องการเปลี่ยนไปใช้การแจกแจงลบแบบทวินามเพื่อที่เราจะได้สมมติว่าตอนนี้XtNB(r,p)และเรามี:

P(Xtc)=prk=0c(1p)k(k+r1r1),
ซึ่งตอนนี้พารามิเตอร์λถูกแทนที่ด้วยrและp. สิ่งนี้ควรตรงไปตรงมาเพื่อนำไปใช้ แต่ฉันมีปัญหากับการตีความและทำให้ฉันมีคำถามบางอย่างที่ต้องการให้คุณช่วย:

1.เราสามารถตั้งค่าp=λในการแจกแจงแบบทวินามลบได้ไหม? ถ้าไม่ทำไมไม่

2.สมมติว่าเราสามารถตั้งค่าp=f(λ)โดยที่fคือฟังก์ชั่นบางอย่างเราจะตั้งค่าrอย่างถูกต้องได้rอย่างไร (เราจำเป็นต้องพอดีกับrโดยใช้ชุดข้อมูลที่ผ่านมา)?

3.คือrขึ้นอยู่กับจำนวนของเหตุการณ์ที่เกิดขึ้นเราคาดว่าจะเกิดขึ้นในระหว่างขั้นตอนที่กำหนดหรือไม่


ภาคผนวกเพื่อแยกการประมาณสำหรับr (และp ):

ฉันรู้ว่าถ้าเราในความเป็นจริงมีปัญหานี้กลับและเรามีจำนวนเหตุการณ์สำหรับแต่ละกระบวนการที่เราสามารถนำมาใช้ประมาณการโอกาสสูงสุดสำหรับและPแน่นอนน่าจะเป็นประมาณการสูงสุดอยู่เพียงตัวอย่างที่ความแปรปรวนของกลุ่มตัวอย่างมีขนาดใหญ่กว่าค่าเฉลี่ยของกลุ่มตัวอย่าง แต่ถ้าเรื่องนี้เป็นกรณีที่เราสามารถตั้งค่าฟังก์ชั่นความน่าจะเป็นสำหรับอิสระสังเกตกันกระจายเป็น: ซึ่งเราสามารถเขียนฟังก์ชันบันทึกความเป็นไปได้ดังนี้: rpNk1,k2,,kN

L(r,p)=i=1NP(ki;r,p),
l(r,p)=i=1Nln(Γ(ki+r))i=1Nln(ki!)Nln(Γ(r))+i=1Nkiln(p)+Nrln(1p).
เพื่อหาค่าสูงสุดเราหาอนุพันธ์ย่อยบางส่วนเทียบกับและแล้วตั้งค่าเป็นศูนย์: การตั้งค่าและการตั้งค่าเราพบ: rp
rl(r,p)=i=1Nψ(ki+r)Nψ(r)+Nln(1p),pl(r,p)=i=1Nki1pNr11p.
rl(r,p)=pl(r,p)=0p=i=1Nki(Nr+i=1Nki),
rl(r,p)=i=1Nψ(ki+r)Nψ(r)+Nln(rr+i=1NkiN)=0.
สมการนี้ไม่สามารถแก้ไขได้สำหรับ r ในรูปแบบปิดโดยใช้นิวตันหรือแม้แต่ EM อย่างไรก็ตามนี่ไม่ใช่กรณีในสถานการณ์นี้ แม้ว่าเราจะสามารถใช้ข้อมูลที่ผ่านมาเพื่อรับค่าคงที่และนี่ไม่ใช่การใช้งานจริงสำหรับกระบวนการของเรา แต่เราต้องปรับพารามิเตอร์เหล่านี้ในเวลาเช่นเดียวกับที่เราใช้ปัวซอง rp

1
ทำไมไม่เพียงแค่เสียบข้อมูลของคุณเข้ากับโมเดลการถดถอยแบบปัวซองหรือเนกาทีฟทวินาม?
StatsStudent

1
ผมไม่รู้สึกว่ามันควรจะมีที่จะนำมาใช้ โปรดจำไว้ว่าปัวซงเป็นกรณี จำกัด ของเนกาทีฟบิโอเมียลควรจะมีวิธีการตั้งค่าพารามิเตอร์ปัญหานี้ในลักษณะที่ฉันได้ทำเพื่อปัวซอง นอกจากนี้กระบวนการนี้เกิดขึ้นพร้อมกันสำหรับกระบวนการที่แตกต่างกันหลายพันกระบวนการและไม่มีใครมี "อัตราเหตุการณ์" เดียวกันซึ่งหมายความว่าการวิเคราะห์การถดถอยสำหรับพารามิเตอร์เหล่านี้จะต้องทำในทุกการสังเกตใหม่สำหรับกระบวนการที่มีชีวิตทั้งหมด สิ่งนี้ไม่สามารถทำได้ ขอบคุณมากที่สละเวลาในการอ่านคำถามและความคิดเห็นของฉันมันเป็นที่นิยมมากที่สุด ...
MoonKnight

1
ในแง่ของการเชื่อมโยงปัวซองกับ NB หากคุณมีกับตัวแปรการกระจายที่ซ่อนอยู่ดังนั้นและ1} นี้จะช่วยให้การกระจาย NB ร่อแร่เมื่อการบูรณาการออกg_tคุณสามารถใช้สิ่งนี้เพื่อช่วย (Xt|λt,rt,gt)Pois(λtgt)(gt|rt)Gamma(rt,rt)E(gt)=1var(gt)=rt1gt
ความน่าจะเป็นทางการ

นั่นเป็นความช่วยเหลือที่ดี แต่คุณสามารถเพิ่มรายละเอียดและให้รายละเอียดที่ชัดเจนได้หรือไม่? ขอบคุณมากสำหรับเวลาของคุณ ...
MoonKnight

1
แล้วการใช้ทวินามมากกว่าการลบทวินามล่ะ? นั่นอาจจะง่ายกว่าที่จะทำ Anscombe FJ การแปลงข้อมูลปัวซอง, ทวินามและลบทวินาม Biometrika 1948; 35: 246-54
คาร์ล

คำตอบ:


1

การแจกแจงทวินามลบนั้นคล้ายกันมากกับตัวแบบความน่าจะเป็นทวินาม มันสามารถใช้งานได้เมื่อสมมติฐาน (เงื่อนไข) ดังต่อไปนี้ดี 1) การทดลองใด ๆ จะดำเนินการภายใต้เงื่อนไขเดียวกันจนกว่าจะมีจำนวนของความสำเร็จคงที่กล่าวว่า C คือบรรลุ 2) ผลของการทดสอบแต่ละครั้งสามารถแบ่งออกเป็นหนึ่งในสองประเภท ความสำเร็จหรือความล้มเหลว 3) ความน่าจะเป็น P ของความสำเร็จนั้นเท่ากันสำหรับการทดสอบแต่ละครั้ง 40 การทดสอบแต่ละครั้งนั้นไม่ขึ้นกับสิ่งอื่นใด เงื่อนไขแรกเป็นเพียงปัจจัยสำคัญที่สร้างความแตกต่างระหว่างทวินามและทวินามลบ


0

การแจกแจงปัวซองนั้นสามารถประมาณค่าทวินามได้อย่างสมเหตุสมผลภายใต้เงื่อนไขบางประการเช่น 1) ความน่าจะเป็นที่จะประสบความสำเร็จสำหรับการทดลองแต่ละครั้งนั้นน้อยมาก P -> 0 2) np = m (พูด) เป็น finete กฎที่ใช้บ่อยที่สุดโดยนักสถิติคือปัวซองเป็นค่าประมาณที่ดีของทวินามเมื่อ n เท่ากับหรือมากกว่า 20 และ p เท่ากับหรือน้อยกว่า 5 %

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.