เข้าใจโดยสัญชาตญาณว่าเหตุใดการแจกแจงปัวซงเป็นกรณี จำกัด ของการแจกแจงทวินาม


14

ใน "การวิเคราะห์ข้อมูล" โดย DS Sivia มีการสืบทอดของการแจกแจงปัวซงจากการแจกแจงทวินาม

พวกเขาอ้างว่าการแจกแจงปัวซงเป็นกรณี จำกัด ของการแจกแจงทวินามเมื่อMโดยที่Mคือจำนวนการทดลอง

คำถามที่ 1: การโต้แย้งนั้นจะเข้าใจได้อย่างไรอย่างสังหรณ์ใจ?

คำถามที่ 2: ทำไมขีด จำกัดขนาดใหญ่Mถึงเท่ากับM NM!N!(MN)!ที่Nคือจำนวนความสำเร็จในการทดลองM? (ขั้นตอนนี้ใช้ในการสืบทอด)MNN!NM


สิ่งนี้เกี่ยวข้อง: stats.stackexchange.com/questions/180057/…
kjetil b halvorsen

คำตอบ:


5

ฉันจะลองคำอธิบายง่ายๆ บันทึกว่าสำหรับตัวแปรสุ่มทวินามเรามีความคาดหวังคือn Pและความแปรปรวนเป็นn P ( 1 - P ) ตอนนี้คิดว่าXบันทึกจำนวนเหตุการณ์ในการทดลองnจำนวนมากแต่ละเหตุการณ์มีความน่าจะเป็นน้อยpดังนั้นเราจึงใกล้เคียงกับ1 - p = 1 (จริงๆ ) จากนั้นเรามีn p = λXBin(n,p)npnp(1p)Xnp1p=1np=λพูดและดังนั้นค่าเฉลี่ยและความแปรปรวนมีทั้งเท่ากับλ จากนั้นจำไว้ว่าสำหรับตัวแปรปัวซองแบบกระจายสุ่มเรามีค่าเฉลี่ยและความแปรปรวนเท่ากันเสมอ! นั่นเป็นเหตุผลที่เป็นไปได้สำหรับการประมาณปัวซอง แต่ไม่ใช่ข้อพิสูจน์np(1p)np1=λλ

จากนั้นดูจากมุมมองอื่นกระบวนการจุดปัวซองที่https://en.wikipedia.org/wiki/Poisson_point_process ในบรรทัดจริง นี่คือการกระจายตัวของคะแนนสุ่มบนเส้นที่เราได้รับหากคะแนนสุ่มเกิดขึ้นตามกฎ:

  1. คะแนนในช่วง disjoint เป็นอิสระ
  2. ความน่าจะเป็นของจุดสุ่มในช่วงเวลาสั้น ๆ เป็นสัดส่วนกับความยาวของช่วงเวลา
  3. ความน่าจะเป็นที่จุดสองจุดขึ้นไปในช่วงเวลาสั้น ๆ นั้นเป็นศูนย์

จากนั้นการกระจายจำนวนจุดในช่วงเวลาที่กำหนด (ไม่จำเป็นต้องสั้น) คือปัวซอง (พร้อมพารามิเตอร์สัดส่วนกับความยาว) ทีนี้ถ้าเราแบ่งช่วงนี้ในช่วงย่อยสั้นมาก ๆ เท่ากัน ( n ) ความน่าจะเป็นที่จุดสองจุดหรือมากกว่านั้นในช่วงย่อยที่กำหนดนั้นเป็นศูนย์ดังนั้นตัวเลขนั้นจะมีการกระจายตัวเบออลลี่ที่ดีมาก นั่นคือBin ( 1 , p )ดังนั้นผลรวมของทั้งหมดนี้คือBin ( n , p )ดังนั้นการประมาณที่ดีของการแจกแจงปัวซองของจำนวนคะแนนในช่วงเวลา (ยาว) นั้นλnBin(1,p)Bin(n,p)

แก้ไขจาก @Ytsen de Boer (OP): ตอบคำถามหมายเลข 2 เป็นที่น่าพอใจโดย @ Łukasz Grad


6

ผมขอยกตัวอย่างฮิวริสติกสำรอง ฉันจะแสดงวิธีประมาณกระบวนการปัวซงว่าเป็นทวินาม (และยืนยันว่าการประมาณนั้นดีกว่าสำหรับการทดลองหลายครั้งที่มีความน่าจะเป็นต่ำ) ดังนั้นการแจกแจงทวินามจะต้องมีแนวโน้มการแจกแจงปัวซอง

สมมติว่าเหตุการณ์เกิดขึ้นโดยมีอัตราคงที่ในเวลา เราต้องการทราบการกระจายของเหตุการณ์ที่เกิดขึ้นในหนึ่งวันโดยรู้ว่าจำนวนเหตุการณ์ที่คาดหวังคือλ λ

ดีจำนวนที่คาดหวังของเหตุการณ์ต่อชั่วโมงเป็นλ/24 24 ลองทำเป็นว่านี้หมายถึงว่าน่าจะเป็นของเหตุการณ์ที่เกิดขึ้นในชั่วโมงที่กำหนดจะλ/24 24 [มันไม่ถูกต้อง แต่มันเป็นประมาณที่ดีถ้าλ/241โดยทั่วไปถ้าเราสามารถสันนิษฐานได้ว่าหลายเหตุการณ์ไม่ได้เกิดขึ้นในเวลาเดียวกัน] แล้วเราสามารถใกล้เคียงกับการกระจายของจำนวนเหตุการณ์ที่เกิดขึ้นในขณะที่ทวินามกับM=24การทดลองแต่ละคนมีความน่าจะเป็นความสำเร็จλ/24 24

เราปรับปรุงการประมาณโดยการเปลี่ยนช่วงเวลาเป็นนาที จากนั้นก็เป็นp=λ/1440ด้วยM=1440การทดลอง1440 ถ้าλเป็นรอบกล่าวว่า 10 แล้วเราสามารถสวยมั่นใจว่าไม่มีนาทีมีสองเหตุการณ์

แน่นอนว่ามันจะดีขึ้นถ้าเราเปลี่ยนเป็นวินาที ตอนนี้เรากำลังมองหาที่M=86400เหตุการณ์แต่ละคนมีความน่าจะเป็นขนาดเล็กλ/86400 86400

ว่าใหญ่ของคุณไม่มีλคือผมในที่สุดก็สามารถเลือกขนาดเล็กพอΔtดังกล่าวว่ามันเป็นไปได้มากว่าไม่มีสองเหตุการณ์ที่เกิดขึ้นในช่วงเวลาเดียวกัน จากนั้นการกระจายตัวแบบทวินามที่สอดคล้องกับΔtจะเป็นการจับคู่ที่ดีเยี่ยมกับการแจกแจงปัวซองที่แท้จริง

เหตุผลเดียวที่พวกเขาไม่เหมือนกันคือมีความเป็นไปได้ที่ไม่ใช่ศูนย์ว่ามีสองเหตุการณ์เกิดขึ้นในช่วงเวลาเดียวกัน แต่เนื่องจากมีเพียงประมาณλเหตุการณ์และมีการกระจายไปยังถังขยะจำนวนหนึ่งที่มากเกินกว่าλไม่น่าเป็นไปได้ที่ทั้งสองจะอยู่ในถังขยะเดียวกัน

หรือในคำอื่น ๆ ที่มีการกระจายทวินามมีแนวโน้มที่จะการกระจาย Poisson เป็นMถ้าความน่าจะเป็นความสำเร็จคือp=λ/M M


5

คำถามที่ 1

เรียกคืนคำจำกัดความของการแจกแจงทวินาม:

การแจกแจงความถี่ของจำนวนผลลัพธ์ที่เป็นไปได้ที่ประสบความสำเร็จในการทดลองในแต่ละครั้งซึ่งมีความน่าจะเป็นเหมือนกันของความสำเร็จ

เปรียบเทียบสิ่งนี้กับคำจำกัดความของการแจกแจงปัวซอง:

การแจกแจงความถี่แบบแยกซึ่งให้ความน่าจะเป็นของเหตุการณ์อิสระจำนวนหนึ่งที่เกิดขึ้นในเวลาที่กำหนดเวลา

ความแตกต่างที่สำคัญระหว่าง 2 คือทวินามคือในการทดลอง , ปัวซองเป็นช่วงเวลาtntทีขีด จำกัด จะเกิดขึ้นได้อย่างไรอย่างสังหรณ์ใจ?

ให้บอกว่าคุณต้องดำเนินการทดลอง Bernoulli ตลอดไปชั่วนิรันดร์ ยิ่งกว่านั้นคุณวิ่งต่อนาที ต่อนาทีคุณจะนับความสำเร็จแต่ละครั้ง ดังนั้นตลอดไปชั่วนิรันดร์คุณกำลังเรียกใช้กระบวนการ B i n ( p , 30 )ทุกนาที มากกว่า 24 ชั่วโมงคุณมี B ฉันn ( p , 43200 )n=30Bin(p,30)Bin(p,43200) )

เมื่อคุณรู้สึกเหนื่อยคุณจะถูกถามว่า "มีกี่ความสำเร็จเกิดขึ้นระหว่างเวลา 18:00 น. - 19:00 น." คำตอบของคุณอาจเป็นนั่นคือคุณให้ความสำเร็จโดยเฉลี่ยในหนึ่งชั่วโมง ที่เสียงมากเช่นพารามิเตอร์ Poisson λให้ฉัน3060pλ


5

คำถาม 2)

M!N!(MN)!MNN!=M(M1)(MN+1)MN=1(11M)(1N1M)

ดังนั้นการ จำกัด สำหรับการแก้ไขN

limMM!N!(MN)!MNN!=limM1(11M)(1N1M)=1

+1 ฉันเริ่มต้นด้วยการดูการประมาณของสเตอร์ลิง แต่เริ่มวิ่งวนเป็นวงกลม คุณเข้าใกล้ง่ายกว่ามาก

ฉันไม่คิดว่านี่คือสิ่งที่ OP จะพบว่าใช้งานง่าย ...
kjetil b halvorsen

@kjetilbhalvorsen ฉันพยายามที่จะใช้คณิตศาสตร์ที่ง่ายที่สุดที่เป็นไปได้อย่างสังหรณ์ใจใหญ่เรามีM M - kสำหรับการแก้ไขk < < MMMMkk<<M
Łukaszจบการศึกษา

1
@kjetilbhalvorsen นี่คือคำตอบสำหรับ Q2 (ขั้นตอนการสืบทอด) ไม่ใช่ Q1 (คำอธิบายที่เข้าใจง่าย)
Ben Bolker

@TemplateRex อืม แต่ฉันคิดว่าเมื่อพิสูจน์การบรรจบกันของจุดฉันจะต้องพิสูจน์มันสำหรับทุกคงที่เป็นMไป infiity ใช่ไหม? นั่นคือω โอห์มลิม X เมตร ( ω ) X ( ω )NMωΩlimmXm(ω)X(ω)
Łukaszจบการศึกษา

5

ปัญหาคือว่าการกำหนดลักษณะของปัวซองเป็นกรณี จำกัด ของการแจกแจงทวินามนั้นไม่ถูกต้องตามที่ระบุไว้ไม่ถูกทีเดียวตามที่ระบุไว้

ปัวซองเป็นกรณี จำกัด ของทวินามเมื่อ: ส่วนที่สองมีความสำคัญ ถ้า p

MandMpλ.
pยังคงอยู่ในเงื่อนไขแรกก็หมายความว่าอัตราจะเพิ่มขึ้นโดยไม่มีข้อผูกมัด

สิ่งที่กระจาย Poisson สันนิษฐานว่าเหตุการณ์ที่เกิดขึ้นเป็นของหายาก สิ่งที่เราหมายถึงโดย "หายาก" ไม่ใช่ว่าอัตราการจัดกิจกรรมมีขนาดเล็ก - แน่นอนกระบวนการปัวซงอาจมีความเข้มสูงมาก - แต่ค่อนข้างจะเป็นไปได้ว่าความน่าจะเป็นของเหตุการณ์ที่เกิดขึ้นในทันทีในเวลาใด ๆ[ t , t + d t )มีขนาดเล็กหายไป สิ่งนี้ตรงกันข้ามกับแบบจำลองทวินามที่ความน่าจะเป็นpของเหตุการณ์ (เช่น "ความสำเร็จ") ได้รับการแก้ไขสำหรับการทดลองใด ๆλ[t,t+dt)p

เพื่อแสดงให้เห็นรูปแบบที่เราคิดว่าชุดของทดลองอิสระ Bernoulli แต่ละคนมีความน่าจะเป็นของความสำเร็จPและเรามองสิ่งที่เกิดขึ้นกับการกระจายของจำนวนความสำเร็จที่Xเป็นM →การ สำหรับNที่มีขนาดใหญ่เท่าที่เราต้องการและไม่ว่าpเล็กเพียงใดจำนวนที่คาดหวังของความสำเร็จคือE [ X ] = M p > NสำหรับM > N / pMpXMNpE[X]=Mp>NM>N/p. กล่าวอีกนัยหนึ่งไม่ว่าโอกาสของความสำเร็จจะเป็นไปได้ยากเพียงใดในที่สุดคุณก็สามารถประสบความสำเร็จโดยเฉลี่ยได้มากเท่าที่คุณต้องการหากคุณทำการทดลองหลายครั้งอย่างเพียงพอ ดังนั้น (หรือเพียงแค่พูดว่า " Mมีขนาดใหญ่") ไม่เพียงพอที่จะปรับรูปแบบปัวซองสำหรับXMMX X

มันไม่ได้เป็นเรื่องยากที่จะสร้างพีชคณิตเป็นกรณี จำกัด ของ Pr [ X = x ] = ( M

Pr[X=x]=eλλxx!,x=0,1,2,
โดยการตั้งค่า P = λ / Mและให้ M →การ คำตอบอื่น ๆ ที่นี่ได้กล่าวถึงสัญชาตญาณที่อยู่เบื้องหลังความสัมพันธ์นี้และให้คำแนะนำการคำนวณเช่นกัน แต่มันเป็นสิ่งสำคัญที่ P = λ / M คุณไม่สามารถเพิกเฉยได้
Pr[X=x]=(Mx)px(1p)Mx,x=0,1,2,,M
p=λ/MMp=λ/M

0

ฉันสามารถลองตอบได้เพียงส่วนเดียวเท่านั้นและมันเกี่ยวกับสัญชาตญาณของคำถาม 2 ไม่ใช่ข้อพิสูจน์ที่เข้มงวด

ยังไม่มีข้อความM, without replacement and without order.

Here though M becomes so large that you may approximate the scenario as sampling with replacement in which case you get Mยังไม่มีข้อความสั่งตัวอย่าง หากคุณไม่สนใจคำสั่งของยังไม่มีข้อความ วัตถุที่เลือกสิ่งนี้จะลด Mยังไม่มีข้อความ/ยังไม่มีข้อความ! เพราะสิ่งเหล่านั้น ยังไม่มีข้อความ สามารถสั่งวัตถุได้ ยังไม่มีข้อความ! วิธี


-2

Balls falling through layers of pegs

ฉันคิดว่านี่เป็นตัวอย่างที่ดีที่สุดที่อธิบายถึงวิธีการแจกแจงทวินามโดยสังหรณ์ใจว่าเป็นเรื่องธรรมดากับลูกบอลจำนวนมาก ที่นี่ลูกบอลแต่ละลูกมีความน่าจะเป็นที่เท่ากันในการตกที่ด้านข้างของหมุดในแต่ละชั้นและลูกบอลทั้งหมดต้องเผชิญหน้ากับหมุดจำนวนเดียวกัน จะเห็นได้อย่างง่ายดายว่าเมื่อลูกบอลมีจำนวนสูงมากการกระจายของลูกบอลในส่วนต่าง ๆ จะเหมือนกับการแจกแจงแบบปกติ

คำตอบของคำถาม 2 ของฉันเหมือนกับคำตอบของ Lukasz


2
นี่ไม่ใช่การตอบคำถามจริงๆมันตอบคำถามอื่น ...
kjetil b halvorsen

ฉันได้พยายามอธิบายสิ่งที่ถามในสัญชาตญาณอย่างสังหรณ์ใจ 1 คุณช่วยอธิบายเพิ่มเติมได้ไหมว่าทำไมคุณถึงคิดว่ามันไม่ใช่คำตอบ?
samwise_the_wise

1
ขออภัยฉันได้รับคะแนนตอนนี้ ฉันตอบคำถามที่แตกต่างอย่างสิ้นเชิง ความผิดฉันเอง.
samwise_the_wise

1
ฉันเห็นการกระจายแบบทวินามที่ลดทอนลงอย่างมาก ทำไมมันจึงเป็นที่ชัดเจนว่าการกระจายของลูกบอลที่ด้านล่างของควินนี่ซ์ควรเป็นเรื่องปกติ? ไม่ว่าคุณจะโยนลูกบอลลงไปในเครื่องนี้กี่ลูกก็ตามคุณจะยังคงได้รับการนับจำนวนในถังขยะ 13 ถังซึ่งอาจไม่ปกติ!
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.