ทำไมการแก้ไขความต่อเนื่อง (เช่นการประมาณค่าปกติของการแจกแจงทวินาม) ใช้งานได้?


24

ฉันต้องการเข้าใจวิธีการแก้ไขความต่อเนื่องของการแจกแจงทวินามสำหรับการประมาณแบบปกติ

วิธีใดที่ใช้ในการตัดสินใจว่าเราควรเพิ่ม 1/2 (เพราะเหตุใดจึงไม่ใช่หมายเลขอื่น) คำอธิบายใด ๆ (หรือลิงก์ไปยังการอ่านที่แนะนำนอกเหนือจากนี้จะได้รับการชื่นชม)

คำตอบ:


29
  1. อันที่จริงแล้วมันไม่ได้ "ทำงาน" เสมอไป (ในแง่ของการปรับปรุงการประมาณค่าของ c นามทวินามโดยปกติที่ใด ๆx) หากทวินามpเป็น 0.5 ฉันคิดว่ามันช่วยได้เสมอยกเว้นบางทีสำหรับหางที่มากที่สุด ถ้าpอยู่ไม่ไกลจาก 0.5 สำหรับขนาดใหญ่พอสมควรnมักใช้งานได้ดีมากยกเว้นที่หางไกล แต่ถ้าpอยู่ใกล้ 0 หรือ 1 อาจไม่ช่วยเลย (ดูที่ 6 ด้านล่าง)

  2. สิ่งหนึ่งที่ต้องจำไว้ (แม้จะมีภาพประกอบเกือบตลอดเวลาที่เกี่ยวข้องกับ pmfs และ pdf) คือสิ่งที่เราพยายามประมาณคือ cdf มันจะมีประโยชน์ในการไตร่ตรองสิ่งที่เกิดขึ้นกับ cdf ของทวินามและปกติประมาณ (เช่นนี่คือn=20,p=0.5 ):

    ป้อนคำอธิบายรูปภาพที่นี่

    ในขีด จำกัด cdf ของทวินามมาตรฐานจะไปสู่มาตรฐานปกติ (โปรดทราบว่าการกำหนดมาตรฐานจะส่งผลกระทบต่อระดับบนแกน x แต่ไม่ใช่แกน y) ตามทางที่จะมีขนาดใหญ่มากขึ้นnกระโดด CDF ทวินามมีแนวโน้มที่เท่าเทียมกันมากขึ้นคร่อม CDF ปกติ

    ลองซูมเข้าไปดูที่ตัวอย่างง่ายๆข้างต้น:

    ป้อนคำอธิบายรูปภาพที่นี่

    โปรดสังเกตว่าเนื่องจากการประมาณค่าปกติผ่านไปใกล้กับกลางของการข้ามแนวดิ่ง * ในขณะที่การ จำกัด cdf ปกติจะอยู่ภายในเชิงเส้นตรงและ (ตามความก้าวหน้าของทวินาม cdf ที่ด้านบนของการกระโดดแต่ละครั้ง); เป็นผลให้ cdf มีแนวโน้มที่จะข้ามขั้นตอนในแนวนอนใกล้ . หากคุณต้องการประมาณค่าของทวินาม cdf,F(xx+12ที่จำนวนเต็ม x , cdf ปกติถึงความสูงนั้นใกล้กับ x + 1F(x)x .x+12

    * ถ้าเราใช้ Berry-Esseen กับตัวแปร Bernoulli ที่แก้ไขค่าเฉลี่ยขอบเขต Berry-Esseen จะอนุญาตให้มีห้องเลื้อยเล็กน้อยเมื่ออยู่ใกล้1pและx12xใกล้ - cdf ปกติจะต้องผ่านใกล้กลางของการกระโดดที่มีเหตุผลเพราะมิฉะนั้นความแตกต่างที่แท้จริงใน cdfs จะเกิน Berry-Essen ที่ดีที่สุดที่ผูกไว้ที่ด้านหนึ่งหรืออีกด้านหนึ่ง สิ่งนี้เกี่ยวข้องกับระยะห่างจากx + 1μ cdf ปกติสามารถข้ามส่วนแนวนอนของฟังก์ชั่นขั้นตอนของทวินาม cdfx+12

  3. ขยายแรงจูงใจที่ใน 1 ลองพิจารณาว่าเราจะใช้การประมาณแบบปกติกับ cd ทวินามอลเพื่อหาได้อย่างไร เช่นn = 20 , p = 0.5 , k = 9 (ดูแผนภาพที่สองด้านบน) ดังนั้นปกติของเราที่มีค่าเฉลี่ยเท่ากันและ sd คือN ( 10 , ( P(X=k)n=20,p=0.5,k=9) โปรดทราบว่าเราจะประมาณการกระโดดใน cdf ที่ 9 โดยการเปลี่ยนแปลงใน cdf ปกติระหว่างประมาณ 8.5 และ 9.5N(10,(5)2)

ป้อนคำอธิบายรูปภาพที่นี่

  1. p(x)xp(x)

    ! [ใส่คำอธิบายภาพที่นี่

    x12x+1212

    เราสามารถกระตุ้นให้วิธีการนี้เกี่ยวกับพีชคณิตโดยใช้การสืบทอด [ตามแนวของ De Moivre - ดูที่นี่หรือที่นี่เป็นต้น] เพื่อรับการประมาณแบบปกติ (แม้ว่ามันจะสามารถทำได้โดยตรงมากกว่าแนวทางของ De Moivre)

    สิ่งนี้เป็นสิ่งสำคัญในการดำเนินการผ่านการประมาณหลายอย่างรวมถึงการใช้การประมาณของ Stirling บน (nx)log(1+x)xx2/2

    P(X=x)12πnp(1p)exp((xnp)22np(1p))

    μ=npσ2=np(1p)xx

    YN(np,np(1p))F(y+12)F(y12)=y12y+12fY(u)dufY(y)fY(x)P(X=x)P(X=x)F(x+12)F(x12)

    [การประมาณประเภท "จุดกึ่งกลาง" ที่คล้ายกันสามารถนำมาใช้เพื่อกระตุ้นการประมาณค่า PMFS แบบต่อเนื่องอื่น ๆ ด้วยความหนาแน่นโดยใช้การแก้ไขแบบต่อเนื่อง แต่เราต้องระวังให้ใส่ใจด้วยเสมอ

  2. บันทึกทางประวัติศาสตร์: การแก้ไขความต่อเนื่องดูเหมือนว่าจะเกิดขึ้นกับออกัสตัสเดอมอร์แกนในปี 1838 เพื่อเป็นการปรับปรุงการประมาณของ De Moivre ดูตัวอย่างเช่น Hald (2007) [1] จากคำอธิบายของ Hald เหตุผลของเขาอยู่ในแนวของรายการ 4 ข้างต้น (กล่าวคือในแง่ของการพยายามประมาณ PMF โดยแทนที่ความน่าจะเป็นที่ขัดขวางด้วย "บล็อก" ของความกว้าง 1 อยู่ที่ค่า x)

  3. ภาพประกอบของสถานการณ์ที่การแก้ไขอย่างต่อเนื่องไม่ได้ช่วย:

    ป้อนคำอธิบายรูปภาพที่นี่

    XYFX(x)FY(x+12)p(x)FY(x+12)FY(x12)FX(x)FY(x)p(x)FY(x)FY(x1)

    [1]: Hald, Anders (2007),
    "ประวัติความเป็นมาของการอนุมานเชิงสถิติจากเบอร์นูลลีถึงฟิชเชอร์, 1713-1935",
    แหล่งที่มาและการศึกษาในประวัติศาสตร์ของคณิตศาสตร์และวิทยาศาสตร์กายภาพ
    Springer-Verlag New York


1

ฉันเชื่อว่าปัจจัยที่เกิดขึ้นจากความจริงที่ว่าเรากำลังเปรียบเทียบการกระจายอย่างต่อเนื่องกับการแยก เราจำเป็นต้องแปลความหมายของแต่ละค่าที่ไม่ต่อเนื่องในการแจกแจงแบบต่อเนื่อง เราสามารถเลือกค่าอื่นได้อย่างไรก็ตามนี่จะไม่สมดุลกับจำนวนเต็มที่กำหนด (เช่นคุณจะให้น้ำหนักความน่าจะเป็นที่ 6 เพิ่มขึ้นเป็น 7 มากกว่า 5)

ฉันพบลิงค์ที่มีประโยชน์ที่นี่: ลิงค์

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.