ฉันต้องการเข้าใจวิธีการแก้ไขความต่อเนื่องของการแจกแจงทวินามสำหรับการประมาณแบบปกติ
วิธีใดที่ใช้ในการตัดสินใจว่าเราควรเพิ่ม 1/2 (เพราะเหตุใดจึงไม่ใช่หมายเลขอื่น) คำอธิบายใด ๆ (หรือลิงก์ไปยังการอ่านที่แนะนำนอกเหนือจากนี้จะได้รับการชื่นชม)
ฉันต้องการเข้าใจวิธีการแก้ไขความต่อเนื่องของการแจกแจงทวินามสำหรับการประมาณแบบปกติ
วิธีใดที่ใช้ในการตัดสินใจว่าเราควรเพิ่ม 1/2 (เพราะเหตุใดจึงไม่ใช่หมายเลขอื่น) คำอธิบายใด ๆ (หรือลิงก์ไปยังการอ่านที่แนะนำนอกเหนือจากนี้จะได้รับการชื่นชม)
คำตอบ:
อันที่จริงแล้วมันไม่ได้ "ทำงาน" เสมอไป (ในแง่ของการปรับปรุงการประมาณค่าของ c นามทวินามโดยปกติที่ใด ๆ) หากทวินามเป็น 0.5 ฉันคิดว่ามันช่วยได้เสมอยกเว้นบางทีสำหรับหางที่มากที่สุด ถ้าอยู่ไม่ไกลจาก 0.5 สำหรับขนาดใหญ่พอสมควรมักใช้งานได้ดีมากยกเว้นที่หางไกล แต่ถ้าอยู่ใกล้ 0 หรือ 1 อาจไม่ช่วยเลย (ดูที่ 6 ด้านล่าง)
สิ่งหนึ่งที่ต้องจำไว้ (แม้จะมีภาพประกอบเกือบตลอดเวลาที่เกี่ยวข้องกับ pmfs และ pdf) คือสิ่งที่เราพยายามประมาณคือ cdf มันจะมีประโยชน์ในการไตร่ตรองสิ่งที่เกิดขึ้นกับ cdf ของทวินามและปกติประมาณ (เช่นนี่คือ ):
ในขีด จำกัด cdf ของทวินามมาตรฐานจะไปสู่มาตรฐานปกติ (โปรดทราบว่าการกำหนดมาตรฐานจะส่งผลกระทบต่อระดับบนแกน x แต่ไม่ใช่แกน y) ตามทางที่จะมีขนาดใหญ่มากขึ้นกระโดด CDF ทวินามมีแนวโน้มที่เท่าเทียมกันมากขึ้นคร่อม CDF ปกติ
ลองซูมเข้าไปดูที่ตัวอย่างง่ายๆข้างต้น:
โปรดสังเกตว่าเนื่องจากการประมาณค่าปกติผ่านไปใกล้กับกลางของการข้ามแนวดิ่ง * ในขณะที่การ จำกัด cdf ปกติจะอยู่ภายในเชิงเส้นตรงและ (ตามความก้าวหน้าของทวินาม cdf ที่ด้านบนของการกระโดดแต่ละครั้ง); เป็นผลให้ cdf มีแนวโน้มที่จะข้ามขั้นตอนในแนวนอนใกล้ . หากคุณต้องการประมาณค่าของทวินาม cdf,F(xที่จำนวนเต็ม x , cdf ปกติถึงความสูงนั้นใกล้กับ x + 1 .
* ถ้าเราใช้ Berry-Esseen กับตัวแปร Bernoulli ที่แก้ไขค่าเฉลี่ยขอบเขต Berry-Esseen จะอนุญาตให้มีห้องเลื้อยเล็กน้อยเมื่ออยู่ใกล้1และxใกล้ - cdf ปกติจะต้องผ่านใกล้กลางของการกระโดดที่มีเหตุผลเพราะมิฉะนั้นความแตกต่างที่แท้จริงใน cdfs จะเกิน Berry-Essen ที่ดีที่สุดที่ผูกไว้ที่ด้านหนึ่งหรืออีกด้านหนึ่ง สิ่งนี้เกี่ยวข้องกับระยะห่างจากx + 1 cdf ปกติสามารถข้ามส่วนแนวนอนของฟังก์ชั่นขั้นตอนของทวินาม cdf
ขยายแรงจูงใจที่ใน 1 ลองพิจารณาว่าเราจะใช้การประมาณแบบปกติกับ cd ทวินามอลเพื่อหาได้อย่างไร เช่นn = 20 , p = 0.5 , k = 9 (ดูแผนภาพที่สองด้านบน) ดังนั้นปกติของเราที่มีค่าเฉลี่ยเท่ากันและ sd คือN ( 10 , ( √) โปรดทราบว่าเราจะประมาณการกระโดดใน cdf ที่ 9 โดยการเปลี่ยนแปลงใน cdf ปกติระหว่างประมาณ 8.5 และ 9.5
เราสามารถกระตุ้นให้วิธีการนี้เกี่ยวกับพีชคณิตโดยใช้การสืบทอด [ตามแนวของ De Moivre - ดูที่นี่หรือที่นี่เป็นต้น] เพื่อรับการประมาณแบบปกติ (แม้ว่ามันจะสามารถทำได้โดยตรงมากกว่าแนวทางของ De Moivre)
สิ่งนี้เป็นสิ่งสำคัญในการดำเนินการผ่านการประมาณหลายอย่างรวมถึงการใช้การประมาณของ Stirling บน
[การประมาณประเภท "จุดกึ่งกลาง" ที่คล้ายกันสามารถนำมาใช้เพื่อกระตุ้นการประมาณค่า PMFS แบบต่อเนื่องอื่น ๆ ด้วยความหนาแน่นโดยใช้การแก้ไขแบบต่อเนื่อง แต่เราต้องระวังให้ใส่ใจด้วยเสมอ
บันทึกทางประวัติศาสตร์: การแก้ไขความต่อเนื่องดูเหมือนว่าจะเกิดขึ้นกับออกัสตัสเดอมอร์แกนในปี 1838 เพื่อเป็นการปรับปรุงการประมาณของ De Moivre ดูตัวอย่างเช่น Hald (2007) [1] จากคำอธิบายของ Hald เหตุผลของเขาอยู่ในแนวของรายการ 4 ข้างต้น (กล่าวคือในแง่ของการพยายามประมาณ PMF โดยแทนที่ความน่าจะเป็นที่ขัดขวางด้วย "บล็อก" ของความกว้าง 1 อยู่ที่ค่า x)
ภาพประกอบของสถานการณ์ที่การแก้ไขอย่างต่อเนื่องไม่ได้ช่วย:
[1]: Hald, Anders (2007),
"ประวัติความเป็นมาของการอนุมานเชิงสถิติจากเบอร์นูลลีถึงฟิชเชอร์, 1713-1935",
แหล่งที่มาและการศึกษาในประวัติศาสตร์ของคณิตศาสตร์และวิทยาศาสตร์กายภาพ
Springer-Verlag New York
ฉันเชื่อว่าปัจจัยที่เกิดขึ้นจากความจริงที่ว่าเรากำลังเปรียบเทียบการกระจายอย่างต่อเนื่องกับการแยก เราจำเป็นต้องแปลความหมายของแต่ละค่าที่ไม่ต่อเนื่องในการแจกแจงแบบต่อเนื่อง เราสามารถเลือกค่าอื่นได้อย่างไรก็ตามนี่จะไม่สมดุลกับจำนวนเต็มที่กำหนด (เช่นคุณจะให้น้ำหนักความน่าจะเป็นที่ 6 เพิ่มขึ้นเป็น 7 มากกว่า 5)
ฉันพบลิงค์ที่มีประโยชน์ที่นี่: ลิงค์