จากการสังเกตว่าในตัวอย่างที่เกี่ยวข้องกับข้อมูลที่ดึงมาจากการแจกแจงแบบเกาส์ที่ปนเปื้อนคุณจะได้รับการประมาณค่าพารามิเตอร์ที่อธิบายถึงกลุ่มข้อมูลได้ดีขึ้นโดยใช้แทนโดยที่คือ:med | x - med ( x ) | บ้า( x )madmed|x−med(x)|mad(x)
mad=1.4826×med|x−med(x)|
--where,เป็นปัจจัยความมั่นคงที่ออกแบบมาเพื่อให้แน่ใจว่า
เมื่อไม่มีการปนเปื้อน - ถูกสร้างขึ้นโดย Gauss (Walker, H. (1931))E ( บ้า( x ) 2 ) = Var ( x ) x(Φ−1(0.75))−1=1.4826
E(mad(x)2)=Var(x)
x
ฉันไม่สามารถคิดเหตุผลใด ๆ ที่จะไม่ใช้แทนค่าเฉลี่ยตัวอย่างในกรณีนี้ ประสิทธิภาพที่ต่ำกว่า (ที่ Gaussian!) ของอาจเป็นเหตุผลที่จะไม่ใช้ในตัวอย่างของคุณ แต่มีอยู่อย่างเท่าเทียมกันทางเลือกที่มีประสิทธิภาพและมีประสิทธิภาพสูงไป{} หนึ่งในนั้นคือmad mad mad Q n Q n Q nmedmadmadmadQn. ตัวประมาณนี้มีข้อดีอื่น ๆ อีกมากมายนอกเหนือจากนี้ นอกจากนี้ยังมีความรู้สึกไวต่อค่าผิดปกติ (ในความเป็นจริงเกือบจะไม่สำคัญเท่ากับคนบ้า) ตรงกันข้ามกับความบ้าคลั่งมันไม่ได้ถูกสร้างขึ้นโดยประมาณของที่ตั้งและไม่ได้สันนิษฐานว่าการกระจายของส่วนที่ไม่มีการปนเปื้อนของข้อมูลนั้นเป็นสัดส่วน อย่างบ้าคลั่งมันขึ้นอยู่กับสถิติการสั่งซื้อดังนั้นมันจึงถูกกำหนดไว้อย่างดีเสมอแม้ว่าการแจกแจงต้นแบบของตัวอย่างของคุณจะไม่มีเวลา มันมีรูปแบบที่ชัดเจนง่าย ๆ ยิ่งกว่าความบ้าคลั่งฉันไม่เห็นเหตุผลที่จะใช้ค่าเบี่ยงเบนมาตรฐานตัวอย่างแทนในตัวอย่างที่คุณอธิบาย (ดู Rousseeuw และ Croux 1993 สำหรับข้อมูลเพิ่มเติมเกี่ยวกับ )QnQn
สำหรับคำถามสุดท้ายของคุณเกี่ยวกับกรณีที่เฉพาะเจาะจงที่แล้วx∼Γ(ν,λ)
med(x)≈λ(ν−1/3)
และ
mad(x)≈λν−−√
(ในทั้งสองกรณีการประมาณจะดีเมื่อ ) ดังนั้น ν>1.5
ν^=(med(x)mad(x))2
และ
λ^=mad(x)2med(x)
ดูเฉินและรูบิน (1986) สำหรับการสืบทอดที่สมบูรณ์
- J. Chen และ H. Rubin, 1986. ขอบเขตของความแตกต่างระหว่างค่ามัธยฐานกับค่าเฉลี่ยของการแจกแจงแบบแกมม่าและปัวซอง, นักสถิติ Probab Lett., 4, 281–283
- PJ Rousseeuw และ C. Croux, 1993. ทางเลือกในการบันทึกค่าเบี่ยงเบนสัมบูรณ์แบบสัมบูรณ์ของสมาคมสถิติอเมริกัน, ฉบับที่. 88, หมายเลข 424, pp. 1273-1283
- Walker, H. (1931) การศึกษาในประวัติศาสตร์ของวิธีการทางสถิติ บัลติมอร์แมริแลนด์: วิลเลียมส์ & วิลกินส์โคได้ 24-25