การประมาณค่าพารามิเตอร์ของการแจกแจงแบบปกติ: ค่ามัธยฐานแทนค่าเฉลี่ย?


15

วิธีการทั่วไปในการประมาณค่าพารามิเตอร์ของการแจกแจงแบบปกติคือการใช้ค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐาน / ความแปรปรวนตัวอย่าง

อย่างไรก็ตามหากมีค่าผิดปกติค่ามัธยฐานและค่าเบี่ยงเบนเฉลี่ยจากค่ามัธยฐานควรจะแข็งแกร่งกว่านี้ใช่ไหม

ในชุดข้อมูลบางชุดที่ฉันพยายามการแจกแจงแบบปกติประมาณโดยดูเหมือนจะทำให้เกิดอะไรมากมาย ดีกว่าแบบคลาสสิกโดยใช้ค่าเฉลี่ยและส่วนเบี่ยงเบน RMSN ( μ , σ )N(median(x),median|xmedian(x)|)N(μ^,σ^)

มีเหตุผลใดที่จะไม่ใช้ค่ามัธยฐานถ้าคุณคิดว่ามีค่าผิดปกติบางอย่างในชุดข้อมูลหรือไม่? คุณรู้การอ้างอิงบางส่วนสำหรับวิธีการนี้หรือไม่? การค้นหาอย่างรวดเร็วบน Google ไม่พบผลลัพธ์ที่มีประโยชน์ที่พูดถึงประโยชน์ของการใช้สื่อตรงกลางที่นี่ (แต่เห็นได้ชัดว่า "มัธยฐานการประมาณค่าพารามิเตอร์การกระจายทั่วไป" ไม่ใช่คำค้นหาที่เจาะจงมาก)

ค่าเบี่ยงเบนเฉลี่ย, มันมีอคติหรือไม่? ฉันควรคูณมันด้วยเพื่อลดอคติหรือไม่n1n

คุณรู้วิธีการประมาณค่าพารามิเตอร์ที่มีประสิทธิภาพที่ใกล้เคียงกันสำหรับการแจกแจงอื่น ๆ เช่นการแจกแจงแกมม่าหรือการแจกแจงแบบเกาส์แบบเอ็กซ์โปเนนเชียล (ซึ่งต้องการความเบ้ในการประมาณค่าพารามิเตอร์และค่าผิดปกติทำให้ยุ่งเหยิง)


2
หากคุณมีค่าผิดปกติอาจเป็นไปได้ว่าการกระจายของคุณไม่ปกติเสียน นี้ไม่ได้ตอบคำถามของคุณแน่นอน แต่ IMO นี้เป็นไปได้ที่หนึ่งควรให้ความบันเทิงเสมอ
sds

2
ฉันไม่มีการกระจายทางคณิตศาสตร์ที่เรียบง่ายสะอาด ฉันมีข้อมูลจริงซึ่งยุ่งกับธรรมชาติ ไม่มีการแจกแจงใด ๆ ก็ตามจะเหมาะอย่างยิ่งเพราะคุณไม่สามารถรับมือกับสถานการณ์ที่วิเคราะห์ได้อีกต่อไป และคนนอกเป็นสิ่งที่ฉันสนใจ :-)
Erich Schubert

คำตอบ:


15

จากการสังเกตว่าในตัวอย่างที่เกี่ยวข้องกับข้อมูลที่ดึงมาจากการแจกแจงแบบเกาส์ที่ปนเปื้อนคุณจะได้รับการประมาณค่าพารามิเตอร์ที่อธิบายถึงกลุ่มข้อมูลได้ดีขึ้นโดยใช้แทนโดยที่คือ:med | x - med ( x ) | บ้า( x )madmed|xmed(x)|mad(x)

mad=1.4826×med|xmed(x)|

--where,เป็นปัจจัยความมั่นคงที่ออกแบบมาเพื่อให้แน่ใจว่า เมื่อไม่มีการปนเปื้อน - ถูกสร้างขึ้นโดย Gauss (Walker, H. (1931))E ( บ้า( x ) 2 ) = Var ( x ) x(Φ1(0.75))1=1.4826

E(mad(x)2)=Var(x)
x

ฉันไม่สามารถคิดเหตุผลใด ๆ ที่จะไม่ใช้แทนค่าเฉลี่ยตัวอย่างในกรณีนี้ ประสิทธิภาพที่ต่ำกว่า (ที่ Gaussian!) ของอาจเป็นเหตุผลที่จะไม่ใช้ในตัวอย่างของคุณ แต่มีอยู่อย่างเท่าเทียมกันทางเลือกที่มีประสิทธิภาพและมีประสิทธิภาพสูงไป{} หนึ่งในนั้นคือmad mad mad Q n Q n Q nmedmadmadmadQn. ตัวประมาณนี้มีข้อดีอื่น ๆ อีกมากมายนอกเหนือจากนี้ นอกจากนี้ยังมีความรู้สึกไวต่อค่าผิดปกติ (ในความเป็นจริงเกือบจะไม่สำคัญเท่ากับคนบ้า) ตรงกันข้ามกับความบ้าคลั่งมันไม่ได้ถูกสร้างขึ้นโดยประมาณของที่ตั้งและไม่ได้สันนิษฐานว่าการกระจายของส่วนที่ไม่มีการปนเปื้อนของข้อมูลนั้นเป็นสัดส่วน อย่างบ้าคลั่งมันขึ้นอยู่กับสถิติการสั่งซื้อดังนั้นมันจึงถูกกำหนดไว้อย่างดีเสมอแม้ว่าการแจกแจงต้นแบบของตัวอย่างของคุณจะไม่มีเวลา มันมีรูปแบบที่ชัดเจนง่าย ๆ ยิ่งกว่าความบ้าคลั่งฉันไม่เห็นเหตุผลที่จะใช้ค่าเบี่ยงเบนมาตรฐานตัวอย่างแทนในตัวอย่างที่คุณอธิบาย (ดู Rousseeuw และ Croux 1993 สำหรับข้อมูลเพิ่มเติมเกี่ยวกับ )QnQn

สำหรับคำถามสุดท้ายของคุณเกี่ยวกับกรณีที่เฉพาะเจาะจงที่แล้วxΓ(ν,λ)

med(x)λ(ν1/3)

และ

mad(x)λν

(ในทั้งสองกรณีการประมาณจะดีเมื่อ ) ดังนั้น ν>1.5

ν^=(med(x)mad(x))2

และ

λ^=mad(x)2med(x)

ดูเฉินและรูบิน (1986) สำหรับการสืบทอดที่สมบูรณ์

  • J. Chen และ H. Rubin, 1986. ขอบเขตของความแตกต่างระหว่างค่ามัธยฐานกับค่าเฉลี่ยของการแจกแจงแบบแกมม่าและปัวซอง, นักสถิติ Probab Lett., 4, 281–283
  • PJ Rousseeuw และ C. Croux, 1993. ทางเลือกในการบันทึกค่าเบี่ยงเบนสัมบูรณ์แบบสัมบูรณ์ของสมาคมสถิติอเมริกัน, ฉบับที่. 88, หมายเลข 424, pp. 1273-1283
  • Walker, H. (1931) การศึกษาในประวัติศาสตร์ของวิธีการทางสถิติ บัลติมอร์แมริแลนด์: วิลเลียมส์ & วิลกินส์โคได้ 24-25

1
Φ1(0.75)11.4826 - นี่คือค่าที่จะใช้หรือเป็นหนึ่งในสอง inversions พิเศษหรือไม่
Erich Schubert

@ErichSchubert: ถูกต้อง: ฉันลืมอินเวอร์สที่สอง .. แก้ไขแล้ว
user603

2
+1 แต่ฉันคิดว่าคุณอธิบายลักษณะ "ปัจจัยด้านประสิทธิภาพ" ผิด: มันไม่ได้มีความคล้ายคลึงกับปัจจัยสำหรับความแปรปรวนเพราะหลังนั้นเป็นสากลในขณะที่ปัจจัยของคุณเฉพาะกับการแจกแจงแบบปกติเท่านั้น ใจคุณจะต้องเปลี่ยนปัจจัยของคุณ ความแตกต่างนี้เป็นหนึ่งในเหตุผลสำคัญที่ทำให้ความแตกต่างและ SD ได้เห็นแอปพลิเคชันมากมายกว่า MAD n/(n1)
whuber

1
@whuber: ขอบคุณสำหรับตอนนี้ฉันตระหนักถึงประโยคของฉัน 'นี้คล้ายกับจิตวิญญาณ ' สามารถเข้าใจผิดได้อย่างง่ายดาย ฉันลบมัน
user603

1
ฉันทำให้ส่วน ExNormal เป็นคำถามแยกต่างหาก: stats.stackexchange.com/questions/48907/แต่ฉันมีอีกหนึ่งข้อสำหรับคุณ: การกระจาย LogNormal - จัดการโดยใช้บันทึกแล้วดำเนินการกระจายตามปกติหรือไม่
Erich Schubert

7

หากคุณยืนยันข้อมูลนั้นเป็นเรื่องปกตินอกเหนือจากสัดส่วนเล็กน้อยของค่าผิดปกติค่าเบี่ยงเบนสัมบูรณ์แบบมัธยฐานและค่ามัธยฐานจะมีความทนทานต่อข้อผิดพลาดขั้นต้น แต่จะไม่ทำให้การใช้ข้อมูลในข้อมูลนอกไม่ใช่ข้อมูลที่มีประสิทธิภาพมาก

หากคุณรู้ว่ามีขอบเขตสำคัญเกี่ยวกับสัดส่วนของค่าผิดปกติคุณสามารถตัดสัดส่วนดังกล่าวเพื่อหาค่าเฉลี่ยและลบล้างค่าเบี่ยงเบนมาตรฐาน อีกทางเลือกหนึ่งที่ไม่ต้องการความรู้เช่นนั้นคือการใช้ตัวประมาณค่า Mสำหรับตำแหน่งและปริมาณที่เกี่ยวข้องสำหรับความแปรปรวน การได้รับประสิทธิภาพหากสมมติฐานของคุณถูกต้อง (เช่นข้อมูลปกติจริง ๆ นอกเหนือจากค่าผิดพลาดเล็กน้อย) ในบางสถานการณ์อาจมีความสำคัญ

ส่วนเบี่ยงเบนเฉลี่ยจะลำเอียงเป็นประมาณการของค่าเบี่ยงเบนมาตรฐาน - แต่ไม่เหมือนปรับ; ค่าเฉลี่ยตัวอย่างที่ไม่ได้ทำการปรับกำลังสองจะเป็นความแปรปรวนแบบเชิงเส้น แต่ตัวอย่างส่วนเบี่ยงเบนสัมบูรณ์สัมบูรณ์ไม่ได้เป็นแบบส่วนเบี่ยงเบนมาตรฐานของประชากร คุณจำเป็นต้องคูณด้วยคงที่เพียงเพื่อให้ได้ความสอดคล้อง หลังจากที่คุณทำเช่นนั้นแล้วมันยังคงมีอคติตัวอย่างน้อยในลักษณะเดียวกับกำลังสองเฉลี่ยnn1

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.