สำหรับการแจกแจงแบบสมมาตรคือตัวอย่างใดหมายถึงตัวประมาณที่มีประสิทธิภาพมากกว่ามัธยฐานตัวอย่าง


17

ฉันทำงานหนักภายใต้ความเชื่อที่ว่าค่ามัธยฐานตัวอย่างเป็นตัวชี้วัดแนวโน้มกลางที่แข็งแกร่งกว่าค่าเฉลี่ยตัวอย่างเนื่องจากมันไม่สนใจค่าผิดปกติ ฉันจึงประหลาดใจที่ได้เรียนรู้ (ในคำตอบของคำถามอื่น ) ว่าสำหรับตัวอย่างที่ดึงมาจากการแจกแจงแบบปกติความแปรปรวนของค่าเฉลี่ยตัวอย่างจะน้อยกว่าความแปรปรวนของค่ามัธยฐานตัวอย่าง (อย่างน้อยสำหรับขนาดใหญ่n )

ฉันเข้าใจทางคณิตศาสตร์ว่าทำไมสิ่งนี้ถึงเป็นจริง มีวิธี "ปรัชญา" ในการมองสิ่งนี้หรือไม่ที่จะช่วยให้มีสัญชาตญาณว่าจะใช้มัธยฐานแทนที่จะใช้ค่าเฉลี่ยสำหรับการแจกแจงแบบอื่นหรือไม่?

มีเครื่องมือทางคณิตศาสตร์ที่ช่วยตอบคำถามสำหรับการแจกแจงแบบเจาะจงหรือไม่?

คำตอบ:


20

สมมติว่าเรา จำกัด การพิจารณาในการแจกแจงแบบสมมาตรโดยที่ค่าเฉลี่ยและความแปรปรวนนั้นมี จำกัด (ตัวอย่างเช่น Cauchy ถูกแยกออกจากการพิจารณา)

นอกจากนี้ฉันจะ จำกัด ตัวเองในขั้นต้นให้กับกรณี unimodal อย่างต่อเนื่องและส่วนใหญ่จะเป็นสถานการณ์ 'ดี' (แม้ว่าฉันจะกลับมาใหม่ในภายหลังและหารือเกี่ยวกับกรณีอื่น ๆ )

ความแปรปรวนแบบสัมพัทธ์ขึ้นอยู่กับขนาดตัวอย่าง เป็นเรื่องธรรมดาที่จะพูดคุยเกี่ยวกับอัตราส่วนของ ( คูณ) ความแปรปรวนแบบซีโมติก แต่เราควรทราบว่าในขนาดตัวอย่างที่เล็กกว่าสถานการณ์จะแตกต่างกันบ้าง (ค่ามัธยฐานบางครั้งอาจสังเกตได้ดีกว่าหรือแย่กว่าพฤติกรรมแบบอะซิมโทติคตัวอย่างเช่นตามปกติที่n = 3จะมีประสิทธิภาพประมาณ 74% มากกว่า 63% พฤติกรรมแบบอะซีมิดติกนั้นเป็นแนวทางที่ดีพอสมควร แม้ว่าขนาดตัวอย่าง)nn=3

asymptotics ค่อนข้างง่ายที่จะจัดการกับ:

ค่าเฉลี่ย: n×แปรปรวน = 2σ2

ค่ามัธยฐาน : ความแปรปรวน = 1n×1[4(ม.)2]โดยที่คือความสูงของความหนาแน่นที่มัธยฐาน(ม.)

ดังนั้นถ้า , ค่ามัธยฐานจะมีประสิทธิภาพมากกว่าแบบเชิงเส้นกำกับ(ม.)>12σ

[ในกรณีปกติf(m)=12πσดังนั้นประสิทธิภาพเชิงสัมพัทธ์ของซีมโทติค21[4f(m)2]=πσ22 )]2/π

เราจะเห็นว่าความแปรปรวนของค่ามัธยฐานจะขึ้นอยู่กับพฤติกรรมของความหนาแน่นที่อยู่ใกล้กับศูนย์กลางมากในขณะที่ความแปรปรวนของค่าเฉลี่ยนั้นขึ้นอยู่กับความแปรปรวนของการกระจายแบบดั้งเดิม (ซึ่งในบางแง่มุมจะได้รับผลกระทบจากความหนาแน่นทุกหนทุกแห่ง โดยเฉพาะอย่างยิ่งมากขึ้นโดยวิธีการทำงานห่างจากศูนย์)

ซึ่งหมายความว่าในขณะที่ค่ามัธยฐานได้รับผลกระทบน้อยกว่าค่าผิดปกติและเรามักจะเห็นว่ามันมีความแปรปรวนต่ำกว่าค่าเฉลี่ยเมื่อการกระจายแบบเทลด์หนัก (ซึ่งทำให้เกิดค่าผิดปกติมากขึ้น) สิ่งที่ผลักดันประสิทธิภาพของ เฉลี่ยอยู่ที่inliers มันมักจะเกิดขึ้นที่ (สำหรับความแปรปรวนคงที่) มีแนวโน้มที่ทั้งสองจะไปด้วยกัน

นั่นคือการพูดอย่างกว้าง ๆ เมื่อหางมีน้ำหนักมากขึ้นมีแนวโน้มว่า (ที่ค่าคงที่ที่ ) การกระจายเพื่อให้ได้ "ยอด" ในเวลาเดียวกัน (ความเค็มมากขึ้นในแง่ที่หลวม) อย่างไรก็ตามนี่ไม่ใช่บางสิ่งบางอย่าง - มันมีแนวโน้มที่จะเป็นกรณีของความหนาแน่นที่พิจารณากันโดยทั่วไป แต่ก็ไม่ได้ถืออยู่เสมอ เมื่อมันเกิดขึ้นความแปรปรวนของค่ามัธยฐานจะลดลง (เนื่องจากการกระจายมีความน่าจะเป็นมากกว่าในพื้นที่ใกล้เคียงของค่ามัธยฐาน) ในขณะที่ค่าความแปรปรวนของค่าเฉลี่ยคงที่ (เพราะเราคงที่σ 2 )σ2σ2

ดังนั้นในกรณีทั่วไปหลายประเภทค่ามัธยฐานมักจะมีแนวโน้มที่จะทำ "ดีกว่า" กว่าค่าเฉลี่ยเมื่อหางหนัก (แต่เราต้องจำไว้ว่ามันค่อนข้างง่ายในการสร้างตัวอย่างเคาน์เตอร์) ดังนั้นเราสามารถพิจารณาบางกรณีซึ่งสามารถแสดงให้เราเห็นสิ่งที่เราเห็นบ่อยครั้ง แต่เราไม่ควรอ่านมากเกินไปเพราะหางที่หนักกว่านั้นไม่ได้ไปด้วยยอดสูงสุด

เรารู้ว่าค่ามัธยฐานอยู่ที่ประมาณ 63.7% ที่มีประสิทธิภาพ (สำหรับขนาดใหญ่) เท่ากับค่าเฉลี่ยที่ปกติn

แล้วพูดว่าการกระจายตัวแบบลอจิสติกซึ่งเหมือนกับแบบปกติประมาณพาราโบลาประมาณกึ่งกลาง แต่มีหางที่หนักกว่า (เมื่อกลายเป็นใหญ่พวกมันจะเป็นเลขชี้กำลัง)x

ถ้าเราใช้พารามิเตอร์ขนาดที่จะเป็น 1, โลจิสติกมีความแปรปรวนและความสูงเฉลี่ยของที่ 1/4 ดังนั้น1π2/34 อัตราส่วนของความแปรปรวนเป็นแล้วπ2/120.82ดังนั้นในตัวอย่างขนาดใหญ่อยู่ตรงกลางคือประมาณ 82% เป็นที่มีประสิทธิภาพหมายถึง14f(m)2=4π2/120.82

ลองพิจารณาความหนาแน่นอีกสองตัวที่มีก้อยคล้ายเอกซ์โปเนนเชียล แต่ความแหลมต่างกัน

อย่างแรกคือการแจกแจงไฮเพอร์โบลิก ( sech )sechซึ่งรูปแบบมาตรฐานมีความแปรปรวน 1 และความสูงที่กึ่งกลางดังนั้นอัตราส่วนของความแปรปรวนแบบซีโมติกเท่ากับ 1 (ทั้งสองมีประสิทธิภาพเท่ากันในตัวอย่างขนาดใหญ่) อย่างไรก็ตามในตัวอย่างขนาดเล็กค่าเฉลี่ยจะมีประสิทธิภาพมากขึ้น (ค่าความแปรปรวนประมาณ 95% ของค่ามัธยฐานเมื่อn=512n=5เป็นต้น)

ที่นี่เราสามารถดูได้อย่างไรว่าในขณะที่เราก้าวหน้าผ่านความหนาแน่นทั้งสาม (ถือค่าคงที่แปรปรวน) ที่ความสูงที่มัธยฐานเพิ่มขึ้น:

ป้อนคำอธิบายรูปภาพที่นี่

เราสามารถทำให้มันยังคงสูงขึ้นได้ไหม? แน่นอนเราทำได้ พิจารณาตัวอย่างเช่นการชี้แจงคู่ รูปแบบมาตรฐานมีความแปรปรวน 2 และความสูงของค่ามัธยฐานคือ (ดังนั้นถ้าเราปรับความแปรปรวนของหน่วยเป็นดังในแผนภาพจุดสูงสุดอยู่ที่11212เหนือ 0.7) ความแปรปรวนเชิงซีมิคของค่ามัธยฐานคือครึ่งหนึ่งของค่าเฉลี่ย

ถ้าเราทำให้การกระจายสูงสุดยังคงเป็นความแปรปรวนที่กำหนด (บางทีโดยการทำให้หางหนักกว่าเลขชี้กำลัง) ค่ามัธยฐานอาจมีประสิทธิภาพมากกว่า ไม่มีขีด จำกัด จริงๆว่ายอดเขาจะไปได้สูงแค่ไหน

หากเราใช้ตัวอย่างจากการบอกว่าการแจกแจงแบบ t จะเห็นผลที่คล้ายกันในวงกว้าง แต่ความก้าวหน้าจะแตกต่างกัน จุดครอสโอเวอร์อยู่ต่ำกว่าเล็กน้อยν=5 df (จริงประมาณ 4.68) - สำหรับ df ที่เล็กกว่าค่ามัธยฐานจะมีประสิทธิภาพมากกว่าสำหรับ df ขนาดใหญ่ค่าเฉลี่ยคือ

...

ที่ขนาดตัวอย่าง จำกัด บางครั้งก็เป็นไปได้ที่จะคำนวณความแปรปรวนของการกระจายของค่ามัธยฐานอย่างชัดเจน ที่ไม่เป็นไปได้ - หรือแม้แต่ไม่สะดวก - เราสามารถใช้การจำลองเพื่อคำนวณความแปรปรวนของค่ามัธยฐาน (หรืออัตราส่วนของความแปรปรวน *) ในตัวอย่างที่สุ่มจากการแจกแจง (ซึ่งเป็นสิ่งที่ฉันทำเพื่อให้ได้ตัวอย่างตัวอย่างขนาดเล็กด้านบน )

* ถึงแม้ว่าเรามักจะไม่ต้องการความแปรปรวนของค่าเฉลี่ยเนื่องจากเราสามารถคำนวณได้ถ้าเรารู้ความแปรปรวนของการแจกแจงมันอาจมีประสิทธิภาพมากกว่าในการคำนวณเนื่องจากมันทำหน้าที่เหมือนตัวแปรควบคุม (ค่าเฉลี่ย และค่ามัธยฐานมักสัมพันธ์กันค่อนข้างมาก)


1

(x)=12อี-|x-μ|,-<x<
μX1,X2,...,Xn2/n14n(μ)2=14n/4=1/n<2/nดังนั้นความแตกต่างจึงค่อนข้างใหญ่

สำหรับการแจกแจงแบบปกติ (ด้วย σ2=1) เราได้การเปรียบเทียบที่ตรงกันข้ามค่าเฉลี่ยเลขคณิตมีความแปรปรวน (แน่นอน) 1/n ในขณะที่ค่ามัธยฐานมีความแปรปรวน (ประมาณใหญ่) n) 14n(1/2π)2=π2n1.57/n>1/n

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.