สมมติว่าเรา จำกัด การพิจารณาในการแจกแจงแบบสมมาตรโดยที่ค่าเฉลี่ยและความแปรปรวนนั้นมี จำกัด (ตัวอย่างเช่น Cauchy ถูกแยกออกจากการพิจารณา)
นอกจากนี้ฉันจะ จำกัด ตัวเองในขั้นต้นให้กับกรณี unimodal อย่างต่อเนื่องและส่วนใหญ่จะเป็นสถานการณ์ 'ดี' (แม้ว่าฉันจะกลับมาใหม่ในภายหลังและหารือเกี่ยวกับกรณีอื่น ๆ )
ความแปรปรวนแบบสัมพัทธ์ขึ้นอยู่กับขนาดตัวอย่าง เป็นเรื่องธรรมดาที่จะพูดคุยเกี่ยวกับอัตราส่วนของ ( คูณ) ความแปรปรวนแบบซีโมติก แต่เราควรทราบว่าในขนาดตัวอย่างที่เล็กกว่าสถานการณ์จะแตกต่างกันบ้าง (ค่ามัธยฐานบางครั้งอาจสังเกตได้ดีกว่าหรือแย่กว่าพฤติกรรมแบบอะซิมโทติคตัวอย่างเช่นตามปกติที่n = 3จะมีประสิทธิภาพประมาณ 74% มากกว่า 63% พฤติกรรมแบบอะซีมิดติกนั้นเป็นแนวทางที่ดีพอสมควร แม้ว่าขนาดตัวอย่าง)nn=3
asymptotics ค่อนข้างง่ายที่จะจัดการกับ:
ค่าเฉลี่ย: n ×แปรปรวน = 2σ2
ค่ามัธยฐาน : ความแปรปรวน = 1n×1[ 4 f( ม)2]โดยที่คือความสูงของความหนาแน่นที่มัธยฐานฉ( m )
ดังนั้นถ้า , ค่ามัธยฐานจะมีประสิทธิภาพมากกว่าแบบเชิงเส้นกำกับฉ( m ) > 12 σ
[ในกรณีปกติf(m)=12π√σดังนั้นประสิทธิภาพเชิงสัมพัทธ์ของซีมโทติค21[4f(m)2]=πσ22 )]2/π
เราจะเห็นว่าความแปรปรวนของค่ามัธยฐานจะขึ้นอยู่กับพฤติกรรมของความหนาแน่นที่อยู่ใกล้กับศูนย์กลางมากในขณะที่ความแปรปรวนของค่าเฉลี่ยนั้นขึ้นอยู่กับความแปรปรวนของการกระจายแบบดั้งเดิม (ซึ่งในบางแง่มุมจะได้รับผลกระทบจากความหนาแน่นทุกหนทุกแห่ง โดยเฉพาะอย่างยิ่งมากขึ้นโดยวิธีการทำงานห่างจากศูนย์)
ซึ่งหมายความว่าในขณะที่ค่ามัธยฐานได้รับผลกระทบน้อยกว่าค่าผิดปกติและเรามักจะเห็นว่ามันมีความแปรปรวนต่ำกว่าค่าเฉลี่ยเมื่อการกระจายแบบเทลด์หนัก (ซึ่งทำให้เกิดค่าผิดปกติมากขึ้น) สิ่งที่ผลักดันประสิทธิภาพของ เฉลี่ยอยู่ที่inliers มันมักจะเกิดขึ้นที่ (สำหรับความแปรปรวนคงที่) มีแนวโน้มที่ทั้งสองจะไปด้วยกัน
นั่นคือการพูดอย่างกว้าง ๆ เมื่อหางมีน้ำหนักมากขึ้นมีแนวโน้มว่า (ที่ค่าคงที่ที่ ) การกระจายเพื่อให้ได้ "ยอด" ในเวลาเดียวกัน (ความเค็มมากขึ้นในแง่ที่หลวม) อย่างไรก็ตามนี่ไม่ใช่บางสิ่งบางอย่าง - มันมีแนวโน้มที่จะเป็นกรณีของความหนาแน่นที่พิจารณากันโดยทั่วไป แต่ก็ไม่ได้ถืออยู่เสมอ เมื่อมันเกิดขึ้นความแปรปรวนของค่ามัธยฐานจะลดลง (เนื่องจากการกระจายมีความน่าจะเป็นมากกว่าในพื้นที่ใกล้เคียงของค่ามัธยฐาน) ในขณะที่ค่าความแปรปรวนของค่าเฉลี่ยคงที่ (เพราะเราคงที่σ 2 )σ2σ2
ดังนั้นในกรณีทั่วไปหลายประเภทค่ามัธยฐานมักจะมีแนวโน้มที่จะทำ "ดีกว่า" กว่าค่าเฉลี่ยเมื่อหางหนัก (แต่เราต้องจำไว้ว่ามันค่อนข้างง่ายในการสร้างตัวอย่างเคาน์เตอร์) ดังนั้นเราสามารถพิจารณาบางกรณีซึ่งสามารถแสดงให้เราเห็นสิ่งที่เราเห็นบ่อยครั้ง แต่เราไม่ควรอ่านมากเกินไปเพราะหางที่หนักกว่านั้นไม่ได้ไปด้วยยอดสูงสุด
เรารู้ว่าค่ามัธยฐานอยู่ที่ประมาณ 63.7% ที่มีประสิทธิภาพ (สำหรับขนาดใหญ่) เท่ากับค่าเฉลี่ยที่ปกติn
แล้วพูดว่าการกระจายตัวแบบลอจิสติกซึ่งเหมือนกับแบบปกติประมาณพาราโบลาประมาณกึ่งกลาง แต่มีหางที่หนักกว่า (เมื่อกลายเป็นใหญ่พวกมันจะเป็นเลขชี้กำลัง)x
ถ้าเราใช้พารามิเตอร์ขนาดที่จะเป็น 1, โลจิสติกมีความแปรปรวนและความสูงเฉลี่ยของที่ 1/4 ดังนั้น1π2/34 อัตราส่วนของความแปรปรวนเป็นแล้วπ2/12≈0.82ดังนั้นในตัวอย่างขนาดใหญ่อยู่ตรงกลางคือประมาณ 82% เป็นที่มีประสิทธิภาพหมายถึง14f(m)2=4π2/12≈0.82
ลองพิจารณาความหนาแน่นอีกสองตัวที่มีก้อยคล้ายเอกซ์โปเนนเชียล แต่ความแหลมต่างกัน
อย่างแรกคือการแจกแจงไฮเพอร์โบลิก ( sech )sechซึ่งรูปแบบมาตรฐานมีความแปรปรวน 1 และความสูงที่กึ่งกลางดังนั้นอัตราส่วนของความแปรปรวนแบบซีโมติกเท่ากับ 1 (ทั้งสองมีประสิทธิภาพเท่ากันในตัวอย่างขนาดใหญ่) อย่างไรก็ตามในตัวอย่างขนาดเล็กค่าเฉลี่ยจะมีประสิทธิภาพมากขึ้น (ค่าความแปรปรวนประมาณ 95% ของค่ามัธยฐานเมื่อn=512n=5เป็นต้น)
ที่นี่เราสามารถดูได้อย่างไรว่าในขณะที่เราก้าวหน้าผ่านความหนาแน่นทั้งสาม (ถือค่าคงที่แปรปรวน) ที่ความสูงที่มัธยฐานเพิ่มขึ้น:
เราสามารถทำให้มันยังคงสูงขึ้นได้ไหม? แน่นอนเราทำได้ พิจารณาตัวอย่างเช่นการชี้แจงคู่ รูปแบบมาตรฐานมีความแปรปรวน 2 และความสูงของค่ามัธยฐานคือ (ดังนั้นถ้าเราปรับความแปรปรวนของหน่วยเป็นดังในแผนภาพจุดสูงสุดอยู่ที่11212√เหนือ 0.7) ความแปรปรวนเชิงซีมิคของค่ามัธยฐานคือครึ่งหนึ่งของค่าเฉลี่ย
ถ้าเราทำให้การกระจายสูงสุดยังคงเป็นความแปรปรวนที่กำหนด (บางทีโดยการทำให้หางหนักกว่าเลขชี้กำลัง) ค่ามัธยฐานอาจมีประสิทธิภาพมากกว่า ไม่มีขีด จำกัด จริงๆว่ายอดเขาจะไปได้สูงแค่ไหน
หากเราใช้ตัวอย่างจากการบอกว่าการแจกแจงแบบ t จะเห็นผลที่คล้ายกันในวงกว้าง แต่ความก้าวหน้าจะแตกต่างกัน จุดครอสโอเวอร์อยู่ต่ำกว่าเล็กน้อยν=5 df (จริงประมาณ 4.68) - สำหรับ df ที่เล็กกว่าค่ามัธยฐานจะมีประสิทธิภาพมากกว่าสำหรับ df ขนาดใหญ่ค่าเฉลี่ยคือ
...
ที่ขนาดตัวอย่าง จำกัด บางครั้งก็เป็นไปได้ที่จะคำนวณความแปรปรวนของการกระจายของค่ามัธยฐานอย่างชัดเจน ที่ไม่เป็นไปได้ - หรือแม้แต่ไม่สะดวก - เราสามารถใช้การจำลองเพื่อคำนวณความแปรปรวนของค่ามัธยฐาน (หรืออัตราส่วนของความแปรปรวน *) ในตัวอย่างที่สุ่มจากการแจกแจง (ซึ่งเป็นสิ่งที่ฉันทำเพื่อให้ได้ตัวอย่างตัวอย่างขนาดเล็กด้านบน )
* ถึงแม้ว่าเรามักจะไม่ต้องการความแปรปรวนของค่าเฉลี่ยเนื่องจากเราสามารถคำนวณได้ถ้าเรารู้ความแปรปรวนของการแจกแจงมันอาจมีประสิทธิภาพมากกว่าในการคำนวณเนื่องจากมันทำหน้าที่เหมือนตัวแปรควบคุม (ค่าเฉลี่ย และค่ามัธยฐานมักสัมพันธ์กันค่อนข้างมาก)