ทฤษฎีขีด จำกัด กลางสำหรับค่ามัธยฐานตัวอย่าง


54

ถ้าฉันคำนวณค่ามัธยฐานของจำนวนการสังเกตที่มากพอจากการแจกแจงแบบเดียวกันทฤษฎีบทขีด จำกัด กลางจะระบุว่าการกระจายของค่ามัธยฐานจะประมาณการกระจายตัวแบบปกติหรือไม่? ความเข้าใจของฉันคือว่านี่เป็นความจริงด้วยวิธีการของกลุ่มตัวอย่างจำนวนมาก แต่มันก็เป็นความจริงกับมัธยฐาน?

ถ้าไม่เป็นเช่นนั้นการกระจายตัวพื้นฐานของค่ามัธยฐานตัวอย่างคืออะไร


9
คุณต้องการเงื่อนไขปกติเพื่อให้ค่ามัธยฐานจะมีการแจกแจงแบบปกติภายใต้การลดขนาดในวงเงิน เพื่อดูว่าสามารถไปผิดพิจารณาการกระจายใด ๆ ที่มากกว่าจำนวน จำกัด ของจุดการพูด,เครื่องแบบ\} X{1,0,1}
พระคาร์ดินัล

5
เกี่ยวกับเงื่อนไขความสม่ำเสมอ: หากการแจกแจงต้นแบบมีความหนาแน่นที่แตกต่างกันที่ค่ามัธยฐาน (จริง) จากนั้นค่ามัธยฐานตัวอย่างจะมีการแจกแจงปกติแบบเชิงกำกับด้วยความแปรปรวนที่ขึ้นอยู่กับอนุพันธ์ดังกล่าว เรื่องนี้ถือเป็นเรื่องปกติมากสำหรับปริมาณโดยพลการ
พระคาร์ดินัล

6
@ cardinal ฉันเชื่อว่าคุณต้องการเงื่อนไขเพิ่มเติม: เมื่อความหนาแน่นเป็นอนุพันธ์ที่สองมีค่าเท่ากับศูนย์ที่มัธยฐานและมีศูนย์อนุพันธ์อันดับแรกตรงนั้นการกระจาย asymptotic ของมัธยฐานตัวอย่างจะเป็น bimodal
whuber

4
@whuber: ใช่เพราะความหนาแน่น (ไม่ใช่อนุพันธ์ของมันตามที่ฉันได้กล่าวไปก่อนหน้านี้โดยไม่ตั้งใจ) เข้าสู่การแปรปรวนเป็นส่วนกลับค่าของความหนาแน่นที่จุดนั้นจะต้องไม่เป็นศูนย์ ขอโทษที่ทิ้งสภาพนั้นไว้!
พระคาร์ดินัล

4
ตัวอย่างพื้นฐานสามารถสร้างโดยใช้การแจกแจงที่กำหนดความน่าจะเป็นให้กับช่วงเวลาและความน่าจะเป็นถึงโดยที่เช่น a Bernoulli ( ) มีเดียตัวอย่างจะน้อยกว่าหรือเท่ากับบ่อยเท่าที่พวกเขาจะมากกว่าหรือเท่ากับ\โอกาสที่ค่ามัธยฐานไม่ได้อยู่ในเข้าใกล้สำหรับกลุ่มตัวอย่างขนาดใหญ่ได้อย่างมีประสิทธิภาพโดยปล่อย "ช่องว่าง" ใน( - , μ ] 1 / 2 [ μ + δ , ) δ > 0 , ( 1 / 2 ) μ = 0 , δ = 1 μ μ + δ ( μ , μ + δ ) 0 ( μ , μ + δ )1/2(,μ]1/2[μ+δ,)δ>0,(1/2)μ=0,δ=1μμ+δ(μ,μ+δ)0(μ,μ+δ)ในการกระจายการ จำกัด - ซึ่งเห็นได้ชัดว่าจะไม่ปกติไม่ว่ามันจะเป็นมาตรฐาน
whuber

คำตอบ:


38

หากคุณทำงานในแง่ของตัวแปรตัวบ่งชี้ (เช่นถ้าและอย่างอื่น) คุณสามารถนำทฤษฎีบทขีด จำกัด กลางไปใช้กับค่าเฉลี่ยของได้โดยตรงและโดยใช้วิธีเดลต้าเปลี่ยนให้เป็น กระจายปกติ asymptotic สำหรับซึ่งจะหมายความว่าคุณจะได้รับปกติ asymptotic สำหรับ quantiles คงที่ของXZi=1Xix0ZF - 1 X ( ˉ Z ) XFX1(Z¯)X

ดังนั้นไม่ใช่แค่ค่ามัธยฐาน แต่เป็นควอไทล์, 90 เปอร์เซ็นต์, ... ฯลฯ

คับถ้าเรากำลังพูดถึง TH quantile ตัวอย่างในตัวอย่างขนาดใหญ่พอที่เราได้รับว่ามันประมาณจะมีการแจกแจงแบบปกติที่มีความหมาย TH ประชากร quantileและความแปรปรวน2)qqxqq(1q)/(nfX(xq)2)

ดังนั้นสำหรับค่ามัธยฐาน ( ), ความแปรปรวนในตัวอย่างที่มีขนาดใหญ่พอที่จะอยู่ที่ประมาณ2)q=1/21/(4nfX(μ~)2)

คุณต้องการเงื่อนไขทั้งหมดตามทางที่จะรักษาไว้ดังนั้นมันจึงไม่สามารถใช้ได้ในทุกสถานการณ์ แต่สำหรับการแจกแจงแบบต่อเนื่องโดยที่ความหนาแน่นของควอนตัมประชากรนั้นเป็นบวกและเปลี่ยนแปลงได้ ฯลฯ ...

นอกจากนี้มันไม่ได้เก็บไว้สำหรับควอนไทล์ที่รุนแรงเพราะ CLT ไม่ได้เตะในนั้น (ค่าเฉลี่ยของ Z จะไม่เป็นแบบปกติเชิงเส้นกำกับ) คุณจำเป็นต้องมีทฤษฎีที่แตกต่างสำหรับค่าสุดขีด


แก้ไข: คำวิจารณ์ของ whuber's ถูกต้อง; สิ่งนี้จะใช้ได้ถ้าเป็นค่ามัธยฐานของประชากรมากกว่าค่ามัธยฐานตัวอย่าง อาร์กิวเมนต์ต้องได้รับการแก้ไขเพื่อให้สามารถใช้งานได้จริงx


5
ฉันคิดว่าคำอธิบายนี้อาจหายไปชิ้นเดียวแบบตรรกะเหตุผลหนึ่งใช้ตัวบ่งชี้อย่างไรเพื่อให้ได้ค่ามัธยฐานตัวอย่าง ? ฉันสามารถดูว่าเมื่อใดที่เป็นค่ามัธยฐานพื้นฐานตัวบ่งชี้จะทำงานได้: แต่ตัวบ่งชี้นี้ไม่ตรงกับค่ามัธยฐานตัวอย่างหรือฟังก์ชันใด ๆ ของมัน X ฉันxxXix
whuber

คุณจะไปจากการแจกแจงปกติแบบซีมโทติคสำหรับเพื่อให้ได้มาตรฐานเชิงเส้นกำกับสำหรับปริมาณคงที่ของ X ได้อย่างไร แก้ไข: ฉันเข้าใจแล้วกลายเป็นค่าร้อยละ 0-100% ดังนั้นค่าควอนตัมจึงเป็นค่าปกติเชิงเส้นกำกับ¯ ZFX1(Z¯)Z¯
adam

48

แนวคิดหลักคือการแจกแจงการสุ่มตัวอย่างของค่ามัธยฐานนั้นง่ายในการแสดงในแง่ของฟังก์ชันการกระจาย แต่มีความซับซ้อนมากขึ้นในการแสดงในแง่ของค่ามัธยฐาน เมื่อเราเข้าใจว่าฟังก์ชั่นการกระจายสามารถแสดงค่าเป็นความน่าจะเป็นและกลับมาได้อีกครั้งมันง่ายที่จะได้รับการแจกแจงตัวอย่างที่แน่นอนของค่ามัธยฐาน จำเป็นต้องมีการวิเคราะห์พฤติกรรมของฟังก์ชันการแจกแจงใกล้ค่ามัธยฐานเพื่อแสดงให้เห็นว่านี่เป็นสัญญาณปกติ

(การวิเคราะห์เดียวกันนี้ใช้งานได้กับการกระจายตัวตัวอย่างของควอไทล์ใด ๆ

ฉันจะไม่พยายามอย่างเข้มงวดในการอธิบายนี้ แต่ฉันจะทำมันออกมาเป็นขั้นตอนที่แสดงให้เห็นถึงความชอบธรรมในลักษณะที่เข้มงวดหากคุณมีใจที่จะทำเช่นนั้น


ปรีชา

นี่เป็นภาพรวมของกล่องที่บรรจุอะตอมของก๊าซร้อนอะตอม 70 อะตอม:

รูปที่ 1

ในภาพแต่ละภาพฉันพบตำแหน่งที่ปรากฏเป็นเส้นแนวตั้งสีแดงซึ่งแยกอะตอมเป็นสองกลุ่มเท่ากันระหว่างด้านซ้าย (วาดเป็นจุดสีดำ) และขวา (จุดสีขาว) นี่เป็นค่ามัธยฐานของตำแหน่ง: 35 ของอะตอมอยู่ทางซ้ายและ 35 ไปทางขวา ค่ามัธยฐานเปลี่ยนแปลงเนื่องจากอะตอมเคลื่อนที่แบบสุ่มรอบกล่อง

เราสนใจที่จะกระจายตำแหน่งกลางนี้ คำถามดังกล่าวเป็นคำตอบโดยการกลับขั้นตอนของฉัน: ให้แรกวาดเส้นแนวตั้งที่ใดที่หนึ่งพูดในสถานที่xโอกาสครึ่งอะตอมจะอยู่ทางซ้ายของและครึ่งทางขวาของมันคืออะไร? อะตอมทางด้านซ้ายมีโอกาสที่จะอยู่ทางซ้าย อะตอมทางด้านขวามีโอกาสที่จะอยู่ทางขวา สมมติว่าตำแหน่งของพวกเขามีความเป็นอิสระทางสถิติโอกาสเพิ่มขึ้นให้สำหรับโอกาสของการกำหนดค่านี้ การกำหนดค่าที่เทียบเท่าสามารถบรรลุได้สำหรับการแยกอะตอมออกเป็นสองx x 1 - x x 35 ( 1 - x ) 35 70 35xxx1xx35(1x)357035- ชิ้นส่วนองค์ประกอบ การเพิ่มหมายเลขเหล่านี้สำหรับการแยกที่เป็นไปได้ทั้งหมดนั้นมีโอกาส

Pr(x is a median)=Cxn/2(1x)n/2

โดยที่คือจำนวนทั้งหมดของอะตอมและเป็นสัดส่วนกับจำนวนของการแบ่งอะตอมเป็นสองกลุ่มย่อยที่เท่ากันC nnCn

สูตรนี้จะระบุการกระจายของค่ามัธยฐานเป็นเบต้า(n/2+1,n/2+1)การกระจาย

ตอนนี้ให้พิจารณากล่องที่มีรูปร่างที่ซับซ้อนมากขึ้น:

รูปที่ 2

ค่ามัธยฐานอีกครั้งแตกต่างกันไป เนื่องจากกล่องอยู่ใกล้ใจกลางกล่องจึงมีปริมาตรไม่มากนัก: มีการเปลี่ยนแปลงเล็กน้อยในปริมาตรที่ครอบครองโดยครึ่งซ้ายของอะตอม (สีดำอีกครั้ง) - หรือเราอาจยอมรับเช่นกันพื้นที่ไปทางซ้ายตามที่แสดงในตัวเลขเหล่านี้ - สอดคล้องกับการเปลี่ยนแปลงที่ค่อนข้างใหญ่ในตำแหน่งแนวนอนของค่ามัธยฐาน ในความเป็นจริงเนื่องจากพื้นที่ที่ถูกตัดแบ่งโดยส่วนแนวนอนขนาดเล็กของกล่องนั้นเป็นสัดส่วนกับความสูงที่นั่นการเปลี่ยนแปลงของค่ามัธยฐานจะถูกหารด้วยความสูงของกล่อง สิ่งนี้ทำให้ค่ามัธยฐานเป็นตัวแปรสำหรับกล่องนี้มากกว่ากล่องสี่เหลี่ยมเนื่องจากอันนี้อยู่ตรงกลางที่ต่ำกว่ามาก

ในระยะสั้นเมื่อเราวัดตำแหน่งของค่ามัธยฐานในแง่ของพื้นที่ (ไปทางซ้ายและขวา) การวิเคราะห์ดั้งเดิม (สำหรับกล่องสี่เหลี่ยม) จะไม่มีการเปลี่ยนแปลง รูปร่างของกล่องจะทำให้การแจกแจงซับซ้อนเท่านั้นหากเรายืนยันในการวัดค่ามัธยฐานในรูปของตำแหน่งแนวนอน เมื่อเราทำเช่นนั้นความสัมพันธ์ระหว่างพื้นที่และการแสดงตำแหน่งจะแปรผกผันกับความสูงของกล่อง

มีมากกว่าที่จะเรียนรู้จากภาพเหล่านี้ เป็นที่ชัดเจนว่าเมื่อมีอะตอมเพียงไม่กี่กล่อง (อย่างใดอย่างหนึ่ง) มีโอกาสมากขึ้นที่ครึ่งหนึ่งของพวกเขาจะคลี่คลายคลัสเตอร์ไปด้านใดด้านหนึ่งโดยไม่ตั้งใจ เมื่อจำนวนอะตอมเพิ่มขึ้นโอกาสที่ความไม่สมดุลจะลดลงอย่างมาก ในการติดตามเรื่องนี้ฉันใช้ "ภาพยนตร์" - ชุดยาว 5000 เฟรม - สำหรับกล่องโค้งที่เต็มไปด้วยจากนั้นมี ,จากนั้นและในที่สุดก็มีอะตอมและสังเกตค่ามัธยฐาน นี่คือฮิสโทแกรมของตำแหน่งมัธยฐาน:15 75 37531575375

รูปที่ 3

เห็นได้ชัดว่าสำหรับจำนวนอะตอมที่เพียงพอการกระจายของตำแหน่งมัธยฐานเริ่มดูเป็นรูประฆังและขยายให้แคบลง: ซึ่งดูเหมือนว่าผลลัพธ์ทฤษฎีบทขีด จำกัด กลางใช่ไหม


ผลลัพธ์เชิงปริมาณ

แน่นอนว่า "กล่อง" แสดงให้เห็นถึงความหนาแน่นของความน่าจะเป็นของการแจกแจง: ด้านบนคือกราฟของฟังก์ชันความหนาแน่น (PDF) ดังนั้นพื้นที่แสดงถึงความน่าจะเป็น การวางจุดแบบสุ่มและเป็นอิสระภายในกล่องและสังเกตตำแหน่งแนวนอนเป็นวิธีหนึ่งในการดึงตัวอย่างจากการแจกแจง (นี่คือแนวคิดเบื้องหลังการสุ่มตัวอย่างการปฏิเสธ )n

รูปถัดไปเชื่อมต่อแนวคิดเหล่านี้

รูปที่ 4

มันดูซับซ้อน แต่จริงๆแล้วค่อนข้างง่าย มีสี่แปลงที่เกี่ยวข้องที่นี่:

  1. พล็อตด้านบนแสดงให้เห็นถึงรูปแบบไฟล์ PDF ของการกระจายพร้อมกับหนึ่งตัวอย่างแบบสุ่มของขนาดnค่าที่มากกว่าค่ามัธยฐานจะแสดงเป็นจุดสีขาว ค่าน้อยกว่าค่ามัธยฐานเป็นจุดสีดำ ไม่จำเป็นต้องมีขนาดแนวตั้งเพราะเรารู้ว่าพื้นที่ทั้งหมดเป็นเอกภาพn

  2. พล็อตกลางคือฟังก์ชันการแจกแจงสะสมสำหรับการแจกแจงแบบเดียวกัน: มันใช้ความสูงเพื่อแสดงถึงความน่าจะเป็น มันแบ่งปันแกนแนวนอนของมันกับพล็อตแรก แกนแนวตั้งของมันต้องอยู่ระหว่างถึงเพราะมันหมายถึงความน่าจะเป็น101

  3. พล็อตด้านซ้ายนั้นหมายถึงให้อ่านไปด้านข้าง: เป็น PDF ของการแจกแจงเบต้ามันแสดงให้เห็นว่าค่ามัธยฐานในกล่องจะแตกต่างกันอย่างไรเมื่อวัดค่ามัธยฐานในแง่ของพื้นที่ไปทางซ้ายและขวาของกลาง (แทนที่จะวัดตามตำแหน่งแนวนอน) ฉันได้สุ่มคะแนนจาก PDF นี้ตามที่แสดงและเชื่อมต่อพวกเขาด้วยเส้นประแนวนอนไปยังตำแหน่งที่เกี่ยวข้องใน CDF ดั้งเดิม: นี่คือวิธีที่ปริมาณ (วัดที่ด้านซ้าย) ถูกแปลงเป็นตำแหน่ง (วัดข้ามด้านบนกึ่งกลาง และกราฟิกด้านล่าง) หนึ่งในจุดเหล่านี้จริง ๆ แล้วสอดคล้องกับค่ามัธยฐานที่แสดงในพล็อตด้านบน; ฉันวาดเส้นแนวตั้งที่เป็นของแข็งเพื่อแสดงว่า16(n/2+1,n/2+1)16

  4. พล็อตด้านล่างคือความหนาแน่นของการสุ่มตัวอย่างของค่ามัธยฐานที่วัดโดยตำแหน่งแนวนอน มันได้มาจากการแปลงพื้นที่ (ในพล็อตซ้าย) ไปยังตำแหน่ง สูตรการแปลงได้รับจากการผกผันของ CDF ดั้งเดิม: นี่เป็นเพียงความหมายของ CDF ผกผัน! (กล่าวอีกนัยหนึ่ง CDF แปลงตำแหน่งเป็นพื้นที่ด้านซ้ายส่วน Inverse CDF จะแปลงกลับจากพื้นที่หนึ่งไปยังอีกตำแหน่งหนึ่ง) ฉันได้พล็อตเส้นประแนวตั้งเพื่อแสดงว่าจุดสุ่มจากพล็อตซ้ายถูกแปลงเป็นจุดสุ่มภายในพล็อตล่าง . ขั้นตอนการอ่านข้ามจากนี้ไปจะบอกให้เราทราบว่าจะไปจากที่หนึ่งไปยังอีกที่หนึ่งได้อย่างไร

ให้เป็น CDF ของการกระจายดั้งเดิม (แผนกลาง) และ CDF ของการกระจายเบต้า เพื่อหาโอกาสที่เฉลี่ยอยู่ทางด้านซ้ายของบางตำแหน่ง , ใช้งานครั้งแรกเพื่อให้ได้พื้นที่ที่ด้านซ้ายของในกล่อง: นี่คือตัวเอง การกระจายเบต้าที่ด้านซ้ายบอกเรามีโอกาสที่ว่าครึ่งหนึ่งอะตอมจะอยู่ภายในหนังสือเล่มนี้ให้ : นี่คือ CDF ของค่ามัธยฐานตำแหน่ง ในการค้นหา PDF (ดังแสดงในตารางด้านล่าง) ให้หาอนุพันธ์:FGxFxF(x)G(F(x))

ddxG(F(x))=G(F(x))F(x)=g(F(x))f(x)

โดยที่คือ PDF (พล็อตด้านบน) และคือเบต้า PDF (พล็อตด้านซ้าย)fg

นี่คือสูตรที่แน่นอนสำหรับการแจกแจงค่ามัธยฐานสำหรับการแจกแจงแบบต่อเนื่อง (ด้วยความระมัดระวังในการตีความบางอย่างมันสามารถนำไปใช้กับการแจกจ่ายใด ๆ ไม่ว่าจะต่อเนื่องหรือไม่)


ผลเชิงซีโมติก

เมื่อมีขนาดใหญ่มากและไม่มีการกระโดดที่ค่ามัธยฐานของค่ามัธยฐานตัวอย่างจะต้องแตกต่างกันอย่างมากรอบค่ามัธยฐานที่แท้จริงของการกระจาย นอกจากนี้สมมติว่า PDFนั้นต่อเนื่องใกล้ ,ในสูตรก่อนหน้านี้จะไม่เปลี่ยนแปลงมากนักจากค่าที่กำหนดโดย ยิ่งไปกว่านั้นจะไม่เปลี่ยนแปลงมากนักจากมูลค่าของมันที่นั่น: เป็นการสั่งซื้อครั้งแรก,nFμfμ f(x)μ,f(μ).F

F(x)=F(μ+(xμ))F(μ)+F(μ)(xμ)=1/2+f(μ)(xμ).

ดังนั้นด้วยการประมาณที่พัฒนามากขึ้นเมื่อเติบโตขึ้นมากn

g(F(x))f(x)g(1/2+f(μ)(xμ))f(μ).

นั่นเป็นเพียงการเปลี่ยนตำแหน่งและขนาดของการกระจายเบต้า การลดปริมาณโดยจะแบ่งความแปรปรวนของมันด้วย (ซึ่งดีกว่าไม่ใช่ศูนย์!) อนึ่งความแปรปรวนของเบต้านั้นใกล้เคียงกับมากf(μ)f(μ)2(n/2+1,n/2+1)n/4

การวิเคราะห์นี้สามารถมองได้ว่าการประยุกต์ใช้ด้วยวิธีเดลต้า

สุดท้าย Betaจะอยู่ที่ประมาณปกติขนาดใหญ่nมีหลายวิธีที่จะเห็นสิ่งนี้ บางทีที่ง่ายที่สุดคือดูลอการิทึมของ PDF ใกล้กับ :(n/2+1,n/2+1)n1/2

log(C(1/2+x)n/2(1/2x)n/2)=n2log(14x2)+C=C2nx2+O(x4).

(ค่าคงที่และเพียงแค่ทำให้พื้นที่รวมทั้งหมดเป็นเอกภาพ) ผ่านลำดับที่สามในจากนั้นนี่จะเหมือนกับบันทึกของ PDF ปกติที่มีความแปรปรวน (อาร์กิวเมนต์นี้สร้างขึ้นอย่างเข้มงวดโดยใช้คุณลักษณะหรือการสร้างฟังก์ชันที่สะสมแทนการบันทึกของ PDF)CCx,1/(4n).

เมื่อรวมทั้งหมดนี้เราจึงสรุปได้ว่า

  • การกระจายของค่าเฉลี่ยของกลุ่มตัวอย่างมีความแปรปรวนประมาณ ,1/(4nf(μ)2)

  • และมันจะอยู่ที่ประมาณปกติขนาดใหญ่ ,n

  • ทั้งหมดให้ PDFเป็นแบบต่อเนื่องและไม่ใช่ศูนย์ที่ค่ามัธยฐานfμ.


ฉันชอบรูปที่ 4 คุณใช้ R หรือไม่
EngrStudent

@Engr ฉันอาจจะทำอย่างใดอย่างหนึ่งในมันRอาจจะใช้layoutแต่ในความเป็นจริงมันก็ทำกับMathematica 9
whuber

1
นี่เป็นเรื่องของความงาม
EngrStudent

@whuber ไม่ได้เป็นรุ่นเบต้า (n / 2 + 1, n / 2 + 1) ภายใต้รุ่นเบต้า (1,1) ก่อนหน้าหรือไม่ ดูเช่นine.pt/revstat/pdf/rs080204.pdf
ทิม

1
@Tim ฉันไม่เข้าใจความเกี่ยวข้องของการอ้างอิงถึงก่อนหน้า แต่ฉันขอขอบคุณคุณชี้ให้เห็นว่าชื่อที่ถูกต้องของการกระจายเบต้าที่ระบุไว้ในส่วน "ปรีชา" คือเบต้า1) ฉันจะแก้ไขมันทุกที่ที่มันเกิดขึ้น (ซึ่งมีอยู่หลายแห่งในการอภิปราย) (n/2+1,n/2+1)
whuber

18

@EngrStudent ส่องสว่างคำตอบบอกเราว่าเราควรคาดหวังผลที่แตกต่างกันเมื่อการกระจายอย่างต่อเนื่องและเมื่อมันไม่ต่อเนื่อง (กราฟ "สีแดง" ที่การกระจาย asymptotic ของค่ามัธยฐานตัวอย่างล้มเหลวที่จะดูเหมือนปกติสอดคล้องกับการแจกแจงทวินาม (3), รูปทรงเรขาคณิต (11), hypergeometric (12), ลบทวินาม (14), ปัวซอง (18), ชุดแยก (22)

และแน่นอนว่าเป็นกรณีนี้ เมื่อการกระจายไม่ต่อเนื่องสิ่งต่าง ๆ ก็ซับซ้อน ฉันจะแสดงหลักฐานสำหรับกรณีที่เกิดขึ้นอย่างต่อเนื่องโดยเฉพาะอย่างยิ่งการทำไม่เกินรายละเอียดคำตอบที่ได้รับจาก @Glen_b แล้วฉันจะหารือเกี่ยวกับสิ่งที่เกิดขึ้นเมื่อการกระจายไม่ต่อเนื่องเป็นแหล่งอ้างอิงสำหรับผู้ที่สนใจดำน้ำ ใน.

การกระจาย
อย่างต่อเนื่องอย่างต่อเนื่องพิจารณาคอลเลกชันของตัวแปรสุ่มแบบสุ่มอย่างต่อเนื่อง iidพร้อมฟังก์ชันการแจกแจง (cdf)และฟังก์ชันความหนาแน่น(x) กำหนดโดยที่เป็นฟังก์ชันตัวบ่งชี้ ดังนั้นจึงเป็น Bernoulli rv โดยมี {X1,...Xn}FX(x)=P(Xix)FX(x)=fX(x)ZiI{Xix}I{}Zi

E(Zi)=E(I{Xix})=P(Xix)=FX(x),Var(Zi)=FX(x)[1FX(x)],i

ให้เป็นค่าเฉลี่ยตัวอย่างของ iid Bernoullis เหล่านี้ซึ่งกำหนดไว้สำหรับคงที่เมื่อ ซึ่งหมายความว่า ทฤษฎีการ จำกัด ส่วนกลางใช้และเรามีYn(x)x

Yn(x)=1ni=1nZi
E[Yn(x)]=FX(x),Var(Yn(x))=(1/n)FX(x)[1FX(x)]

n(Yn(x)FX(x))dN(0,FX(x)[1FX(x)])

โปรดทราบว่าคือไม่ใช่อย่างอื่นนอกเหนือจากฟังก์ชั่นการกระจายเชิงประจักษ์ ด้วยการใช้ "Delta Method" เรามีฟังก์ชั่นต่อเนื่องและ differentiableด้วยอนุพันธ์ที่ไม่ใช่ศูนย์ณ จุดที่น่าสนใจเราได้รับYn(x)=F^n(x)g(t)g(t)

n(g[F^n(x)]g[FX(x)])dN(0,FX(x)[1FX(x)](g[FX(x)])2)

ตอนนี้เลือกโดยที่หมายถึงฟังก์ชันผกผัน นี่คือฟังก์ชั่นที่ต่อเนื่องและ differentiable (เนื่องจาก คือ) และโดยทฤษฎีฟังก์ชันเราg(t)FX1(t),t(0,1)1FX(x)

g(t)=ddtFX1(t)=1fx(FX1(t))

การแทรกผลลัพธ์เหล่านี้ลงในในวิธีเดลต้าที่ได้รับผลเชิงซีโมติกที่เรามีg

n(FX1(F^n(x))FX1(FX(x)))dN(0,FX(x)[1FX(x)][fx(FX1(FX(x)))]2)

และทำให้ง่ายขึ้น

n(FX1(F^n(x))x)dN(0,FX(x)[1FX(x)][fx(x)]2)

.. สำหรับการแก้ไขใด ๆxตอนนี้ตั้งค่า , ค่ามัธยฐาน (จริง) ของประชากร จากนั้นเรามีและผลลัพธ์ทั่วไปข้างต้นจะกลายเป็นสำหรับกรณีที่เราสนใจxx=mFX(m)=1/2

n(FX1(F^n(m))m)dN(0,1[2fx(m)]2)

แต่ลู่ไปตัวอย่างแบ่งเมตร นี้เป็นเพราะFX1(F^n(m))m^

FX1(F^n(m))=inf{x:FX(x)F^n(m)}=inf{x:FX(x)1ni=1nI{Xim}}

ด้านขวามือของความไม่เท่าเทียมกันแปรสภาพเป็นและเล็กที่สุดซึ่งในที่สุดคือค่ามัธยฐานตัวอย่าง1/2xFX1/2

ดังนั้นเราจึงได้รับ

n(m^m)dN(0,1[2fx(m)]2)
ซึ่งเป็นศูนย์กลาง จำกัด ทฤษฎีบทสำหรับค่ามัธยฐานตัวอย่างสำหรับการแจกแจงแบบต่อเนื่องอย่างแน่นอน

แจกแจงต่อเนื่อง
เมื่อกระจายเป็นที่ไม่ต่อเนื่อง (หรือเมื่อกลุ่มตัวอย่างมีความสัมพันธ์) จะได้รับการถกเถียงกันอยู่ว่าว่า "คลาสสิก" ความหมายของ quantiles ตัวอย่างและด้วยเหตุนี้ของค่ามัธยฐานยังอาจจะทำให้เข้าใจผิดในสถานที่แรกเป็นแนวคิดทางทฤษฎีจะเป็น ใช้ในการวัดสิ่งที่หนึ่งพยายามวัดโดย quantiles
ไม่ว่าในกรณีใดก็ตามมันถูกจำลองว่าภายใต้นิยามแบบดั้งเดิม (ที่เราทุกคนรู้) การแจกแจงแบบซีมโทติคของค่ามัธยฐานตัวอย่างไม่ปกติและการแจกแจงแบบไม่ต่อเนื่อง

อีกทางเลือกหนึ่งของคำจำกัดความของปริมาณตัวอย่างคือการใช้แนวคิดของฟังก์ชั่น "mid-distribution" ซึ่งถูกกำหนดเป็น

Fmid(x)=P(Xx)12P(X=x)

นิยามของตัวอย่างปริมาณผ่านแนวคิดของฟังก์ชั่นการกระจายกลางสามารถเห็นได้ว่าเป็นลักษณะทั่วไปที่สามารถครอบคลุมเป็นกรณีพิเศษการกระจายอย่างต่อเนื่อง แต่ก็ยังไม่ได้อย่างต่อเนื่องเช่นกัน

สำหรับกรณีของการแจกแจงแบบไม่ต่อเนื่องท่ามกลางผลลัพธ์อื่น ๆ พบว่าค่ามัธยฐานตัวอย่างตามที่นิยามไว้ผ่านแนวคิดนี้มีการแจกแจงแบบปกติเชิงเส้นกำกับด้วย ... ความแปรปรวนที่ดูซับซ้อน

สิ่งเหล่านี้ส่วนใหญ่เป็นผลลัพธ์ล่าสุด การอ้างอิงคือMa, Y. , Genton, MG, & Parzen, E. (2011) คุณสมบัติเชิงซีมของควอนไทล์ตัวอย่างของการแจกแจงแบบไม่ต่อเนื่อง พงศาวดารของสถาบันคณิตศาสตร์สถิติ 63 (2), 227-243 ที่หนึ่งสามารถค้นหาการสนทนาและเชื่อมโยงไปยังวรรณกรรมที่เกี่ยวข้องที่มีอายุมากกว่า


2
(+1) สำหรับบทความ นี่คือคำตอบที่ยอดเยี่ยม
Alex Williams

คุณช่วยอธิบายได้ไหมว่าทำไมมาบรรจบกับค่ามัธยฐานตัวอย่าง ? FX1(F^n(m))m^
kasa

ฉันรู้ว่าการกระจายตัว แต่ฉันไม่เห็นว่าตัวอย่างมัธยฐานเท่ากับF^n(m)FX(m)m^FX1(F^n(m))
kasa

1
@kasa ฉันอธิบายเล็กน้อยในเรื่องนี้
Alecos Papadopoulos

ฉันเสียใจที่ต้องนำสิ่งนี้กลับมาอีกครั้ง: แต่เล็กที่สุดซึ่งในที่สุด , เป็นค่ามัธยฐานประชากรไม่ใช่ค่ามัธยฐานตัวอย่างใช่ไหม? xFX(x)1/2
kasa

10

ใช่มันเป็นและไม่เพียง แต่สำหรับค่ามัธยฐาน แต่สำหรับตัวอย่างใด ๆ คัดลอกจาก บทความนี้เขียนโดย TS Ferguson อาจารย์ที่ UCLA (หน้าของเขาอยู่ที่นี่ ) ซึ่งน่าสนใจเกี่ยวกับการกระจายการแจกแจงค่าเฉลี่ยตัวอย่างและตัวอย่างปริมาณเรามี:

ให้เป็น IID กับฟังก์ชั่นการกระจาย , ความหนาแน่นของหมายถึงและความแปรปรวน จำกัด 2 Letและให้แสดงว่า -th quantile ของเพื่อให้P สมมติว่าความหนาแน่นของเป็นอย่างต่อเนื่องและในเชิงบวกที่x_pให้แสดงถึงตัวอย่าง -th quantile แล้วก็X1,...,XnF(x)f(x)μσ20<p<1xppFF(xp)=pf(x)xpYn=X(n:np)p

n(Ynxp)dN(0,p(1p)/(f(xp))2)

สำหรับ (ค่ามัธยฐาน) และคุณมี CLT สำหรับค่ามัธยฐานp=1/2xp=m

n(Ynm)dN(0,[2f(m)]2)

1
ดี เป็นมูลค่าการกล่าวขวัญว่าความแปรปรวนของค่ามัธยฐานตัวอย่างไม่ใช่เรื่องง่ายที่จะประมาณค่าเช่นเดียวกับค่าเฉลี่ยตัวอย่าง
Michael M

@Alcos - คุณได้คำตอบสองข้อสำหรับคำถามนี้อย่างไร
EngrStudent

1
@EngrStudent ระบบจะอนุญาตให้คุณยืนยันว่าคุณต้องการเพิ่มคำตอบที่สอง
Alecos Papadopoulos

8

ฉันชอบคำตอบการวิเคราะห์ที่ได้รับจาก Glen_b มันเป็นคำตอบที่ดี

มันต้องการรูปภาพ ฉันชอบรูปภาพ

นี่คือพื้นที่ของความยืดหยุ่นในการตอบคำถาม:

  • มีการกระจายในโลกมากมาย ระยะทางมีแนวโน้มที่จะแตกต่างกันไป
  • เพียงพอมีความหมายต่างกัน สำหรับตัวอย่างการนับทฤษฏีบางครั้งต้องมีการนับตัวอย่างเดียวเพื่อให้ได้ "เพียงพอ" สำหรับการสาธิตอัตราความบกพร่องต่ำโดยใช้ความไม่แน่นอนของทวินามนับร้อยหรือพันตัวอย่าง

สำหรับมาตรฐานทั่วไปฉันใช้รหัส MatLab ต่อไปนี้:

mysamples=1000;

loops=10000;

y1=median(normrnd(0,1,mysamples,loops));

cdfplot(y1)

และฉันได้พล็อตต่อไปนี้เป็นเอาต์พุต:

ป้อนคำอธิบายรูปภาพที่นี่

เหตุใดจึงไม่ทำเช่นนี้กับการแจกแจงแบบ "มีอยู่ในตัว" อีก 22 ตัวยกเว้นการใช้โพรบพล็อต (ที่เส้นตรงมีความหมายเหมือนปกติมาก)

ป้อนคำอธิบายรูปภาพที่นี่

และนี่คือซอร์สโค้ดสำหรับมัน:

mysamples=1000;

loops=600;

y=zeros(loops,23);

y(:,1)=median(random('Normal', 0,1,mysamples,loops));

y(:,2)=median(random('beta', 5,0.2,mysamples,loops));
y(:,3)=median(random('bino', 10,0.5,mysamples,loops));
y(:,4)=median(random('chi2', 10,mysamples,loops));
y(:,5)=median(random('exp', 700,mysamples,loops));

y(:,6)=median(random('ev', 700,mysamples,loops));
y(:,7)=median(random('f', 5,3,mysamples,loops));
y(:,8)=median(random('gam', 10,5,mysamples,loops));
y(:,9)=median(random('gev', 0.24, 1.17, 5.8,mysamples,loops));
y(:,10)=median(random('gp', 0.12, 0.81,mysamples,loops));

y(:,11)=median(random('geo', 0.03,mysamples,loops));
y(:,12)=median(random('hyge', 1000,50,20,mysamples,loops));
y(:,13)=median(random('logn', log(20000),1.0,mysamples,loops));
y(:,14)=median(random('nbin', 2,0.11,mysamples,loops));
y(:,15)=median(random('ncf', 5,20,10,mysamples,loops));

y(:,16)=median(random('nct', 10,1,mysamples,loops));
y(:,17)=median(random('ncx2', 4,2,mysamples,loops));
y(:,18)=median(random('poiss', 5,mysamples,loops));
y(:,19)=median(random('rayl', 0.5,mysamples,loops));
y(:,20)=median(random('t', 5,mysamples,loops));

y(:,21)=median(random('unif',0,1,mysamples,loops));
y(:,22)=median(random('unid', 5,mysamples,loops));
y(:,23)=median(random('wbl', 0.5,2,mysamples,loops));


figure(1); clf
hold on

for i=2:23
    subplot(4,6,i-1)

    probplot(y(:,i))
    title(['Probplot of ' num2str(i)])
    axis tight

    if not(isempty(find(i==[3,11,12,14,18,22])))
        set(gca,'Color','r')
    end

end

เมื่อฉันเห็นหลักฐานการวิเคราะห์ฉันอาจคิดว่า "ในทางทฤษฎีพวกเขาทั้งหมดอาจเหมาะสม" แต่เมื่อฉันลองแล้วฉันสามารถอารมณ์ด้วย "มีหลายวิธีนี้ไม่ทำงานได้ดีมักเกี่ยวข้องกับการแยกหรือ จำกัด มาก ค่านิยม "และสิ่งนี้อาจทำให้ฉันต้องการที่จะระมัดระวังมากขึ้นเกี่ยวกับการใช้ทฤษฎีกับสิ่งที่ค่าใช้จ่ายเงิน

โชคดี.


ฉันผิดหรือการแจกแจงที่ค่ามัธยฐานไม่แจกแจงนั้นไม่ต่อเนื่องกันหรือไม่?
SeF
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.