การกระจายแบบไม่ระบุตัวอย่างความแปรปรวนของตัวอย่างที่ไม่ปกติ


19

นี่เป็นการแก้ไขปัญหาทั่วไปที่เกิดจาก คำถามนี้ หลังจากได้รับการแจกแจงเชิงซีมโทติคของความแปรปรวนตัวอย่างเราสามารถใช้วิธีเดลต้าเพื่อให้ได้การแจกแจงที่สอดคล้องกันสำหรับค่าเบี่ยงเบนมาตรฐาน

ขอตัวอย่างขนาดของตัวแปรสุ่มแบบไม่ปกติของ iid , มีค่าเฉลี่ยและความแปรปรวน 2 ตั้งค่าเฉลี่ยตัวอย่างและความแปรปรวนตัวอย่างเป็น n{Xi},i=1,...,nμσ2

x¯=1ni=1nXi,s2=1n1i=1n(Xix¯)2

เรารู้ว่า

E(s2)=σ2,Var(s2)=1n(μ4n3n1σ4)

โดยที่และเรา จำกัด ความสนใจของเราในการแจกแจงว่าช่วงเวลาใดที่จำเป็นต้องมีอยู่และมีขอบเขต จำกัด มีอยู่จริงและมีขอบเขต จำกัดμ4=E(Xiμ)4

มันถืออย่างนั้นหรือเปล่า

n(s2σ2)dN(0,μ4σ4)?

หึ ฉันเพิ่งโพสต์ในหัวข้ออื่นไม่ทราบว่าคุณโพสต์นี้ มีหลายสิ่งที่จะพบได้ใน CLT ที่ใช้กับความแปรปรวน (เช่นp3-4 ที่นี่เป็นต้น) คำตอบที่ดี btw
Glen_b -Reinstate Monica

ขอบคุณ ใช่ฉันพบสิ่งนี้แล้ว แต่พวกเขาพลาดกรณี @whuber ชี้ให้เห็น พวกเขายังให้ตัวอย่างของ Bernoulli กับทั่วไป! (ฐานของหน้า 4) ฉันกำลังขยายคำตอบของฉันเพื่อครอบคลุมกรณีด้วย pp=1/2
Alecos Papadopoulos

ใช่ฉันเห็นว่าพวกเขาคิดว่าเบอร์นูลี่ยังไม่ได้พิจารณากรณีพิเศษนั้น ฉันคิดว่าการกล่าวถึงความแตกต่างสำหรับ Bernoulli ที่ปรับขนาด (กรณี prob. dichotomous ที่เท่ากัน) เป็นหนึ่งในเหตุผลหนึ่ง มันสามารถค้นหาได้
Glen_b -Reinstate Monica

คำตอบ:


20

สำหรับการพึ่งพาขั้นตอนด้านที่เกิดขึ้นเมื่อเราพิจารณาความแปรปรวนตัวอย่างเราเขียน

(n1)s2=i=1n((Xiμ)(x¯μ))2

=i=1n(Xiμ)22i=1n((Xiμ)(x¯μ))+i=1n(x¯μ)2

และหลังจากการจัดการเล็กน้อย

=i=1n(Xiμ)2n(x¯μ)2

ดังนั้น

n(s2σ2)=nn1i=1n(Xiμ)2nσ2nn1n(x¯μ)2

จัดการกับ

n(s2σ2)=nn1i=1n(Xiμ)2nn1n1σ2nn1n(x¯μ)2

=nnn11ni=1n(Xiμ)2nn1n1σ2nn1n(x¯μ)2

=nn1[n(1ni=1n(Xiμ)2σ2)]+nn1σ2nn1n(x¯μ)2

คำว่าจะกลายเป็นเอกภาพ asymptotically คำเป็น determinsitic และไปที่ศูนย์เป็น\n/(n1)nn1σ2n

เรายังมีใหญ่) องค์ประกอบแรกมาบรรจบกันในการจัดจำหน่ายเป็นปกติที่สองมาบรรจบกันในความน่าจะเป็นศูนย์ จากนั้นตามทฤษฎีของ Slutsky ผลิตภัณฑ์จะมาบรรจบกันเป็นศูนย์n(x¯μ)2=[n(x¯μ)](x¯μ)

n(x¯μ)2p0

เราถูกทิ้งให้อยู่กับเทอม

[n(1ni=1n(Xiμ)2σ2)]

ได้รับการแจ้งเตือนจากตัวอย่างร้ายแรงที่เสนอโดย @whuber ในความคิดเห็นต่อคำตอบนี้เราต้องการทำให้แน่ใจว่าไม่คงที่ Whuber ชี้ให้เห็นว่าหากเป็น Bernoulliปริมาณนี้จะคงที่ ดังนั้นไม่รวมตัวแปรที่เกิดขึ้น (อาจเป็นคู่อื่น ๆ , ไม่ใช่แค่ไบนารี ) สำหรับส่วนที่เหลือที่เรามี(Xiμ)2Xi(1/2)0/1

E(Xiμ)2=σ2,Var[(Xiμ)2]=μ4σ4

และดังนั้นคำที่อยู่ภายใต้การตรวจสอบจึงเป็นเรื่องปกติของทฤษฎีการ จำกัด กลางแบบคลาสสิกและ

n(s2σ2)dN(0,μ4σ4)

หมายเหตุ: ผลลัพธ์ข้างต้นของการเรียนการสอนยังมีการแจกตัวอย่างปกติ - แต่ในกรณีนี้เรายังมีผลการกระจายตัวอย่างไค - สแควร์ จำกัด


3
+1 ไม่มีเหตุผลที่จะตรวจสอบการกระจายตัวของโดมิโนทั่วไปเพราะมันเป็นรุ่นมาตราส่วนและที่ตั้งทั้งหมดของ Bernoulli: การวิเคราะห์ความพอเพียงของเบอร์นูลลี แบบจำลองของฉัน (ออกให้มีขนาดตัวอย่าง ) ยืนยันผลลัพธ์101000χ12
whuber

@whuber ขอบคุณสำหรับการตรวจสอบ คุณถูกต้องแน่นอนเกี่ยวกับ Benroulli ที่เป็นแม่ของพวกเขาทั้งหมด
Alecos Papadopoulos

10

คุณมีคำตอบโดยละเอียดสำหรับคำถามของคุณแล้ว แต่ให้ฉันเสนออีกคำถามหนึ่งเพื่อตอบคำถาม อันที่จริงหลักฐานที่สั้นกว่านั้นเป็นไปได้ตามความจริงที่ว่า

S2=1n1i=1n(XiX¯)2

ไม่ได้ขึ้นอยู่กับพูด Asymptotically มันไม่สำคัญว่าเราจะเปลี่ยนปัจจัยเป็นซึ่งฉันจะทำเพื่อความสะดวกหรือไม่ เรานั้นมีE(X)=ξ1n11n

n(S2σ2)=n[1ni=1nXi2X¯2σ2]

และตอนนี้เราสันนิษฐานว่าไม่มีการสูญเสียความเป็นสากลที่และเราสังเกตเห็นว่าξ=0

nX¯2=1n(nX¯)2

มีขีด จำกัด น่าจะเป็นศูนย์ตั้งแต่ระยะที่สองเป็นที่สิ้นสุดในความน่าจะเป็น (โดย CLT และทฤษฎีบทแผนที่ต่อเนื่อง) คือมันเป็น(1) ผลที่ได้จากซีมโทติคนั้นมาจากทฤษฎีบทของ Slutzky และ CLT ตั้งแต่นั้นมาOp(1)

n[1nXi2σ2]DN(0,τ2)

โดยที่ 2 และนั่นจะทำมันτ2=Var{X2}=E(X4)(E(X2))2


นี่คือประหยัดมากขึ้นอย่างแน่นอน แต่โปรดพิจารณาวิธีการที่น่ากลัวคือสมมติฐาน ตัวอย่างเช่นมันไม่รวมกรณีของตัวอย่าง Bernoulli ( ) และเมื่อฉันพูดถึงตอนท้ายของคำตอบของฉันสำหรับตัวอย่างเช่นผลลัพธ์ asymptotic นี้ไม่ได้เก็บไว้ E(X)=0p=1/2
Alecos Papadopoulos

@AlcosPapadopoulos แน่นอน แต่ข้อมูลสามารถอยู่กึ่งกลางใช่มั้ย? ฉันหมายถึงและเราสามารถทำงานกับตัวแปรเหล่านี้ได้ สำหรับกรณีของเบอร์นูลลีมีอะไรบ้างที่ห้ามไม่ให้เราทำเช่นนั้น?
i=1n(Xiμ(X¯μ))2=i=1n(XiX¯)2
JohnK

@AlcosPapadopoulos โอ้ใช่ฉันเห็นปัญหา
JohnK

ฉันเขียนชิ้นเล็ก ๆ ในเรื่องนี้ฉันคิดว่าถึงเวลาที่จะต้องอัพโหลดมันในบล็อกของฉัน ฉันจะแจ้งให้คุณทราบในกรณีที่คุณสนใจที่จะอ่าน การกระจายของความแปรปรวนตัวอย่างแบบซีมโทติคในกรณีนี้น่าสนใจและการกระจายแบบซีโมติคของค่าเบี่ยงเบนมาตรฐานตัวอย่างมากยิ่งขึ้น ผลลัพธ์เหล่านี้มีไว้สำหรับตัวแปรสุ่ม dichotomousใด ๆ p=1/2
Alecos Papadopoulos

1
คำถามโง่ ๆ แต่เราจะสรุปได้อย่างไรว่าเป็นสิ่งที่ช่วยเสริมได้ถ้าไม่ปกติ? หรือเป็นเสมอที่เสริม (wrt หมายถึง parametrization ฉันเดา) แต่เป็นอิสระจากค่าเฉลี่ยตัวอย่างเมื่อค่าเฉลี่ยตัวอย่างคือสถิติที่สมบูรณ์เพียงพอ (เช่นกระจายปกติ) โดยทฤษฎีบทของบาซู? S2XiS2
Chill2Macht

3

คำตอบที่ยอดเยี่ยมโดยAlecosและJohnKได้รับผลลัพธ์ที่คุณตามมาแล้ว แต่ฉันต้องการที่จะบันทึกอย่างอื่นเกี่ยวกับการกระจายตัวเชิงซีโมติคของความแปรปรวนตัวอย่าง

มันเป็นเรื่องธรรมดาที่จะเห็นผลลัพธ์แบบอะซิมโทติกแสดงโดยใช้การแจกแจงแบบปกติและสิ่งนี้มีประโยชน์สำหรับการระบุทฤษฎีบท อย่างไรก็ตามในทางปฏิบัติการพูดวัตถุประสงค์ของการแจกแจงเชิงเส้นกำกับสำหรับสถิติตัวอย่างก็คือมันช่วยให้คุณได้รับการแจกแจงโดยประมาณเมื่อมีขนาดใหญ่ มีตัวเลือกมากมายที่คุณสามารถทำได้สำหรับการประมาณตัวอย่างขนาดใหญ่ของคุณเนื่องจากการแจกแจงจำนวนมากมีรูปแบบซีมโทติคเหมือนกัน ในกรณีของความแปรปรวนตัวอย่างมันเป็นมุมมองของฉันที่การแจกแจงแบบประมาณที่ยอดเยี่ยมสำหรับขนาดใหญ่นั้นได้มาจาก:nn

Sn2σ2Chi-Sq(df=DFn)DFn,

โดยที่และคือพารามิเตอร์ kurtosis การแจกแจงนี้เท่ากับ asymptotically เทียบเท่ากับการประมาณปกติที่ได้มาจากทฤษฎีบท (การแจกแจงแบบไคสแควร์มาบรรจบกันเป็นปกติในขณะที่องศาของอิสรภาพมีแนวโน้มที่จะไม่มีสิ้นสุด) แม้จะมีความเท่าเทียมกัน แต่การประมาณนี้มีคุณสมบัติอื่น ๆ อีกมากมายที่คุณต้องการให้การกระจายแบบประมาณของคุณมี:DFn2/V(Sn2/σ2)=2n/(κ(n3)/(n1))κ=μ4/σ4

  • แตกต่างจากการประมาณปกติที่ได้โดยตรงจากทฤษฎีบทการแจกแจงนี้มีการสนับสนุนที่ถูกต้องสำหรับสถิติที่น่าสนใจ ความแปรปรวนตัวอย่างเป็นแบบไม่เป็นลบและการกระจายนี้มีการสนับสนุนที่ไม่เป็นลบ

  • ในกรณีที่โดยปกติค่าพื้นฐานจะถูกกระจายการประมาณนี้เป็นการกระจายตัวตัวอย่างที่แน่นอน (ในกรณีนี้เรามีซึ่งให้ซึ่งเป็นรูปแบบมาตรฐานที่ใช้ในข้อความส่วนใหญ่) ดังนั้นจึงถือว่าผลลัพธ์ที่แน่นอนในกรณีพิเศษที่สำคัญในขณะที่ยังคงเป็นการประมาณที่เหมาะสมใน กรณีทั่วไปมากขึ้นκ=3DFn=n1


การได้มาของผลลัพธ์ข้างต้น:ผลลัพธ์การกระจายโดยประมาณสำหรับค่าเฉลี่ยตัวอย่างและความแปรปรวนถูกกล่าวถึงที่ความยาวในO'Neill (2014)และบทความนี้ให้ผลการทดลองหลายอย่างรวมถึงการแจกแจงการประมาณปัจจุบัน

ที่มานี้เริ่มต้นจากผลการ จำกัด ในคำถาม:

n(Sn2σ2)N(0,σ4(κ1)).

จัดเรียงผลลัพธ์ใหม่นี้เราได้รับการประมาณ:

Sn2σ2N(1,κ1n).

เนื่องจากการแจกแจงแบบไคสแควร์เป็นเรื่องปกติเชิงเส้นกำกับเนื่องจากเรามี:DF

Chi-Sq(DF)DF1DFN(DF,2DF)=N(1,2DF).

การ (ซึ่งให้สูตรข้างต้น) ให้ซึ่งทำให้แน่ใจว่าการกระจายไคสแควร์เป็นแบบอะซีสโตพทีที เทียบเท่ากับการประมาณปกติจากทฤษฎีบทที่ จำกัดDFn2/V(Sn2/σ2)DFn2n/(κ1)


คำถามที่น่าสนใจเชิงประจักษ์ประการหนึ่งคือสิ่งที่ผลลัพธ์เชิงซีมโทติคสองอย่างนี้ทำงานได้ดีขึ้นในกรณีตัวอย่างที่ จำกัด ภายใต้การแจกแจงข้อมูลพื้นฐานต่างๆ
lzstat

ใช่ฉันคิดว่าน่าจะเป็นการศึกษาแบบจำลองที่น่าสนใจมาก เนื่องจากสูตรปัจจุบันตั้งอยู่บนพื้นฐานของการแก้ไขความแตกต่างของกลุ่มตัวอย่างฉันจึงคาดหวังว่าผลลัพธ์ปัจจุบันจะทำงานได้ดีที่สุดเมื่อคุณมีการแจกแจงต้นแบบที่มีพารามิเตอร์ kurtosis ที่อยู่ไกลจาก mesokurtic (เช่นเมื่อ kurtosis - การแก้ไขสำคัญที่สุด) เนื่องจากความจำเป็นต้องประเมินจากตัวอย่างจึงเป็นคำถามเปิดว่าเมื่อใดจะมีการปรับปรุงประสิทธิภาพโดยรวมอย่างมาก
Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.