กำลังคำนวณขนาดตัวอย่างที่ต้องการความแม่นยำของการประมาณค่าความแปรปรวน?


17

พื้นหลัง

ฉันมีตัวแปรที่มีการแจกแจงที่ไม่รู้จัก

ฉันมีตัวอย่าง 500 ตัวอย่าง แต่ฉันต้องการแสดงความแม่นยำที่ฉันสามารถคำนวณความแปรปรวนได้เช่นเพื่อยืนยันว่าขนาดตัวอย่าง 500 เพียงพอ ฉันสนใจยังอยู่ในรู้ขนาดของกลุ่มตัวอย่างขั้นต่ำที่จะต้องประเมินความแปรปรวนที่มีความแม่นยำของ\%X%

คำถาม

ฉันจะคำนวณได้อย่างไร

  1. ความแม่นยำของการประมาณค่าความแปรปรวนของฉันมีขนาดตัวอย่างเป็นหรือไม่ ของ ?n=500n=N
  2. ฉันจะคำนวณจำนวนตัวอย่างขั้นต่ำที่จำเป็นในการประมาณค่าความแปรปรวนด้วยความแม่นยำอย่างไรX

ตัวอย่าง

รูปที่ 1 การประมาณความหนาแน่นของพารามิเตอร์อ้างอิงจาก 500 ตัวอย่าง

ป้อนคำอธิบายรูปภาพที่นี่

รูปที่ 2นี่คือพล็อตของขนาดตัวอย่างบนแกน x เทียบกับค่าประมาณความแปรปรวนบนแกน y ที่ฉันคำนวณโดยใช้ชุดย่อยจากตัวอย่าง 500 ความคิดคือการประมาณจะมาบรรจบกับความแปรปรวนจริงเมื่อ n เพิ่มขึ้น .

อย่างไรก็ตามการประมาณการไม่ถูกต้องเนื่องจากตัวอย่างที่ใช้ในการประมาณความแปรปรวนสำหรับไม่ได้เป็นอิสระจากกันหรือตัวอย่างที่ใช้ในการคำนวณความแปรปรวนที่n [ 20 , 40 , 80 ]n[10,125,250,500]n[20,40,80]

ป้อนคำอธิบายรูปภาพที่นี่


เพิ่งทราบว่าหากส่วนประกอบของการแจกแจงที่คุณไม่รู้จักคือการกระจาย Cauchy ความแปรปรวนจะไม่ได้กำหนด
Mike Anderson

@ ไมค์หรือเป็นจำนวนอนันต์ของการแจกแจงอื่น ๆ
Glen_b -Reinstate Monica

คำตอบ:


10

สำหรับตัวแปรสุ่มของ iid ตัวประมาณค่าที่เป็นกลางสำหรับความแปรปรวนs 2 (อันที่มีตัวส่วนn - 1 ) มีความแปรปรวน:X1,...,Xns2n-1

Var(s2)=σ4(2n1+κn)

โดยที่เป็นส่วนเกินของการกระจาย (อ้างอิง: Wikipedia ) ดังนั้นตอนนี้คุณต้องประเมินค่าความสามารถในการกระจายตัวของคุณเช่นกัน บางครั้งคุณสามารถใช้ปริมาณที่อธิบายเป็นγ 2 (เช่นจากWikipedia ):κγ2

γ2=μ4σ43

ฉันจะสมมติว่าหากคุณใช้เป็นค่าประมาณสำหรับσและγ 2เป็นค่าประมาณสำหรับκคุณจะได้ค่าประมาณที่เหมาะสมสำหรับV a r ( s 2 )แม้ว่าฉันจะไม่เห็นการรับประกันว่ามันไม่เอนเอียง ดูว่ามันตรงกับความแปรปรวนของชุดย่อยของข้อมูล 500 จุดของคุณอย่างสมเหตุสมผลหรือไม่และไม่ต้องกังวลอีกต่อไป :)sσγ2κVar(s2)


คุณมีการอ้างอิงตำราเรียนสำหรับการประมาณค่าความแปรปรวนแบบเป็นกลางหรือไม่? ฉันไม่รู้ว่าจะไปจาก Wikipedia เพื่อบริบทเพิ่มเติม
Abe

ฉันไม่มีข้อความมาตรฐานข้าวกับฉันที่นี่ดังนั้นฉันไม่สามารถตรวจสอบหมายเลขหน้าสำหรับคุณ แต่ฉันแน่ใจว่ามันอยู่ในนั้น Wikipedia แนะนำว่าควรมีการพูดถึงใน: Montgomery, DC และ Runger, GC: สถิติประยุกต์และความน่าจะเป็นสำหรับวิศวกรหน้า 201 John Wiley & Sons New York, 1994
Erik P.

ขอบคุณสำหรับความช่วยเหลือในสิ่งนี้ คำตอบนี้มีประโยชน์มากและเป็นข้อมูลที่บอกถึงปริมาณความไม่แน่นอนของความแปรปรวน - ฉันใช้สมการประมาณ 10 ครั้งในวันสุดท้าย การคำนวณนั้นเป็นเรื่องง่ายด้วยห้องสมุด: kappamomentslibrary(moments); k <- kurtosis(x); n <- length(x); var(x)^2*(2/(n-1) + k/n)
Abe

โอกาสใดที่คุณพบหมายเลขหน้าจากข้อความข้าว? ฉันหามันไม่ได้ใน Casella และ Berger การอ้างอิงหลักจะดียิ่งขึ้นถ้าคุณรู้ หน้าวิกิพีเดียไม่ได้ถูกอ้างถึงอย่างชัดเจน
Abe

อืม ... ดูเหมือนว่าข้าวจะไม่มีสูตรเช่นกัน ฉันจะจับตาดูมัน แต่ ณ จุดนี้ฉันไม่มีการอ้างอิงเลย
Erik P.

15

การเรียนรู้ความแปรปรวนเป็นเรื่องยาก

ต้องใช้ตัวอย่างจำนวนมาก (น่าแปลกใจ) ในการประมาณค่าความแปรปรวนได้ดีในหลายกรณี ด้านล่างนี้ฉันจะแสดงการพัฒนาสำหรับกรณี "มาตรฐาน" ของตัวอย่าง iid ปกติ

สมมติว่า , i = 1 , , nเป็นตัวแปรอิสระN ( μ , σ 2 ) เราแสวงหาช่วงความเชื่อมั่น100 ( 1 - α ) %สำหรับความแปรปรวนเช่นความกว้างของช่วงเวลาคือρ s 2คือความกว้างคือ100 ρ %ของการประมาณจุด ตัวอย่างเช่นถ้าρ = 1 / 2แล้วความกว้างของ CI เป็นครึ่งหนึ่งของมูลค่าของประมาณการจุดเช่นถ้าYii=1,,nN(μ,σ2)100(1α)%ρs2100ρ%ρ=1/2ดังนั้น CI จะเป็นเช่นนั้น ( 8 ,s2=10มีความกว้าง 5. สังเกตความไม่สมดุลรอบจุดประมาณเช่นกัน ( s 2เป็นตัวประมาณค่าที่เป็นกลางสำหรับความแปรปรวน)(8,13)s2

"ช่วงเวลาความเชื่อมั่น" "(แทน" a ") สำหรับคือ ( n - 1 ) s 2s2 ที่ χ 2

(n1)s2χ(n1)2(1α/2)σ2(n1)s2χ(n1)2(α/2),
คือβควอไทล์ของการแจกแจงไคสแควร์ที่มีความอิสระn-1องศา (สิ่งนี้เกิดขึ้นจากความจริงที่ว่า(n-1)s2/σ2เป็นปริมาณที่สำคัญในการตั้งค่าแบบเกาส์)χ(n1)2ββn1(n1)s2/σ2

เราต้องการลดความกว้างเพื่อให้ ดังนั้นเราจึงถูกทิ้งให้แก้ปัญหาสำหรับ nเช่นที่ ( n - 1 ) ( 1

L(n)=(n1)s2χ(n1)2(α/2)(n1)s2χ(n1)2(1α/2)<ρs2,
n
(n1)(1χ(n1)2(α/2)1χ(n1)2(1α/2))<ρ.

สำหรับกรณีของช่วงความเชื่อมั่น 99% ที่เราได้รับสำหรับρ = 1และn = 5321สำหรับρ = 0.1 กรณีนี้ให้ช่วงเวลาที่ ( ยัง! ) 10% มีขนาดใหญ่เท่ากับการประมาณค่าจุดของความแปรปรวนn=65ρ=1n=5321ρ=0.1

หากระดับความเชื่อมั่นที่คุณเลือกเป็นน้อยกว่า 99% แล้วช่วงกว้างเดียวกันจะได้รับสำหรับค่าที่ต่ำกว่าของnแต่nอาจยังใหญ่กว่าที่คุณคาดเดาได้nn

พล็อตของขนาดตัวอย่างเมื่อเทียบกับความกว้างสัดส่วนρสิ่งที่แสดงให้เห็นว่ารูปลักษณ์ asymptotically เชิงเส้นในระดับเข้าสู่ระบบเข้าสู่ระบบ; กล่าวอีกนัยหนึ่งก็คือความสัมพันธ์ระหว่างอำนาจ - กฎหมาย เราสามารถประเมินพลังของความสัมพันธ์ระหว่างกฎเกณฑ์กำลัง (crudely) เช่นนี้nρ

α^log0.1log1log5321log65=log10log5231650.525,

ซึ่งน่าเสียดายที่ช้าช้า!


นี่เป็นกรณี "บัญญัติ" เพื่อให้คุณรู้สึกถึงวิธีการคำนวณ จากข้อมูลของคุณข้อมูลของคุณจะดูไม่ปกติ โดยเฉพาะอย่างยิ่งมีสิ่งที่ดูเหมือนจะเป็นความเบ้ที่เห็นได้ชัดคือ

แต่นี่ควรจะให้แนวคิดเกี่ยวกับสิ่งที่คุณคาดหวัง โปรดทราบว่าในการตอบคำถามที่สองของคุณด้านบนมีความจำเป็นต้องกำหนดระดับความมั่นใจก่อนซึ่งฉันได้ตั้งค่าเป็น 99% ในการพัฒนาข้างต้นเพื่อการสาธิต


นี่เป็นคำตอบที่ดีมากสำหรับคำถามของฉัน อย่างไรก็ตามแม้ว่าฉันจะติดตามการคำนวณที่คุณทำไว้สำหรับมันไม่ชัดเจนสำหรับฉันถ้าหน่วยสำหรับr h oเป็นเปอร์เซ็นต์ในโซลูชันn = 65สำหรับρ < 1 ; นี้หมายความว่า " ρน้อยกว่า1 × s 2 " หรือ " ρน้อยกว่า1 %ของs 2 ?n|ρrhon=65ρ<1ρ1×s2ρ1%s2
เอ็บ

@Abe ได้รับการปรับปรุงและชี้แจงอย่างชัดเจนในกระบวนการ มีข้อผิดพลาดที่ไม่ดีอย่างหนึ่งในรุ่นก่อนหน้าคือ ขอโทษสำหรับเรื่องนั้น.
พระคาร์ดินัล

คำตอบที่ดีมาก แต่ฉันเลือกคำตอบจาก @Erik เพราะมันใช้ได้กับปัญหาของฉันมากกว่า (เนื่องจากพารามิเตอร์ของฉันไม่ได้กระจายตามปกติ)
Abe

@Abe: ไม่เป็นปัญหา นั่นคือสิ่งที่เป็นเครื่องหมายสำหรับ คำตอบของฉันคือตั้งใจที่จะเป็นตัวอย่างมากกว่าสิ่งอื่นใด จากสิ่งที่ผมสามารถบอกได้ว่ามันไม่ยังคงปรากฏเป็นเพียงคนเดียวที่อยู่ทั้งสองคำถามของคุณและจะเป็น (asymptotically) แก้ไขแม้จะอยู่ในสถานการณ์ที่เค้าร่างเอริค (+1 ให้กับเขาเมื่อปีที่แล้ว) :)
พระคาร์ดินัล

คุณถูกต้องและฉันดีใจที่ฉันได้กลับคำตอบของคุณอีกครั้ง ฉันลงเอยด้วยการคำนวณทั่วไปโดย @Erik แต่ตอนนี้ฉันเห็นค่าในโซลูชันทั่วไป พลัสนำเสนอ CI มากกว่า SD จะแก้ปัญหากับผู้ชมของฉันถูกสับสนเมื่อเห็นสถิติในรูปแบบของไม่เข้าใจสิ่งที่แปรปรวนความแปรปรวนคือ ดังนั้นs [ L L , U L ]ควรทำเรื่องนี้ให้ชัดเจนมากขึ้นและสอดคล้องกับบทสรุปสถิติอื่น ๆ และมันจะเป็นประโยชน์ในการแสดงความไม่สมดุล s(ss)s[lcl,ucl]
Abe

1

ฉันจะมุ่งเน้นไปที่ SD มากกว่าความแปรปรวนเนื่องจากอยู่ในระดับที่ตีความได้ง่ายกว่า

บางครั้งผู้คนมักมองช่วงความเชื่อมั่นของ SDs หรือความแปรปรวน แต่โดยทั่วไปจะเน้นที่วิธีการ

ผลลัพธ์ที่คุณให้สำหรับการแจกแจงของสามารถนำมาใช้เพื่อให้ได้ช่วงความมั่นใจสำหรับσ 2 (และดังนั้นก็เช่นกันσ ); ตำราคณิตศาสตร์ / สถิติเบื้องต้นส่วนใหญ่จะให้รายละเอียดในส่วนเดียวกันซึ่งกล่าวถึงการแจกแจงσ 2 ฉันจะเอา 2.5% จากหางแต่ละอันs2/σ2σ2σσ2


(คำตอบนี้มาที่นี่หลังจากคำถามที่ซ้ำกันถูกรวมเข้าด้วยกันเป็นกรอบบ้าง)
whuber

1

คำตอบต่อไปนี้ได้รับจาก Greenwood และ Sandomire ในกระดาษ 1950 JASA

X1,,XnN(μ,σ2)σ

S=i=1n(XiX¯)2n1,
and you want to control the probability that the relative deviation between S and σ is within a fraction 0<u<1. That is,
Pr{S<(1u)σ}=aandPr{S>(1+u)σ}=b,
in which the significance level γ=1ab.

It follows that

Pr{(n1)S2σ2<(n1)(1u)2}=a
and
Pr{(n1)S2σ2>(n1)(1+u)2}=b.
Since the pivotal quantity (n1)S2/σ2 has χn12 distribution, adding the two probabilities, we find

γ=Fχ(n1)2((n1)(1+u)2)Fχ(n1)2((n1)(1u)2),

and the necessary sample size is found solving the former equation in n for given γ and u.

R code.

gamma <- 0.95
u <- 0.1
g <- function(n) pchisq((n-1)*(1+u)^2, df = n-1) - pchisq((n-1)*(1-u)^2, df = n-1) - gamma
cat("Sample size n = ", ceiling(uniroot(g, interval = c(2, 10^6))$root), "\n")

Output for u=10% and γ=95%.

Sample size n = 193
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.