แสดงค่าประมาณมาเป็นเปอร์เซ็นต์ผ่านสถิติการสั่งซื้อ


10

ให้เป็นลำดับของตัวแปรสุ่ม iid ที่สุ่มตัวอย่างจากการแจกแจงแบบเสถียรอัลฟ่าโดยมีพารามิเตอร์1.0X1,X2,,X3nα=1.5,β=0,c=1.0,μ=1.0

พิจารณาลำดับโดยที่ , สำหรับn-1 Y j + 1 = X 3 j + 1 X 3 j + 2 X 3 j + 3 - 1 j = 0 , , n - 1Y1,Y2,,YnYj+1=X3j+1X3j+2X3j+31j=0,,n1

ฉันต้องการประมาณเปอร์เซ็นต์ไทล์0.01

ความคิดของฉันคือการจำลอง Monte-Carlo:

l = 1;
while(l < max_iterations)
{
  Generate $X_1, X_2, \ldots, X_{3n}$ and compute $Y_1, Y_2, \ldots, Y_{n}$;
  Compute $0.01-$percentile of current repetition;
  Compute mean $0.01-$percentile of all the iterations performed;
  Compute variance of $0.01-$percentile of all the iterations performed;
  Calculate confidence interval for the estimate of the $0.01-$percentile;

  if(confidence interval is small enough)
    break;

}

การเรียกค่าเฉลี่ยของตัวอย่างทั้งหมดเปอร์เซนต์ที่คำนวณเป็นและความแปรปรวนเพื่อคำนวณช่วงความมั่นใจที่เหมาะสมสำหรับฉันใช้ กับทฤษฎีบทขีด จำกัด กลางที่แข็งแกร่ง :- μ n σ 2 n μ0.01μ^nσ^n2μ

ให้เป็นลำดับของตัวแปรสุ่ม IID กับและ<\ กำหนดค่าเฉลี่ยของกลุ่มตัวอย่างเป็นx_i จากนั้นมีการกระจายปกติมาตรฐาน จำกัด คือ E [ X ฉัน] = μ 0 < V [ X ฉัน] = σ 2 < μ n = ( 1 / n ) Σ n ฉัน= 1 X ฉัน ( μ n - μ ) / X1,X2,E[Xi]=μ0<V[Xi]=σ2<μ^n=(1/n)i=1nXiμ n -μ(μ^nμ)/σ2/n

μ^nμσ2/nnN(0,1).

และทฤษฎีบทของ Slutksyเพื่อสรุปว่า

nμ^nμσ^n2nN(0,1).

จากนั้น aคูณช่วงเวลาที่มั่นใจสำหรับคือμ(1α)×100%μ

z1-α/2(1-α/2)

Iα=[μ^nz1α/2σ^n2n,μ^n+z1α/2σ^n2n],
ที่คือ --quantile ของการแจกแจงแบบปกติมาตรฐานz1α/2(1α/2)

คำถาม:

1)วิธีการของฉันถูกต้องหรือไม่? ฉันจะปรับการสมัครของ CLT ได้อย่างไร ฉันหมายถึงฉันจะแสดงให้เห็นว่าความแปรปรวนนั้นมี จำกัด ได้อย่างไร (ฉันต้องดูความแปรปรวนของหรือไม่เพราะฉันไม่คิดว่ามันจะ จำกัด ... )Yj

2)ฉันจะแสดงให้เห็นได้อย่างไรว่าค่าเฉลี่ยของตัวอย่างทั้งหมดที่คำนวณได้ร้อยละมาบรรจบกับค่าที่แท้จริงของร้อยละ(ฉันควรใช้สถิติการสั่งซื้อ แต่ฉันไม่แน่ใจเกี่ยวกับวิธีการประสบความสำเร็จ; การอ้างอิงได้รับการชื่นชม)0.01 -0.010.01


3
วิธีการทั้งหมดที่ใช้กับตัวอย่างค่ามัธยฐานที่stats.stackexchange.com/questions/45124 จะมีผลกับเปอร์เซ็นไทล์อื่น ๆ ด้วย คำถามของคุณเหมือนกับคำถามนั้น แต่แทนที่เปอร์เซนต์ไทล์ที่ 50 ด้วยเปอร์เซ็นไทล์ที่ 1 (หรืออาจจะเป็น 0.01?)
whuber

@whuber คำตอบของคุณสำหรับคำถามนั้นดีมาก อย่างไรก็ตาม Glen_b กล่าวในตอนท้ายของโพสต์ของเขา (คำตอบที่ยอมรับได้) ว่าเกณฑ์ปกติโดยประมาณ "ไม่ถือเป็นจำนวนมากเนื่องจาก CLT ไม่เตะที่นั่น (ค่าเฉลี่ยของ Z จะไม่ปกติ ) คุณต้องใช้ทฤษฎีที่แตกต่างกันสำหรับค่าสุดขีด " ฉันควรกังวลเกี่ยวกับคำแถลงนี้อย่างไร?
Maya

2
ฉันเชื่อว่าเขาไม่ได้หมายถึงควอนไทล์ที่รุนแรงมากแต่มีเพียงสุดขั้วเท่านั้น (ในความเป็นจริงเขาแก้ไขเมื่อสิ้นสุดประโยคเดียวกันโดยอ้างถึงพวกเขาว่า "ค่าสุดโต่ง") ความแตกต่างก็คือควอไทล์ที่รุนแรงเช่น. 01 เปอร์เซ็นไทล์ (ซึ่งหมายถึง 1 / 10000th ของ การกระจาย) จะคงที่เนื่องจากข้อมูลมากขึ้นในตัวอย่างจะยังคงลดลงต่ำกว่าและมากขึ้นจะลดลงเหนือเปอร์เซ็นต์ไทล์ ด้วยความรุนแรง (เช่นค่าสูงสุดหรือต่ำสุด) ที่ไม่มีในกรณีนี้
whuber

นี่เป็นปัญหาที่ควรแก้ไขโดยทั่วไปโดยใช้ทฤษฎีกระบวนการเชิงประจักษ์ ความช่วยเหลือเกี่ยวกับระดับการฝึกฝนของคุณจะเป็นประโยชน์
AdamO

คำตอบ:


2

ความแปรปรวนของไม่แน่นอน Y นี่เป็นเพราะตัวแปรอัลฟาที่มีเสถียรภาพมี 3/2 (การกระจาย Holtzmark ) มีความคาดหวังที่แน่นอนแต่ความแปรปรวนนั้นไม่มีที่สิ้นสุด ถ้ามีความแปรปรวนแน่นอนดังนั้นโดยใช้ความเป็นอิสระของและนิยามความแปรปรวนที่เราสามารถคำนวณได้α = 3 / 2 μ Y σ 2 X ฉันXα=3/2μYσ2Xi

σ2=Var(Y)=E(Y2)E(Y)2=E(X12X22X32)E(X1X2X3)2=E(X2)3(E(X)3)2=(Var(X)+E(X)2)3μ6=(Var(X)+μ2)3μ6.

สมการลูกบาศก์นี้ในมีวิธีแก้ปัญหาอย่างน้อยหนึ่งตัว (และแก้ปัญหาได้มากถึงสามรายการ แต่ไม่มาก) ซึ่งแสดงว่าจะมี จำกัด - แต่ไม่ใช่ ความขัดแย้งนี้พิสูจน์ข้อเรียกร้องVar(X)Var(X)


ลองหันมาที่คำถามที่สอง

ตัวอย่างใด ๆ ก็จะมาบรรจบกันเป็นจริงขณะที่ตัวอย่าง quantile ขนาดใหญ่ขึ้น วรรคสองสามย่อหน้าถัดไปพิสูจน์จุดทั่วไปนี้

ให้ความน่าจะเป็นที่เกี่ยวข้องคือ (หรือค่าอื่นใดระหว่างถึง , พิเศษ) เขียนสำหรับฟังก์ชันการแจกแจงเพื่อให้คือ quantileq=0.0101FZq=F1(q)qth

สิ่งที่เราต้องสมมติคือ (ฟังก์ชัน quantile) นั้นต่อเนื่อง สิ่งนี้ทำให้เรามั่นใจว่าสำหรับมีความน่าจะเป็นและซึ่งF1ϵ>0q<qq+>q

F(Zqϵ)=q,F(Zq+ϵ)=q+,

และนั่นเป็นขีด จำกัด ของช่วงที่เป็น\}ϵ0[q,q+]{q}

พิจารณาตัวอย่าง IID ใด ๆ ของขนาดnจำนวนขององค์ประกอบของตัวอย่างนี้ที่มีน้อยกว่ามีทวินามการกระจายเพราะแต่ละองค์ประกอบอิสระมีโอกาสของการเป็นน้อยกว่า{} เซ็นทรัล จำกัด ทฤษฎีบท (ปกติหนึ่ง!) แสดงให้เห็นว่าขนาดใหญ่พอสำหรับ , จำนวนขององค์ประกอบน้อยกว่าจะได้รับจากการแจกแจงแบบปกติที่มีค่าเฉลี่ยและความแปรปรวน (เพื่อ การประมาณที่ดีโดยพลการ) ให้ CDF ของการกระจายปกติมาตรฐานเป็น\โอกาสที่ปริมาณนี้เกินnZq(q,n)qZqnZqnqnq(1q)Φnq ดังนั้นจึงปิดโดยพลการ

1Φ(nqnqnq(1q))=1Φ(nqqq(1q)).

เนื่องจากอาร์กิวเมนต์บนทางด้านขวามือเป็นค่าคงที่หลายตัวของจึงมีขนาดใหญ่ขึ้นเรื่อย ๆเมื่อโตขึ้น เนื่องจากเป็น CDF ค่าของมันจึงเข้าใกล้โดยพลการแสดงค่าที่ จำกัด ของความน่าจะเป็นนี้เป็นศูนย์ΦnnΦ1

ในคำ:ในขีด จำกัด ก็เกือบจะแน่นอนกรณีที่ขององค์ประกอบตัวอย่างที่มีไม่น้อยกว่า{} อาร์กิวเมนต์คล้ายพิสูจน์มันเกือบจะแน่นอนกรณีที่ขององค์ประกอบตัวอย่างไม่ได้มากกว่า+} ร่วมกันเหล่านี้บ่งบอกถึง quantile ของกลุ่มตัวอย่างขนาดใหญ่พอมีโอกาสมากที่จะอยู่ระหว่างและZ_qnqZqnqZq+qZqϵZq+ϵ

นั่นคือทั้งหมดที่เราต้องการเพื่อที่จะได้รู้ว่าการจำลองจะได้ผล คุณสามารถเลือกระดับความถูกต้องและระดับความมั่นใจและรู้ว่าสำหรับตัวอย่างขนาดใหญ่เพียงพอสถิติการเรียงลำดับที่ใกล้เคียงกับในตัวอย่างนั้นจะมีโอกาสอย่างน้อยภายในของ quantileแท้จริงϵ1αnnq1αϵZq


ต้องมีการจัดตั้งขึ้นว่าการจำลองจะทำงานได้ส่วนที่เหลือเป็นเรื่องง่าย ขีด จำกัด ความเชื่อมั่นสามารถหาได้จากข้อ จำกัด สำหรับการแจกแจงแบบทวินามและแบบแปลงกลับ คำอธิบายเพิ่มเติม (สำหรับ quantile แต่ generalizing เพื่อ quantiles ทั้งหมด) สามารถพบได้ในคำตอบที่เซ็นทรัลขีด จำกัด ทฤษฎีบทมีเดียตัวอย่างq=0.50

รูปที่: ฮิสโตแกรมของ 0.01 quantiles ของ Y ที่มี n = 300 สำหรับการวนซ้ำ 1,000 ครั้ง

quantile ของเป็นลบ การกระจายตัวตัวอย่างนั้นเบ้อย่างมาก เพื่อลดความลาดตัวเลขนี้แสดงให้เห็นว่ากราฟของลอการิทึมเชิงลบจาก 1,000 ตัวอย่างจำลองของค่าของYY n = 300 Yq=0.01Yn=300Y

library(stabledist)
n <- 3e2
q <- 0.01
n.sim <- 1e3

Y.q <- replicate(n.sim, {
  Y <- apply(matrix(rstable(3*n, 3/2, 0, 1, 1), nrow=3), 2, prod) - 1
  log(-quantile(Y, 0.01))
})
m <- median(-exp(Y.q))
hist(Y.q, freq=FALSE, 
     main=paste("Histogram of the", q, "quantile of Y for", n.sim, "iterations" ),
     xlab="Log(-Y_q)",
     sub=paste("Median is", signif(m, 4), 
               "Negative log is", signif(log(-m), 4)),
     cex.sub=0.8)
abline(v=log(-m), col="Red", lwd=2)
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.