พื้นหลัง: ฉันมีตัวอย่างที่ฉันต้องการสร้างแบบจำลองที่มีการกระจายแบบเทลด์อย่างหนัก ฉันมีค่ามากเช่นการแพร่กระจายของการสังเกตมีขนาดค่อนข้างใหญ่ ความคิดของฉันคือทำแบบนี้ด้วยการแจกแจงแบบพาเรโตทั่วไปและฉันก็ทำไปแล้ว ตอนนี้ quantile 0.975 ของข้อมูลเชิงประจักษ์ของฉัน (ประมาณ 100 datapoints) ต่ำกว่า 0.975 quantile ของการแจกแจง Generalized Pareto ที่ฉันพอดีกับข้อมูลของฉัน ตอนนี้ฉันคิดว่ามีวิธีตรวจสอบว่าความแตกต่างนี้เป็นสิ่งที่ต้องกังวลหรือไม่
เรารู้ว่าการแจกแจงเชิงเส้นกำกับของควอนไทล์จะได้รับเป็น:
ดังนั้นฉันจึงคิดว่ามันเป็นความคิดที่ดีที่จะสร้างความบันเทิงด้วยความอยากรู้อยากเห็นของฉันโดยพยายามพล็อตแถบความเชื่อมั่น 95% รอบ ๆ 0.975 ควอไทล์ของการแจกแจงแบบพาเรโตทั่วไปด้วยพารามิเตอร์เดียวกับที่ฉันได้รับ
อย่างที่คุณเห็นเรากำลังทำงานกับค่าที่สุดยอดบางอย่างที่นี่ และเนื่องจากการแพร่กระจายมีขนาดใหญ่มากฟังก์ชั่นความหนาแน่นมีค่าน้อยมากทำให้วงความเชื่อมั่นไปที่คำสั่งของโดยใช้ความแปรปรวนของสูตรเชิงบรรทัดฐานเชิงเส้นกำกับด้านบน:
ดังนั้นนี่ไม่สมเหตุสมผลเลย ฉันมีการแจกจ่ายที่มีผลลัพธ์เชิงบวกเท่านั้นและช่วงความมั่นใจรวมถึงค่าลบ มีบางอย่างเกิดขึ้นที่นี่ ถ้าผมคำนวณวงรอบ 0.5 quantile, วงดนตรีที่จะไม่ว่าขนาดใหญ่ แต่ยังคงขนาดใหญ่
ผมดำเนินการต่อเพื่อดูวิธีการนี้ไปกับการกระจายอีกคือกระจาย จำลองการสังเกตจากการแจกแจงและตรวจสอบว่า quantiles อยู่ในช่วงความเชื่อมั่นหรือไม่ ฉันทำเช่นนี้ 10,000 ครั้งเพื่อดูสัดส่วนของปริมาณ 0.975 / 0.5 ของการสังเกตแบบจำลองที่อยู่ในช่วงความเชื่อมั่น
################################################
# Test at the 0.975 quantile
################################################
#normal(1,1)
#find 0.975 quantile
q_norm<-qnorm(0.975, mean=1, sd=1)
#find density value at 97.5 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.975*0.025)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band
hit<-1:10000
for(i in 1:10000){
d<-rnorm(n=100, mean=1, sd=1)
dq<-quantile(d, probs=0.975)
if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0}
}
sum(hit)/10000
#################################################################3
# Test at the 0.5 quantile
#################################################################
#using lower quantile:
#normal(1,1)
#find 0.7 quantile
q_norm<-qnorm(0.7, mean=1, sd=1)
#find density value at 0.7 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.7*0.3)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band
hit<-1:10000
for(i in 1:10000){
d<-rnorm(n=100, mean=1, sd=1)
dq<-quantile(d, probs=0.7)
if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0}
}
sum(hit)/10000
แก้ไข : ฉันคงรหัสและทั้งสอง quantiles ให้ประมาณ 95% โดยมีเพลงฮิตn = 100และ 1 ถ้าฉันหมุนค่าเบี่ยงเบนมาตรฐานไปที่ว่าเพลงฮิตน้อยมากที่อยู่ในวง ดังนั้นคำถามยังคงอยู่
แก้ไข 2 : ฉันถอนสิ่งที่ฉันอ้างใน EDIT แรกข้างต้นดังที่ได้กล่าวไว้ในความคิดเห็นโดยสุภาพบุรุษที่เป็นประโยชน์ ดูเหมือนว่า CI เหล่านี้ดีสำหรับการแจกแจงแบบปกติ
นี่เป็นกฎเกณฑ์เชิงเส้นกำกับของสถิติการสั่งซื้อซึ่งเป็นมาตรการที่แย่มากที่จะใช้หรือไม่ถ้าใครต้องการตรวจสอบว่ามีบางคนที่สังเกตเห็นว่ามีความเป็นไปได้ที่จะได้รับการกระจายตัวของผู้สมัครหรือไม่?
โดยสัญชาตญาณดูเหมือนว่าฉันมีความสัมพันธ์ระหว่างความแปรปรวนของการแจกแจง (ซึ่งใครคิดว่าสร้างข้อมูลหรือในตัวอย่าง R ของฉันซึ่งเรารู้ว่าสร้างข้อมูล) และจำนวนการสังเกต หากคุณมีการสังเกต 1,000 ครั้งและความแปรปรวนอย่างมากวงดนตรีเหล่านี้ไม่ดี หากมี 1,000 ข้อสังเกตและความแปรปรวนเล็กน้อยแถบเหล่านี้อาจจะสมเหตุสมผล
ใครสนใจที่จะเคลียร์สิ่งนี้ให้ฉัน?
band = 1.96*sqrt((0.975*0.025)/(100*n*(f_norm)^2))
นั้นอาจช่วย ขอโทษฉันพลาดที่ผ่านครั้งแรก (บางทีคุณอาจแก้ไขได้เช่นกัน แต่ยังไม่ได้อัปเดตส่วนที่เกี่ยวข้องของคำถาม)