ค่าสถิติเชิงลำดับของการแจกแจงแบบเทลด์หนัก


9

พื้นหลัง: ฉันมีตัวอย่างที่ฉันต้องการสร้างแบบจำลองที่มีการกระจายแบบเทลด์อย่างหนัก ฉันมีค่ามากเช่นการแพร่กระจายของการสังเกตมีขนาดค่อนข้างใหญ่ ความคิดของฉันคือทำแบบนี้ด้วยการแจกแจงแบบพาเรโตทั่วไปและฉันก็ทำไปแล้ว ตอนนี้ quantile 0.975 ของข้อมูลเชิงประจักษ์ของฉัน (ประมาณ 100 datapoints) ต่ำกว่า 0.975 quantile ของการแจกแจง Generalized Pareto ที่ฉันพอดีกับข้อมูลของฉัน ตอนนี้ฉันคิดว่ามีวิธีตรวจสอบว่าความแตกต่างนี้เป็นสิ่งที่ต้องกังวลหรือไม่

เรารู้ว่าการแจกแจงเชิงเส้นกำกับของควอนไทล์จะได้รับเป็น:

ค่าปกติเชิงเส้นกำกับของควอไทล์

ดังนั้นฉันจึงคิดว่ามันเป็นความคิดที่ดีที่จะสร้างความบันเทิงด้วยความอยากรู้อยากเห็นของฉันโดยพยายามพล็อตแถบความเชื่อมั่น 95% รอบ ๆ 0.975 ควอไทล์ของการแจกแจงแบบพาเรโตทั่วไปด้วยพารามิเตอร์เดียวกับที่ฉันได้รับ

GPD

อย่างที่คุณเห็นเรากำลังทำงานกับค่าที่สุดยอดบางอย่างที่นี่ และเนื่องจากการแพร่กระจายมีขนาดใหญ่มากฟังก์ชั่นความหนาแน่นมีค่าน้อยมากทำให้วงความเชื่อมั่นไปที่คำสั่งของโดยใช้ความแปรปรวนของสูตรเชิงบรรทัดฐานเชิงเส้นกำกับด้านบน:±1012

±1.960.975* * * *0.025n(GPD(Q0.975))2

ดังนั้นนี่ไม่สมเหตุสมผลเลย ฉันมีการแจกจ่ายที่มีผลลัพธ์เชิงบวกเท่านั้นและช่วงความมั่นใจรวมถึงค่าลบ มีบางอย่างเกิดขึ้นที่นี่ ถ้าผมคำนวณวงรอบ 0.5 quantile, วงดนตรีที่จะไม่ว่าขนาดใหญ่ แต่ยังคงขนาดใหญ่

ผมดำเนินการต่อเพื่อดูวิธีการนี้ไปกับการกระจายอีกคือกระจาย จำลองการสังเกตจากการแจกแจงและตรวจสอบว่า quantiles อยู่ในช่วงความเชื่อมั่นหรือไม่ ฉันทำเช่นนี้ 10,000 ครั้งเพื่อดูสัดส่วนของปริมาณ 0.975 / 0.5 ของการสังเกตแบบจำลองที่อยู่ในช่วงความเชื่อมั่นยังไม่มีข้อความ(1,1)n=100ยังไม่มีข้อความ(1,1)

    ################################################
# Test at the 0.975 quantile
################################################

#normal(1,1)

#find 0.975 quantile
q_norm<-qnorm(0.975, mean=1, sd=1)
#find density value at 97.5 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.975*0.025)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band

hit<-1:10000
for(i in 1:10000){
  d<-rnorm(n=100, mean=1, sd=1)
  dq<-quantile(d, probs=0.975)

  if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0} 

}
sum(hit)/10000

#################################################################3
# Test at the 0.5 quantile  
#################################################################
#using lower quantile:

#normal(1,1)

#find 0.7 quantile
q_norm<-qnorm(0.7, mean=1, sd=1)
#find density value at 0.7 quantile:
f_norm<-dnorm(q_norm, mean=1, sd=1)
#confidence bands absolute value:
band=1.96*sqrt((0.7*0.3)/(100*(f_norm)^2))
u=q_norm+band
l=q_norm-band

hit<-1:10000
for(i in 1:10000){
  d<-rnorm(n=100, mean=1, sd=1)
  dq<-quantile(d, probs=0.7)

  if(dq[[1]]>=l & dq[[1]]<=u) {hit[i]=1} else {hit[i]=0} 

} 
sum(hit)/10000

แก้ไข : ฉันคงรหัสและทั้งสอง quantiles ให้ประมาณ 95% โดยมีเพลงฮิตn = 100และ 1 ถ้าฉันหมุนค่าเบี่ยงเบนมาตรฐานไปที่ว่าเพลงฮิตน้อยมากที่อยู่ในวง ดังนั้นคำถามยังคงอยู่σ=1σ=2

แก้ไข 2 : ฉันถอนสิ่งที่ฉันอ้างใน EDIT แรกข้างต้นดังที่ได้กล่าวไว้ในความคิดเห็นโดยสุภาพบุรุษที่เป็นประโยชน์ ดูเหมือนว่า CI เหล่านี้ดีสำหรับการแจกแจงแบบปกติ

นี่เป็นกฎเกณฑ์เชิงเส้นกำกับของสถิติการสั่งซื้อซึ่งเป็นมาตรการที่แย่มากที่จะใช้หรือไม่ถ้าใครต้องการตรวจสอบว่ามีบางคนที่สังเกตเห็นว่ามีความเป็นไปได้ที่จะได้รับการกระจายตัวของผู้สมัครหรือไม่?

โดยสัญชาตญาณดูเหมือนว่าฉันมีความสัมพันธ์ระหว่างความแปรปรวนของการแจกแจง (ซึ่งใครคิดว่าสร้างข้อมูลหรือในตัวอย่าง R ของฉันซึ่งเรารู้ว่าสร้างข้อมูล) และจำนวนการสังเกต หากคุณมีการสังเกต 1,000 ครั้งและความแปรปรวนอย่างมากวงดนตรีเหล่านี้ไม่ดี หากมี 1,000 ข้อสังเกตและความแปรปรวนเล็กน้อยแถบเหล่านี้อาจจะสมเหตุสมผล

ใครสนใจที่จะเคลียร์สิ่งนี้ให้ฉัน?


2
วงดนตรีของคุณขึ้นอยู่กับความแปรปรวนของการแจกแจงแบบปกติแบบซีมโทติค แต่ควรขึ้นอยู่กับค่าเบี่ยงเบนมาตรฐานของการแจกแจงแบบปกติแบบอะซิมโทติค (แบนด์ = 1.96 * sqrt ((0.975 * 0.025) / (100 * (f_norm) ^ 2)) และในทำนองเดียวกันสำหรับ Pareto dist'n.) ให้ลองแทนและดูว่าเกิดอะไรขึ้น
jbowman

@ jbowman ขอบคุณสำหรับการชี้ให้เห็น! ฉันจะซ่อมมัน!
Erosennin

@bowman ที่ทำให้วงดนตรีเล็กลงและในตัวอย่างด้วยรหัส R ของฉันที่ให้ความนิยมน้อยกว่าเล็กน้อย มันเป็นข้อผิดพลาดอื่นเช่นกันที่ทำให้การคำนวณผิด แต่ตอนนี้ฉันได้แก้ไขแล้ว คุณทำให้ฉันเป็นอย่างนั้นดังนั้นฉันซาบซึ้งมาก! วงดนตรีขนาดเล็กในกรณีของ GDP เป็นข่าวดีมาก แต่ฉันเกรงว่าพวกเขาจะยังคงมีขนาดใหญ่มากจนไม่สามารถใช้งานได้ ฉันยังคงไม่สามารถมองเห็นสิ่งอื่นได้นอกจากขนาดและความสัมพันธ์ของตัวอย่างความสัมพันธ์คือสิ่งที่ควรมีขนาดใหญ่ไม่ใช่ขนาดตัวอย่างเพียงอย่างเดียว
Erosennin

ไม่ต้องห่วง! ฉันทราบว่าคุณได้รับอย่างถูกต้อง(n)ต่อหน้าสูตรแรกของคุณ หากคุณแบ่งทั้งสองด้านโดยที่ในband = 1.96*sqrt((0.975*0.025)/(100*n*(f_norm)^2))นั้นอาจช่วย ขอโทษฉันพลาดที่ผ่านครั้งแรก (บางทีคุณอาจแก้ไขได้เช่นกัน แต่ยังไม่ได้อัปเดตส่วนที่เกี่ยวข้องของคำถาม)
jbowman

1
ใช่ฉันไม่ใส่ใจ OTOH เมื่อฉันเรียกใช้รหัสของคุณเปลี่ยน sd = 1 เป็น sd = 2 ทุกที่ฉันได้รับความนิยมเกือบเท่ากันทั้งสองครั้งที่ระดับ 0.975: 0.9683 และ 0.9662 ตามลำดับ ฉันสงสัยว่าคุณพลาด sd = 1 ที่ใดที่หนึ่งในนั้นหรือไม่σ=2วิ่ง?
jbowman

คำตอบ:


3

ฉันสมมติว่าที่มาของคุณมาจากสิ่งที่คล้ายกันในหน้านี้

ฉันมีการแจกจ่ายที่มีผลลัพธ์เชิงบวกเท่านั้นและช่วงความมั่นใจรวมถึงค่าลบ

ทีนี้ให้ค่าประมาณปกติที่สมเหตุสมผล ไม่มีอะไรจะหยุดการประมาณค่าปกติจากการให้ค่าลบซึ่งเป็นสาเหตุที่ทำให้การประมาณค่าไม่ถูกต้องสำหรับค่าขอบเขตเมื่อขนาดตัวอย่างมีขนาดเล็กและ / หรือความแปรปรวนมีขนาดใหญ่ ถ้าคุณยกตัวอย่างขนาดจากนั้นช่วงเวลาจะหดตัวเนื่องจากขนาดตัวอย่างอยู่ในส่วนของนิพจน์สำหรับความกว้างของช่วงเวลา ความแปรปรวนเข้าสู่ปัญหาผ่านทางความหนาแน่น: สำหรับค่าเฉลี่ยเดียวกันความแปรปรวนที่สูงขึ้นจะมีความหนาแน่นแตกต่างกันสูงกว่าที่ระยะขอบและล่างใกล้ศูนย์กลาง ความหนาแน่นต่ำกว่าหมายถึงช่วงความมั่นใจที่กว้างขึ้นเพราะความหนาแน่นอยู่ในส่วนของการแสดงออก

googling เล็กน้อยพบหน้านี้รวมถึงกลุ่มอื่นซึ่งใช้การประมาณแบบปกติกับการแจกแจงทวินามเพื่อสร้างข้อ จำกัด ความมั่นใจ แนวคิดพื้นฐานคือการสังเกตแต่ละครั้งต่ำกว่าควอไทล์ด้วยความน่าจะเป็นqเพื่อให้การแจกแจงเป็นแบบทวินาม เมื่อขนาดของกลุ่มตัวอย่างมีขนาดใหญ่พอสมควร (นั่นสำคัญ) การกระจายตัวแบบทวินามก็ประมาณด้วยการแจกแจงแบบปกติที่มีค่าเฉลี่ยnQ และความแปรปรวน nQ(1-Q). ดังนั้นขีดจำกัดความเชื่อมั่นที่ต่ำกว่าจะมีดัชนีJ=nQ-1.96nQ(1-Q)และขีด จำกัด ความเชื่อมั่นสูงสุดจะมีดัชนี k=nQ-1.96nQ(1-Q). มีความเป็นไปได้เช่นกันk>n หรือ J<1เมื่อทำงานกับ quantiles ใกล้ขอบและการอ้างอิงที่ฉันพบนั้นเงียบ ฉันเลือกที่จะรักษาค่าสูงสุดหรือต่ำสุดเป็นค่าที่เกี่ยวข้อง

ในการเขียนโค้ดของคุณต่อไปนี้ฉันได้สร้างขีดจำกัดความเชื่อมั่นในข้อมูลเชิงประจักษ์และทดสอบเพื่อดูว่าควอนตัมเชิงทฤษฎีตกอยู่ในนั้นหรือไม่ นั่นทำให้ฉันมีเหตุผลมากขึ้นเพราะชุดข้อมูลที่สังเกตได้คือตัวแปรสุ่ม ความครอบคลุมสำหรับ n> 1,000 คือ ~ 0.95 สำหรับ n = 100 นั้นแย่กว่าที่ 0.85 แต่คาดว่าสำหรับปริมาณใกล้หางที่มีขนาดตัวอย่างเล็ก ๆ

#find 0.975 quantile
q <- 0.975
q_norm <- qnorm(q, mean=1, sd=1)

#confidence bands absolute value (note depends on sample size)
n <- 10000
band <- 1.96 * sqrt(n * q * (1 - q))

hit<-1:10000
for(i in 1:10000){
  d<-sort(rnorm(n, mean=1, sd=1))
  dq<-quantile(d, probs=q)
  u <- ceiling(n * q + band)
  l <- ceiling(n * q - band)
  if (u > n) u = n
  if (l < 1) l = 1
  if(q_norm>=d[l] & q_norm<=d[u]) {hit[i]=1} else {hit[i]=0} 

}
sum(hit)/10000

เท่าที่กำหนดขนาดของกลุ่มตัวอย่างคือ "ใหญ่พอ" ดีกว่าใหญ่กว่าดีกว่า ไม่ว่าตัวอย่างเฉพาะใด ๆ นั้น "ใหญ่พอ" ขึ้นอยู่กับปัญหาในมือของคุณและความยุ่งเหยิงของคุณเกี่ยวกับสิ่งต่าง ๆ เช่นการครอบคลุมของความเชื่อมั่นที่ จำกัด


ขอบคุณสำหรับการสนับสนุน! ฉันชี้ให้เห็นว่าฉันไม่เห็นว่ามีตัวอย่าง "ใหญ่" สัมบูรณ์ใด ๆ อยู่จริงและเราต้องอธิบายความแปรปรวน ฉันอยากรู้ว่าสิ่งนี้เกี่ยวข้องกับวิธีการสร้าง CI ของฉันอย่างไร แต่โดยทั่วไปแล้ว สำหรับความเป็นมาคุณสามารถดูได้ที่นี่: math.mcgill.ca/~dstephens/OldCourses/556-2006/… CI ของฉันได้สร้างขึ้นจากตัวอย่างในลิงค์นั้น คุณเขียนว่า "ฉันสร้างขีดจำกัดความเชื่อมั่นในข้อมูลเชิงประจักษ์ ... " และนี่ก็สมเหตุสมผลสำหรับคุณ คุณช่วยอธิบายเพิ่มเติมเกี่ยวกับ CI ของฉันหน่อยได้ไหม?
Erosennin

อ๊ะใช่คุณมีลิงค์ที่ได้รับมาอย่างถูกต้อง ขอโทษฉันไม่ดี
Erosennin

ตกลงฉันแก้ไขอีกครั้งเพื่ออธิบายความแปรปรวนของการแจกแจงที่มีผลต่อการประมาณที่คุณใช้และการอภิปรายเพิ่มเติมอีกเล็กน้อยเกี่ยวกับความหมายตัวอย่าง "ใหญ่" CI ของคุณมีศูนย์กลางอยู่ที่มูลค่าทางทฤษฎีในขณะที่ของฉันจะเน้นที่เชิงประจักษ์ ฉันคิดว่าสำหรับการเปรียบเทียบ quantile เชิงประจักษ์กับทฤษฎีหนึ่งช่วงเวลาควรถูกสร้างขึ้นบน quantile เชิงประจักษ์ นอกจากนี้การประมาณที่ฉันใช้ทำให้การประมาณ "ปกติ" น้อยลงเพราะไม่มีการอุทธรณ์ไปยังทฤษฎีขีด จำกัด กลางที่จะเริ่มต้น
atiretoo - คืนสถานะโมนิก้า

ฉันขอขอบคุณความพยายามบางทีคำถามของฉันอาจชัดเจนขึ้น ฉันได้ตระหนักแล้วว่าความหนาแน่นและขนาดตัวอย่างมีผลต่อความแปรปรวนนั่นคือจุดเริ่มต้นของฉัน แต่อีกครั้งที่ฉันไม่ดีฉันจะได้ชัดเจนมากขึ้น มันเป็น "asymptotic" ที่ฉันรู้สึกว่าควรจะสลับกับสิ่งที่คำนึงถึงความแปรปรวน คุณได้จัดให้ CI ของคุณเป็นศูนย์กลางอยู่ที่ค่านิยมทางทฤษฎีด้วย n * q เป็นค่าตามทฤษฎีของคุณ ในการสร้างวงดนตรีของคุณคุณได้ทำสิ่งเดียวกับฉันโดยใช้วิธีการที่แตกต่างกัน
Erosennin
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.