ฉันจะคำนวณช่วงความมั่นใจของค่าเฉลี่ยในตัวอย่างที่ไม่ได้กระจายแบบทั่วไปได้อย่างไร


19

ฉันจะคำนวณช่วงความมั่นใจของค่าเฉลี่ยในตัวอย่างที่ไม่ได้กระจายแบบทั่วไปได้อย่างไร

ฉันเข้าใจว่าวิธีการ bootstrap มักใช้ที่นี่ แต่ฉันเปิดให้ตัวเลือกอื่น ๆ ในขณะที่ฉันกำลังมองหาตัวเลือกที่ไม่ใช่พารามิเตอร์หากใครบางคนสามารถโน้มน้าวใจฉันได้ว่าการแก้ปัญหาแบบพารามิเตอร์นั้นใช้ได้อย่างถูกต้อง ขนาดตัวอย่างคือ> 400

ถ้าใครสามารถให้ตัวอย่างใน R มันจะได้รับการชื่นชมมาก


3
ทฤษฎีบทขีด จำกัด กลางหมายความว่าการ จำกัด การกระจายตัวของค่าเฉลี่ยตัวอย่างเป็นเรื่องปกติโดยไม่คำนึงถึงการกระจายตัวของข้อมูลดั้งเดิม (ภายใต้เงื่อนไขบางประการ) ในหลายกรณีขนาดตัวอย่างมีขนาดใหญ่พอที่การประมาณค่าปกติจะค่อนข้างแม่นยำ แต่ความแม่นยำนั้นขึ้นอยู่กับการแจกแจงพาเรนต์ - มันอาจช่วยได้ถ้าคุณโพสต์ฮิสโตแกรมของข้อมูลต้นฉบับ n>400
มาโคร

คำตอบ:


18

ก่อนอื่นฉันจะตรวจสอบว่าค่าเฉลี่ยเป็นดัชนีที่เหมาะสมสำหรับงานในมือหรือไม่ หากคุณกำลังมองหา "ค่าทั่วไป / หรือค่ากลาง" ของการแจกแจงแบบเบ้ค่าเฉลี่ยอาจนำคุณไปสู่ค่าที่ไม่ได้เป็นตัวแทน พิจารณาการกระจายล็อกปกติ:

x <- rlnorm(1000)
plot(density(x), xlim=c(0, 10))
abline(v=mean(x), col="red")
abline(v=mean(x, tr=.20), col="darkgreen")
abline(v=median(x), col="blue")

ค่าเฉลี่ย (สีแดง), ค่าเฉลี่ยที่ตัด 20% (สีเขียว), และค่ามัธยฐาน (สีน้ำเงิน) สำหรับการแจกแจงล็อก - ปกติ

ค่าเฉลี่ย (เส้นสีแดง) อยู่ค่อนข้างไกลจากกลุ่มข้อมูล ค่าเฉลี่ยที่ตัดออก 20% (สีเขียว) และค่ามัธยฐาน (สีน้ำเงิน) อยู่ใกล้กับค่า "ทั่วไป"

ผลลัพธ์ขึ้นอยู่กับประเภทของการแจกแจง "ไม่ปกติ" (ฮิสโตแกรมของข้อมูลจริงของคุณจะเป็นประโยชน์) ถ้ามันไม่เบ้ แต่มีหางที่หนา CIs ของคุณจะกว้างมาก

ไม่ว่าในกรณีใดฉันคิดว่าการบูตสแตรปปิ้งเป็นวิธีการที่ดีเพราะมันสามารถให้ CIs ไม่สมดุลได้ Rแพคเกจsimplebootเริ่มต้นที่ดี:

library(simpleboot)
# 20% trimmed mean bootstrap
b1 <- one.boot(x, mean, R=2000, tr=.2)
boot.ci(b1, type=c("perc", "bca"))

... ให้ผลลัพธ์ต่อไปนี้แก่คุณ:

# The bootstrap trimmed mean:
> b1$t0
[1] 1.144648

BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 2000 bootstrap replicates
Intervals : 
Level     Percentile            BCa          
95%   ( 1.062,  1.228 )   ( 1.065,  1.229 )  
Calculations and Intervals on Original Scale

ขอบคุณมากสำหรับคำตอบอย่างละเอียด คุณสนใจที่จะแสดงความคิดเห็นเกี่ยวกับ (น้อยที่สุด) ความแตกต่างระหว่างเปอร์เซ็นต์ไทล์และสถิติเปอร์เซ็นไทล์ที่ปรับปรุง (BCa) หรือไม่?
fmark

"ช่วงเร่งการเร่งอคติ (BCa) ของ bootstrap เป็นการปรับเปลี่ยนวิธีเปอร์เซ็นไทล์ที่ปรับเปอร์เซ็นไทล์เพื่อแก้ไขอคติและความเบ้" (Hesterberg, T. , Monaghan, S. , Moore, D. , Clipson, A. , & Epstein, R. (2005). วิธีบู๊ตสแตรปและการทดสอบการเปลี่ยนลำดับ. บทนำสู่การปฏิบัติทางสถิติ, 14.1–14.70.) เมื่อใดก็ตามที่ซอฟต์แวร์อนุญาตให้ใช้ BCI ที่แก้ไขแล้ว BCI (หมายเหตุ: มันต้องการ> 1,000 resamples)
Felix S

ดูเหมือนว่าจากเอกสารสำหรับแพ็คเกจ Simpleboot ที่ไม่สนับสนุนการตัดทอน :(
et คือ

8

κ^/(6s2n)κ^O(n-1/2)O(n-1)n1/2>20n>400

(ประสบการณ์(1)+2)* * * *ประสบการณ์(1)-1kappa = (exp(1)+2)*sqrt( exp(1) - 1) = 6.184877s = sqrt( (exp(1)-1)*exp(1) ) = 2.1611972*s*qnorm(0.975)/sqrt(n) = 0.2678999kappa*s/(6*n) = 0.00222779kappa


2

ลองการแจกแจงแบบล็อกปกติโดยคำนวณ:

  1. ลอการิทึมของข้อมูล
  2. ค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานของ (1)
  3. ช่วงความเชื่อมั่นที่สอดคล้องกับ (2)
  4. เลขชี้กำลังของ (3)

คุณจะจบลงด้วยช่วงความมั่นใจแบบไม่สมมาตรรอบค่าที่คาดหวัง (ซึ่งไม่ใช่ค่าเฉลี่ยของข้อมูลดิบ)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.