พิจารณาชุดของตัวเลขสุ่มที่กระจายตามปกติ:
x <- rnorm(n=1000, mean=10)
เราต้องการทราบค่าเฉลี่ยและข้อผิดพลาดมาตรฐานในค่าเฉลี่ยดังนั้นเราจึงทำสิ่งต่อไปนี้:
se <- function(x) { sd(x)/sqrt(length(x)) }
mean(x) # something near 10.0 units
se(x) # something near 0.03 units
ที่ดี!
อย่างไรก็ตามสมมติว่าเราไม่จำเป็นต้องรู้ว่าการแจกแจงเริ่มต้นของเราเป็นไปตามการแจกแจงแบบปกติ เราบันทึกการแปลงข้อมูลและทำการคำนวณข้อผิดพลาดมาตรฐานเดียวกัน
z <- log(x, base=10)
mean(z) # something near 1 log units
se(z) # something near 0.001 log units
เยี่ยมยอด แต่ตอนนี้เราจำเป็นต้องแปลงกลับเพื่อให้ได้คำตอบในหน่วยที่ไม่ใช่หน่วยบันทึก
10^mean(z) # something near 10.0 units
10^se(z) # something near 1.00 units
คำถามของฉัน: ทำไมสำหรับการแจกแจงแบบปกติข้อผิดพลาดมาตรฐานจึงแตกต่างกันไปขึ้นอยู่กับว่าคำนวณจากการแจกแจงเองหรือว่าถูกแปลงคำนวณและแปลงกลับ? หมายเหตุ: วิธีการออกมาเหมือนกันโดยไม่คำนึงถึงการเปลี่ยนแปลง
แก้ไข # 1: ในที่สุดฉันสนใจในการคำนวณค่าเฉลี่ยและช่วงความเชื่อมั่นสำหรับข้อมูลที่ไม่ได้กระจายตามปกติดังนั้นหากคุณสามารถให้คำแนะนำเกี่ยวกับวิธีการคำนวณ 95% CI ของข้อมูลที่แปลงแล้วรวมถึงวิธีการแปลงกลับเป็นหน่วยดั้งเดิม , ฉันอยากจะขอบคุณมัน!
สิ้นสุดการแก้ไข # 1
แก้ไข # 2: ฉันพยายามใช้ฟังก์ชัน quantile เพื่อรับช่วงความมั่นใจ 95%:
quantile(x, probs = c(0.05, 0.95)) # around [8.3, 11.6]
10^quantile(z, probs = c(0.05, 0.95)) # around [8.3, 11.6]
ดังนั้นมันจึงรวมอยู่ในคำตอบเดียวกันซึ่งเป็นสิ่งที่ดี อย่างไรก็ตามการใช้วิธีนี้ไม่ได้ให้ช่วงเวลาที่แน่นอนเหมือนกันโดยใช้ข้อมูลที่ไม่ปกติกับขนาดตัวอย่าง "เล็ก":
t <- rlnorm(10)
mean(t) # around 1.46 units
10^mean(log(t, base=10)) # around 0.92 units
quantile(t, probs = c(0.05, 0.95)) # around [0.211, 4.79]
10^(quantile(log(t, base=10), probs = c(0.05, 0.95))) # around [0.209, 4.28]
วิธีใดที่จะถูกพิจารณาว่า "ถูกต้องมากกว่า" ฉันคิดว่าใครจะเลือกประมาณการที่อนุรักษ์นิยมมากที่สุด?
ตัวอย่างเช่นคุณจะรายงานผลลัพธ์นี้สำหรับข้อมูลที่ไม่ปกติ (t) ว่ามีค่าเฉลี่ย 0.92 หน่วยที่มีช่วงความมั่นใจ 95% ที่ [0.211, 4.79] หรือไม่
สิ้นสุดการแก้ไข # 2
ขอบคุณที่สละเวลา!