อคติบูต: มันโอเคที่จะจัดวาง CI รอบ ๆ สถิติที่สังเกตได้หรือไม่?

สิ่งนี้คล้ายกับBootstrap: การประเมินอยู่นอกช่วงความมั่นใจ

ฉันมีข้อมูลบางอย่างที่แสดงถึงจำนวนของจีโนไทป์ในประชากร ฉันต้องการประเมินความหลากหลายทางพันธุกรรมโดยใช้ดัชนีของแชนนอนและสร้างช่วงความมั่นใจโดยใช้การบูตสแตรป อย่างไรก็ตามฉันสังเกตเห็นว่าการประเมินผ่านการบูตสแตรปปิ้งมีแนวโน้มที่จะมีอคติอย่างมากและส่งผลให้เกิดช่วงความมั่นใจที่อยู่นอกสถิติที่ฉันสังเกตเห็น

ด้านล่างเป็นตัวอย่าง

# Shannon's index
H <- function(x){
  x <- x/sum(x)
  x <- -x * log(x, exp(1))
  return(sum(x, na.rm = TRUE))
}
# The version for bootstrapping
H.boot <- function(x, i){
  H(tabulate(x[i]))
}

การสร้างข้อมูล

set.seed(5000)
X <- rmultinom(1, 100, prob = rep(1, 50))[, 1]

การคำนวณ

H(X)

## [1] 3.67948

xi <- rep(1:length(X), X)
H.boot(xi)

## [1] 3.67948

library("boot")
types <- c("norm", "perc", "basic")
(boot.out <- boot::boot(xi, statistic = H.boot, R = 1000L))

## 
## CASE RESAMPLING BOOTSTRAP FOR CENSORED DATA
## 
## 
## Call:
## boot::boot(data = xi, statistic = H.boot, R = 1000)
## 
## 
## Bootstrap Statistics :
##     original     bias    std. error
## t1*  3.67948 -0.2456241  0.06363903

การสร้าง CIs ด้วยการแก้ไขอคติ

boot.ci(boot.out, type = types)

## BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
## Based on 1000 bootstrap replicates
## 
## CALL : 
## boot.ci(boot.out = boot.out, type = types)
## 
## Intervals : 
## Level      Normal              Basic              Percentile     
## 95%   ( 3.800,  4.050 )   ( 3.810,  4.051 )   ( 3.308,  3.549 )  
## Calculations and Intervals on Original Scale

สมมติว่าความแปรปรวนของเสื้อสามารถใช้สำหรับการแปรปรวนของt0

norm.ci(t0 = boot.out$t0, var.t0 = var(boot.out$t[, 1]))[-1]

## [1] 3.55475 3.80421

มันจะถูกต้องหรือไม่ที่จะรายงาน CI ที่มีศูนย์กลางอยู่ที่t0 ? มีวิธีที่ดีกว่าในการสร้าง bootstrap หรือไม่?

— ZNK
แหล่งที่มา

คำตอบ:

ในการตั้งค่าที่กำหนดโดย OP พารามิเตอร์ที่น่าสนใจคือ Shannon entropy ซึ่งเป็นหน้าที่ของเวกเตอร์ความน่าจะเป็น{50} ตัวประมาณตามตัวอย่าง (ในการจำลอง) คือตัวประมาณ ตัวอย่างถูกสร้างขึ้นโดยใช้การแจกแจงแบบสม่ำเสมอซึ่งเอนโทรปีของแชนนอนคือตั้งแต่เอนโทรปีนอนส์เป็น maximized ในการจัดจำหน่ายเครื่องแบบ plug-in ประมาณการจะต้องลงลำเอียง การจำลองแสดงให้เห็นว่า

θ (p) = - \sum_{i = 1}^{50} p_{i} \log p_{i},

$\theta(\mathbf{p}) = - \sum_{i = 1}^{50} p_i \log p_i,$

p \in R^{50}

$\mathbf{p} \in \mathbb{R}^{50}$

n

$n$

n = 100

$n = 100$

{\hat{θ}}_{n} = θ ({\hat{p}}_{n}) = - \sum_{i = 1}^{50} {\hat{p}}_{n, i} \log {\hat{p}}_{n, i} .

$\hat{\theta}_n = \theta(\hat{\mathbf{p}}_n) = - \sum_{i=1}^{50} \hat{p}_{n,i} \log \hat{p}_{n,i}.$

\log (50) = 3.912.

$\log(50) = 3.912.$

b i a s ({\hat{θ}}_{100}) ≃ - 0.28

$\mathrm{bias}(\hat{\theta}_{100}) \simeq -0.28$ ขณะที่ -0.05 ปลั๊กอินประมาณการมีความสอดคล้องกัน แต่วิธีใช้ไม่ได้กับเป็นชุดการแจกแจงเนื่องจากอนุพันธ์ของเอนโทรปีของแชนนอนคือ 0 ดังนั้นสำหรับตัวเลือกนี้โดยเฉพาะของ , ช่วงความเชื่อมั่นที่อิงตามข้อโต้แย้งเชิงซีกไม่ชัดเจน

b i a s ({\hat{θ}}_{500}) ≃ - 0.05

$\mathrm{bias}(\hat{\theta}_{500}) \simeq -0.05$

Δ

$\Delta$

p

$\mathbf{p}$

p

$\mathbf{p}$

ช่วงเปอร์เซ็นต์จะขึ้นอยู่กับการกระจายของที่เป็นประมาณการที่ได้รับจากการสุ่มตัวอย่างสังเกตจาก n โดยเฉพาะมันเป็นช่วงเวลาจาก quantile 2.5% ไป quantile 97.5% สำหรับการกระจายของ*) เมื่อการจำลองการบูตของ OP แสดงให้เห็นว่า เห็นได้ชัดว่ามีความเอนเอียงที่ลดลงเช่นเดียวกับตัวประมาณซึ่งส่งผลให้ช่วงเปอร์เซ็นต์ไทล์เป็น ผิดอย่างสมบูรณ์ $\theta(\mathbf{p}_n^*)$ $\mathbf{p}_n^*$ $n$ $\hat{\mathbf{p}}_n$ $\theta(\mathbf{p}_n^*)$ $\theta(\mathbf{p}_n^*)$ $\theta(\hat{\mathbf{p}}_n)$

สำหรับช่วงเวลาพื้นฐาน (และปกติ) บทบาทของควอนไทล์จะถูกสับเปลี่ยน นี่หมายความว่าช่วงเวลาดูเหมือนจะมีเหตุผล (ครอบคลุม 3.912) แม้ว่าช่วงเวลาที่ขยายเกิน 3.912 จะไม่มีความหมายตามหลักเหตุผล ยิ่งกว่านั้นฉันไม่รู้ว่าช่วงเวลาพื้นฐานจะมีการครอบคลุมที่ถูกต้องหรือไม่ เหตุผลมันขึ้นอยู่กับตัวตนการกระจายโดยประมาณดังต่อไปนี้:

θ (p_{n}^{*}) - θ ({\hat{p}}_{n}) \overset{D}{≃} θ ({\hat{p}}_{n}) - θ (p),

$\theta(\mathbf{p}_n^*) - \theta(\hat{\mathbf{p}}_n) \overset{\mathcal{D}}{\simeq} \theta(\hat{\mathbf{p}}_n) - \theta(\mathbf{p}),$ ซึ่งอาจจะเป็นที่น่าสงสัยสำหรับ (ค่อนข้าง) ขนาดเล็กเช่น100

n

$n$

n = 100

$n = 100$

ข้อเสนอแนะล่าสุดของ OP เกี่ยวกับข้อผิดพลาดมาตรฐานตามช่วงเวลาจะไม่ทำงานเพราะมีอคติขนาดใหญ่ มันอาจจะทำงานสำหรับประมาณการอคติแก้ไข แต่แล้วคุณครั้งแรกของความจำเป็นในข้อผิดพลาดมาตรฐานที่ถูกต้องสำหรับประมาณการอคติแก้ไข $\theta(\hat{\mathbf{p}}_n) \pm 1.96\hat{\mathrm{se}}_n$

ฉันจะพิจารณาช่วงเวลาที่น่าจะเป็นไปตามรายละเอียดของการเข้าสู่ระบบสำหรับโอกาส{p}) ฉันกลัวว่าฉันไม่รู้วิธีง่ายๆในการคำนวณโปรไฟล์บันทึกความน่าจะเป็นสำหรับตัวอย่างนี้ยกเว้นว่าคุณต้องเพิ่มความเป็นไปได้ในการบันทึกมากกว่าสำหรับค่าคงที่ที่แตกต่างกันของp}) $\theta(\mathbf{p})$ $\mathbf{p}$ $\theta(\mathbf{p})$

— NRH
แหล่งที่มา

ปัญหาอคติกับการใช้ตัวประมาณค่า "ปลั๊กอิน" สำหรับเอนโทรปีได้รับการชื่นชมมานานหลายทศวรรษ บทความนี้วิเคราะห์การประเมินที่ลำเอียงน้อย การแก้ไขอคติถึงซึ่งวันที่ถึง 1955 (ดู eq. 4 ของกระดาษที่เชื่อมโยง) สามารถนำไปใช้กับกรณีที่นำเสนอโดย OP การแก้ไขคือ 0.245 ซึ่งเกือบจะเหมือนกับอคติที่ระบุโดย bootstrap บางที bootstrap ควรใช้ที่นี่เพื่อประเมินเอนโทรปีตัวเองไม่ใช่แค่ขีด จำกัด ของความมั่นใจ

1 / n

$1/n$

— EdM

@EdM นี่เป็นข้อมูลที่มีประโยชน์มาก ฉันไม่รู้จักวรรณกรรมเกี่ยวกับปัญหาอคตินี้ มันอาจมีประโยชน์จริง ๆ ถ้าคุณสามารถเปลี่ยนความคิดเห็นเป็นคำตอบที่อธิบายการแก้ไขอคติและวิธีการใช้ bootstrapping เพื่อให้ได้ช่วงความมั่นใจ

— NRH

ฉันไม่รู้วรรณกรรมนี้ด้วยจนกระทั่งคำถามนี้และคำตอบของคุณปรากฏขึ้น ซึ่งค่อนข้างน่าอายเนื่องจากเอนโทรปีของแชนนอนมักใช้เป็นมาตรวัดในสาขาวิทยาศาสตร์ชีวการแพทย์ของฉัน ฉันจะเห็นสิ่งที่ฉันสามารถรวบรวมเป็นคำตอบเพิ่มเติม

— EdM

θ (p_{n}^{*})

$\theta(\mathbf{p}_n^*)$

n

$n$

n

$n$

n \to \infty

$n \to \infty$

ดังที่คำตอบของ @NRH ชี้ให้เห็นปัญหาไม่ใช่ว่าการบูตสแตรปให้ผลลัพธ์ที่เอนเอียง มันเป็นเพียงการประมาณค่าแบบ "เสียบ" ของเอนโทรปีของแชนนอนซึ่งมีพื้นฐานมาจากข้อมูลจากตัวอย่างนั้นมีความเอนเอียงจากค่าประชากรที่แท้จริง

ปัญหานี้ได้รับการยอมรับในปี 1950 ภายในไม่กี่ปีของคำจำกัดความของดัชนีนี้ บทความนี้กล่าวถึงปัญหาพื้นฐานพร้อมการอ้างอิงถึงวรรณกรรมที่เกี่ยวข้อง

$\hat{p}_{n,i}$ $p_{n,i}$

{\hat{θ}}_{n} = θ ({\hat{p}}_{n}) = - \sum_{i = 1}^{M} {\hat{p}}_{n, i} \log {\hat{p}}_{n, i} .

$\hat{\theta}_n = \theta(\hat{\mathbf{p}}_n) = - \sum_{i=1}^{M} \hat{p}_{n,i} \log \hat{p}_{n,i}.$

ความสัมพันธ์ที่ไม่ใช่เชิงเส้นหมายความว่าค่าที่ได้นั้นเป็นความลำเอียงที่ต่ำกว่าการประเมินความหลากหลายทางพันธุกรรมที่แท้จริง

$M$ $N$ $(M -1)/2N$

มีแพ็คเกจใน R ที่จัดการกับปัญหานี้ simbootแพคเกจโดยเฉพาะอย่างยิ่งมีฟังก์ชั่นestShannonfที่ทำให้การแก้ไขอคติเหล่านี้และฟังก์ชั่นsbdivสำหรับการคำนวณช่วงความเชื่อมั่น จะเป็นการดีกว่าถ้าใช้เครื่องมือโอเพ่นซอร์สที่กำหนดไว้สำหรับการวิเคราะห์ของคุณแทนที่จะพยายามเริ่มต้นใหม่ตั้งแต่ต้น

— EDM
แหล่งที่มา

ดังนั้นตัวประมาณค่าและตัวของมันเองจึงผิดพลาดเนื่องจากขนาดตัวอย่าง? simbootแพคเกจดูแนวโน้ม แต่ดูเหมือนจะไม่เหมาะสำหรับวัตถุประสงค์ของฉันมันต้องตัวอย่างการควบคุมในการประมาณช่วงความเชื่อมั่น

— ZNK

"ผิดพลาด" ไม่ถูกต้องนัก ตัวประมาณคือ "เอนเอียง" ซึ่งค่าที่คาดหวังนั้นไม่เหมือนกับค่าประชากรจริง ไม่ได้หมายความว่ามันเป็น "ผิดพลาด"; ตัวประมาณค่าแบบเอนเอียงอาจมีประโยชน์ดังที่แสดงโดยการแลกเปลี่ยนความแปรปรวนแบบอคติ ในการเลือกตัวประมาณค่า หากsimbootไม่เป็นไปตามความต้องการของคุณ Google "แชนนอนเอนโทรปีอคติ r" สำหรับการเชื่อมโยงไปยังแพคเกจอื่น ๆ เช่น R entropy, และentropart EntropyEstimation

— EdM

มีปัญหาเพิ่มเติมที่เกิดขึ้นจากความจริงที่ว่าจีโนไทป์บางอย่างที่มีอยู่ในประชากรมีแนวโน้มที่จะพลาดในตัวอย่างใด ๆ โดยเฉพาะ แพ็คเกจ R ที่ใช้ประชากรและนิเวศวิทยาดูเหมือนจะมีวิธีจัดการกับปัญหานี้

— EdM