อคติบูต: มันโอเคที่จะจัดวาง CI รอบ ๆ สถิติที่สังเกตได้หรือไม่?


13

สิ่งนี้คล้ายกับBootstrap: การประเมินอยู่นอกช่วงความมั่นใจ

ฉันมีข้อมูลบางอย่างที่แสดงถึงจำนวนของจีโนไทป์ในประชากร ฉันต้องการประเมินความหลากหลายทางพันธุกรรมโดยใช้ดัชนีของแชนนอนและสร้างช่วงความมั่นใจโดยใช้การบูตสแตรป อย่างไรก็ตามฉันสังเกตเห็นว่าการประเมินผ่านการบูตสแตรปปิ้งมีแนวโน้มที่จะมีอคติอย่างมากและส่งผลให้เกิดช่วงความมั่นใจที่อยู่นอกสถิติที่ฉันสังเกตเห็น

ด้านล่างเป็นตัวอย่าง

# Shannon's index
H <- function(x){
  x <- x/sum(x)
  x <- -x * log(x, exp(1))
  return(sum(x, na.rm = TRUE))
}
# The version for bootstrapping
H.boot <- function(x, i){
  H(tabulate(x[i]))
}

การสร้างข้อมูล

set.seed(5000)
X <- rmultinom(1, 100, prob = rep(1, 50))[, 1]

การคำนวณ

H(X)

## [1] 3.67948

xi <- rep(1:length(X), X)
H.boot(xi)

## [1] 3.67948

library("boot")
types <- c("norm", "perc", "basic")
(boot.out <- boot::boot(xi, statistic = H.boot, R = 1000L))

## 
## CASE RESAMPLING BOOTSTRAP FOR CENSORED DATA
## 
## 
## Call:
## boot::boot(data = xi, statistic = H.boot, R = 1000)
## 
## 
## Bootstrap Statistics :
##     original     bias    std. error
## t1*  3.67948 -0.2456241  0.06363903

การสร้าง CIs ด้วยการแก้ไขอคติ

boot.ci(boot.out, type = types)

## BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
## Based on 1000 bootstrap replicates
## 
## CALL : 
## boot.ci(boot.out = boot.out, type = types)
## 
## Intervals : 
## Level      Normal              Basic              Percentile     
## 95%   ( 3.800,  4.050 )   ( 3.810,  4.051 )   ( 3.308,  3.549 )  
## Calculations and Intervals on Original Scale

สมมติว่าความแปรปรวนของเสื้อสามารถใช้สำหรับการแปรปรวนของt0

norm.ci(t0 = boot.out$t0, var.t0 = var(boot.out$t[, 1]))[-1]

## [1] 3.55475 3.80421

มันจะถูกต้องหรือไม่ที่จะรายงาน CI ที่มีศูนย์กลางอยู่ที่t0 ? มีวิธีที่ดีกว่าในการสร้าง bootstrap หรือไม่?

คำตอบ:


12

ในการตั้งค่าที่กำหนดโดย OP พารามิเตอร์ที่น่าสนใจคือ Shannon entropy ซึ่งเป็นหน้าที่ของเวกเตอร์ความน่าจะเป็น{50} ตัวประมาณตามตัวอย่าง (ในการจำลอง) คือตัวประมาณ ตัวอย่างถูกสร้างขึ้นโดยใช้การแจกแจงแบบสม่ำเสมอซึ่งเอนโทรปีของแชนนอนคือตั้งแต่เอนโทรปีนอนส์เป็น maximized ในการจัดจำหน่ายเครื่องแบบ plug-in ประมาณการจะต้องลงลำเอียง การจำลองแสดงให้เห็นว่า

θ(p)=i=150pilogpi,
pR50nn=100
θ^n=θ(p^n)=i=150p^n,ilogp^n,i.
log(50)=3.912.ฉันs ( θ 500 ) - 0.05 Δ พีพีbias(θ^100)0.28ขณะที่ -0.05 ปลั๊กอินประมาณการมีความสอดคล้องกัน แต่วิธีใช้ไม่ได้กับเป็นชุดการแจกแจงเนื่องจากอนุพันธ์ของเอนโทรปีของแชนนอนคือ 0 ดังนั้นสำหรับตัวเลือกนี้โดยเฉพาะของ , ช่วงความเชื่อมั่นที่อิงตามข้อโต้แย้งเชิงซีกไม่ชัดเจน bias(θ^500)0.05Δpp

ช่วงเปอร์เซ็นต์จะขึ้นอยู่กับการกระจายของที่เป็นประมาณการที่ได้รับจากการสุ่มตัวอย่างสังเกตจาก n โดยเฉพาะมันเป็นช่วงเวลาจาก quantile 2.5% ไป quantile 97.5% สำหรับการกระจายของ*) เมื่อการจำลองการบูตของ OP แสดงให้เห็นว่า เห็นได้ชัดว่ามีความเอนเอียงที่ลดลงเช่นเดียวกับตัวประมาณซึ่งส่งผลให้ช่วงเปอร์เซ็นต์ไทล์เป็น ผิดอย่างสมบูรณ์P * n n P nθ(pn)pnnp^nθ(pn)θ(pn)θ(p^n)

สำหรับช่วงเวลาพื้นฐาน (และปกติ) บทบาทของควอนไทล์จะถูกสับเปลี่ยน นี่หมายความว่าช่วงเวลาดูเหมือนจะมีเหตุผล (ครอบคลุม 3.912) แม้ว่าช่วงเวลาที่ขยายเกิน 3.912 จะไม่มีความหมายตามหลักเหตุผล ยิ่งกว่านั้นฉันไม่รู้ว่าช่วงเวลาพื้นฐานจะมีการครอบคลุมที่ถูกต้องหรือไม่ เหตุผลมันขึ้นอยู่กับตัวตนการกระจายโดยประมาณดังต่อไปนี้:

θ(pn)θ(p^n)Dθ(p^n)θ(p),
ซึ่งอาจจะเป็นที่น่าสงสัยสำหรับ (ค่อนข้าง) ขนาดเล็กเช่น100nn=100

ข้อเสนอแนะล่าสุดของ OP เกี่ยวกับข้อผิดพลาดมาตรฐานตามช่วงเวลาจะไม่ทำงานเพราะมีอคติขนาดใหญ่ มันอาจจะทำงานสำหรับประมาณการอคติแก้ไข แต่แล้วคุณครั้งแรกของความจำเป็นในข้อผิดพลาดมาตรฐานที่ถูกต้องสำหรับประมาณการอคติแก้ไขθ(p^n)±1.96se^n

ฉันจะพิจารณาช่วงเวลาที่น่าจะเป็นไปตามรายละเอียดของการเข้าสู่ระบบสำหรับโอกาส{p}) ฉันกลัวว่าฉันไม่รู้วิธีง่ายๆในการคำนวณโปรไฟล์บันทึกความน่าจะเป็นสำหรับตัวอย่างนี้ยกเว้นว่าคุณต้องเพิ่มความเป็นไปได้ในการบันทึกมากกว่าสำหรับค่าคงที่ที่แตกต่างกันของp})p θ ( p )θ(p)pθ(p)


5
ปัญหาอคติกับการใช้ตัวประมาณค่า "ปลั๊กอิน" สำหรับเอนโทรปีได้รับการชื่นชมมานานหลายทศวรรษ บทความนี้วิเคราะห์การประเมินที่ลำเอียงน้อย การแก้ไขอคติถึงซึ่งวันที่ถึง 1955 (ดู eq. 4 ของกระดาษที่เชื่อมโยง) สามารถนำไปใช้กับกรณีที่นำเสนอโดย OP การแก้ไขคือ 0.245 ซึ่งเกือบจะเหมือนกับอคติที่ระบุโดย bootstrap บางที bootstrap ควรใช้ที่นี่เพื่อประเมินเอนโทรปีตัวเองไม่ใช่แค่ขีด จำกัด ของความมั่นใจ 1/n
EdM

@EdM นี่เป็นข้อมูลที่มีประโยชน์มาก ฉันไม่รู้จักวรรณกรรมเกี่ยวกับปัญหาอคตินี้ มันอาจมีประโยชน์จริง ๆ ถ้าคุณสามารถเปลี่ยนความคิดเห็นเป็นคำตอบที่อธิบายการแก้ไขอคติและวิธีการใช้ bootstrapping เพื่อให้ได้ช่วงความมั่นใจ
NRH

ฉันไม่รู้วรรณกรรมนี้ด้วยจนกระทั่งคำถามนี้และคำตอบของคุณปรากฏขึ้น ซึ่งค่อนข้างน่าอายเนื่องจากเอนโทรปีของแชนนอนมักใช้เป็นมาตรวัดในสาขาวิทยาศาสตร์ชีวการแพทย์ของฉัน ฉันจะเห็นสิ่งที่ฉันสามารถรวบรวมเป็นคำตอบเพิ่มเติม
EdM

1
θ(pn)

1
nnn

7

ดังที่คำตอบของ @NRH ชี้ให้เห็นปัญหาไม่ใช่ว่าการบูตสแตรปให้ผลลัพธ์ที่เอนเอียง มันเป็นเพียงการประมาณค่าแบบ "เสียบ" ของเอนโทรปีของแชนนอนซึ่งมีพื้นฐานมาจากข้อมูลจากตัวอย่างนั้นมีความเอนเอียงจากค่าประชากรที่แท้จริง

ปัญหานี้ได้รับการยอมรับในปี 1950 ภายในไม่กี่ปีของคำจำกัดความของดัชนีนี้ บทความนี้กล่าวถึงปัญหาพื้นฐานพร้อมการอ้างอิงถึงวรรณกรรมที่เกี่ยวข้อง

p^n,ipn,i

θ^n=θ(p^n)=i=1Mp^n,ilogp^n,i.

ความสัมพันธ์ที่ไม่ใช่เชิงเส้นหมายความว่าค่าที่ได้นั้นเป็นความลำเอียงที่ต่ำกว่าการประเมินความหลากหลายทางพันธุกรรมที่แท้จริง

MN(M1)/2N

มีแพ็คเกจใน R ที่จัดการกับปัญหานี้ simbootแพคเกจโดยเฉพาะอย่างยิ่งมีฟังก์ชั่นestShannonfที่ทำให้การแก้ไขอคติเหล่านี้และฟังก์ชั่นsbdivสำหรับการคำนวณช่วงความเชื่อมั่น จะเป็นการดีกว่าถ้าใช้เครื่องมือโอเพ่นซอร์สที่กำหนดไว้สำหรับการวิเคราะห์ของคุณแทนที่จะพยายามเริ่มต้นใหม่ตั้งแต่ต้น


ดังนั้นตัวประมาณค่าและตัวของมันเองจึงผิดพลาดเนื่องจากขนาดตัวอย่าง? simbootแพคเกจดูแนวโน้ม แต่ดูเหมือนจะไม่เหมาะสำหรับวัตถุประสงค์ของฉันมันต้องตัวอย่างการควบคุมในการประมาณช่วงความเชื่อมั่น
ZNK

1
"ผิดพลาด" ไม่ถูกต้องนัก ตัวประมาณคือ "เอนเอียง" ซึ่งค่าที่คาดหวังนั้นไม่เหมือนกับค่าประชากรจริง ไม่ได้หมายความว่ามันเป็น "ผิดพลาด"; ตัวประมาณค่าแบบเอนเอียงอาจมีประโยชน์ดังที่แสดงโดยการแลกเปลี่ยนความแปรปรวนแบบอคติ ในการเลือกตัวประมาณค่า หากsimbootไม่เป็นไปตามความต้องการของคุณ Google "แชนนอนเอนโทรปีอคติ r" สำหรับการเชื่อมโยงไปยังแพคเกจอื่น ๆ เช่น R entropy, และentropart EntropyEstimation
EdM

1
มีปัญหาเพิ่มเติมที่เกิดขึ้นจากความจริงที่ว่าจีโนไทป์บางอย่างที่มีอยู่ในประชากรมีแนวโน้มที่จะพลาดในตัวอย่างใด ๆ โดยเฉพาะ แพ็คเกจ R ที่ใช้ประชากรและนิเวศวิทยาดูเหมือนจะมีวิธีจัดการกับปัญหานี้
EdM
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.