ค่าเฉลี่ยของตัวอย่างบู๊ตสแตรปเทียบกับสถิติของตัวอย่าง


18

บอกว่าผมมีตัวอย่างและตัวอย่างบูตจากตัวอย่างนี้สำหรับ stastitic χ (เช่นค่าเฉลี่ย) ในฐานะที่เราทุกคนรู้ว่าตัวอย่างบูตนี้ประมาณการกระจายการสุ่มตัวอย่างของประมาณการของสถิติที่

ทีนี้ค่าเฉลี่ยของตัวอย่าง bootstrapนี้เป็นการประมาณค่าสถิติประชากรได้ดีกว่าสถิติของตัวอย่างดั้งเดิมหรือไม่? ภายใต้เงื่อนไขใดที่เป็นเช่นนั้น


2
ค่าเฉลี่ยของตัวอย่าง bootstrap คือค่าเฉลี่ยของตัวอย่างและคุณไม่จำเป็นต้องมีตัวอย่าง bootstrap ในกรณีนี้
ซีอาน

1
ขอบคุณ @ ซีอานฉันไม่แน่ใจว่าฉันทำตาม ค่าเฉลี่ยของตัวอย่างบู๊ตสแตรปอาจแตกต่างจากตัวเลขของค่าเฉลี่ยของตัวอย่าง คุณพยายามที่จะบอกว่าทั้งสองยังคงเทียบเท่าในทางทฤษฎี? คุณยืนยันได้ทั้งสองด้านหรือไม่
Amelio Vazquez-Reina

2
มาทำความเข้าใจคำศัพท์ของเรากันเถอะ: "ตัวอย่างบูทสแตรป" สามารถอ้างถึงตัวอย่างที่มีการแทนที่จากข้อมูลที่เฉพาะเจาะจงหรืออาจอ้างถึงตัวแปรสุ่ม (หลายตัวแปร) ซึ่งตัวอย่างดังกล่าวจะถูกพิจารณาให้เป็นหนึ่ง คุณถูกต้องว่าค่าเฉลี่ยของการรับรู้อาจแตกต่างจากค่าเฉลี่ยของข้อมูล แต่ @ ซีอานให้การสังเกตที่เกี่ยวข้องมากขึ้นว่าค่าเฉลี่ยของตัวแปรสุ่ม (ซึ่งโดยนิยามคือการประมาณค่าบูตของค่าเฉลี่ยประชากร ) จะต้องตรงกัน ด้วยค่าเฉลี่ยของข้อมูล
whuber

1
จากนั้นคำถามของคุณเกือบจะเหมือนกันกับstats.stackexchange.com/questions/126633/… ; ข้อแตกต่างเพียงอย่างเดียวคือการตระหนักถึงตัวอย่างของ bootstrap สามารถทับซ้อนกันได้ แต่การวิเคราะห์ที่ให้ไว้ในคำตอบนั้นจะนำไปสู่สถานการณ์ bootstrap ได้อย่างง่ายดายด้วยผลลัพธ์เดียวกัน
whuber

1
ฉันเห็นการเชื่อมต่อ @whuber แม้ว่าใน bootstrap หนึ่งจะมี "ชุดย่อยที่มีการแทนที่" และการรับรู้อาจทับซ้อนกันตามที่คุณพูด ฉันคิดว่าการแจกแจง (เช่น pseudorandomness) ที่ใช้ในการรับตัวอย่างใหม่ใน bootstrap อาจส่งผลต่อความเอนเอียงของการประเมินจากตัวอย่าง bootstrap บางทีคำตอบก็คือสำหรับทุกเรื่องในทางปฏิบัติความแตกต่างนั้นเล็กน้อย นี่คือคำถามที่เกิดขึ้นหลังจาก: เงื่อนไขรายละเอียดปลีกย่อยและความแตกต่างในทางปฏิบัติ
Amelio Vazquez-Reina

คำตอบ:


19

เรามาคุยกันเพื่อที่จะมุ่งเน้นไปที่ปมของเรื่อง ฉันจะสะกดรายละเอียดที่น้อยที่สุดเพื่อไม่ต้องสงสัย การวิเคราะห์ต้องการเพียงสิ่งต่อไปนี้:

  1. มัชฌิมเลขคณิตของชุดของตัวเลขถูกกำหนดให้เป็นz1,,zม.

    1m(z1++zm).
  2. ความคาดหวังเป็นตัวดำเนินการเชิงเส้น นั่นคือเมื่อเป็นตัวแปรสุ่มและα iเป็นตัวเลขดังนั้นความคาดหวังของชุดค่าผสมเชิงเส้นคือชุดค่าผสมเชิงเส้นของความคาดหวังZi,i=1,,mαi

    E(α1Z1++αmZm)=α1E(Z1)++αmE(Zm).

Let B be a sample (B1,,Bk) obtained from a dataset x=(x1,,xn) by taking k elements uniformly from x with replacement. Let m(B) be the arithmetic mean of B. This is a random variable. Then

E(m(B))=E(1k(B1++Bk))=1k(E(B1)++E(Bk))

follows by linearity of expectation. Since the elements of B are all obtained in the same fashion, they all have the same expectation, b say:

E(B1)==E(Bk)=b.

This simplifies the foregoing to

E(m(B))=1k(b+b++b)=1k(kb)=b.

By definition, the expectation is the probability-weighted sum of values. Since each value of X is assumed to have an equal chance of 1/n of being selected,

E(m(B))=b=E(B1)=1nx1++1nxn=1n(x1++xn)=x¯,

the arithmetic mean of the data.

To answer the question, if one uses the data mean x¯ to estimate the population mean, then the bootstrap mean (which is the case k=n) also equals x¯, and therefore is identical as an estimator of the population mean.


For statistics that are not linear functions of the data, the same result does not necessarily hold. However, it would be wrong simply to substitute the bootstrap mean for the statistic's value on the data: that is not how bootstrapping works. Instead, by comparing the bootstrap mean to the data statistic we obtain information about the bias of the statistic. This can be used to adjust the original statistic to remove the bias. As such, the bias-corrected estimate thereby becomes an algebraic combination of the original statistic and the bootstrap mean. For more information, look up "BCa" (bias-corrected and accelerated bootstrap) and "ABC". Wikipedia provides some references.


You mean that the expectation of the bootstrap mean is equal to the data mean, no? The bootstrap mean itself is not determined by the (original) data sample.
capybaralet

@user2429920 The bootstrap mean is a statistic determined by the sample. In this sense it is identical to the sample mean. Its expectation is taken in the sense of the sampling distribution. I suspect you might be using "expectation" in a different sense relative to the process of computing the bootstrap mean via repeated subsampling with replacement.
whuber

1
I think the last paragraph is the actual answer to this question as it is general and not focused only on the mean statistic. I had the same doubt the OP did, and I wasn't aware of the existence of BCa. Although the demonstration in this answer did not help me much (I'm not using the mean as my statistic) the last paragraph was very clear about the crux of the matter. I believe Xi'an's answer also addresses the case where the mean statistic is used, so same issue. Thank you!
Gabriel

1
@Gabriel good points. I checked the record: before editing, this question originally asked only about the mean. That's why the answers appear to be so focused on that statistic.
whuber

9

Since the bootstrap distribution is defined as

F^n(x)=1ni=1nIXixXiiidF(x),
the mean of the bootstrap distribution is
EF^n[X]=1ni=1nXi=X¯n
When you (if you have to) implement a simulation version of this expectation, i.e., an average of random draws, there is Monte Carlo variability in this approximation of EF^n[X], but its mean (the expactation of the empirical average) and its limit when the number of bootstrap simulations grows to infinity are both exactly X¯n.

2
+1 This is the answer I originally wanted to write, but feared it might be too opaque for some readers. I nevertheless am glad to see it so elegantly presented. I'm not sure what you mean in your last sentence, though, where you appear to differentiate the "expectation" of the simulated approximation to the mean from its "limit": since the expectation is constant (it does not vary with simulation size), there really isn't any limit to take.
whuber

@whuber: Thank you for the comment and sorry for writing my terse answer exactly at the same time as yours! Your explanations are certainly more readable by novices in bootstrap. I corrected the final sentence, whose limiting part is the law of large numbers.
Xi'an

3
Your use of "mean" in that last sentence is quite ambiguous! I figured it out from your LLN clue. For any finite simulation of the bootstrap distribution, each sample in the simulation produces its own mean (there's one meaning of "mean"). The average of all those samples in a given simulation produces a simulation mean (there's another meaning). The simulation mean converges to a constant as the simulation size grows large, which is the bootstrap mean (a third meaning), and this equals the sample mean (the fourth meaning). (And this estimates the population mean--a fifth meaning!)
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.