อัปเดต : ด้วยข้อดีของการเข้าใจถึงปัญหาย้อนหลังไม่กี่ปีที่ผ่านมาฉันได้เขียนบทสรุปที่กระชับกว่าเดิมเกี่ยวกับเนื้อหาเดียวกันเพื่อตอบคำถามที่คล้ายกัน
วิธีการสร้างเขตความเชื่อมั่น
ให้เราเริ่มต้นด้วยวิธีทั่วไปสำหรับการสร้างพื้นที่ความมั่นใจ สามารถใช้กับพารามิเตอร์เดียวเพื่อสร้างช่วงความเชื่อมั่นหรือช่วงเวลา และสามารถใช้กับพารามิเตอร์สองตัวหรือมากกว่านั้นเพื่อให้ได้พื้นที่ความเชื่อมั่นในมิติที่สูงขึ้น
เรายืนยันว่าสถิติสังเกตDมาจากการจัดจำหน่ายที่มีพารามิเตอร์θคือการกระจายการสุ่มตัวอย่างs(d|θ)กว่าสถิติที่เป็นไปได้dและแสวงหาภูมิภาคเชื่อมั่นให้θในชุดของค่าที่เป็นไปได้ΘΘกำหนดความหนาแน่นสูงสุดภาค (HDR) คือh -HDR ของไฟล์ PDF เป็นชุดย่อยที่เล็กที่สุดของประสิทธิภาพสูงที่รองรับความน่าจะเป็นชั่วโมงhแสดงว่าh -HDR ของs(d|ψ)เป็นHψสำหรับψใด ๆψ∈Θ Θ จากนั้นhภูมิภาคเชื่อมั่นให้θให้ข้อมูลDเป็นชุดCD={ϕ:D∈Hϕ} } ค่าทั่วไปของhจะเท่ากับ 0.95
การตีความบ่อย
จากคำนิยามก่อน ๆ ของภูมิภาคเชื่อมั่นดังนี้
d∈Hψ⟷ψ∈Cd
กับCd={ϕ:d∈Hϕ} } ตอนนี้คิดว่าเป็นชุดใหญ่ของ ( สมมุติ ) สังเกต{Di}นำภายใต้สถานการณ์ที่คล้ายกับDDคือพวกเขาเป็นตัวอย่างจากs(d|θ) ) เนื่องจากHθรองรับมวลความน่าจะเป็นhของ PDF s(d|θ) ,P(Di∈Hθ)=hสำหรับฉันiดังนั้นส่วนของการ{Di}ซึ่งDi∈Hθเป็นชั่วโมงhและเพื่อให้ใช้ความเท่าเทียมข้างต้นส่วนของการ{Di}ซึ่งθ∈CDiยังเป็นชั่วโมงh
นี่คือสิ่งที่ผู้เรียกร้องสิทธิประจำสำหรับเขตความเชื่อมั่นhสำหรับθจำนวน:
ใช้เป็นจำนวนมากของการสังเกตจินตนาการ{Di}จากการกระจายการสุ่มตัวอย่างs(d|θ)ที่ก่อให้เกิดการสังเกตสถิติDDจากนั้นθโกหกภายในส่วนhของคล้ายคลึง แต่จินตนาการภูมิภาคเชื่อมั่น{CDi} }
เขตความเชื่อมั่นCDไม่ได้อ้างสิทธิ์ใด ๆ เกี่ยวกับความน่าจะเป็นที่θอยู่ที่ไหนสักแห่ง! เหตุผลก็คือว่าไม่มีอะไรใน fomulation ที่ช่วยให้เราสามารถที่จะพูดถึงการกระจายความน่าจะเป็นมากกว่าθθการตีความเป็นเพียงโครงสร้างที่ซับซ้อนซึ่งไม่ได้ปรับปรุงฐาน ฐานเป็นs(d|θ)และDเท่านั้นโดยที่θไม่ปรากฏเป็นปริมาณการกระจายและไม่มีข้อมูลที่เราสามารถใช้เพื่อแก้ไขปัญหานั้น โดยทั่วไปมีสองวิธีในการรับการแจกแจงผ่านθ :
- กำหนดจัดจำหน่ายโดยตรงจากข้อมูลที่อยู่ในมือ: p(θ|I) )
- ที่เกี่ยวข้องθกับปริมาณการกระจายอื่น: p(θ|I)=∫p(θx|I)dx=∫p(θ|xI)p(x|I)dx x
ในทั้งสองกรณีθจะต้องปรากฏที่ด้านซ้ายที่ใดที่หนึ่ง ผู้ใช้บ่อย ๆ ไม่สามารถใช้วิธีการใดวิธีหนึ่งได้เนื่องจากทั้งคู่ต้องการวิธีนอกรีตมาก่อน
มุมมองแบบเบย์
มากที่สุดคชกรรมสามารถทำให้ของhภูมิภาคเชื่อมั่นCDได้รับโดยไม่ต้องมีคุณสมบัติเป็นเพียงการตีความโดยตรงว่ามันเป็นชุดของϕที่Dตกอยู่ในh -HDR Hϕของการกระจายการสุ่มตัวอย่างs(d|ϕ) ) มันไม่จำเป็นต้องบอกเรามากเกี่ยวกับθและนี่คือเหตุผล
น่าจะเป็นที่θ∈CDได้รับการDและข้อมูลพื้นหลังIเป็น:
P(θ∈CD|DI)=∫CDp(θ|DI)dθ=∫CDp(D|θI)p(θ|I)p(D|I)dθ
สังเกตว่าแตกต่างจากการตีความ frequentist เราได้เรียกร้องการกระจายมากกว่าทันทีθθข้อมูลพื้นหลังIบอกเราเป็นมาก่อนว่าการกระจายการสุ่มตัวอย่างอยู่ที่s(d|θ):
P(θ∈CD|DI)i.e.P(θ∈CD|DI)=∫CDs(D|θ)p(θ|I)p(D|I)dθ=∫CDs(D|θ)p(θ|I)dθp(D|I)=∫CDs(D|θ)p(θ|I)dθ∫s(D|θ)p(θ|I)dθ
Now this expression does not in general evaluate to h, which is to say, the h confidence region CD does not always contain θ with probability h. In fact it can be starkly different from h. There are, however, many common situations in which it does evaluate to h, which is why confidence regions are often consistent with our probabilistic intuitions.
For example, suppose that the prior joint PDF of d and θ is symmetric in that pd,θ(d,θ|I)=pd,θ(θ,d|I). (Clearly this involves an assumption that the PDF ranges over the same domain in d and θ.) Then, if the prior is p(θ|I)=f(θ), we have s(D|θ)p(θ|I)=s(D|θ)f(θ)=s(θ|D)f(D). Hence
P(θ∈CD|DI)i.e.P(θ∈CD|DI)=∫CDs(θ|D)dθ∫s(θ|D)dθ=∫CDs(θ|D)dθ
From the definition of an HDR we know that for any ψ∈Θ
∫Hψs(d|ψ)ddand therefore that∫HDs(d|D)ddor equivalently∫HDs(θ|D)dθ=h=h=h
s(d|θ)f(θ)=s(θ|d)f(d)CD=HDP(θ∈CD|DI)=hCD=HD⟷∀ψ[ψ∈CD↔ψ∈HD]
Applying the equivalence near the top:
CD=HD⟷∀ψ[D∈Hψ↔ψ∈HD]
Thus, the confidence region CD contains θ with probability h if for all possible values ψ of θ, the h-HDR of s(d|ψ) contains D if and only if the h-HDR of s(d|D) contains ψ.
Now the symmetric relation D∈Hψ↔ψ∈HD is satisfied for all ψ when s(ψ+δ|ψ)=s(D−δ|D) for all δ that span the support of s(d|D) and s(d|ψ). We can therefore form the following argument:
- s(d|θ)f(θ)=s(θ|d)f(d) (premise)
- ∀ψ∀δ[s(ψ+δ|ψ)=s(D−δ|D)] (premise)
- ∀ψ∀δ[s(ψ+δ|ψ)=s(D−δ|D)]⟶∀ψ[D∈Hψ↔ψ∈HD]
- ∴∀ψ[D∈Hψ↔ψ∈HD]
- ∀ψ[D∈Hψ↔ψ∈HD]⟶CD=HD
- ∴CD=HD
- [s(d|θ)f(θ)=s(θ|d)f(d)∧CD=HD]⟶P(θ∈CD|DI)=h
- ∴P(θ∈CD|DI)=h
Let's apply the argument to a confidence interval on the mean of a 1-D normal distribution (μ,σ), given a sample mean x¯ from n measurements. We have θ=μ and d=x¯, so that the sampling distribution is
s(d|θ)=n−−√σ2π−−√e−n2σ2(d−θ)2
Suppose also that we know nothing about θ before taking the data (except that it's a location parameter) and therefore assign a uniform prior: f(θ)=k. Clearly we now have s(d|θ)f(θ)=s(θ|d)f(d), so the first premise is satisfied. Let s(d|θ)=g((d−θ)2). (i.e. It can be written in that form.) Then
s(ψ+δ|ψ)=g((ψ+δ−ψ)2)=g(δ2)ands(D−δ|D)=g((D−δ−D)2)=g(δ2)so that∀ψ∀δ[s(ψ+δ|ψ)=s(D−δ|D)]
whereupon the second premise is satisfied. Both premises being true, the eight-point argument leads us to conclude that the probability that θ lies in the confidence interval CD is h!
We therefore have an amusing irony:
- The frequentist who assigns the h confidence interval cannot say that P(θ∈CD)=h, no matter how innocently uniform θ looks before incorporating the data.
- The Bayesian who would not assign an h confidence interval in that way knows anyhow that P(θ∈CD|DI)=h.
Final Remarks
We have identified conditions (i.e. the two premises) under which the h confidence region does indeed yield probability h that θ∈CD. A frequentist will baulk at the first premise, because it involves a prior on θ, and this sort of deal-breaker is inescapable on the route to a probability. But for a Bayesian, it is acceptable---nay, essential. These conditions are sufficient but not necessary, so there are many other circumstances under which the Bayesian P(θ∈CD|DI) equals h. Equally though, there are many circumstances in which P(θ∈CD|DI)≠h, especially when the prior information is significant.
We have applied a Bayesian analysis just as a consistent Bayesian would, given the information at hand, including statistics D. But a Bayesian, if he possibly can, will apply his methods to the raw measurements instead---to the {xi}, rather than x¯. Oftentimes, collapsing the raw data into summary statistics D destroys information in the data; and then the summary statistics are incapable of speaking as eloquently as the original data about the parameters θ.