จะประมาณค่าได้อย่างไรเมื่อมีเพียงสถิติสรุปเท่านั้น


17

นี่เป็นส่วนหนึ่งที่ได้รับแรงบันดาลใจจากคำถามต่อไปนี้และการสนทนาที่ตามมา

สมมติว่าตัวอย่าง IID สังเกตXiF(x,θ) ) เป้าหมายคือการประมาณการθθแต่ตัวอย่างดั้งเดิมไม่สามารถใช้ได้ สิ่งที่เรามีแทนสถิติของกลุ่มตัวอย่างบางT1,...,Tk . สมมติว่าkได้รับการแก้ไข เราจะประมาณθอย่างไร ในกรณีนี้การประมาณความน่าจะเป็นสูงสุดคืออะไร?


1
ถ้าTi=f(Xi)สำหรับฟังก์ชันที่รู้จักfคุณสามารถจดการแจกแจงของTiและตัวประมาณความน่าจะเป็นสูงสุดได้มาในวิธีปกติ แต่คุณไม่ได้ precised สิ่งที่เป็นTi ?
Stéphane Laurent

3
ฉันสนใจในกรณีที่เมื่อสำหรับที่รู้จักกันฉ นี้คือสิ่งที่ผมหมายถึงเมื่อผมบอกว่าT ฉันเป็นตัวอย่างสถิติ Ti=f(X1,...,Xn)fTi
mpiktas

แล้วความแตกต่างระหว่างกับT jคืออะไร? TiTj
Stéphane Laurent

2
ขออภัยที่ควรจะได้รับไม่ได้หนึ่งฉ เรามีฟังก์ชั่นหลายอย่างสำหรับf iซึ่งรับทั้งอาร์กิวเมนต์ตัวอย่าง fiffi
mpiktas

นี่ไม่ใช่เอนโทรปีสูงสุดที่ออกแบบมาเพื่ออะไร?
ความน่าจะเป็นทางการ

คำตอบ:


14

ในกรณีนี้คุณสามารถพิจารณาการประมาณค่าABCของความน่าจะเป็น (และจากMLE ) ภายใต้สมมติฐาน / ข้อ จำกัด ดังต่อไปนี้:

การสันนิษฐาน ขนาดตัวอย่างดั้งเดิมเป็นที่รู้จักกันn

นี่ไม่ใช่ข้อสันนิษฐานที่ชัดเจนว่าคุณภาพในแง่ของการลู่เข้าของตัวประมาณที่ใช้บ่อยขึ้นอยู่กับขนาดของกลุ่มตัวอย่างดังนั้นจึงไม่สามารถรับตัวประมาณที่ดีได้ตามอำเภอใจโดยไม่ทราบขนาดตัวอย่างดั้งเดิม

ความคิดที่จะสร้างตัวอย่างจากการกระจายหลังของและเพื่อผลิตประมาณของ MLEคุณสามารถใช้ความสำคัญการสุ่มตัวอย่างเทคนิคเช่นเดียวกับใน[1]หรือที่จะต้องพิจารณาเครื่องแบบก่อนในθกับการสนับสนุนที่เหมาะสม ตั้งเป็นใน[2]θθ

ฉันจะอธิบายวิธีการใน [2] ก่อนอื่นให้ฉันอธิบายตัวอย่าง ABC

ABC Sampler

Let เป็นรูปแบบที่สร้างตัวอย่างที่θ Θเป็นพารามิเตอร์ (จะประมาณ) Tเป็นสถิติ (ฟังก์ชั่นของกลุ่มตัวอย่าง) และT 0เป็นสถิติที่สังเกตในเบื้องต้นศัพท์แสง นี้เรียกว่าสถิติสรุป , ρจะเป็นตัวชี้วัดπ ( θ )การกระจายก่อนในθและε > 0ความอดทน จากนั้นตัวอย่างการปฏิเสธ ABC สามารถดำเนินการได้ดังนี้f(|θ)θΘTT0ρπ(θ)θϵ>0

  1. ตัวอย่างจากπ ( )θπ()
  2. สร้างตัวอย่างขนาดnจากแบบจำลอง( | θ * )xnf(|θ)
  3. Compute )T=T(x)
  4. ถ้ายอมรับθ *จำลองจากหลังของที่θρ(T,T0)<ϵθθ

ขั้นตอนวิธีการนี้จะสร้างตัวอย่างตัวอย่างจากการกระจายหลังของรับT ( x ) = T 0 ดังนั้นสถานการณ์ที่ดีที่สุดคือเมื่อสถิติTเพียงพอ แต่สามารถใช้สถิติอื่น ๆ ได้ สำหรับคำอธิบายรายละเอียดเพิ่มเติมของเอกสารนี้θT(x)=T0T

ตอนนี้ในกรอบทั่วไปหากมีการใช้เครื่องแบบก่อนหน้านี้ที่มี MLE ในการสนับสนุนของมันแล้วสูงสุดposteriori (MAP) เกิดขึ้นพร้อมกับการประเมินความน่าจะเป็นสูงสุด (MLE) ดังนั้นหากคุณพิจารณาเครื่องแบบที่เหมาะสมก่อนใน ABC Sampler คุณสามารถสร้างตัวอย่างโดยประมาณของการแจกแจงหลังซึ่ง MAP ตรงกับ MLE ขั้นตอนที่เหลือประกอบด้วยการประเมินโหมดนี้ ปัญหานี้ได้รับการกล่าวถึงในประวัติเช่นใน"การประมาณค่าที่มีประสิทธิภาพคอมพิวเตอร์ของโหมดการหลายตัวแปร"

ตัวอย่างของเล่น

ให้เป็นตัวอย่างจากN ( μ , 1 )และคิดว่าข้อมูลที่ใช้ได้เฉพาะจากตัวอย่างนี้เป็นˉ x = 1(x1,...,xn)N(μ,1)เจ ให้ρเป็นแบบยุคลิดเมตริกในการวิจัยและε=0.001 รหัส R ต่อไปนี้แสดงวิธีรับ MLE โดยประมาณโดยใช้วิธีที่อธิบายไว้ข้างต้นโดยใช้ตัวอย่างจำลองที่มีn=100และμ=0ตัวอย่างของการแจกแจงหลังขนาด1,000ซึ่งเป็นชุดก่อนหน้าสำหรับμบน(-0.3,0.3)และตัวประมาณความหนาแน่นของเคอร์เนลสำหรับการประเมินโหมดของตัวอย่างหลัง (MAP = MLE)x¯=1nj=1nxjρRϵ=0.001n=100μ=01000μ(0.3,0.3)

rm(list=ls())

# Simulated data
set.seed(1)
x = rnorm(100)

# Observed statistic
T0=mean(x)

# ABC Sampler using a uniform prior 

N=1000
eps = 0.001
ABCsamp = rep(0,N)
i=1

while(i<N+1){
u = runif(1,-0.3,0.3)
t.samp = rnorm(100,u,1)
Ts = mean(t.samp)
if(abs(Ts-T0)<eps){
ABCsamp[i]=u
i=i+1
print(i)
}
}

# Approximation of the MLE
kd = density(ABCsamp)
kd$x[which(kd$y==max(kd$y))]

อย่างที่คุณเห็นการใช้ความอดทนเล็กน้อยเราได้การประมาณค่า MLE ที่ดีมาก (ซึ่งในตัวอย่างเล็ก ๆ น้อย ๆ นี้สามารถคำนวณได้จากสถิติที่ระบุว่าเพียงพอ) สิ่งสำคัญคือต้องสังเกตว่าการเลือกสถิติสรุปเป็นสิ่งสำคัญ โดยทั่วไปปริมาณจะเป็นตัวเลือกที่ดีสำหรับสถิติสรุป แต่ตัวเลือกทั้งหมดไม่สามารถสร้างการประมาณที่ดีได้ อาจเป็นกรณีที่สถิติสรุปไม่ได้ให้ข้อมูลมากนักและจากนั้นคุณภาพของการประมาณค่าอาจไม่ดีซึ่งเป็นที่รู้จักกันดีในชุมชน ABC

อัปเดต:มีการเผยแพร่วิธีคล้ายกันในFan และ al (2012) ดูรายการนี้สำหรับการอภิปรายบนกระดาษ


2
(+1) สำหรับการระบุผลลัพธ์ที่ถูกต้องเกี่ยวกับความสัมพันธ์ระหว่าง MLE และ MAP และคำเตือนในวรรคสุดท้าย (ด้วยเหตุผลอื่น ๆ ) เพื่อให้คำเตือนนั้นชัดเจนยิ่งขึ้นวิธีการนี้ (หรือใด ๆ !) จะล้มเหลวอย่างน่าสังเวชหากสถิติในมือนั้นใกล้เคียงกันหรือเกือบจะเป็นเช่นนั้น หนึ่งสามารถพิจารณาตัวอย่างของเล่นของคุณและเช่น T=i(XiX¯)2
พระคาร์ดินัล

1
+1 @procrastinator ฉันจะพูดง่ายๆว่าใช่คุณสามารถใช้สถิติที่เพียงพอหากพวกเขาพร้อมใช้งานสำหรับแบบจำลองของคุณ แต่คำตอบที่ครอบคลุมของคุณดูเหมือนจะครอบคลุม
Michael R. Chernick

คำถามง่ายๆหนึ่งข้อที่คุณพูดถึงว่าชุดก่อนต้องมี MLE ในการสนับสนุน แต่ MLE เป็นตัวแปรสุ่มซึ่งถูก จำกัด ขอบเขตสุ่มเท่านั้นนั่นคือมันสามารถอยู่นอกชุดที่มีขอบเขตใด ๆ ที่มีความน่าจะเป็นในเชิงบวก
mpiktas

1
@mpiktas สำหรับตัวอย่างเฉพาะคุณต้องเลือกการสนับสนุนที่เหมาะสมของชุดก่อน สิ่งนี้อาจเปลี่ยนแปลงหากคุณเปลี่ยนตัวอย่าง เป็นสิ่งสำคัญที่จะต้องทราบว่านี่ไม่ใช่ขั้นตอนแบบเบย์เราใช้มันเป็นวิธีการเชิงตัวเลขดังนั้นจึงไม่มีปัญหาในการเล่นกับตัวเลือกก่อนหน้านี้ การสนับสนุนที่น้อยกว่านั้นยิ่งดี สิ่งนี้จะเพิ่มความเร็วของตัวอย่าง ABC แต่เมื่อข้อมูลของคุณไม่ชัดเจนในแง่ที่ว่าคุณไม่มีเงื่อนงำที่เชื่อถือได้ว่าตำแหน่ง MLE นั้นอยู่ที่ใดคุณอาจต้องการการสนับสนุนที่มากขึ้น (และจะจ่ายราคา)

@mpiktas ในตัวอย่างของเล่นคุณสามารถใช้ชุดก่อนหน้าด้วยการสนับสนุนหรือชุดก่อนหน้าด้วยการสนับสนุน( 0.1 , 0.15 )ได้รับผลลัพธ์เดียวกัน แต่มีอัตราการยอมรับแตกต่างกันมาก ตัวเลือกของการสนับสนุนนี้เป็นแบบเฉพาะกิจและเป็นไปไม่ได้ที่จะเกิดขึ้นกับจุดประสงค์ทั่วไปก่อนหน้านี้เนื่องจาก MLE นั้นไม่ได้ถูก จำกัด ขอบเขตแบบสุ่มตามที่คุณพูดถึง ทางเลือกนี้จะถือว่าเป็นคันของวิธีการที่จะต้องมีการปรับเปลี่ยนในแต่ละกรณีพิเศษ (1000000,1000000)(0.1,0.15)

5

ทุกอย่างขึ้นอยู่กับว่าหรือไม่ร่วมกันจำหน่ายของผู้ที่ 's เป็นที่รู้จักกัน ถ้าเป็นเช่น ( T 1 , , T k ) g ( t 1 , , t k | θ , n ) จากนั้นคุณสามารถทำการประมาณค่าความน่าจะเป็นสูงสุดตามการกระจายข้อต่อนี้ โปรดทราบว่ายกเว้น( T 1 , , T k )ก็เพียงพอแล้วนี่จะเป็นโอกาสสูงสุดที่แตกต่างกว่าเมื่อใช้ข้อมูลดิบ(Ti

(T1,,Tk)g(t1,,tk|θ,n)
(T1,,Tk)(X1,,Xn). It will necessarily be less efficient, with a larger asymptotic variance.

If the above joint distribution with density g is not available, the solution proposed by Procrastinator is quite appropriate.


1

The (frequentist) maximum likelihood estimator is as follows:

For F in the exponential family, and if your statistics are sufficient your likelihood to be maximised can always be written in the form:

l(θ|T)=exp(ψ(θ)+T,ϕ(θ)),
where , is the scalar product, T is the vector of suff. stats. and ψ() and ϕ() are continuous twice-differentiable.

The way you actually maximize the likelihood depends mostly on the possiblity to write the likelihood analytically in a tractable way. If this is possible you will be able to consider general optimisation algorithms (newton-raphson, simplex...). If you do not have a tractable likelihood, you may find it easier to compute a conditional expection as in the EM algorithm, which will also yield maximum likelihood estimates under rather affordable hypotheses.

Best


For problems I am interested in, analytical tractability is not possible.
mpiktas

The reason for non-tractability then conditions the optimization scheme. However, extensions of the EM usually allow to get arround most of these reasons. I don"t think I can be more specific in my suggestions without seeing the model itself
julien stirnemann
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.