คำถามติดแท็ก maximum-likelihood

วิธีการประมาณค่าพารามิเตอร์ของแบบจำลองทางสถิติโดยเลือกค่าพารามิเตอร์ที่ปรับความน่าจะเป็นของการสังเกตตัวอย่างที่กำหนดให้เหมาะสมที่สุด

6
มีตัวอย่างที่ MLE สร้างการประมาณค่าเฉลี่ยแบบอคติหรือไม่?
คุณสามารถให้ตัวอย่างของตัวประมาณค่า MLE ของค่าเฉลี่ยที่มีอคติได้หรือไม่? ฉันไม่ได้มองหาตัวอย่างที่ทำให้ตัวประมาณค่า MLE โดยทั่วไปละเมิดเงื่อนไขปกติ ตัวอย่างทั้งหมดที่ฉันเห็นบนอินเทอร์เน็ตอ้างอิงถึงความแปรปรวนและฉันไม่สามารถหาสิ่งที่เกี่ยวข้องกับค่าเฉลี่ยได้ แก้ไข @MichaelHardy ให้ตัวอย่างที่เราได้รับการประเมินความลำเอียงของค่าเฉลี่ยของการกระจายชุดโดยใช้ MLE ภายใต้รูปแบบที่เสนอบางอย่าง อย่างไรก็ตาม https://en.wikipedia.org/wiki/Uniform_distribution_(continuous)#Estimation_of_midpoint แสดงให้เห็นว่า MLE เป็นตัวประมาณค่าเฉลี่ยขั้นต่ำที่เท่าเทียมกันอย่างชัดเจนภายใต้รูปแบบที่เสนออื่น ณ จุดนี้มันยังไม่ชัดเจนสำหรับฉันสิ่งที่ความหมายของการประเมิน MLE เป็นจริงนั้นขึ้นอยู่กับรูปแบบการตั้งสมมติฐานซึ่งต่างจากการพูดว่าตัวประมาณค่าเฉลี่ยตัวอย่างซึ่งเป็นแบบจำลองที่เป็นกลาง ในตอนท้ายฉันสนใจที่จะประเมินบางสิ่งเกี่ยวกับประชากรและไม่สนใจการประมาณค่าพารามิเตอร์ของแบบจำลองที่ตั้งสมมติฐาน แก้ไข 2 ในฐานะที่เป็น @ChristophHanck แสดงให้เห็นรูปแบบที่มีข้อมูลเพิ่มเติมแนะนำอคติ แต่ไม่ได้จัดการเพื่อลด MSE เรายังมีผลลัพธ์เพิ่มเติม: http://www.maths.manchester.ac.uk/~peterf/CSI_ch4_part1.pdf (p61) http://www.cs.tut.fi/~hehu/SSP/lecture6.pdf (ภาพนิ่ง 2) http: / /www.stats.ox.ac.uk/~marchini/bs2a/lecture4_4up.pdf (สไลด์ 5) "ถ้าผู้ประเมินที่เป็นกลางที่มีประสิทธิภาพมากที่สุด ˆθ ของθมีอยู่ (เช่น ˆθ นั้นไม่เอนเอียงและความแปรปรวนเท่ากับ CRLB) ดังนั้นวิธีการประมาณค่าสูงสุดจะทำให้เกิดขึ้น" "ยิ่งไปกว่านั้นถ้ามีตัวประมาณประสิทธิภาพอยู่ก็คือตัวประมาณค่า ML" …

1
การสุ่มตัวอย่างตัวอย่างด้วย MLE ที่กำหนด
คำถามนี้รอการตรวจสอบถามเกี่ยวกับการเลียนแบบตามเงื่อนไขที่กลุ่มตัวอย่างที่มีผลรวมคงที่ทำให้ผมนึกถึงชุดปัญหาให้ฉันโดยจอร์จ Casella f(x|θ)f(x|θ)f(x|\theta)(X1,…,Xn)(X1,…,Xn)(X_1,\ldots,X_n)θθ\thetaθ^(x1,…,xn)=argmin∑i=1nlogf(xi|θ)θ^(x1,…,xn)=arg⁡min∑i=1nlog⁡f(xi|θ)\hat{\theta}(x_1,\ldots,x_n)=\arg\min \sum_{i=1}^n \log f(x_i|\theta)θθ\theta θ (X1,...,Xn)(X1,…,Xn)(X1,…,Xn)(X_1,\ldots,X_n)θ^(X1,…,Xn)θ^(X1,…,Xn)\hat{\theta}(X_1,\ldots,X_n) ตัวอย่างเช่นใช้การแจกแจงด้วยพารามิเตอร์ตำแหน่งซึ่งความหนาแน่นคือถ้าเราจะจำลองเงื่อนไข(X_1, \ ldots, X_n)บน\ hat {\ mu} (X_1, \ ldots, X_n) = \ mu_0 ได้อย่างไร? ในตัวอย่าง\ mathfrak {T} _5นี้การกระจายของ\ hat {\ mu} (X_1, \ ldots, X_n)ไม่มีนิพจน์แบบปิดT5T5\mathfrak{T}_5μμ\mu (X1,...,Xn) IID ~ F(x|μ)(X1,...,Xn) μ (X1,...,Xn)=μ0 T 5 μ (X1ฉ( x | μ ) = Γ …

2
ปัญหาการประมาณค่าที่เป็นไปไม่ได้?
คำถาม ความแปรปรวนของการแจกแจงแบบทวินามลบ (NB) นั้นมากกว่าค่าเฉลี่ยเสมอ เมื่อค่าเฉลี่ยของตัวอย่างมากกว่าความแปรปรวนให้พยายามปรับพารามิเตอร์ของ NB ให้มีความเป็นไปได้สูงสุดหรือประมาณช่วงเวลาที่จะล้มเหลว (ไม่มีวิธีแก้ปัญหาด้วยพารามิเตอร์ จำกัด ) อย่างไรก็ตามเป็นไปได้ว่าตัวอย่างที่นำมาจากการแจกแจงแบบ NB มีความหมายมากกว่าความแปรปรวน นี่คือตัวอย่างที่ทำซ้ำได้ใน R set.seed(167) x = rnbinom(100, size=3.2, prob=.8); mean(x) # 0.82 var(x) # 0.8157576 มีความน่าจะเป็นที่ไม่เป็นศูนย์ที่ NB จะสร้างตัวอย่างซึ่งไม่สามารถประมาณค่าพารามิเตอร์ได้ (โดยความน่าจะเป็นสูงสุดและวิธีการโมเมนต์) สามารถประมาณค่าที่เหมาะสมสำหรับตัวอย่างนี้ได้หรือไม่? ทฤษฎีการประมาณค่าพูดว่าอย่างไรเมื่อตัวประมาณไม่ได้ถูกกำหนดไว้สำหรับตัวอย่างทั้งหมด? เกี่ยวกับคำตอบ คำตอบของ @MarkRobinson และ @Yves ทำให้ฉันรู้ว่า parametrization เป็นปัญหาหลัก ความหนาแน่นของความน่าจะเป็นของ NB มักจะถูกเขียนเป็น P(X=k)=Γ(r+k)Γ(r)k!(1−p)rpkP(X=k)=Γ(r+k)Γ(r)k!(1−p)rpkP(X = k) = \frac{\Gamma(r+k)}{\Gamma(r)k!}(1-p)^rp^k หรือ …

3
จะประมาณค่าได้อย่างไรเมื่อมีเพียงสถิติสรุปเท่านั้น
นี่เป็นส่วนหนึ่งที่ได้รับแรงบันดาลใจจากคำถามต่อไปนี้และการสนทนาที่ตามมา สมมติว่าตัวอย่าง IID สังเกตXi∼F(x,θ)Xi∼F(x,θ)X_i\sim F(x,\theta) ) เป้าหมายคือการประมาณการθθθ\thetaแต่ตัวอย่างดั้งเดิมไม่สามารถใช้ได้ สิ่งที่เรามีแทนสถิติของกลุ่มตัวอย่างบางT1,...,TkT1,...,TkT_1,...,T_k . สมมติว่าkkkได้รับการแก้ไข เราจะประมาณθθ\thetaอย่างไร ในกรณีนี้การประมาณความน่าจะเป็นสูงสุดคืออะไร?

1
คุณสมบัติของการถดถอยโลจิสติก
เรากำลังทำงานกับการถดถอยแบบโลจิสติกส์และเราได้ตระหนักว่าความน่าจะเป็นโดยประมาณโดยเฉลี่ยเท่ากับสัดส่วนของตัวอย่างในตัวอย่าง นั่นคือค่าเฉลี่ยของค่าติดตั้งเท่ากับค่าเฉลี่ยของตัวอย่าง ใครช่วยอธิบายเหตุผลให้ฉันหรือให้ข้อมูลอ้างอิงกับฉันที่ฉันสามารถหาการสาธิตนี้ได้?

3
แนวคิดและสัญชาตญาณที่อยู่เบื้องหลังการประมาณค่าความน่าจะเป็นสูงสุด (QMLE)
คำถาม (s):อะไรคือความคิดและสัญชาตญาณที่อยู่เบื้องหลังการประมาณความเป็นไปได้สูงสุดเสมือน (QMLE; หรือที่เรียกว่าการประมาณความน่าจะเป็นหลอกหลอกแบบ PMLE) อะไรทำให้ตัวประมาณทำงานได้เมื่อการแจกแจงข้อผิดพลาดจริงไม่ตรงกับการแจกแจงผิดพลาด เว็บไซต์วิกิพีเดียสำหรับ QMLE ดี (สั้น ๆ ที่ใช้งานง่ายเพื่อจุด) แต่ฉันสามารถใช้บางปรีชาเพิ่มเติมและรายละเอียดอาจจะยังมีภาพประกอบ การอ้างอิงอื่น ๆ ยินดีต้อนรับมากที่สุด (ฉันจำได้ว่ามีหนังสือตำราเศรษฐศาสตร์จำนวนน้อยที่กำลังมองหาเนื้อหาเกี่ยวกับ QMLE และทำให้ฉันประหลาดใจ QMLE ถูกครอบคลุมเพียงหนึ่งหรือสองเล่มเช่น Wooldridge "การวิเคราะห์ทางเศรษฐมิติของข้อมูลส่วนและข้อมูลพาเนล" (2010) บทที่ 13 ส่วนที่ 11, หน้า 502-517)

2
เหตุใดข้อมูลที่สังเกตได้ของฟิชเชอร์จึงถูกนำมาใช้อย่างแม่นยำ?
ในการตั้งค่าความน่าจะเป็นมาตรฐานสูงสุด (ตัวอย่าง iid จากการกระจายบางอย่างที่มีความหนาแน่นf y ( y | θ 0 )) และในกรณีของรูปแบบที่ระบุอย่างถูกต้องข้อมูลฟิชเชอร์จะได้รับY1,…,YnY1,…,YnY_{1}, \ldots, Y_{n}fy(y|θ0fy(y|θ0f_{y}(y|\theta_{0} I(θ)=−Eθ0[∂2θ2lnfy(θ)]I(θ)=−Eθ0[∂2θ2ln⁡fy(θ)]I(\theta) = -\mathbb{E}_{\theta_{0}}\left[\frac{\partial^{2}}{\theta^{2}}\ln f_{y}(\theta) \right] เมื่อความคาดหวังถูกนำมาใช้โดยคำนึงถึงความหนาแน่นที่แท้จริงซึ่งสร้างข้อมูล ฉันได้อ่านแล้วว่าข้อมูลฟิชเชอร์ที่สังเกตได้ J^(θ)=−∂2θ2lnfy(θ)J^(θ)=−∂2θ2ln⁡fy(θ)\hat{J}(\theta) = -\frac{\partial^{2}}{\theta^{2}}\ln f_{y}(\theta) ถูกใช้เป็นหลักเนื่องจากอินทิกรัลที่เกี่ยวข้องในการคำนวณ (คาดว่า) ข้อมูลฟิชเชอร์อาจไม่สามารถทำได้ในบางกรณี สิ่งที่สร้างความสับสนให้ฉันก็คือแม้ว่าหนึ่งเป็นไปได้คาดหวังจะต้องมีการดำเนินการที่เกี่ยวกับรูปแบบความจริงที่เกี่ยวข้องกับค่าพารามิเตอร์ที่ไม่รู้จัก 0 หากเป็นกรณีที่ปรากฏว่าโดยไม่ทราบว่าθ 0มันเป็นไปไม่ได้ในการคำนวณฉัน มันเป็นเรื่องจริงเหรอ?θ0θ0\theta_{0}θ0θ0\theta_{0}III

3
การแจกแจง t ที่เหมาะสมใน R: พารามิเตอร์การปรับ
ฉันจะพอดีกับพารามิเตอร์ของการแจกแจงแบบทีคือพารามิเตอร์ที่สอดคล้องกับ 'เฉลี่ย' และ 'ส่วนเบี่ยงเบนมาตรฐาน' ของการแจกแจงแบบปกติ ฉันคิดว่าพวกมันถูกเรียกว่า 'mean' และ 'scaling / degrees of freedom' สำหรับการแจกแจงแบบ t? รหัสต่อไปนี้มักส่งผลให้เกิดข้อผิดพลาด 'การเพิ่มประสิทธิภาพล้มเหลว' library(MASS) fitdistr(x, "t") ฉันต้องปรับขนาด x ก่อนหรือแปลงเป็นความน่าจะเป็นหรือไม่? วิธีที่ดีที่สุดที่จะทำเช่นนั้น?

2
ข้อผิดพลาดมาตรฐานที่เหลือแตกต่างระหว่างการเพิ่มประสิทธิภาพและ glm
ฉันพยายามที่จะทำซ้ำกับoptimผลลัพธ์จากการถดถอยเชิงเส้นอย่างง่ายที่พอดีกับglmหรือแม้แต่nlsฟังก์ชั่น R การประมาณพารามิเตอร์เหมือนกัน แต่การประมาณค่าความแปรปรวนที่เหลือและข้อผิดพลาดมาตรฐานของพารามิเตอร์อื่นจะไม่เหมือนกันโดยเฉพาะเมื่อขนาดตัวอย่างต่ำ ฉันคิดว่านี่เป็นความแตกต่างเนื่องจากวิธีการคำนวณข้อผิดพลาดมาตรฐานที่เหลือระหว่างความน่าจะเป็นสูงสุดและวิธีกำลังสองน้อยที่สุด (หารด้วย n หรือโดย n-k + 1 ดูการร้องในตัวอย่าง) ผมเข้าใจจากการอ่านของฉันบนเว็บที่เพิ่มประสิทธิภาพไม่ได้เป็นงานที่ง่าย แต่ผมสงสัยว่าถ้ามันจะเป็นไปได้ที่จะทำซ้ำในวิธีที่ง่ายประมาณการจากข้อผิดพลาดมาตรฐานในขณะที่ใช้glmoptim จำลองชุดข้อมูลขนาดเล็ก set.seed(1) n = 4 # very small sample size ! b0 <- 5 b1 <- 2 sigma <- 5 x <- runif(n, 1, 100) y = b0 + b1*x + rnorm(n, 0, sigma) ประเมินด้วยประสิทธิภาพ negLL …

2
สังเกตเมทริกซ์ข้อมูลเป็นตัวประมาณความสอดคล้องของเมทริกซ์ข้อมูลที่คาดหวัง?
ฉันพยายามที่จะพิสูจน์ว่าเมทริกซ์ข้อมูลที่สังเกตได้ประเมินที่ตัวประมาณความน่าจะเป็นค่าสูงสุดที่ไม่สม่ำเสมอ (MLE) ซึ่งเป็นค่าประมาณที่ไม่แน่นอนของเมทริกซ์ข้อมูลที่คาดหวัง นี่คือผลลัพธ์ที่ยกมาอย่างกว้างขวาง แต่ไม่มีใครให้การอ้างอิงหรือหลักฐาน (ฉันหมดแรงฉันคิดว่าหน้าแรกของผลการค้นหาของ google และตำราสถิติของฉัน) 20 หน้า! การใช้ลำดับของ MLE ที่สอดคล้องกันอย่างอ่อนฉันสามารถใช้กฏที่อ่อนแอของจำนวนมาก (WLLN) และทฤษฎีการทำแผนที่แบบต่อเนื่องเพื่อให้ได้ผลลัพธ์ตามที่ฉันต้องการ อย่างไรก็ตามฉันเชื่อว่าไม่สามารถใช้ทฤษฎีบทการทำแผนที่อย่างต่อเนื่องได้ แต่ฉันคิดว่าต้องใช้กฎหมายเครื่องแบบของคนจำนวนมาก (ULLN) มีใครทราบถึงข้อมูลอ้างอิงที่มีหลักฐานนี้หรือไม่? ฉันมีความพยายามที่ ULLN แต่ไม่ต้องสนใจเลยสำหรับตอนนี้ ฉันต้องขออภัยในความยาวของคำถามนี้ แต่จะต้องมีการจดบันทึก สัญกรณ์เป็นเหมือน folows (หลักฐานของฉันอยู่ท้าย) สมมติว่าเรามีตัวอย่าง IID ของตัวแปรสุ่ม{ Y 1 , ... , Y N }{Y1,…,YN}\{Y_1,\ldots,Y_N\}กับความหนาแน่นฉ( ~ Y | θ )f(Y~|θ)f(\tilde{Y}|\theta)ที่θ ∈ Θ ⊆ R kθ∈Θ⊆Rk\theta\in\Theta\subseteq\mathbb{R}^{k} (ที่นี่~ YY~\tilde{Y}เป็นเพียงตัวแปรสุ่มทั่วไปที่มีความหนาแน่นเดียวกัน …

3
MLE ต้องการข้อมูล iid หรือไม่ หรือเพียงแค่พารามิเตอร์อิสระ
การประมาณค่าพารามิเตอร์โดยใช้การประมาณความน่าจะเป็นสูงสุด (MLE) เกี่ยวข้องกับการประเมินฟังก์ชั่นความน่าจะเป็นซึ่งแผนที่ความน่าจะเป็นของตัวอย่าง (X) ที่เกิดขึ้นกับค่า (x) บนพื้นที่พารามิเตอร์ (θ) ที่กำหนดตระกูลการแจกแจง (P (X = x | θ) ) มากกว่าค่าที่เป็นไปได้ของθ (หมายเหตุ: ฉันถูกใช่ไหม?) ตัวอย่างทั้งหมดที่ฉันได้เห็นเกี่ยวข้องกับการคำนวณ P (X = x | θ) โดยการหาผลคูณของ F (X) โดยที่ F เป็นการแจกแจงแบบท้องถิ่น ค่าสำหรับθและ X คือตัวอย่าง (เวกเตอร์) เนื่องจากเราเพิ่งคูณข้อมูลมันติดตามว่าข้อมูลนั้นเป็นอิสระหรือไม่ เช่นเราไม่สามารถใช้ MLE ให้พอดีกับข้อมูลอนุกรมเวลาได้หรือไม่ หรือพารามิเตอร์ต้องเป็นอิสระ?

3
การค้นหา MLE สำหรับกระบวนการฮอว์คส์แบบเอกซ์เรย์ที่ไม่แปรเปลี่ยน
กระบวนการฮอว์คส์ชี้แจงที่ไม่แปรปรวนเป็นกระบวนการจุดที่น่าตื่นเต้นในตัวเองโดยมีอัตราการมาถึงของเหตุการณ์: λ(t)=μ+∑ti&lt;tαe−β(t−ti)λ(t)=μ+∑ti&lt;tαe−β(t−ti) \lambda(t) = \mu + \sum\limits_{t_i<t}{\alpha e^{-\beta(t-t_i)}} ที่บางครั้งเหตุการณ์ที่เดินทางมาถึงt1,..tnt1,..tn t_1,..t_n ฟังก์ชันโอกาสในการบันทึกคือ −tnμ+αβ∑(e−β(tn−ti)−1)+∑i&lt;jln(μ+αe−β(tj−ti))−tnμ+αβ∑(e−β(tn−ti)−1)+∑i&lt;jln⁡(μ+αe−β(tj−ti)) - t_n \mu + \frac{\alpha}{\beta} \sum{( e^{-\beta(t_n-t_i)}-1 )} + \sum\limits_{i<j}{\ln(\mu+\alpha e^{-\beta(t_j-t_i)})} ซึ่งสามารถคำนวณซ้ำ: −tnμ+αβ∑(e−β(tn−ti)−1)+∑ln(μ+αR(i))−tnμ+αβ∑(e−β(tn−ti)−1)+∑ln⁡(μ+αR(i)) - t_n \mu + \frac{\alpha}{\beta} \sum{( e^{-\beta(t_n-t_i)}-1 )} + \sum{\ln(\mu+\alpha R(i))} R(i)=e−β(ti−ti−1)(1+R(i−1))R(i)=e−β(ti−ti−1)(1+R(i−1)) R(i) = e^{-\beta(t_i-t_{i-1})} (1+R(i-1)) R(1)=0R(1)=0 R(1) = 0 ฉันสามารถใช้วิธีการเชิงตัวเลขใดเพื่อค้นหา MLE วิธีการปฏิบัติที่ง่ายที่สุดที่จะใช้คืออะไร?

3
โอกาสสูงสุดทำงานเมื่อใดและเมื่อใด
ฉันสับสนเกี่ยวกับวิธีความน่าจะเป็นสูงสุดเมื่อเปรียบเทียบกับการคำนวณค่าเฉลี่ยเลขคณิต โอกาสสูงสุดเกิดขึ้นเมื่อใดและเพราะเหตุใดประมาณการ "ดีกว่า" มากกว่าเช่นเลขคณิตหมายความว่าอย่างไร วิธีนี้พิสูจน์ได้


3
ทำไมจึงต้องใช้ REML (แทน ML) เพื่อเลือกระหว่างรุ่น var-covar ที่ซ้อนกัน?
คำอธิบายต่าง ๆ เกี่ยวกับการเลือกแบบจำลองที่มีผลต่อการสุ่มของตัวแบบเชิงเส้นผสมแนะนำให้ใช้ REML ฉันรู้ความแตกต่างระหว่าง REML และ ML ในบางระดับ แต่ฉันไม่เข้าใจว่าทำไมควรใช้ REML เพราะ ML นั้นมีความเอนเอียง ตัวอย่างเช่นการใช้ LRT กับพารามิเตอร์ความแปรปรวนของแบบจำลองการแจกแจงแบบปกติโดยใช้ ML นั้นเป็นความผิดหรือไม่? ฉันไม่เข้าใจว่าทำไมการมีความเป็นกลางจึงสำคัญกว่าการเป็น ML ในการเลือกรุ่น ฉันคิดว่าคำตอบที่ดีที่สุดต้องเป็น "เพราะการเลือกแบบจำลองทำงานได้ดีกับ REML มากกว่ากับ ML" แต่ฉันอยากรู้มากกว่านั้นเล็กน้อย ฉันไม่ได้อ่าน derivations ของ LRT และ AIC (ฉันไม่ดีพอที่จะเข้าใจพวกเขาอย่างละเอียด) แต่ถ้าใช้ REML อย่างชัดเจนในการอ้างอิงเพียงแค่รู้ว่ามันจะเพียงพอจริง ๆ (เช่น n &lt;- 100 a &lt;- 10 b &lt;- 1 alpha …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.