คำถามติดแท็ก maximum-likelihood

วิธีการประมาณค่าพารามิเตอร์ของแบบจำลองทางสถิติโดยเลือกค่าพารามิเตอร์ที่ปรับความน่าจะเป็นของการสังเกตตัวอย่างที่กำหนดให้เหมาะสมที่สุด

1
ใช้ MLE กับ OLS
เมื่อใดควรเลือกใช้การประมาณความน่าจะเป็นสูงสุดแทนการใช้กำลังสองน้อยที่สุดแบบธรรมดา? จุดแข็งและข้อ จำกัด ของแต่ละจุดคืออะไร ฉันกำลังพยายามรวบรวมความรู้ที่เป็นประโยชน์เกี่ยวกับสถานที่ที่จะใช้ในสถานการณ์ทั่วไป

1
การประมาณค่าพารามิเตอร์ LogLikelihood สำหรับตัวกรองคาลมานแบบเกาส์เชิงเส้น
ฉันได้เขียนโค้ดบางอย่างที่สามารถทำการกรองคาลมานได้ (โดยใช้ตัวกรองคาลมานที่แตกต่างกันจำนวนหนึ่ง [Information Filter et al.]) สำหรับการวิเคราะห์อวกาศรัฐเกาส์เชิงเส้นสำหรับเวกเตอร์สถานะ n- มิติ ตัวกรองทำงานได้ดีและฉันได้ผลลัพธ์ที่ดี อย่างไรก็ตามการประมาณค่าพารามิเตอร์ผ่านการประมาณ loglikelihood ทำให้ฉันสับสน ฉันไม่ใช่นักสถิติ แต่เป็นนักฟิสิกส์ดังนั้นโปรดเป็นคนใจดี ขอให้เราพิจารณาโมเดลเชิงเส้น Gaussian State Space yt=Ztαt+ϵt,yt=Ztαt+ϵt,y_t = \mathbf{Z}_{t}\alpha_{t} + \epsilon_{t}, αt+1=Ttαt+Rtηt,αt+1=Ttαt+Rtηt,\alpha_{t + 1} = \mathbf{T}_{t}\alpha_{t} + \mathbf{R}_{t}\eta_{t}, ที่เป็นเวกเตอร์ของเราสังเกตเวกเตอร์รัฐของเราในเวลาขั้นตอนทีปริมาณที่เป็นตัวหนาคือเมทริกซ์การแปลงสภาพของแบบจำลองพื้นที่ของรัฐซึ่งตั้งค่าตามลักษณะของระบบภายใต้การพิจารณา เรายังมีytyty_{t}αtαt\alpha_{t}ttt ϵt∼NID(0,Ht),ϵt∼NID(0,Ht),\epsilon_{t} \sim NID(0, \mathbf{H}_{t}), ηt∼NID(0,Qt),ηt∼NID(0,Qt),\eta_{t} \sim NID(0, \mathbf{Q}_{t}), α1∼NID(a1,P1).α1∼NID(a1,P1).\alpha_{1} \sim NID(a_{1}, \mathbf{P}_{1}). ที่n ตอนนี้ฉันได้รับและดำเนินการเรียกซ้ำสำหรับตัวกรองคาลมานสำหรับตัวแบบพื้นที่ว่างทั่วไปโดยคาดเดาพารามิเตอร์เริ่มต้นและเมทริกซ์ความแปรปรวนและฉันสามารถสร้างแปลงได้ ชอบt=1,…,nt=1,…,nt = 1,\ldots, …

1
AIC / BIC: การเปลี่ยนลำดับของพารามิเตอร์จะมีจำนวนเท่าใด?
สมมติว่าฉันมีปัญหาในการเลือกรุ่นและฉันพยายามใช้AICหรือBICเพื่อประเมินโมเดล ตรงไปตรงมาสำหรับรุ่นที่มีบางส่วนจำนวนของพารามิเตอร์ค่าจริงkkk อย่างไรก็ตามจะเกิดอะไรขึ้นถ้าหนึ่งในโมเดลของเรา (ตัวอย่างเช่นโมเดล Mallows ) มีการเปลี่ยนแปลงรวมถึงพารามิเตอร์ที่มีมูลค่าจริงแทนที่จะเป็นพารามิเตอร์ที่มีมูลค่าจริง ผมยังสามารถเพิ่มความเป็นไปได้มากกว่าพารามิเตอร์แบบเช่นการได้รับการเปลี่ยนแปลงและพารามิเตอร์พี แต่วิธีการที่หลายพารามิเตอร์ไม่πนับรวมในการคำนวณ AIC / BIC?ππ\piพีppππ\pi

1
การคำนวณความน่าจะเป็นจาก RMSE
ฉันมีโมเดลสำหรับทำนายวิถี (x เป็นฟังก์ชันของเวลา) ด้วยพารามิเตอร์หลายตัว ในขณะนี้ฉันคำนวณความคลาดเคลื่อนกำลังสองเฉลี่ยของรูท (RMSE) ระหว่างวิถีการทำนายและวิถีการบันทึกที่ทดลอง ปัจจุบันฉันลดความแตกต่างนี้ (RMSE) โดยใช้ simplex (fminsearch ใน matlab) ในขณะที่วิธีนี้ใช้งานได้ดีฉันต้องการเปรียบเทียบแบบจำลองที่แตกต่างกันหลายแบบดังนั้นฉันคิดว่าฉันจำเป็นต้องคำนวณความน่าจะเป็นเพื่อที่ฉันจะสามารถใช้การประมาณความเป็นไปได้สูงสุดแทนการย่อ RMSE ให้น้อยที่สุด ) มีวิธีมาตรฐานในการทำเช่นนี้หรือไม่?

2
Hessian ของความน่าจะเป็นของโปรไฟล์ที่ใช้สำหรับการประเมินข้อผิดพลาดมาตรฐาน
คำถามนี้เป็นแรงบันดาลใจโดยหนึ่งในนี้ ฉันค้นหาสองแหล่งและนี่คือสิ่งที่ฉันพบ A. van der Vaart, สถิติ Assymptotic: มันเป็นไปไม่ได้ที่จะคำนวณความเป็นไปได้ของโพรไฟล์อย่างชัดเจน แต่การประเมินเชิงตัวเลขมักเป็นไปได้ จากนั้นความน่าจะเป็นของโปรไฟล์อาจช่วยลดมิติของฟังก์ชันความน่าจะเป็นได้ ฟังก์ชั่นความน่าจะเป็นโพรไฟล์มักจะใช้ในลักษณะเดียวกับฟังก์ชั่นความน่าจะเป็น (ธรรมดา) ของโมเดลพาราเมตริก นอกเหนือจากการจุดของพวกเขาสูงสุดประมาณθ , อนุพันธ์ที่สองที่θจะใช้เป็นประมาณการลบผกผันของเมทริกซ์ความแปรปรวน asymptotic ของ e ๆ การวิจัยล่าสุดดูเหมือนจะตรวจสอบการปฏิบัตินี้θ^θ^\hat\thetaθ^θ^\hat\theta J. Wooldridge การวิเคราะห์ทางเศรษฐมิติของข้อมูลส่วนและข้อมูลพาเนล (เหมือนกันทั้งสองรุ่น): ในฐานะที่เป็นอุปกรณ์สำหรับการศึกษาคุณสมบัติเชิงซีเอ็นซีฟังก์ชันความเข้มข้นของวัตถุประสงค์มีค่า จำกัด เนื่องจากขึ้นอยู่กับค่าของWทั้งหมดซึ่งในกรณีนี้ฟังก์ชั่นวัตถุประสงค์ไม่สามารถเขียนเป็นผลรวมของคำสั่งสรุปอิสระแบบกระจาย การตั้งค่าหนึ่งที่สมการ (12.89) คือผลรวมของฟังก์ชั่น iid เกิดขึ้นเมื่อเราตั้งสมาธิกับเอฟเฟกต์เฉพาะของแต่ละบุคคลจากแบบจำลองข้อมูลแผงบางแบบไม่เชิงเส้น นอกจากนี้ฟังก์ชั่นวัตถุประสงค์ที่เข้มข้นยังมีประโยชน์ในการสร้างความเท่าเทียมของวิธีการประมาณที่แตกต่างกันg(W,β)g(W,β)g(W,\beta)WWW Wooldridge กล่าวถึงปัญหาในบริบทที่กว้างขึ้นของตัวประมาณ M ดังนั้นมันจึงใช้กับตัวประมาณความเป็นไปได้สูงสุดเช่นกัน ดังนั้นเราจึงได้คำตอบสองข้อสำหรับคำถามเดียวกัน มารในความคิดของฉันอยู่ในรายละเอียด สำหรับบางรุ่นเราสามารถใช้ hessian ของความน่าจะเป็นของโปรไฟล์ได้อย่างปลอดภัยสำหรับบางรุ่นที่ไม่ มีผลลัพธ์ทั่วไปใดบ้างที่ให้เงื่อนไขเมื่อเราสามารถทำได้ (หรือไม่สามารถทำได้)?

1
การประมาณค่า MLE แบบไม่แสดงอาการปกติ & มีประสิทธิภาพแม้ว่าตัวแบบจะไม่เป็นจริงหรือไม่?
สถานที่ตั้ง: นี่อาจเป็นคำถามที่โง่ ฉันรู้เพียงคำแถลงเกี่ยวกับคุณสมบัติของ asymptotic ของ MLE แต่ฉันไม่เคยศึกษาหลักฐานเลย ถ้าฉันทำฉันอาจจะไม่ถามคำถามเหล่านี้หรือฉันอาจรู้ว่าคำถามเหล่านี้ไม่สมเหตุสมผล ... ดังนั้นโปรดไปที่ฉันเถอะ :) ฉันมักจะเห็นข้อความที่บอกว่าตัวประมาณค่า MLE ของพารามิเตอร์ของโมเดลนั้นเป็นเรื่องปกติและมีประสิทธิภาพ คำสั่งมักจะเขียนเป็น N→∞θ^→dN(θ0,I(θ0)−1)θ^→dN(θ0,I(θ0)−1)\hat{\theta}\xrightarrow[]{d}\mathcal{N}(\theta_0,\mathbf{I}(\theta_0)^{-1})เป็นN→∞N→∞N\to\infty ที่คือจำนวนของกลุ่มตัวอย่างที่เป็นข้อมูลที่ฟิชเชอร์และเป็นพารามิเตอร์ (เวกเตอร์) มูลค่าที่แท้จริง ตอนนี้เนื่องจากมีการอ้างอิงถึงโมเดลจริงนี่หมายความว่าผลลัพธ์จะไม่ถูกเก็บไว้หากโมเดลไม่เป็นจริงหรือไม่?ฉันθ 0NNNII\mathbf{I}θ0θ0\theta_0 ตัวอย่าง: สมมติว่าฉันเป็นแบบจำลองกำลังไฟฟ้าออกจากกังหันลม เป็นฟังก์ชั่นของความเร็วลมบวกกับเสียงรบกวนแบบเกาส์เพิ่มเติม5PPPVVV P=β0+β1V+β2V2+ϵP=β0+β1V+β2V2+ϵP=\beta_0+\beta_1V+\beta_2V^2+\epsilon ฉันรู้ว่าแบบจำลองนั้นผิดด้วยเหตุผลอย่างน้อยสองประการ: 1)เป็นสัดส่วนจริง ๆ กับกำลังสามของและ 2) ข้อผิดพลาดนั้นไม่ได้เป็นสารเติมแต่งเพราะฉันละเลยตัวทำนายอื่น ๆ ซึ่งไม่ได้เกี่ยวข้องกับความเร็วลม ที่ควรเป็น 0 เพราะที่ 0 ความเร็วลมไม่มีอำนาจจะถูกสร้างขึ้น แต่ที่ไม่เกี่ยวข้องที่นี่) ทีนี้สมมติว่าฉันมีฐานข้อมูลพลังงานและความเร็วลมที่ไม่มีที่สิ้นสุดจากกังหันลมของฉัน ฉันสามารถวาดตัวอย่างได้มากเท่าที่ต้องการขนาดใดก็ได้ สมมติว่าฉันดึงตัวอย่าง 1,000 ตัวอย่างแต่ละขนาด 100 และคำนวณ\ hat {\ boldsymbol {\ …

1
คุณช่วยอธิบายวิธีการ IRLS ที่ใช้งานง่ายเพื่อหา MLE ของ GLM ได้หรือไม่?
พื้นหลัง: ฉันพยายามที่จะทำตามการตรวจสอบพรินซ์ตันของการประมาณค่า MLE สำหรับ GLM ฉันเข้าใจพื้นฐานของการประมาณค่า MLE นี้likelihood, scoreข้อสังเกตและคาดว่าFisher informationและFisher scoringเทคนิค และฉันรู้ว่าวิธีการที่จะแสดงให้เห็นถึงการถดถอยเชิงเส้นที่เรียบง่ายด้วยการประมาณค่า MLE คำถาม: ฉันไม่เข้าใจแม้แต่บรรทัดแรกของวิธีนี้ :( สัญชาตญาณของตัวแปรการทำงานของZผมziz_iหมายถึงอะไร: Zผม= η^ผม+ ( yผม- μ^ผม) dηผมdμผมzi=η^i+(yi−μ^i)dηidμi z_i = \hat\eta_i + (y_i -\hat\mu_i)\frac{d\eta_i}{d\mu_i} ทำไมพวกเขาจะนำมาใช้แทนYผมyiy_iที่จะประเมินββ\beta ? และสิ่งที่พวกเขามีความสัมพันธ์กับresponse/link functionซึ่งคือการเชื่อมต่อระหว่างηη\etaและμμ\mu หากใครมีคำอธิบายง่าย ๆ หรือสามารถนำฉันไปที่ข้อความระดับพื้นฐานเพิ่มเติมเกี่ยวกับเรื่องนี้ฉันจะขอบคุณ

1
การค้นหาความเข้าใจเชิงทฤษฎีของการถดถอยโลจิสติก Firth
ฉันกำลังพยายามที่จะเข้าใจการถดถอยโลจิสติกของเฟิร์สต์ (วิธีการจัดการการแยกแบบสมบูรณ์ / สมบูรณ์หรือแบบกึ่งสมบูรณ์ในการถดถอยโลจิสติก) เพื่อให้ฉันสามารถอธิบายให้ผู้อื่นทราบในแง่ง่าย มีใครบ้างที่มีคำอธิบายแบบหล่นลงของการปรับเปลี่ยนการประเมิน Firth ใดที่ทำให้ MLE ฉันได้อ่านอย่างดีที่สุดแล้ว Firth (1993) และฉันเข้าใจว่าการแก้ไขนั้นถูกนำไปใช้กับฟังก์ชันคะแนน ฉันคลุมเครือเกี่ยวกับที่มาและเหตุผลของการแก้ไขและบทบาทของฟังก์ชันคะแนนใน MLE ขออภัยถ้านี่เป็นความรู้เบื้องต้น วรรณกรรมที่ฉันตรวจสอบดูเหมือนจะต้องการความเข้าใจที่ลึกซึ้งมากขึ้นเกี่ยวกับ MLE ที่ฉันมี

3
วิธีการช่วงเวลาคืออะไรและแตกต่างจาก MLE อย่างไร
โดยทั่วไปดูเหมือนว่าวิธีการของช่วงเวลาเป็นเพียงการจับคู่ค่าเฉลี่ยตัวอย่างที่สังเกตหรือความแปรปรวนกับช่วงเวลาทางทฤษฎีเพื่อรับการประมาณค่าพารามิเตอร์ นี่มักจะเหมือนกับ MLE สำหรับครอบครัวเอ็กซ์โปเนนเชียลฉันรวบรวม อย่างไรก็ตามมันยากที่จะหาคำจำกัดความที่ชัดเจนของวิธีการของช่วงเวลาและการอภิปรายที่ชัดเจนว่าทำไม MLE ดูเหมือนจะได้รับการสนับสนุนโดยทั่วไปแม้ว่ามันจะเป็นเรื่องยากที่จะหาโหมดของฟังก์ชั่นความน่าจะเป็น คำถามนี้MLE มีประสิทธิภาพมากกว่าวิธี Moment หรือไม่? มีคำพูดจากศ. โดนัลด์รูบิน (ที่ฮาร์วาร์ด) ที่บอกว่าทุกคนรู้จักตั้งแต่ยุค 40 ที่ MLE ชนะ MoM แต่ฉันสนใจที่จะรู้ประวัติหรือเหตุผลในเรื่องนี้

3
ตัวประมาณความน่าจะเป็นสูงสุดของการแจกแจงร่วมที่ให้ไว้มีเพียงจำนวนเล็กน้อย
ให้จะกระจายร่วมกันของสองตัวแปรเด็ดขาดX , Yกับx , y ที่∈ { 1 , ... , K } พูดว่าตัวอย่างnถูกดึงมาจากการกระจายตัวนี้ แต่เราจะได้รับจำนวนเล็กน้อยเท่านั้นสำหรับj = 1 , … , K :px,ypx,yp_{x,y}X,YX,YX,Yx,y∈{1,…,K}x,y∈{1,…,K}x,y\in\{1,\ldots,K\}nnnj=1,…,Kj=1,…,Kj=1,\ldots,K Sj=∑i=1nδ( Xผม= l ) , TJ= ∑i = 1nδ( Yผม= J ) ,Sj=∑i=1nδ(Xi=l),Tj=∑i=1nδ(Yi=j), S_j = \sum_{i=1}^{n}{\delta(X_i=l)}, T_j = \sum_{i=1}^{n}{\delta(Y_i=j)}, ประมาณการความน่าจะเป็นสูงสุดคืออะไรได้รับS J , T J ? เป็นที่รู้จักกันไหม? คำนวณความเป็นไปได้? มีแนวทางอื่นที่สมเหตุสมผลสำหรับปัญหานี้นอกเหนือจาก …

1
คำนวณความน่าจะเป็นบันทึก“ ด้วยมือ” สำหรับการถดถอยแบบไม่เชิงเส้นกำลังสองน้อยที่สุด (nlme)
ฉันกำลังพยายามคำนวณความน่าจะเป็นในการบันทึกสำหรับการถดถอยกำลังสองน้อยที่สุดแบบไม่เชิงเส้นสำหรับฟังก์ชันปรับโดยฟังก์ชั่นในแพคเกจ R โดยใช้เมทริกซ์ความแปรปรวนร่วมแปรปรวนที่สร้างขึ้นโดยระยะทางบนต้นไม้สายวิวัฒนาการที่สมมติว่ามีการเคลื่อนที่แบบบราวเนียน ( จากแพ็คเกจ) รหัส R ที่สามารถทำซ้ำได้ดังต่อไปนี้เหมาะกับรุ่น gnls โดยใช้ข้อมูล x, y และแผนภูมิแบบสุ่มที่มี 9 แท็กซ่า:f(x)=β1(1+xβ2)β3f(x)=β1(1+xβ2)β3f(x)=\frac{\beta_1}{(1+\frac x\beta_2)^{\beta_3}}gnlsnlmecorBrownian(phy=tree)ape require(ape) require(nlme) require(expm) tree <- rtree(9) x <- c(0,14.51,32.9,44.41,86.18,136.28,178.21,262.3,521.94) y <- c(100,93.69,82.09,62.24,32.71,48.4,35.98,15.73,9.71) data <- data.frame(x,y,row.names=tree$tip.label) model <- y~beta1/((1+(x/beta2))^beta3) f=function(beta,x) beta[1]/((1+(x/beta[2]))^beta[3]) start <- c(beta1=103.651004,beta2=119.55067,beta3=1.370105) correlation <- corBrownian(phy=tree) fit <- gnls(model=model,data=data,start=start,correlation=correlation) logLik(fit) ผมอยากจะคำนวณความน่าจะเข้าสู่ระบบ "ด้วยมือ" (ใน R …

1
อัตราส่วนของความน่าจะเป็นเทียบกับอัตราส่วนของ PDF
ฉันใช้ Bayes เพื่อแก้ปัญหาการจัดกลุ่ม หลังจากทำการคำนวณบางอย่างฉันก็จำเป็นต้องได้รับอัตราส่วนของความน่าจะเป็นสองอย่าง: P(A)/P(B)P(A)/P(B)P(A)/P(B) เพื่อให้สามารถที่จะได้รับP(H|D)P(H|D)P(H|D) ) ความน่าจะเป็นเหล่านี้ได้มาจากการรวมกันของ KD หลายตัวแปร 2D สองแบบตามที่อธิบายไว้ในคำตอบนี้ : P(A)=∬x,y:f^(x,y)&lt;f^(ra,sa)f^(x,y)dxdyP(A)=∬x,y:f^(x,y)&lt;f^(ra,sa)f^(x,y)dxdyP(A) = \iint_{x, y : \hat{f}(x, y) < \hat{f}(r_a, s_a)} \hat{f}(x,y)\,dx\,dy P(B)=∬x,y:g^(x,y)&lt;g^(rb,sb)g^(x,y)dxdyP(B)=∬x,y:g^(x,y)&lt;g^(rb,sb)g^(x,y)dxdyP(B) = \iint_{x, y : \hat{g}(x, y) < \hat{g}(r_b, s_b)} \hat{g}(x,y)\,dx\,dy โดยที่และคือ KDEs และการรวมเข้าด้วยกันนั้นทำสำหรับทุกจุดใต้ thresholdsและs_b) ทั้งสอง KDEs ใช้เคอร์เนล Gaussian ภาพตัวแทนของ KDE คล้ายกับคนที่ฉันกำลังทำงานกับสามารถมองเห็นได้ที่นี่: การบูรณาการประมาณค่าความหนาแน่นของเคอร์เนลในแบบ 2Df^(x,y)f^(x,y)\hat{f}(x, y)g^(x,y)g^(x,y)\hat{g}(x, y)f^(ra,sa)f^(ra,sa)\hat{f}(r_a, …

2
MLE หมายถึงเรารู้ PDF ของข้อมูลของเราเสมอหรือไม่และ EM หมายถึงเราไม่?
ฉันมีคำถามเชิงแนวคิดง่ายๆที่ฉันต้องการชี้แจงเกี่ยวกับ MLE (การประเมินความน่าจะเป็นสูงสุด) และสิ่งที่เชื่อมโยงกับ EM (การคาดหวังสูงสุด) ตามที่ฉันเข้าใจแล้วถ้ามีคนบอกว่า "เราใช้ MLE" หมายความว่าพวกเขามีรูปแบบที่ชัดเจนของ PDF ในข้อมูลของพวกเขาหรือไม่ สำหรับฉันดูเหมือนว่าคำตอบสำหรับเรื่องนี้คือใช่ อีกวิธีหนึ่งถ้ามีคนบอกว่า "MLE" เมื่อใดก็ตามก็มีความเป็นธรรมที่จะถามพวกเขาว่าพวกเขากำลังสมมติว่าเป็น PDF สิ่งนี้จะถูกต้องหรือไม่ สุดท้ายบน EM ความเข้าใจของฉันก็คือใน EM เราไม่รู้จริงหรือจำเป็นต้องรู้ PDF พื้นฐานของข้อมูลของเรา นี่คือความเข้าใจของฉัน ขอบคุณ.

2
การรวมการประมาณความหนาแน่นของเคอร์เนลในแบบ 2D
ฉันมาจากคำถามนี้ในกรณีที่ใครต้องการติดตาม โดยทั่วไปฉันมีชุดข้อมูลΩΩ\Omegaประกอบด้วยวัตถุNNNซึ่งแต่ละวัตถุมีจำนวนค่าที่วัดได้ที่แนบมากับมัน (สองในกรณีนี้): Ω=o1[x1,y1],o2[x2,y2],...,oN[xN,yN]Ω=o1[x1,y1],o2[x2,y2],...,oN[xN,yN]\Omega = o_1[x_1, y_1], o_2[x_2, y_2], ..., o_N[x_N, y_N] ฉันต้องมีวิธีการตรวจสอบน่าจะเป็นของที่ใหม่วัตถุเป็นของΩดังนั้นผมจึงได้รับคำแนะนำในคำถามว่าจะได้รับความหนาแน่นของความน่าจะเป็นฉผ่านประมาณการความหนาแน่นเคอร์เนลซึ่งผมเชื่อว่าผมมีอยู่แล้ว .p[xp,yp]p[xp,yp]p[x_p, y_p]ΩΩ\Omegaf^f^\hat{f} เนื่องจากเป้าหมายของฉันคือการได้รับความน่าจะเป็นของวัตถุใหม่นี้ ( ) ของที่อยู่ในนี้ 2 มิติชุดข้อมูลΩ , ฉันบอกว่าจะบูรณาการรูปแบบไฟล์ PDF ฉมากกว่า " ค่าของการสนับสนุนที่มีความหนาแน่น น้อยกว่าที่คุณสังเกตเห็น " "การตั้งข้อสังเกต" ความหนาแน่นฉประเมินในวัตถุใหม่P คือ: F ( x P , Y P ) ดังนั้นฉันต้องแก้สมการ:p[xp,yp]p[xp,yp]p[x_p, y_p]ΩΩ\Omegaf^f^\hat{f}f^f^\hat{f}pppf^(xp,yp)f^(xp,yp)\hat{f}(x_p, y_p) ∬x,y:f^(x,y)&lt;f^(xp,yp)f^(x,y)dxdy∬x,y:f^(x,y)&lt;f^(xp,yp)f^(x,y)dxdy\iint_{x, y:\hat{f}(x, y) < \hat{f}(x_p, y_p)} \hat{f}(x,y)\,dx\,dy …

6
หากคุณใช้การประมาณจุดที่เพิ่มให้มากที่สุดนั่นจะพูดถึงปรัชญาของคุณอย่างไร? (เป็นประจำหรือ Bayesian หรืออย่างอื่น?)
ถ้ามีคนพูดว่า "วิธีการนั้นใช้การประเมินจุดMLEสำหรับพารามิเตอร์ที่เพิ่มสูงสุดดังนั้นจึงเป็นสิ่งที่เกิดขึ้นบ่อยครั้งและยิ่งไม่ใช่ Bayesian"P ( x | θ )P(x|θ)\mathrm{P}(x|\theta) คุณจะเห็นด้วยไหม อัปเดตบนพื้นหลัง : เมื่อเร็ว ๆ นี้ฉันอ่านกระดาษที่อ้างว่าใช้บ่อย ฉันไม่เห็นด้วยกับการเรียกร้องของพวกเขาที่ดีที่สุดฉันรู้สึกว่ามันคลุมเครือ กระดาษไม่ได้กล่าวถึง MLE อย่างชัดเจน (หรือMAPสำหรับเรื่องนั้น) พวกเขาใช้การประมาณค่าจุดและพวกเขาก็ดำเนินการราวกับว่าการประเมินจุดนี้เป็นจริง พวกเขาทำไม่ได้ทำการวิเคราะห์การกระจายตัวตัวอย่างของตัวประมาณค่านี้หรืออะไรทำนองนั้น แบบจำลองค่อนข้างซับซ้อนและดังนั้นการวิเคราะห์ดังกล่าวอาจเป็นไปไม่ได้ พวกเขาไม่ใช้คำว่า 'หลัง' ที่จุดใดก็ได้ พวกเขาเพียงแค่ใช้การประเมินจุดนี้ที่มูลค่าหน้าและดำเนินการในหัวข้อหลักที่น่าสนใจ - อนุมานข้อมูลที่ขาดหายไป ฉันไม่คิดว่าจะมีอะไรในแนวทางของพวกเขาที่ชี้ให้เห็นว่าปรัชญาของพวกเขาคืออะไร พวกเขาอาจจะตั้งใจที่จะเป็นประจำ (เพราะพวกเขารู้สึกว่าจำเป็นต้องสวมปรัชญาบนแขนเสื้อของพวกเขา) แต่วิธีการที่แท้จริงของพวกเขาค่อนข้างง่าย / สะดวก / ขี้เกียจ / คลุมเครือ ตอนนี้ฉันอยากบอกว่าการวิจัยไม่มีปรัชญาใด ๆ อยู่เบื้องหลัง แต่ฉันคิดว่าทัศนคติของพวกเขาในทางปฏิบัติหรือสะดวกกว่า: "ฉันสังเกตุข้อมูล, , และฉันต้องการประเมินข้อมูลที่ขาดหายไป, . มีพารามิเตอร์ที่ควบคุมความสัมพันธ์ระหว่างและ . ฉันไม่สนใจยกเว้นเรื่องที่จะจบ ถ้าฉันมีค่าประมาณสำหรับมันจะทำให้ง่ายต่อการทำนายจากฉันจะเลือกการประมาณค่าของเพราะสะดวกโดยเฉพาะฉันจะเลือกที่เพิ่ม …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.