คำถามติดแท็ก maximum-likelihood

วิธีการประมาณค่าพารามิเตอร์ของแบบจำลองทางสถิติโดยเลือกค่าพารามิเตอร์ที่ปรับความน่าจะเป็นของการสังเกตตัวอย่างที่กำหนดให้เหมาะสมที่สุด

11
การประมาณความน่าจะเป็นสูงสุด (MLE) ในแง่คนธรรมดา
ใครสามารถอธิบายให้ฉันอย่างละเอียดเกี่ยวกับการประมาณค่าความน่าจะเป็นสูงสุด (MLE) ในแง่ของคนธรรมดา ฉันต้องการทราบแนวคิดพื้นฐานก่อนที่จะเข้ามาทางคณิตศาสตร์หรือสมการ

3
“ โอกาสสูงสุดที่ จำกัด ” คืออะไรและควรใช้เมื่อใด
ฉันได้อ่านบทคัดย่อของบทความนี้แล้วว่า: "ขั้นตอนความน่าจะเป็นสูงสุด (ML) ของ Hartley aud Rao นั้นได้รับการแก้ไขโดยการปรับการเปลี่ยนแปลงจาก Patterson และ Thompson ซึ่งการแบ่งความเป็นไปได้นั้นทำให้ปกติเป็นสองส่วนโดยไม่มีผลกระทบคงที่ ตัวประมาณ (REML) " ฉันยังอ่านนามธรรมของบทความนี้ที่ REML: "คำนึงถึงการสูญเสียในองศาอิสระที่เกิดจากการประเมินผลกระทบคงที่" น่าเศร้าที่ฉันไม่มีสิทธิ์เข้าถึงเนื้อหาทั้งหมดของเอกสารเหล่านั้น (และอาจไม่เข้าใจถ้าฉันทำ) อะไรคือข้อดีของ REML กับ ML? ภายใต้สถานการณ์ใดบ้างที่อาจมีความต้องการ REML มากกว่า ML (หรือในทางกลับกัน) เมื่อติดตั้งแบบจำลองเอฟเฟกต์ผสม โปรดให้คำอธิบายที่เหมาะสมสำหรับคนที่มีพื้นฐานคณิตศาสตร์ในระดับมัธยม (หรือสูงกว่า)!

8
สร้างตัวแปรสุ่มที่มีความสัมพันธ์ที่กำหนดไว้กับตัวแปรที่มีอยู่
สำหรับการศึกษาการจำลองฉันต้องสร้างตัวแปรสุ่มที่แสดง prefined (ประชากร) ความสัมพันธ์กับตัวแปรที่มีอยู่YYYY ฉันดูในRแพ็คเกจcopulaและCDVineสามารถสร้างการแจกแจงหลายตัวแปรแบบสุ่มด้วยโครงสร้างการพึ่งพาที่กำหนด อย่างไรก็ตามเป็นไปไม่ได้ที่จะแก้ไขหนึ่งในตัวแปรที่เป็นผลลัพธ์ของตัวแปรที่มีอยู่ ความคิดและลิงก์ไปยังฟังก์ชั่นที่มีอยู่นั้นได้รับการชื่นชม! สรุป: คำตอบที่ถูกต้องสองคำขึ้นมาพร้อมกับโซลูชันที่แตกต่าง: R สคริปต์โดย Caracal ซึ่งจะคำนวณตัวแปรสุ่มกับที่แน่นอน (ตัวอย่าง) ความสัมพันธ์กับตัวแปรที่กำหนดไว้ล่วงหน้า R ฟังก์ชั่นฉันพบตัวเองซึ่งจะคำนวณตัวแปรสุ่มที่มีการกำหนดประชากรความสัมพันธ์กับตัวแปรที่กำหนดไว้ล่วงหน้า [@ttnphns 'นอกจากนี้: ฉันใช้เสรีภาพในการขยายชื่อคำถามจากกรณีตัวแปรคงที่เดียวเป็นจำนวนคงที่ของตัวแปรคงที่; เช่นวิธีการสร้างตัวแปรที่มีคอร์เรชั่นที่กำหนดไว้ล่วงหน้าพร้อมกับตัวแปรคงที่บางตัวที่มีอยู่]

7
ตัวอย่างที่วิธีการของช่วงเวลาสามารถเอาชนะโอกาสสูงสุดในกลุ่มตัวอย่างขนาดเล็ก?
ตัวประมาณความน่าจะเป็นสูงสุด (MLE) นั้นมีประสิทธิภาพแบบเชิงเส้นกำกับ เราเห็นผลลัพธ์ที่เกิดขึ้นจริงซึ่งพวกเขามักจะทำได้ดีกว่าวิธีการประมาณการณ์ (MoM) (เมื่อมีความแตกต่างกัน) แม้ในขนาดตัวอย่างที่มีขนาดเล็ก ที่นี่ 'ดีกว่า' หมายถึงในแง่ของการมีความแปรปรวนน้อยลงเมื่อทั้งสองไม่เอนเอียงและโดยทั่วไปแล้วความคลาดเคลื่อนกำลังสองน้อยกว่า (MSE) หมายถึงมากขึ้น อย่างไรก็ตามคำถามที่เกิดขึ้น: มีบางกรณีที่ MoM สามารถเอาชนะ MLE - บนMSE ได้หรือไม่พูดในกลุ่มตัวอย่างขนาดเล็ก? (ซึ่งนี่ไม่ใช่สถานการณ์ที่แปลก / เลว - กล่าวคือให้เงื่อนไขว่า ML จะมีอยู่ / มีประสิทธิภาพในการถือ asymptotically) คำถามติดตามจะเป็น 'ขนาดเล็กได้อย่างไร' - นั่นคือถ้ามีตัวอย่างมีบางอย่างที่ยังคงมีขนาดตัวอย่างที่ค่อนข้างใหญ่บางทีแม้แต่ขนาดตัวอย่างที่แน่นอนทั้งหมด? [ฉันสามารถหาตัวอย่างของตัวประมาณแบบเอนเอียงที่สามารถเอาชนะ ML ในตัวอย่างที่ จำกัด ได้ แต่ไม่ใช่ MoM] เพิ่มการบันทึกย้อนหลัง: การมุ่งเน้นของฉันที่นี่เป็นหลักในกรณีที่ไม่มีการเปลี่ยนแปลง (ซึ่งจริงๆแล้วคือสิ่งที่ความอยากรู้พื้นฐานของฉันมาจาก) ฉันไม่ต้องการแยกแยะกรณีหลายตัวแปร แต่ฉันก็ไม่ต้องการโดยเฉพาะอย่างยิ่งที่จะหลงทางในการอภิปรายอย่างกว้างขวางเกี่ยวกับการประเมินของ James-Stein

2
ความแตกต่างระหว่างความน่าจะเป็นบางส่วน, ความน่าจะเป็นของโปรไฟล์และความเป็นไปได้เล็กน้อยคืออะไร
ฉันเห็นคำศัพท์เหล่านี้ถูกนำมาใช้และทำให้พวกเขาสับสนมากขึ้นเรื่อย ๆ มีคำอธิบายง่ายๆเกี่ยวกับความแตกต่างระหว่างพวกเขาหรือไม่?

9
คำแนะนำหนังสือสถิติขั้นสูง
มีหลายกระทู้ในเว็บไซต์นี้สำหรับคำแนะนำหนังสือเกี่ยวกับการมีสถิติเบื้องต้นและการเรียนรู้เครื่องแต่ฉันกำลังมองหาข้อความบนสถิติขั้นสูงรวมทั้งในลำดับความสำคัญ: ความน่าจะเป็นสูงสุดทั่วไปรุ่นเชิงเส้นวิเคราะห์องค์ประกอบหลักรุ่นที่ไม่ใช่เชิงเส้น ฉันลองแบบจำลองทางสถิติโดย AC Davison แต่ตรงไปตรงมาฉันต้องวางมันลงหลังจาก 2 บท ข้อความเป็นสารานุกรมในความครอบคลุมและการปฏิบัติทางคณิตศาสตร์ แต่ในฐานะผู้ปฏิบัติงานฉันชอบที่จะเข้าใกล้วิชาโดยการทำความเข้าใจสัญชาตญาณก่อนแล้วจึงเจาะลึกภูมิหลังทางคณิตศาสตร์ นี่คือข้อความบางส่วนที่ฉันพิจารณาว่าโดดเด่นสำหรับคุณค่าการสอนของพวกเขา ฉันต้องการหาวิชาที่เทียบเท่าสำหรับวิชาขั้นสูงที่ฉันกล่าวถึง สถิติ , D. อิสระ, R. Pisani, R. Purves การพยากรณ์: วิธีการและการประยุกต์ใช้ R. Hyndman และคณะ การถดถอยหลายครั้งและอื่นๆ TZ Keith การใช้เทคนิคทางสถิติร่วมสมัยแรนด์อาร์วิลคอกซ์ แนะนำการเรียนรู้เชิงสถิติด้วยแอปพลิเคชั่นใน R - (เวอร์ชันที่เผยแพร่ในรูปแบบ PDF) , Gareth James, Daniela Witten, Trevor Hastie และ Robert Tibshirani องค์ประกอบของการเรียนรู้ทางสถิติ: การทำเหมืองข้อมูลการอนุมานและการทำนาย - (เวอร์ชั่นที่วางจำหน่ายในรูปแบบ PDF) , …

2
คำถามพื้นฐานเกี่ยวกับเมทริกซ์ข้อมูลฟิชเชอร์และความสัมพันธ์กับ Hessian และข้อผิดพลาดมาตรฐาน
ตกลงนี่เป็นคำถามพื้นฐาน แต่ฉันสับสนเล็กน้อย ในวิทยานิพนธ์ของฉันฉันเขียน: ข้อผิดพลาดมาตรฐานสามารถพบได้โดยการคำนวณค่าผกผันของสแควร์รูทขององค์ประกอบเส้นทแยงมุมของเมทริกซ์ข้อมูลฟิชเชอร์ (สังเกต) เนื่องจากคำสั่งการเพิ่มประสิทธิภาพในการวิจัยลด-เข้าสู่ระบบL(การปฏิบัติ) ข้อมูลฟิชเชอร์เมทริกซ์สามารถพบได้โดยการคำนวณค่าผกผันของรัฐนี้ ฉัน(μ,σ2)=H-1sμ^, σ^2= 1ฉัน ( μ^, σ^2)------√sμ^,σ^2=1I(μ^,σ^2)\begin{align*} s_{\hat{\mu},\hat{\sigma}^2}=\frac{1}{\sqrt{\mathbf{I}(\hat{\mu},\hat{\sigma}^2)}} \end{align*}- บันทึกL−log⁡L-\log\mathcal{L}ฉัน ( μ^, σ^2) = H- 1I(μ^,σ^2)=H−1\begin{align*} \mathbf{I}(\hat{\mu},\hat{\sigma}^2)=\mathbf{H}^{-1} \end{align*} คำถามหลักของฉัน: ถูกต้องสิ่งที่ฉันพูด ? ฉันสับสนเล็กน้อยเพราะในแหล่งที่มาในหน้า 7 มันบอกว่า: ข้อมูลเมทริกซ์เป็นค่าลบของค่าที่คาดหวังของเมทริกซ์ Hessian (ดังนั้นจึงไม่ตรงกันข้ามกับ Hessian) ในขณะที่ในนี้แหล่งที่มาในหน้า 7 (เชิงอรรถ 5) มันพูดว่า: (−H)−1(−H)−1(-H)^{-1} (ดังนั้นนี่คือสิ่งที่ตรงกันข้าม) ฉันตระหนักถึงเครื่องหมายลบและควรใช้เมื่อใดและเมื่อใด แต่ทำไมจึงมีความแตกต่างในการกลับด้านหรือไม่


2
ค่าผกผันของเมทริกซ์ความแปรปรวนร่วมพูดถึงข้อมูลอย่างไร (สัญชาตญาณ)
ฉันอยากรู้เกี่ยวกับธรรมชาติของΣ−1Σ−1\Sigma^{-1} 1 ใครสามารถบอกอะไรบางอย่างที่ใช้งานง่ายเกี่ยวกับ "อะไรΣ−1Σ−1\Sigma^{-1}พูดเกี่ยวกับข้อมูล?" แก้ไข: ขอบคุณสำหรับการตอบกลับ หลังจากเรียนจบหลักสูตรที่ยอดเยี่ยมฉันต้องการเพิ่มคะแนน: มันเป็นตัวชี้วัดของข้อมูลเช่นxTΣ−1xxTΣ−1xx^T\Sigma^{-1}xคือปริมาณของข้อมูลตามทิศทางxxxx ความเป็นคู่:เนื่องจากΣΣ\Sigmaเป็นค่าบวกแน่นอนดังนั้นจึงเป็นΣ−1Σ−1\Sigma^{-1}ดังนั้นพวกมันจึงเป็นบรรทัดฐานของดอทโปรดัคยิ่งแม่นยำกว่าพวกเขาจึงเป็นสองมาตรฐานของกันและกันดังนั้นเราสามารถหาเฟนเนลคู่สำหรับปัญหากำลังสองน้อยที่สุด ปัญหา. เราสามารถเลือกอย่างใดอย่างหนึ่งของพวกเขาขึ้นอยู่กับเงื่อนไขของพวกเขา พื้นที่ Hilbert:คอลัมน์ (และแถว) ของΣ−1Σ−1\Sigma^{-1}และΣΣ\Sigmaขยายพื้นที่เดียวกัน ดังนั้นจึงไม่มีข้อได้เปรียบใด ๆ (อื่น ๆ ที่เมื่อหนึ่งในเมทริกซ์เหล่านี้ไม่มีเงื่อนไข) ระหว่างการแสดงด้วยΣ−1Σ−1\Sigma^{-1}หรือΣΣ\Sigma Σ−1Σ−1\Sigma^{-1}∥Σ−1∥→0‖Σ−1‖→0\|\Sigma^{-1}\|\rightarrow 0 สถิติผู้ใช้บ่อย:มันเกี่ยวข้องอย่างใกล้ชิดกับข้อมูลฟิชเชอร์โดยใช้Cramér – Rao ในความเป็นจริงเมทริกซ์ข้อมูลการตกปลา (ผลิตภัณฑ์ชั้นนอกของการไล่ระดับสีของความน่าจะเป็นกับตัวมันเอง) คือCramér – Rao ผูกไว้นั่นคือ (wrt บวกกึ่งกรวยแน่นอน ellipsoids) ดังนั้นเมื่อตัวประมาณความเป็นไปได้สูงสุดนั้นมีประสิทธิภาพนั่นคือข้อมูลสูงสุดที่มีอยู่ในข้อมูล ในคำที่ง่ายขึ้นสำหรับฟังก์ชั่นความเป็นไปได้บางอย่าง (โปรดทราบว่ารูปแบบการทำงานของความน่าจะเป็นล้วนขึ้นอยู่กับแบบจำลอง probablistic ซึ่งสร้างข้อมูลที่รู้จักกันว่าแบบจำลองกำเนิด) aka ความน่าจะเป็นที่มีประสิทธิภาพสูงสุด (ขออภัยที่ทำให้มากเกินไป)Σ−1⪯FΣ−1⪯F\Sigma^{-1}\preceq \mathcal{F}Σ−1=FΣ−1=F\Sigma^{-1}=\mathcal{F}

2
สัญชาตญาณว่าทำไมความขัดแย้งของสไตน์จึงนำมาใช้ในมิติ
สไตน์ตัวอย่างแสดงให้เห็นว่าการประมาณการความน่าจะเป็นสูงสุดของตัวแปรกระจายตามปกติด้วยวิธีการและผลต่างคือไม่ยอมรับ (ภายใต้ฟังก์ชั่นการสูญเสียตาราง) IFF3 สำหรับการพิสูจน์ที่เป็นระเบียบดูบทแรกของการอนุมานขนาดใหญ่: วิธีการเชิงประจักษ์เบย์สำหรับการประมาณค่าการทดสอบและการทำนายโดยแบรดลีย์เอฟรอนnnnμ1,…,μnμ1,…,μn\mu_1,\ldots,\mu_n111n≥3n≥3n\ge 3 นี่เป็นเรื่องน่าประหลาดใจอย่างมากสำหรับฉันในตอนแรก แต่มีปรีชาอยู่เบื้องหลังว่าทำไมคน ๆ หนึ่งคาดว่าการประมาณมาตรฐานจะไม่สามารถยอมรับได้ (โดยเฉพาะอย่างยิ่งถ้าจากนั้นตามที่ระบุไว้ในกระดาษต้นฉบับของ Stein ซึ่งเชื่อมโยงกับด้านล่าง)x∼N(μ,1)x∼N(μ,1)x \sim \mathcal N(\mu,1)E∥x∥2≈∥μ∥2+nE‖x‖2≈‖μ‖2+n\mathbb{E}\|x\|^2\approx \|\mu\|^2+n คำถามของฉันค่อนข้างจะ: คุณสมบัติใดของช่องว่างnnn -dimensional (สำหรับn≥3n≥3n\ge 3 ) R2R2\mathbb{R}^2ขาดอะไรบ้างที่อำนวยความสะดวกให้ตัวอย่างของ Stein? คำตอบที่เป็นไปได้อาจเกี่ยวกับความโค้งของnnnกลมหรือสิ่งที่แตกต่างอย่างสิ้นเชิง ในคำอื่น ๆ เหตุผลที่เป็นที่ยอมรับใน MLE R2R2\mathbb{R}^2 ? แก้ไข 1:เพื่อตอบสนองต่อ @mpiktas กังวลเกี่ยวกับ 1.31 จาก 1.30: Eμ(∥z−μ^∥2)=Eμ(S(N−2S)2)=Eμ((N−2)2S).Eμ(‖z−μ^‖2)=Eμ(S(N−2S)2)=Eμ((N−2)2S).E_\mu\left(\|z-\hat{\mu}\|^2\right)=E_\mu\left(S\left(\frac{N-2}{S}\right)^2\right)=E_\mu\left(\frac{(N-2)^2}{S}\right). μi^=(1−N−2S)ziμi^=(1−N−2S)zi\hat{\mu_i} = \left(1-\frac{N-2}{S}\right)z_iดังนั้นEμ(∂μi^∂zi)=Eμ(1−N−2S+2z2iS2).Eμ(∂μi^∂zi)=Eμ(1−N−2S+2zi2S2).E_\mu\left(\frac{\partial\hat{\mu_i}}{\partial z_i} \right)=E_\mu\left( 1-\frac{N-2}{S}+2\frac{z_i^2}{S^2}\right).ดังนั้นเราจึงมี: 2∑i=1NEμ(∂μi^∂zi)=2N−2Eμ(N(N−2)S)+4Eμ((N−2)S)=2N−Eμ2(N−2)2S.2∑i=1NEμ(∂μi^∂zi)=2N−2Eμ(N(N−2)S)+4Eμ((N−2)S)=2N−Eμ2(N−2)2S.2\sum_{i=1}^N E_\mu\left(\frac{\partial\hat{\mu_i}}{\partial z_i} \right)=2N-2E_\mu\left(\frac{N(N-2)}{S}\right)+4E_\mu\left(\frac{(N-2)}{S}\right)\\=2N-E_\mu\frac{2(N-2)^2}{S}. …

4
ฉันสงสัยว่าทำไมเราจึงใช้โอกาสในการลบ (บันทึก) ในบางครั้ง
คำถามนี้ทำให้ฉันงงงวยมานาน ฉันเข้าใจการใช้ 'บันทึก' เพื่อเพิ่มโอกาสในการเพิ่มดังนั้นฉันจึงไม่ถามเกี่ยวกับ 'บันทึก' คำถามของฉันคือเนื่องจากการเพิ่มความน่าจะเป็นบันทึกเท่ากับการลด "ความน่าจะเป็นในการลบเชิงลบ" (NLL) ทำไมเราจึงประดิษฐ์ NLL นี้ ทำไมเราไม่ใช้ "โอกาสที่ดี" ตลอดเวลา? ได้รับการสนับสนุนในกรณีใดบ้าง ฉันพบคำอธิบายเล็กน้อยที่นี่ https://quantivity.wordpress.com/2011/05/23/why-minimize-negative-log-likelihood/แต่ดูเหมือนว่าจะอธิบายการเทียบเท่าที่เห็นได้ชัดในส่วนลึก แต่ไม่ได้แก้ปัญหาความสับสนของฉัน คำอธิบายใด ๆ ที่จะได้รับการชื่นชม

3
การแปลความหมายของตัวทำนายการแปลงสภาพบันทึกและ / หรือการตอบสนอง
ฉันสงสัยว่ามันจะสร้างความแตกต่างในการตีความไม่ว่าจะเป็นเพียงขึ้นอยู่กับทั้งขึ้นอยู่กับและเป็นอิสระหรือตัวแปรอิสระเท่านั้นที่ถูกเปลี่ยนเข้าสู่ระบบ พิจารณากรณีของ log(DV) = Intercept + B1*IV + Error ฉันสามารถตีความ IV เป็นเปอร์เซ็นต์เพิ่มขึ้น แต่จะเปลี่ยนแปลงได้อย่างไรเมื่อฉันมี log(DV) = Intercept + B1*log(IV) + Error หรือเมื่อฉันมี DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

8
แบบจำลองทั้งหมดไร้ประโยชน์หรือไม่? มีรูปแบบที่แน่นอน - หรือมีประโยชน์หรือไม่
คำถามนี้รบกวนจิตใจฉันมานานกว่าหนึ่งเดือนแล้ว ฉบับเดือนกุมภาพันธ์ 2558 ของAmstat Newsมีบทความโดย Berkeley ศาสตราจารย์ Mark van der Laan ที่ดุคนที่ใช้โมเดลที่ไม่แน่นอน เขากล่าวว่าการใช้แบบจำลองสถิติเป็นศิลปะมากกว่าวิทยาศาสตร์ ตามที่เขาพูดเราสามารถใช้ "แบบจำลองที่แน่นอน" และความล้มเหลวของเราในการทำเช่นนั้นมีส่วนทำให้ "ขาดความเข้มงวด ... ฉันกลัวว่าการเป็นตัวแทนของเราในด้านวิทยาศาสตร์ข้อมูลกำลังกลายเป็นคนชายขอบ" ผมยอมรับว่าเราอยู่ในอันตรายจากการกลายเป็นชายขอบ แต่ภัยคุกคามมักจะมาจากผู้ที่เรียกร้อง (มีเสียงมากเช่นศาสตราจารย์แวนเดอร์ Laan ดูเหมือนว่า) ว่าพวกเขาจะไม่ได้ใช้วิธีการตัวอย่างบางส่วน แต่มีวิธีการในความเป็นจริงไกลน้อยเข้มงวดกว่าแบบจำลองทางสถิติที่มีการใช้อย่างระมัดระวัง - แม้เป็นสิ่งที่ผิด ฉันคิดว่ามันยุติธรรมที่จะบอกว่าศาสตราจารย์แวนเดอร์ลันค่อนข้างดูถูกคนที่พูดซ้ำคำพูดที่ใช้บ่อยของ Box "ทุกรุ่นผิด แต่มีประโยชน์" โดยพื้นฐานแล้วเมื่อฉันอ่านมันเขาบอกว่าแบบจำลองทั้งหมดผิดและไร้ประโยชน์ทั้งหมด ตอนนี้ฉันจะไม่เห็นด้วยกับอาจารย์ของ Berkeley บ้าง ในทางกลับกันเขาเป็นใครที่มองข้ามมุมมองของยักษ์ตัวจริงในสนามของเรา ในการอธิบายอย่างละเอียดดร. แวนเดอร์แลนกล่าวว่า "มันไร้สาระสมบูรณ์เมื่อต้องระบุว่าแบบจำลองทั้งหมดผิด ... ตัวอย่างเช่นแบบจำลองทางสถิติที่ไม่ทำให้สมมติฐานเป็นจริงเสมอไป" เขายังคง: "แต่บ่อยครั้งที่เราสามารถทำได้ดีกว่าที่เราจะได้รู้ว่าข้อมูลที่เป็นผลของทดลองเหมือนอิสระ." ฉันไม่เห็นว่าจะมีใครรู้ว่ายกเว้นในการสุ่มตัวอย่างแบบสุ่มหรือการตั้งค่าการทดลองที่แคบมาก ผู้เขียนชี้ให้เห็นถึงการทำงานของเขาในการเรียนรู้โอกาสสูงสุดและการเรียนรู้ด้วยการสูญเสียขั้นต่ำที่กำหนดเป้าหมายซึ่ง "รวมเอาสถานะของศิลปะในการประเมินการเรียนรู้ของเครื่องจักร / การปรับตัวด้วยข้อมูล ทฤษฎีกระบวนการในขณะที่ยังคงให้การอนุมานทางสถิติอย่างเป็นทางการ …

2
วิธีความน่าจะเป็นสูงสุดเทียบกับวิธีกำลังสองน้อยที่สุด
อะไรคือความแตกต่างหลักระหว่างการประมาณค่าความน่าจะเป็นสูงสุด (MLE) กับการประมาณกำลังสองน้อยที่สุด (LSE)? เหตุใดเราไม่สามารถใช้ MLE เพื่อทำนายค่าในการถดถอยเชิงเส้นและในทางกลับกันได้YYy ความช่วยเหลือใด ๆ ในหัวข้อนี้จะได้รับการชื่นชมอย่างมาก

1
ทำไม Glmer ไม่ได้รับโอกาสสูงสุด (ตรวจสอบโดยใช้การเพิ่มประสิทธิภาพทั่วไปเพิ่มเติม)
ตัวเลขที่ได้จากMLE s ของGLMMนั้นยากและในทางปฏิบัติฉันรู้ว่าเราไม่ควรใช้การเพิ่มประสิทธิภาพกำลังดุร้าย (เช่นใช้optimในวิธีที่ง่าย) แต่เพื่อจุดประสงค์ทางการศึกษาของฉันฉันต้องการลองเพื่อให้แน่ใจว่าฉันเข้าใจโมเดลอย่างถูกต้อง (ดูรหัสด้านล่าง) ฉันพบว่าฉันได้รับผลลัพธ์ที่ไม่สอดคล้องกันglmer()เสมอ โดยเฉพาะอย่างยิ่งแม้ว่าฉันจะใช้ MLEs glmerเป็นค่าเริ่มต้นตามฟังก์ชั่นความน่าจะเป็นที่ฉันเขียน ( negloglik) พวกเขาไม่ใช่ MLEs ( opt1$valueเล็กกว่าopt2) ฉันคิดว่าสองเหตุผลที่เป็นไปได้คือ: negloglik เขียนได้ไม่ดีเพื่อให้มีข้อผิดพลาดทางตัวเลขมากเกินไปและ ข้อมูลจำเพาะรุ่นไม่ถูกต้อง สำหรับสเปคโมเดลรุ่นที่ต้องการคือ: L=∏i=1n(∫∞−∞f(yi|N,a,b,ri)g(ri|s)dri)L=∏i=1n(∫−∞∞f(yi|N,a,b,ri)g(ri|s)dri)\begin{equation} L=\prod_{i=1}^{n} \left(\int_{-\infty}^{\infty}f(y_i|N,a,b,r_{i})g(r_{i}|s)dr_{i}\right) \end{equation} โดยที่คือทวินามทวินามและเป็นไฟล์ PDF ปกติ ฉันพยายามที่จะประเมิน,และsโดยเฉพาะอย่างยิ่งฉันต้องการทราบว่าสเปคโมเดลผิดหรือไม่สเปคที่ถูกต้องคืออะไรfffgggaaabbbsss p <- function(x,a,b) exp(a+b*x)/(1+exp(a+b*x)) a <- -4 # fixed effect (intercept) b <- 1 # fixed effect (slope) s <- 1.5 …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.