คำถามติดแท็ก maximum-likelihood

วิธีการประมาณค่าพารามิเตอร์ของแบบจำลองทางสถิติโดยเลือกค่าพารามิเตอร์ที่ปรับความน่าจะเป็นของการสังเกตตัวอย่างที่กำหนดให้เหมาะสมที่สุด

2
อัปเดต MLE ซ้ำ ๆ เป็นสตรีมการสังเกตใหม่
คำถามทั่วไป บอกว่าเรามีข้อมูล IID , ... \ ซิม f (x \ | \, \ boldsymbol {\ theta}) . สตรีมมิ่งในเราต้องการที่จะซ้ำคำนวณประมาณการความน่าจะเป็นสูงสุดของ\ boldsymbol {\ theta} นั่นคือการคำนวณ \ hat {\ boldsymbol {\ theta}} _ {n-1} = \ underset {\ boldsymbol {\ theta} \ in \ mathbb {R} ^ p} {\ arg \ max} \ prod_ …

5
Hessian เชิงประจักษ์ของ M-estimator สามารถไม่มีกำหนดได้หรือไม่?
Jeffrey Wooldridge ในการวิเคราะห์เศรษฐมิติของเขาเกี่ยวกับการตัดขวางและข้อมูลพาเนล (หน้า 357) กล่าวว่า Hessian เชิงประจักษ์ "ไม่รับประกันว่าจะแน่นอนแน่นอนหรือแม้กระทั่ง semidefinite บวกสำหรับตัวอย่างเฉพาะที่เรากำลังทำงานอยู่" นี่ดูเหมือนว่าผิดสำหรับฉัน (ปัญหาเชิงตัวเลขแยกกัน) Hessian จะต้องเป็น semidefinite เชิงบวกอันเป็นผลมาจากคำจำกัดความของ M-estimator ว่าเป็นค่าของพารามิเตอร์ที่ลดฟังก์ชั่นวัตถุประสงค์สำหรับตัวอย่างที่ได้รับและความจริงที่รู้จักกันดีว่า อย่างน้อยที่สุด (ในพื้นที่) Hessian นั้นเป็น semidefinite ที่เป็นบวก ข้อโต้แย้งของฉันถูกต้องหรือไม่ [แก้ไข: คำสั่งถูกลบในฉบับที่ 2 ของหนังสือ ดูความคิดเห็น] ภูมิหลังสมมติว่าθ Nเป็นประมาณการที่ได้รับโดยการลด 1θˆNθ^N\widehat \theta_N1N∑i=1Nq(wi,θ),1N∑i=1Nq(wi,θ),{1 \over N}\sum_{i=1}^N q(w_i,\theta), ที่wiwiw_iหมายถึงiiiสังเกต -th เรามาแทน Hessian ของด้วย , qqqHHHH(q,θ)ij=∂2q∂θi∂θjH(q,θ)ij=∂2q∂θi∂θjH(q,\theta)_{ij}=\frac{\partial^2 q}{\partial \theta_i \partial \theta_j} ความแปรปรวนร่วมซีมโทติคของเกี่ยวข้องกับโดยที่เป็นค่าพารามิเตอร์ที่แท้จริง …

6
เราเคยใช้การประมาณโอกาสสูงสุดหรือไม่
ฉันสงสัยว่าการประเมินความน่าจะเป็นสูงสุดที่เคยใช้ในสถิติหรือไม่ เราเรียนรู้แนวคิดของมัน แต่ฉันสงสัยว่ามันถูกใช้จริงเมื่อใด หากเราถือว่าการกระจายของข้อมูลเราพบสองพารามิเตอร์หนึ่งสำหรับค่าเฉลี่ยและอีกหนึ่งสำหรับความแปรปรวน แต่คุณใช้จริงในสถานการณ์จริง? ใครสามารถบอกกรณีง่าย ๆ ที่ใช้สำหรับฉันได้

2
ความโน้มเอียงของ MLE ลดลงเร็วกว่าความแปรปรวนอย่างไร
ให้เป็นค่าประมาณโอกาสสูงสุดของพารามิเตอร์จริงของบางรุ่น ขณะที่จำนวนของจุดข้อมูลเพิ่มขึ้นข้อผิดพลาดมักจะลดลงเป็นO (1 / \ sqrt n) การใช้ความไม่เท่าเทียมกันของสามเหลี่ยมและคุณสมบัติของการคาดหวังเป็นไปได้ที่จะแสดงให้เห็นว่าอัตราความผิดพลาดนี้หมายความว่าทั้ง "อคติ" \ lVert \ mathbb E \ hat \ theta - \ theta ^ * \ rVertและ "เบี่ยงเบน" \ lVert \ mathbb E \ hat \ theta - \ hat \ theta \ rVertลดลงที่Oเดียวกัน(1 / \ sqrt {n})θ^θ^\hat\theta ‖ θ - θ …

1
โอกาสสูงสุดที่ จำกัด ที่มีน้อยกว่าอันดับเต็มของคอลัมน์
คำถามนี้เกี่ยวกับการประมาณค่าความน่าจะเป็นสูงสุด (REML) ที่ จำกัด ในรุ่นเฉพาะของตัวแบบเชิงเส้นกล่าวคือ: Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)),Y=X(α)β+ϵ,ϵ∼Nn(0,Σ(α)), Y = X(\alpha)\beta + \epsilon, \\ \epsilon\sim N_n(0, \Sigma(\alpha)), ที่X(α)X(α)X(\alpha)เป็น ( n×pn×pn \times p ) เมทริกซ์ parametrized โดยα∈Rkα∈Rk\alpha \in \mathbb R^kที่เป็นΣ(α)Σ(α)\Sigma(\alpha) ) ββ\betaเป็นเวกเตอร์ที่ไม่รู้จักพารามิเตอร์รำคาญ; ที่น่าสนใจคือในการประมาณαα\alphaและเรามีk≤p≪nk≤p≪nk\leq p\ll n n การประมาณแบบจำลองโดยโอกาสสูงสุดไม่มีปัญหา แต่ฉันต้องการใช้ REML มันเป็นที่รู้จักกันดีให้ดูเช่นLaMotteว่าโอกาสA′YA′YA'Yโดยที่AAAคือเมทริกซ์กึ่งมุมฉากใด ๆ เช่นนั้นสามารถเขียนได้A′X=0A′X=0A'X=0 LREML(α∣Y)∝|X′X|1/2|Σ|−1/2|X′Σ−1X|−1/2exp{−12r′Σ−1r},r=(I−X(X′Σ−1X)+X′Σ−1)Y,LREML(α∣Y)∝|X′X|1/2|Σ|−1/2|X′Σ−1X|−1/2exp⁡{−12r′Σ−1r},r=(I−X(X′Σ−1X)+X′Σ−1)Y, L_{\text{REML}}(\alpha\mid Y) \propto\vert X'X\vert^{1/2} \vert \Sigma\vert^{-1/2}\vert X'\Sigma^{-1}X\vert^{-1/2}\exp\left\{-\frac{1}{2} r'\Sigma^{-1}r \right\}, \\ …

1
ทำไมเราควรพูดถึงพฤติกรรมการลู่เข้าของตัวประมาณที่แตกต่างกันในทอพอโลยีที่แตกต่างกัน?
ในบทแรกของหนังสือเกี่ยวกับเรขาคณิตเชิงพีชคณิตและทฤษฎีการเรียนรู้ทางสถิติซึ่งพูดถึงการลู่เข้าของการประมาณค่าในพื้นที่การทำงานที่แตกต่างกันมันกล่าวว่าการประมาณแบบเบย์สอดคล้องกับโทโพโลยีการกระจายแบบชวาร์ตษ์ (ในหน้า 7): ตัวอย่างเช่น sup-norm, no, ทอพอโลยีแบบอ่อนของ Hilbert space , โทโพโลยีการกระจายแบบชวาร์ตษ์และอื่น ๆ มันขึ้นอยู่กับโทโพโลยีของพื้นที่ฟังก์ชั่นอย่างมากว่าการลู่เข้าถือหรือไม่ การประมาณค่า Bayes สอดคล้องกับโทโพโลยีการแจกแจงแบบชวาร์ตษ์ในขณะที่ความเป็นไปได้สูงสุดหรือวิธีการทางด้านหลังสอดคล้องกับ sup-norm ความแตกต่างนี้มีผลอย่างมากต่อผลการเรียนรู้ในรูปแบบเอกพจน์L 2 K n ( w ) → K ( w )LพีLพีL^pL2L2L^2Kn( w ) → K( w )Kn(W)→K(W)K_n(w)\to K(w) โดยที่และเป็นลำดับเชิงประจักษ์ KL-divergence (ผลรวมของการสังเกต) และ KL-divergence จริง (integral wrt การกระจายข้อมูล) ระหว่างโมเดลจริงและโมเดลพารามิเตอร์ (พร้อมพารามิเตอร์w )K ( w …

1
Caret glmnet กับ cv.glmnet
ดูเหมือนจะมีความสับสนมากในการเปรียบเทียบการใช้glmnetภายในcaretเพื่อค้นหาแลมบ์ดาที่ดีที่สุดและใช้cv.glmnetในการทำงานเดียวกัน มีการตั้งคำถามมากมายเช่น: โมเดลการจำแนกประเภท train.glmnet vs. cv.glmnet วิธีที่เหมาะสมในการใช้ glmnet กับคาเร็ตคืออะไร? การตรวจสอบข้าม `glmnet 'โดยใช้` คาเร็ต' แต่ไม่ได้รับคำตอบซึ่งอาจเป็นเพราะความสามารถในการทำซ้ำของคำถาม ตามคำถามแรกฉันให้ตัวอย่างที่คล้ายกัน แต่มีคำถามเดียวกัน: ทำไม lambdas โดยประมาณแตกต่างกันอย่างไร library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to …

6
การประมาณค่า MLE เทียบกับ MAP จะใช้เมื่อใด
MLE = การประมาณความน่าจะเป็นสูงสุด MAP = หลังที่ใหญ่ที่สุด MLE ใช้งานง่าย / ไร้เดียงสาโดยเริ่มจากความน่าจะเป็นของการสังเกตที่กำหนดพารามิเตอร์ (เช่นฟังก์ชันความน่าจะเป็น)และพยายามค้นหาพารามิเตอร์ที่สอดคล้องกับการสังเกตการณ์ที่สุด แต่มันไม่ได้คำนึงถึงความรู้เดิม MAP ดูเหมือนจะสมเหตุสมผลมากกว่าเนื่องจากคำนึงถึงความรู้เดิมผ่านกฎของเบย์ นี่คือคำถามที่เกี่ยวข้อง แต่คำตอบนั้นไม่ละเอียด /signals/13174/differences-using-maximum-likelihood-or-maximum-a-posteriori-for-deconvolution-d ดังนั้นฉันคิดว่า MAP ดีกว่ามาก นั่นถูกต้องใช่ไหม? และฉันควรใช้อันไหนดี?

1
การถดถอยโลจิสติกการเพิ่มความเป็นไปได้สูงสุดนั้นจำเป็นต้องเพิ่ม AUC ให้มากกว่าแบบจำลองเชิงเส้นหรือไม่
เมื่อได้รับชุดข้อมูลที่มีผลลัพธ์แบบไบนารีY∈ { 0 , 1 }ny∈{0,1}ny\in\{0,1\}^nและเมทริกซ์ตัวทำนายบางตัวX∈Rn×pX∈Rn×pX\in\mathbb{R}^{n\times p}แบบจำลองการถดถอยแบบโลจิสติกมาตรฐานประมาณค่าสัมประสิทธิ์βMLEβMLE\beta_{MLE}ซึ่งเพิ่มความน่าจะเป็นทวินาม เมื่อXXXอยู่ในอันดับเต็มβMLEβMLE\beta_{MLE}นั้นมีเอกลักษณ์ เมื่อไม่มีการแยกที่สมบูรณ์แบบมันจะ จำกัด ไม่แบบนี้โอกาสสูงสุดยังเพิ่ม ROC AUC (aka ccc -statistic) หรือไม่มีอยู่ประมาณการค่าสัมประสิทธิ์บางβAUC≠βMLEβAUC≠βMLE\beta_{AUC} \neq \beta_{MLE}ซึ่งจะได้รับสูงกว่า ROC AUC? ถ้ามันเป็นความจริงที่ MLE ไม่จำเป็นต้องเพิ่ม ROC AUC ให้มากที่สุดอีกวิธีหนึ่งในการดูคำถามนี้คือ "มีทางเลือกอื่นในการเพิ่มความน่าจะเป็นซึ่งจะเพิ่ม ROC AUC สูงสุดของการถดถอยโลจิสติกเสมอหรือไม่" ฉันสมมติว่าแบบจำลองนั้นเหมือนกัน: เราไม่ได้เพิ่มหรือลบตัวทำนายในXXXหรือเปลี่ยนแปลงข้อกำหนดของแบบจำลองและฉันสมมติว่าแบบจำลองความน่าจะเป็นสูงสุดและ AUC-maximizing model กำลังใช้ฟังก์ชันลิงก์เดียวกัน

1
เหตุใด MLE จึงสมเหตุสมผลเนื่องจากความน่าจะเป็นของตัวอย่างแต่ละรายการคือ 0
นี่เป็นความคิดแปลก ๆ ที่ฉันมีในขณะที่ตรวจสอบสถิติเก่า ๆ และด้วยเหตุผลบางอย่างที่ฉันไม่สามารถนึกถึงคำตอบได้ PDF แบบต่อเนื่องบอกความหนาแน่นของการสังเกตค่าในช่วงที่กำหนด กล่าวคือถ้ายกตัวอย่างเช่นความน่าจะเป็นที่เกิดขึ้นระหว่างและคือโดยที่คือ ความหนาแน่นของมาตรฐานปกติX∼ N( μ , σ2)X∼N(μ,σ2)X \sim N(\mu,\sigma^2)aaaขbb∫ขaϕ ( x ) dx∫abϕ(x)dx\int_a^{b}\phi(x)dxφϕ\phi เมื่อเราคิดถึงการประมาณค่าพารามิเตอร์ของ MLE ให้พูดถึงเราเขียนความหนาแน่นร่วมของ, พูดว่า , ตัวแปรสุ่มและแยกความแตกต่างของ log-likelihood wrt เป็น , ตั้งค่าเท่ากับ 0 และแก้ สำหรับ\การตีความมักจะได้รับคือ "ให้ข้อมูลซึ่งพารามิเตอร์ที่ทำให้ฟังก์ชั่นความหนาแน่นนี้เป็นไปได้มากที่สุด"μμ\muยังไม่มีข้อความNNX1. . Xยังไม่มีข้อความX1..XNX_1 .. X_Nμμ\muμμ\mu ส่วนที่กำลังดักฟังฉันคือ: เรามีความหนาแน่นของ rv และความน่าจะเป็นที่เราได้รับการกล่าวโดยเฉพาะตัวอย่างของเราคือ 0 อย่างแน่นอนทำไมมันถึงสมเหตุสมผลที่จะเพิ่มความหนาแน่นของข้อต่อให้สูงสุด ตั้งแต่นั้นมาความน่าจะเป็นที่จะสังเกตตัวอย่างจริงของเราคือ 0)?ยังไม่มีข้อความNN การหาเหตุผลเข้าข้างตนเองเดียวที่ฉันสามารถทำได้คือเราต้องการทำให้ PDF เป็นจุดสูงสุดเท่าที่เป็นไปได้รอบตัวอย่างที่เราสังเกตเพื่อให้อินทิกรัลในภูมิภาค (และความน่าจะเป็นของการสังเกตสิ่งในภูมิภาคนี้) …

1
การอนุมานตามเงื่อนไขบ่อยครั้งยังคงถูกใช้ในทางปฏิบัติหรือไม่?
ฉันเพิ่งตรวจสอบเอกสารเก่าบางฉบับโดย Nancy Reid, Barndorff-Nielsen, Richard Cox และใช่ Ronald Fisher เล็กน้อยเกี่ยวกับแนวคิดของ "การอนุมานตามเงื่อนไข" ในกระบวนทัศน์ประจำซึ่งดูเหมือนจะหมายถึงการอนุมานอิงเพียง "เซตย่อยที่เกี่ยวข้อง" ของพื้นที่ตัวอย่างไม่ใช่พื้นที่ตัวอย่างทั้งหมด เป็นตัวอย่างที่สำคัญเป็นที่ทราบกันดีว่าช่วงความเชื่อมั่นที่อิงตามสถิติ t สามารถปรับปรุงได้(Goutis & Casella, 1992)หากคุณยังพิจารณาค่าสัมประสิทธิ์การเปลี่ยนแปลงของตัวอย่างด้วย (เรียกว่าสถิติเสริม) ในฐานะที่เป็นคนที่ใช้ความน่าจะเป็นไปตามการอนุมานเป็นประจำฉันคิดว่าเมื่อฉันสร้างช่วงเวลาที่ไม่มั่นใจ % - ความมั่นใจฉันกำลังทำการอนุมานตามเงื่อนไข (โดยประมาณ) เนื่องจากความน่าจะเป็นเป็นเงื่อนไขในตัวอย่างที่สังเกตαα\alpha คำถามของฉันคือนอกเหนือจากการถดถอยโลจิสติกตามเงื่อนไขแล้วฉันไม่เคยเห็นการใช้ความคิดเกี่ยวกับการปรับแต่งสถิติเพิ่มเติมก่อนที่จะอนุมาน การอนุมานแบบนี้ จำกัด อยู่กับตระกูลชี้แจงหรือไม่หรือจะใช้ชื่ออื่นในทุกวันนี้เพื่อให้ดูเหมือนจะถูก จำกัด ฉันพบบทความล่าสุด(Spanos, 2011)ที่ดูเหมือนว่าจะสงสัยอย่างจริงจังเกี่ยวกับวิธีการที่ใช้โดยการอนุมานตามเงื่อนไข (เช่นบรรพบุรุษ) แต่มันเสนอข้อเสนอแนะที่สมเหตุสมผลและมีความซับซ้อนทางคณิตศาสตร์น้อยกว่าที่การอนุมานพารามิเตอร์ในกรณี "ผิดปกติ" (ซึ่งการสนับสนุนของการแจกแจงถูกกำหนดโดยพารามิเตอร์) สามารถแก้ไขได้โดยการตัดทอนการแจกแจงการสุ่มตัวอย่างแบบไม่มีเงื่อนไข Fraser (2004)ให้การปกป้องที่ดีของเงื่อนไข แต่ฉันยังคงทิ้งความรู้สึกว่ามีมากกว่าโชคเล็กน้อยและความฉลาดจะต้องใช้การอนุมานตามเงื่อนไขกับกรณีที่ซับซ้อน ... แน่นอนซับซ้อนกว่าการเรียกไคสแควร์ การประมาณค่าอัตราส่วนความน่าจะเป็นสำหรับการอนุมานตามเงื่อนไข "โดยประมาณ" เวลส์ (2011, p. 163)อาจตอบคำถามของฉัน …

1
ANOVA นั้นขึ้นอยู่กับวิธีการของช่วงเวลาและไม่ใช่โอกาสสูงสุดหรือไม่?
ฉันเห็นว่ามีการพูดถึงในสถานที่ต่าง ๆ ที่ ANOVA ทำการประมาณโดยใช้วิธีการของช่วงเวลา ฉันสับสนกับคำยืนยันดังกล่าวเพราะแม้ว่าฉันจะไม่คุ้นเคยกับวิธีการของช่วงเวลา แต่ความเข้าใจของฉันคือมันเป็นสิ่งที่แตกต่างจากและไม่เทียบเท่ากับวิธีการของโอกาสสูงสุด; ในอีกทางหนึ่งการวิเคราะห์ความแปรปรวนสามารถถูกมองว่าเป็นการถดถอยเชิงเส้นด้วยตัวพยากรณ์เชิงหมวดหมู่และการประมาณค่า OLS ของพารามิเตอร์การถดถอยเป็นโอกาสสูงสุด ดังนั้น: สิ่งที่มีคุณสมบัติขั้นตอนการวิเคราะห์ความแปรปรวนเป็นวิธีการของช่วงเวลา? ระบุว่า ANOVA นั้นเทียบเท่ากับ OLS ที่มีตัวพยากรณ์หมวดหมู่ไม่ได้หรือไม่? หากทั้งสองวิธีใดที่กลายเป็นสิ่งที่เทียบเท่าในกรณีพิเศษของ ANOVA ปกติจะมีสถานการณ์ ANOVA เฉพาะบางอย่างหรือไม่เมื่อความแตกต่างมีความสำคัญ? การออกแบบที่ไม่สมดุล? มาตรการซ้ำแล้วซ้ำอีก? การออกแบบแบบผสม (ระหว่างวิชา + ภายในวิชา)?

3
การถดถอยเชิงเส้น: การแจกแจงแบบไม่ปกติใด ๆ ที่แสดงเอกลักษณ์ของ OLS และ MLE?
คำถามนี้ได้รับแรงบันดาลใจจากการอภิปรายที่ยาวนานในความคิดเห็นที่นี่: การถดถอยเชิงเส้นใช้การกระจายแบบปกติอย่างไร ในรูปแบบการถดถอยเชิงเส้นตามปกติเพื่อความง่ายในการเขียนนี่มีเพียงตัวทำนายเดียว: โดยที่เป็นค่าคงที่ที่รู้จักกันและเป็นข้อผิดพลาดอิสระที่ไม่มีค่าเฉลี่ยศูนย์ หากเรายังถือว่าการแจกแจงปกติสำหรับข้อผิดพลาดตัวประมาณกำลังสองน้อยที่สุดและตัวประมาณความน่าจะเป็นสูงสุดของจะเหมือนกันx ฉันϵ ฉันβ 0 , β 1Yi=β0+β1xi+ϵiYi=β0+β1xi+ϵi Y_i = \beta_0 + \beta_1 x_i + \epsilon_i xixix_iϵiϵi\epsilon_iβ0,β1β0,β1\beta_0, \beta_1 ดังนั้นคำถามง่าย ๆ ของฉัน: มีการแจกแจงอื่น ๆ สำหรับข้อผิดพลาดเช่นนั้น mle เหมือนกันกับตัวประมาณค่า squaeres น้อยที่สุดหรือไม่? ความหมายหนึ่งแสดงให้เห็นได้ง่ายส่วนอีกเรื่องหนึ่งไม่เป็นเช่นนั้น

3
โอกาสใดดีกว่าหรือโอกาสเกิดขึ้นเล็กน้อยและดีที่สุด
ขณะดำเนินการถดถอยหากเราดำเนินการตามคำจำกัดความจาก: ความแตกต่างระหว่างความน่าจะเป็นบางส่วน, ความน่าจะเป็นของโปรไฟล์และความเป็นไปได้ที่จะเกิดอะไรขึ้น นั่นคือการ ค้นหาความน่าจะเป็นสูงสุด βและθที่เพิ่ม L (β, θ | data) ให้สูงสุด ในขณะที่ความ เป็นไปได้ที่จะเกิดขึ้นเราได้รวมθจากสมการความน่าจะเป็นโดยการใช้ประโยชน์จากความจริงที่ว่าเราสามารถระบุการกระจายความน่าจะเป็นของθเงื่อนไขบน on วิธีใดที่ดีที่สุดในการเพิ่มประสิทธิภาพและเพราะเหตุใด

1
MLE ของพารามิเตอร์ตำแหน่งในการแจกแจง Cauchy
หลังจากอยู่ตรงกลางทั้งสองวัด x และ −xสามารถสันนิษฐานได้ว่าเป็นอิสระจากการสังเกต Cauchy กระจายด้วยฟังก์ชันความหนาแน่นของความน่าจะเป็น: ฉ( x : θ ) =f(x:θ)=f(x :\theta) = ,-∞&lt;x&lt;∞1π( 1 + ( x - θ )2)1π(1+(x−θ)2)1\over\pi (1+(x-\theta)^2) , - ∞ &lt; x &lt; ∞,−∞&lt;x&lt;∞, -∞ < x < ∞ แสดงให้เห็นว่าถ้า MLE ของเป็น 0 แต่ถ้ามีสองแห่งคือเท่ากับ±θ x 2 &gt; 1 θ √x2≤ 1x2≤1x^2≤ 1θθ\thetax2&gt; 1x2&gt;1x^2>1θθ\thetax2- 1-----√x2−1\sqrt …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.