คำถามติดแท็ก maximum-likelihood

วิธีการประมาณค่าพารามิเตอร์ของแบบจำลองทางสถิติโดยเลือกค่าพารามิเตอร์ที่ปรับความน่าจะเป็นของการสังเกตตัวอย่างที่กำหนดให้เหมาะสมที่สุด

1
Cross-Entropy หรือ Log Likelihood ในเลเยอร์เอาต์พุต
ฉันอ่านหน้านี้: http://neuralnetworksanddeeplearning.com/chap3.html และมันบอกว่าชั้นเอาท์พุท sigmoid ที่มีการข้ามเอนโทรปีนั้นค่อนข้างจะคล้ายกับเลเยอร์เอาต์พุต softmax ที่มีความเป็นไปได้ในการบันทึก จะเกิดอะไรขึ้นถ้าฉันใช้ sigmoid กับ log-likelihood หรือ softmax กับ cross entropy ใน layer output มันดีไหม เพราะฉันเห็นว่ามีความแตกต่างเพียงเล็กน้อยในสมการระหว่างเอนโทรปีของครอส C= - 1nΣx( yLNa + ( 1 - y) ln( 1 - a ) )C=−1n∑x(yln⁡a+(1−y)ln⁡(1−a))C = -\frac{1}{n} \sum\limits_x (y \ln a + (1-y) \ln (1-a)) และบันทึกโอกาส (eq.80): C= - …

5
วิธีจัดการกับข้อมูลแบบลำดับชั้น / ซ้อนในการเรียนรู้ของเครื่อง
ฉันจะอธิบายปัญหาด้วยตัวอย่าง สมมติว่าคุณต้องการที่จะทำนายรายได้ของแต่ละบุคคลที่มีคุณลักษณะบางอย่าง: {อายุ, เพศ, ประเทศ, ภูมิภาค, เมือง} คุณมีชุดข้อมูลการฝึกอบรมเช่นนั้น train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

3
ข้อมูลฟิชเชอร์เป็นข้อมูลประเภทใด?
สมมติว่าเรามีตัวแปรสุ่มtheta) ถ้าเป็นพารามิเตอร์จริงฟังก์ชันความน่าจะเป็นควรขยายให้ใหญ่สุดและอนุพันธ์เท่ากับศูนย์ นี่คือหลักการพื้นฐานที่อยู่เบื้องหลังตัวประมาณค่าความน่าจะเป็นสูงสุดX∼f(x|θ)X~ฉ(x|θ)X \sim f(x|\theta)θ0θ0\theta_0 ตามที่ฉันเข้าใจแล้วข้อมูลฟิชเชอร์ถูกกำหนดให้เป็น I(θ)=E[(∂∂θf(X|θ))2]ผม(θ)=E[(∂∂θฉ(X|θ))2]I(\theta) = \Bbb E \Bigg[\left(\frac{\partial}{\partial \theta}f(X|\theta)\right)^2\Bigg ] ดังนั้นหากเป็นพารามิเตอร์ที่จริง0 แต่ถ้ามันไม่ใช่พารามิเตอร์จริงเราจะมีข้อมูลฟิชเชอร์จำนวนมากขึ้นθ0θ0\theta_0I(θ)=0ผม(θ)=0I(\theta) = 0θ0θ0\theta_0 คำถามของฉัน ข้อมูล Fisher ทำการวัด "ข้อผิดพลาด" ของ MLE ที่กำหนดหรือไม่ กล่าวอีกนัยหนึ่งการมีอยู่ของข้อมูลฟิชเชอร์ในเชิงบวกไม่ได้หมายความว่า MLE ของฉันไม่เหมาะอย่างยิ่งหรือ คำจำกัดความของ "ข้อมูล" นี้แตกต่างจากที่ Shannon ใช้อย่างไร ทำไมเราถึงเรียกมันว่าข้อมูล?

1
ตัวประมาณความน่าจะเป็นสูงสุดสำหรับการแจกแจงที่ถูกตัดทอน
พิจารณากลุ่มที่เป็นอิสระที่ได้รับจากตัวแปรสุ่มที่จะถือว่าเป็นไปตามการกระจายตัดทอน (เช่นตัดทอนกระจายปกติ ) รู้จักขั้นต่ำ ( จำกัด ) และค่าสูงสุดและแต่ของพารามิเตอร์ที่ไม่รู้จักและ 2 ถ้าตามการกระจายที่ไม่ถูกตัดทอนตัวประมาณค่าความน่าจะเป็นสูงสุดและสำหรับและจากจะเป็นค่าเฉลี่ยตัวอย่างNNNSSSXXXaaabbbμμ\mu X μ σ 2 μ σ 2 S μ = 1σ2σ2\sigma^2XXXμˆμ^\widehat\muσˆ2σ^2\widehat\sigma^2μμ\muσ2σ2\sigma^2SSS σ 2=1μˆ=1N∑iSiμ^=1N∑iSi\widehat\mu = \frac{1}{N} \sum_i S_iและตัวอย่างแปรปรวน 2 อย่างไรก็ตามสำหรับการแจกแจงที่ถูกตัดทอนตัวอย่างความแปรปรวนที่กำหนดในลักษณะนี้จะถูก จำกัด ด้วยดังนั้นจึงไม่ใช่ตัวประมาณที่สอดคล้องกันเสมอ: สำหรับมันไม่สามารถรวมกันในความน่าจะเป็นเมื่อไปที่อนันต์ ดังนั้นดูเหมือนว่าและไม่ใช่ตัวประมาณโอกาสสูงสุดของและสำหรับการแจกแจงที่ถูกตัดทอน แน่นอนว่าต้องมีการคาดการณ์ตั้งแต่และ(ข-)2σ2>(ข-)2σ2N μ σ 2μσ2μσ2σˆ2=1N∑i(Si−μˆ)2σ^2=1N∑i(Si−μ^)2\widehat\sigma^2 = \frac{1}{N} \sum_i (S_i - \widehat\mu)^2(b−a)2(b−a)2(b-a)^2σ2>(b−a)2σ2>(b−a)2\sigma^2 > (b-a)^2σ2σ2\sigma^2NNNμˆμ^\widehat\muσˆ2σ^2\widehat\sigma^2μμ\muσ2σ2\sigma^2μμ\muσ2σ2\sigma^2 พารามิเตอร์ของการแจกแจงแบบปกติที่ถูกตัดทอนไม่ได้เป็นค่าเฉลี่ยและความแปรปรวน ดังนั้นตัวประมาณค่าความน่าจะเป็นสูงสุดของพารามิเตอร์และของการแจกแจงแบบตัดทอนของค่าต่ำสุดและค่าสูงสุดที่ทราบคืออะไรσμμ\muσσ\sigma

3
การใช้งานเชิงประจักษ์ของความเป็นไปได้เชิงประจักษ์มีอะไรบ้าง
ฉันเคยได้ยินความน่าจะเป็นเชิงประจักษ์ของโอเว่น แต่จนกระทั่งเมื่อไม่นานมานี้มันก็ไม่ต้องสนใจจนกระทั่งฉันเจอมันในกระดาษดอกเบี้ย ( Mengersen et al. 2012 ) ในความพยายามของฉันที่จะเข้าใจฉันได้รวบรวมว่าโอกาสที่ข้อมูลที่สังเกตได้จะแสดงเป็น ที่และ0L=∏ipi=∏iP(Xi=x)=∏iP(Xi≤x)−P(Xi<x)L=∏ipi=∏iP(Xi=x)=∏iP(Xi≤x)−P(Xi<x)L = \prod_i p_i = \prod_i P(X_i=x) = \prod_i P(X_i \le x) - P(X_i \lt x)∑ipi=1∑ipi=1\sum_i p_i = 1pi>0pi>0p_i > 0 อย่างไรก็ตามฉันไม่สามารถทำให้การก้าวกระโดดทางจิตที่เชื่อมโยงการเป็นตัวแทนนี้กับวิธีที่มันสามารถใช้ในการอ้างถึงเกี่ยวกับการสังเกต บางทีฉันอาจหยั่งรากเกินไปในการคิดถึงพารามิเตอร์ความน่าจะเป็นของโมเดล ไม่ว่าฉันกำลังค้นหา Google Scholar สำหรับกระดาษบางเล่มที่ใช้โอกาสเชิงประจักษ์ที่จะช่วยฉันกำหนดแนวคิด ... เพื่อประโยชน์ เห็นได้ชัดว่ามีหนังสือของ Art Owen เกี่ยวกับความเป็นไปได้ในเชิงประจักษ์แต่ Google Books หลุดพ้นความน่าเบื่อไปหมดแล้วและฉันยังอยู่ในขั้นตอนการขอสินเชื่อระหว่างห้องสมุดที่ช้า ในขณะเดียวกันใครบางคนสามารถชี้แนะฉันไปที่เอกสารและเอกสารที่แสดงให้เห็นอย่างชัดเจนถึงความเป็นไปได้ในเชิงประจักษ์และวิธีการใช้งาน? ตัวอย่างคำอธิบายของ EL ก็ยินดีด้วยเช่นกัน!

5
การประมาณความน่าจะเป็นสูงสุด - ทำไมจึงถูกใช้แม้ว่าจะมีอคติในหลาย ๆ กรณี
การประมาณความเป็นไปได้สูงสุดมักส่งผลให้ตัวประมาณแบบเอนเอียง (เช่นการประมาณค่าความแปรปรวนตัวอย่างนั้นมีความลำเอียงสำหรับการแจกแจงแบบเกาส์) อะไรทำให้เป็นที่นิยมมาก ทำไมมันถูกใช้อย่างมาก? นอกจากนี้สิ่งใดที่ทำให้ดีกว่าวิธีอื่น - วิธีการของช่วงเวลา นอกจากนี้ฉันสังเกตเห็นว่าสำหรับเกาส์เซียนตัวประมาณค่า MLE ที่เรียบง่ายทำให้มันไม่เอนเอียง เหตุใดการปรับขนาดนี้จึงไม่ใช่ขั้นตอนมาตรฐาน ฉันหมายถึง - เพราะเหตุใดหลังจากการคำนวณ MLE จึงไม่ใช่กิจวัตรในการค้นหามาตราส่วนที่จำเป็นเพื่อทำให้ตัวประมาณมีความเป็นกลาง การปฏิบัติมาตรฐานดูเหมือนจะเป็นการคำนวณธรรมดาของการประมาณค่า MLE ยกเว้นแน่นอนสำหรับกรณี Gaussian ที่รู้จักกันดีซึ่งเป็นที่รู้จักกันดีว่าปัจจัยการปรับสเกล

3
การใช้เหตุผลอย่างชาญฉลาดหลังการประมาณค่าความน่าจะเป็นแบบอคติสูงสุด
ฉันมีความสับสนกับตัวประมาณความน่าจะเป็นแบบอคติสูงสุด (ML) คณิตศาสตร์ของแนวคิดทั้งหมดนั้นค่อนข้างชัดเจนสำหรับฉัน แต่ฉันไม่สามารถเข้าใจเหตุผลที่เข้าใจง่าย เนื่องจากชุดข้อมูลบางอย่างที่มีตัวอย่างจากการแจกจ่ายซึ่งเป็นฟังก์ชันของพารามิเตอร์ที่เราต้องการประมาณค่าตัวประมาณค่า ML จะส่งผลให้มูลค่าของพารามิเตอร์ซึ่งมีแนวโน้มมากที่สุดที่จะสร้างชุดข้อมูล ฉันไม่สามารถเข้าใจตัวประมาณค่า ML แบบเอนเอียงในแง่ที่ว่าค่าที่เป็นไปได้มากที่สุดสำหรับพารามิเตอร์สามารถทำนายมูลค่าที่แท้จริงของพารามิเตอร์ด้วยอคติต่อค่าที่ไม่ถูกต้องได้อย่างไร

2
เมื่อใดที่ฉัน * ไม่ * ใช้ฟังก์ชัน nlm ของ R สำหรับ MLE
ฉันวิ่งข้ามคู่มือแนะนำว่าฉันใช้ nlm ของ R สำหรับการประเมินความเป็นไปได้สูงสุด แต่ไม่มีของพวกเขา (รวมถึงเอกสารประกอบของ R ) ให้คำแนะนำเชิงทฤษฎีมากสำหรับเมื่อใช้หรือไม่ใช้ฟังก์ชัน เท่าที่ฉันสามารถบอกได้ nlm ก็แค่ทำการลดระดับความลาดชันตามวิธีการของนิวตัน มีหลักการเมื่อมีเหตุอันควรที่จะใช้วิธีการนี้หรือไม่? มีทางเลือกอะไรบ้าง? นอกจากนี้ยังมีข้อ จำกัด เกี่ยวกับขนาดของอาร์เรย์และอื่น ๆ อย่างใดอย่างหนึ่งสามารถส่งไปยัง nlm?

2
เราสามารถใช้ MLE เพื่อประเมินน้ำหนักโครงข่ายประสาทเทียมได้หรือไม่
ฉันเพิ่งเริ่มศึกษาเกี่ยวกับสถิติและแบบจำลองต่างๆ ปัจจุบันความเข้าใจของฉันคือเราใช้ MLE เพื่อประเมินพารามิเตอร์ที่ดีที่สุดสำหรับแบบจำลอง อย่างไรก็ตามเมื่อฉันพยายามเข้าใจว่าเครือข่ายประสาททำงานอย่างไรดูเหมือนว่าพวกเขามักจะใช้วิธีอื่นในการประมาณค่าพารามิเตอร์แทน ทำไมเราไม่ใช้ MLE หรือเป็นไปได้ที่จะใช้ MLE เลย?

4
มักจะมี maximizer สำหรับปัญหา MLE หรือไม่?
ฉันสงสัยว่าจะมี maximizer สำหรับปัญหาการประมาณโอกาสสูงสุด (บันทึก -) หรือไม่? กล่าวอีกนัยหนึ่งมีการแจกแจงบางส่วนและพารามิเตอร์บางอย่างซึ่งปัญหา MLE ไม่มี maximizer หรือไม่ คำถามของฉันมาจากการอ้างสิทธิ์ของวิศวกรว่าฟังก์ชั่นค่าใช้จ่าย (ความน่าจะเป็นหรือความเป็นไปได้ในการบันทึกฉันไม่แน่ใจว่ามีจุดประสงค์ใด) ใน MLE มักจะเป็นแบบเว้าเสมอและดังนั้นจึงมี maximizer เสมอ ขอบคุณและขอแสดงความนับถือ!

4
การประมาณค่าพารามิเตอร์ของการแจกแจงแบบ t
ตัวประมาณโอกาสสูงสุดสำหรับพารามิเตอร์ของการแจกแจงแบบ t คืออะไร พวกมันมีอยู่ในรูปแบบปิดหรือไม่? การค้นหาโดย Google อย่างรวดเร็วไม่ได้ให้ผลลัพธ์ใด ๆ แก่ฉัน วันนี้ฉันสนใจกรณี univariate แต่บางทีฉันอาจจะต้องขยายโมเดลเป็นหลายมิติ แก้ไข: ฉันจริง ๆ แล้วส่วนใหญ่สนใจในพารามิเตอร์ที่ตั้งและขนาด สำหรับตอนนี้ฉันสามารถสรุปได้ว่าค่าพารามิเตอร์องศาอิสระได้รับการแก้ไขและอาจใช้รูปแบบตัวเลขเพื่อหาค่าที่ดีที่สุดในภายหลัง

4
ตัวประมาณโอกาสสูงสุดที่ไม่เอนเอียงเป็นตัวประมาณค่าแบบเป็นกลางที่ดีที่สุดเสมอหรือไม่
ฉันรู้ปัญหาที่เกิดขึ้นเป็นประจำหากเรามีตัวประมาณค่าแบบไม่เอนเอียงที่ดีที่สุดมันต้องเป็นตัวประมาณความเป็นไปได้สูงสุด (MLE) แต่โดยทั่วไปถ้าเรามี MLE ที่ไม่เอนเอียงมันจะเป็นตัวประมาณที่ดีที่สุด (หรือบางทีฉันควรเรียกมันว่า UMVUE ตราบใดที่มันมีความแปรปรวนน้อยที่สุด)

2
วิธีการหาค่าฟังก์ชันความน่าจะเป็นสำหรับการแจกแจงแบบทวินามสำหรับการประมาณค่าพารามิเตอร์
ตามที่มิลเลอร์และ Freund ของความน่าจะเป็นและสถิติสำหรับวิศวกร 8ED (pp.217-218) ฟังก์ชั่นความเป็นไปได้ที่จะขยายใหญ่สุดสำหรับการกระจายทวินาม (Bernoulli ทดลอง) จะได้รับเป็น L ( p ) = ∏ni = 1พีxผม( 1 - p )1 - xผมL(พี)=Πผม=1nพีxผม(1-พี)1-xผมL(p) = \prod_{i=1}^np^{x_i}(1-p)^{1-x_i} จะมาถึงสมการนี้ได้อย่างไร ดูเหมือนว่าฉันจะค่อนข้างชัดเจนเกี่ยวกับดิสทริบิวชันอื่น ๆ ปัวซองและเกาส์; L ( θ ) = ∏ni = 1PDF หรือ PMF ของ distL(θ)=Πผม=1nPDF หรือ PMF ของ distL(\theta) = \prod_{i=1}^n \text{PDF or PMF …

1
ใน R ให้ผลลัพธ์จากออพติไมซ์ด้วยเมทริกซ์แบบ Hessian วิธีการคำนวณช่วงความเชื่อมั่นของพารามิเตอร์โดยใช้เมทริกซ์เฮสเซียน?
ให้ผลลัพธ์จากออพติไมซ์ด้วยเมทริกซ์แบบ Hessian จะคำนวณช่วงความเชื่อมั่นของพารามิเตอร์โดยใช้เมทริกซ์แบบเฮสเซียนได้อย่างไร fit<-optim(..., hessian=T) hessian<-fit$hessian ฉันส่วนใหญ่สนใจในบริบทของการวิเคราะห์ความน่าจะเป็นสูงสุด แต่ฉันอยากรู้ว่าวิธีการนั้นสามารถขยายออกไปได้หรือไม่

4
วิธีการตรวจสอบคุณสมบัติของเมทริกซ์ความแปรปรวนร่วมเมื่อปรับโมเดลปกติหลายตัวแปรโดยใช้ความน่าจะเป็นสูงสุด
สมมติว่าฉันมีรูปแบบดังต่อไปนี้ yi=f(xi,θ)+εiyi=f(xi,θ)+εiy_i=f(x_i,\theta)+\varepsilon_i ที่ , เป็นเวกเตอร์ของตัวแปรอธิบายเป็นพารามิเตอร์ของฟังก์ชันเชิงเส้น - ไม่ใช่และโดยที่ตามธรรมชาติคือคูณเมทริกซ์yi∈RKyi∈RKy_i\in \mathbb{R}^Kxixix_iθθ\thetafffεi∼N(0,Σ)εi∼N(0,Σ)\varepsilon_i\sim N(0,\Sigma)ΣΣ\SigmaK×KK×KK\times K เป้าหมายคือตามปกติในการประมาณการθθ\thetaและΣΣΣ\Sigmaตัวเลือกที่ชัดเจนคือวิธีความน่าจะเป็นสูงสุด Log-โอกาสสำหรับรุ่นนี้ (สมมติว่าเรามีตัวอย่าง(yi,xi),i=1,...,n(yi,xi),i=1,...,n(y_i,x_i),i=1,...,n ) ลักษณะเช่น l(θ,Σ)=−n2log(2π)−n2logdetΣ−∑i=1n(yi−f(xi,θ))′Σ−1(y−f(xi,θ)))l(θ,Σ)=−n2log⁡(2π)−n2log⁡detΣ−∑i=1n(yi−f(xi,θ))′Σ−1(y−f(xi,θ)))l(\theta,\Sigma)=-\frac{n}{2}\log(2\pi)-\frac{n}{2} \log\det\Sigma-\sum_{i=1}^n(y_i-f(x_i,\theta))'\Sigma^{-1}(y-f(x_i,\theta))) ตอนนี้ดูเหมือนง่ายบันทึกความน่าจะเป็นมีการระบุใส่ข้อมูลและใช้อัลกอริทึมบางอย่างสำหรับการเพิ่มประสิทธิภาพที่ไม่ใช่เชิงเส้น ปัญหาคือวิธีการตรวจสอบให้แน่ใจว่าΣΣ\Sigmaเป็นผลบวกแน่นอน การใช้ตัวอย่างoptimใน R (หรืออัลกอริทึมการเพิ่มประสิทธิภาพที่ไม่ใช่เชิงเส้นอื่น ๆ ) จะไม่รับประกันฉันว่าΣΣ\Sigmaนั้นแน่นอนแน่นอน ดังนั้นคำถามคือจะมั่นใจได้อย่างไรว่าΣΣ\Sigmaยังคงเป็นไปในทางบวกแน่นอน? ฉันเห็นทางออกที่เป็นไปได้สองข้อ: ซ่อมแซมΣΣ\Sigmaเป็น RR′RR′RR'โดยที่RRRคือเมทริกซ์รูปสามเหลี่ยมบนหรือสมมาตร จากนั้นΣΣ\Sigmaจะเป็นค่าบวกแน่นอนเสมอและRRRสามารถควบคุมได้ ใช้ความน่าจะเป็นของโปรไฟล์ สืบทอดมาสูตรสำหรับθ^(Σ)θ^(Σ)\hat\theta(\Sigma)และΣ^(θ)Σ^(θ)\hat{\Sigma}(\theta)theta) เริ่มต้นด้วยθ0θ0\theta_0และวนΣ^j=Σ^(θ^j−1)Σ^j=Σ^(θ^j−1)\hat{\Sigma}_j=\hat\Sigma(\hat\theta_{j-1}) , θ^j=θ^(Σ^j−1)θ^j=θ^(Σ^j−1)\hat{\theta}_j=\hat\theta(\hat\Sigma_{j-1})จนกระทั่งการบรรจบกัน มีวิธีอื่นอีกหรือไม่และวิธีการเกี่ยวกับ 2 วิธีนี้พวกเขาจะทำงานได้มาตรฐานหรือไม่ ดูเหมือนว่าจะเป็นปัญหามาตรฐาน แต่การค้นหาอย่างรวดเร็วไม่ได้ให้คำแนะนำใด ๆ แก่ฉัน ฉันรู้ว่าการประมาณแบบเบย์จะเป็นไปได้เช่นกัน แต่ในตอนนี้ฉันไม่ต้องการมีส่วนร่วม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.