คำถามติดแท็ก maximum-likelihood

วิธีการประมาณค่าพารามิเตอร์ของแบบจำลองทางสถิติโดยเลือกค่าพารามิเตอร์ที่ปรับความน่าจะเป็นของการสังเกตตัวอย่างที่กำหนดให้เหมาะสมที่สุด

6
ความน่าจะเป็น - ทำไมต้องทวีคูณ
ฉันกำลังศึกษาเกี่ยวกับการประมาณค่าความน่าจะเป็นสูงสุดและฉันอ่านว่าฟังก์ชันความน่าจะเป็นคือผลลัพธ์ของความน่าจะเป็นของแต่ละตัวแปร ทำไมถึงเป็นผลิตภัณฑ์ ทำไมไม่รวม ฉันพยายามค้นหาบน Google แล้ว แต่ไม่พบคำตอบที่มีความหมาย https://en.wikipedia.org/wiki/Maximum_likelihood

3
ทำไมความน่าจะเป็นสูงสุดและไม่น่าจะเป็นไปได้?
เหตุใดจึงเป็นเรื่องธรรมดาที่จะได้รับการประมาณการความน่าจะเป็นสูงสุดของพารามิเตอร์ แต่คุณแทบไม่เคยได้ยินเกี่ยวกับการประมาณค่าพารามิเตอร์ความน่าจะเป็นที่คาดหวัง (กล่าวคืออิงจากค่าที่คาดหวังมากกว่าโหมดของฟังก์ชันโอกาส) นี่เป็นเหตุผลหลักในเชิงประวัติศาสตร์หรือมีเหตุผลทางเทคนิคหรือเชิงทฤษฎีมากกว่านี้หรือไม่? จะมีข้อได้เปรียบที่สำคัญและ / หรือข้อเสียในการใช้การประมาณความน่าจะเป็นที่คาดหวังมากกว่าการประมาณการความเป็นไปได้สูงสุดหรือไม่? มีบางพื้นที่ที่คาดการณ์ความน่าจะเป็นใช้เป็นประจำหรือไม่?

2
ข้อผิดพลาดมาตรฐานของการประมาณความน่าจะเป็นสูงสุดหมายถึงอะไร
ฉันเป็นนักสถิติศึกษาด้วยตนเองและพยายามอย่างยิ่งโดยเฉพาะกับภาษา ในหนังสือที่ฉันกำลังใช้มีปัญหาดังต่อไปนี้: ตัวแปรสุ่มจะได้รับเป็น -distributed กับ 0 (แน่นอนคุณอาจจะใช้การกระจายใด ๆ ขึ้นอยู่กับพารามิเตอร์หนึ่งเพื่อประโยชน์ของคำถามนี้.) จากนั้นกลุ่มตัวอย่างในห้าของค่า , , , ,จะได้รับXXXPareto(α,60)Pareto(α,60)\text{Pareto}(\alpha,60)α>0α>0\alpha>0141414212121666323232222 ส่วนที่หนึ่ง: "การใช้วิธีการที่มีโอกาสสูงสุดหาการประมาณของโดยอิงจาก [ตัวอย่าง]" นี่ไม่มีปัญหา คำตอบคือ4.6931α^α^\hat{\alpha}αα\alphaα^≈4.6931α^≈4.6931\hat{\alpha}\approx 4.6931 แต่จากนั้น: "ให้ค่าประมาณสำหรับข้อผิดพลาดมาตรฐานของ "α^α^\hat{\alpha} สิ่งนี้มีความหมายอย่างไร? เนื่องจากเป็นเพียงจำนวนจริงคงที่ฉันไม่เห็นว่ามันจะมีข้อผิดพลาดมาตรฐานได้อย่างไร ฉันต้องพิจารณาค่าเบี่ยงเบนมาตรฐานของหรือไม่α^α^\hat{\alpha}Pareto(α^,60)Pareto(α^,60)\text{Pareto}(\hat{\alpha},60) หากคุณคิดว่าคำถามไม่ชัดเจนข้อมูลนี้จะช่วยฉันเช่นกัน

2
การแจกแจงแบบใดที่มีวิธีแก้ปัญหาแบบปิดเพื่อการประมาณค่าโอกาสสูงสุด
การแจกแจงแบบใดมีวิธีแก้ปัญหาแบบปิดสำหรับการประมาณค่าความน่าจะเป็นสูงสุดของพารามิเตอร์จากตัวอย่างการสังเกตการณ์อิสระ

4
ค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบคืออะไร?
ความแม่นยำหมายถึง: p = true positives / (true positives + false positives) มันถูกต้องหรือไม่ที่ในฐานะtrue positivesและfalse positivesวิธีที่ 0 ความแม่นยำเข้าใกล้ 1? คำถามเดียวกันสำหรับการเรียกคืน: r = true positives / (true positives + false negatives) ขณะนี้ฉันกำลังใช้การทดสอบทางสถิติที่ฉันต้องการคำนวณค่าเหล่านี้และบางครั้งมันก็เกิดขึ้นที่ตัวส่วนเป็น 0 และฉันสงสัยว่าจะคืนค่าใดให้กับกรณีนี้ PS: ขอโทษแท็กที่ไม่เหมาะสมผมอยากจะใช้recall, precisionและlimitแต่ฉันไม่สามารถสร้างแท็กใหม่ ๆ
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

2
เครื่องมือประมาณค่าความน่าจะเป็นสูงสุด - แบบเกาส์หลายตัวแปร
บริบท Multivariate Gaussian ปรากฏขึ้นบ่อยครั้งในการเรียนรู้ของเครื่องและผลลัพธ์ต่อไปนี้จะใช้ในหนังสือและหลักสูตร ML หลายหลักสูตรโดยไม่มีการสืบทอด ข้อมูลที่ได้รับในรูปของเมทริกซ์ของมิติ ถ้าเราคิดว่าข้อมูลตามตัวแปรแบบเกาส์ กระจายด้วยพารามิเตอร์หมายถึง ( ) และความแปรปรวนร่วมเมทริกซ์ ( ) เครื่องมือประมาณการความน่าจะเป็นสูงสุดจะได้รับจาก:XX\mathbf{X} m×pm×p m \times ppppμμ\mup×1p×1p \times 1 ΣΣ\Sigmap×pp×pp \times p μ^=1m∑mi=1x(i)=x¯μ^=1m∑i=1mx(i)=x¯\hat \mu = \frac{1}{m} \sum_{i=1}^m \mathbf{ x^{(i)} } = \mathbf{\bar{x}} Σ^=1m∑mi=1(x(i)−μ^)(x(i)−μ^)TΣ^=1m∑i=1m(x(i)−μ^)(x(i)−μ^)T\hat \Sigma = \frac{1}{m} \sum_{i=1}^m \mathbf{(x^{(i)} - \hat \mu) (x^{(i)} -\hat \mu)}^T ฉันเข้าใจว่าความรู้ของหลายตัวแปรเกาส์เซียนนั้นเป็นสิ่งที่จำเป็นสำหรับหลักสูตร ML หลาย ๆ …

2
เหตุใดการประมาณการความเป็นไปได้สูงสุดจึงถือเป็นเทคนิคบ่อยครั้ง
สถิติสำหรับฉันมีความหมายเหมือนกันสำหรับความพยายามในการตัดสินใจที่ดีสำหรับตัวอย่างที่เป็นไปได้ทั้งหมด นั่นคือกฎการตัดสินใจที่ใช้บ่อยควรพยายามลดความเสี่ยงที่บ่อยครั้งซึ่งขึ้นอยู่กับฟังก์ชันการสูญเสียและสถานะที่แท้จริงของธรรมชาติ :δδ\deltaLLLθ0θ0\theta_0 Rฉr e q= Eθ0( L ( θ)0, δ( Y) )RฉRอีQ=Eθ0(L(θ0,δ(Y))R_\mathrm{freq}=\mathbb{E}_{\theta_0}(L(\theta_0,\delta(Y)) การประมาณความน่าจะเป็นสูงสุดนั้นเชื่อมโยงกับความเสี่ยงบ่อยเพียงใด ระบุว่าเป็นเทคนิคการประมาณค่าที่ใช้มากที่สุดที่ผู้ใช้บ่อยต้องมีการเชื่อมต่อ เท่าที่ฉันทราบการประมาณความน่าจะเป็นสูงสุดนั้นเก่ากว่าแนวคิดเรื่องความเสี่ยงบ่อย แต่ก็ยังคงต้องมีการเชื่อมโยงกันทำไมคนจำนวนมากถึงอ้างว่ามันเป็นเทคนิคที่ใช้บ่อย? การเชื่อมต่อที่ใกล้ที่สุดที่ฉันได้พบคือ "สำหรับแบบจำลองพารามิเตอร์ที่ตอบสนองสภาวะความอ่อนแอทำให้ตัวประมาณความน่าจะเป็นสูงสุดคือประมาณขั้นต่ำสุด" Wassermann 2006, p. 201 " คำตอบที่ได้รับการยอมรับจะเชื่อมโยงการประมาณค่าความน่าจะเป็นระดับสูงสุดกับความเสี่ยงของผู้ใช้บ่อยหรือให้คำจำกัดความทางเลือกอย่างเป็นทางการของการอนุมานของผู้ที่แสดงให้เห็นว่า MLE เป็นเทคนิคการอนุมานแบบบ่อยๆ


1
อะไรคือข้อเสียของความน่าจะเป็นของโปรไฟล์?
พิจารณาเวกเตอร์ของพารามิเตอร์โดยมีพารามิเตอร์ที่น่าสนใจและ a พารามิเตอร์ที่สร้างความรำคาญθ 1 θ 2( θ1, θ2)(θ1,θ2)(\theta_1, \theta_2)θ1θ1\theta_1θ2θ2\theta_2 หากเป็นโอกาสที่สร้างขึ้นจากข้อมูลความน่าจะเป็นของโปรไฟล์สำหรับถูกกำหนดเป็นที่เป็น MLE ของสำหรับค่าคงที่ของ\x θ 1 L P ( θ 1 ; x ) = L ( θ 1 , θ 2 ( θ 1 ) ; x ) θ 2 ( θ 1 ) θ 2 θ 1L ( θ1, θ2; …

6
แนวคิด 'พื้นฐาน' ของการเรียนรู้ของเครื่องสำหรับการประมาณค่าพารามิเตอร์คืออะไร
ความคิด 'พื้นฐาน' สถิติสำหรับประมาณค่าพารามิเตอร์เป็นโอกาสสูงสุด ฉันสงสัยว่าอะไรคือความคิดที่สอดคล้องกันในการเรียนรู้ของเครื่อง Qn 1. เป็นธรรมหรือไม่ที่จะบอกว่าแนวคิด 'พื้นฐาน' ในการเรียนรู้ของเครื่องสำหรับการประมาณค่าพารามิเตอร์คือ: 'ฟังก์ชั่นการสูญเสีย' [หมายเหตุ: มันเป็นความประทับใจของฉันที่อัลกอริทึมการเรียนรู้ของเครื่องมักจะปรับฟังก์ชั่นการสูญเสียให้เหมาะสมดังนั้นคำถามข้างต้น] Qn 2: มีวรรณกรรมใดบ้างที่พยายามลดช่องว่างระหว่างสถิติและการเรียนรู้ของเครื่อง? [หมายเหตุ: บางทีโดยฟังก์ชั่นการสูญเสียที่เกี่ยวข้องกับโอกาสสูงสุด (เช่น OLS เทียบเท่ากับโอกาสสูงสุดสำหรับข้อผิดพลาดที่กระจายตามปกติ ฯลฯ )]

5
ใช้ lmer สำหรับการทำนาย
สวัสดีฉันมีสองปัญหาที่ฟังเหมือนผู้สมัครทั่วไปสำหรับรุ่นหลายระดับ / ผสมซึ่งฉันไม่เคยใช้ ง่ายขึ้นและสิ่งที่ฉันหวังว่าจะลองเป็นการแนะนำมีดังนี้: ข้อมูลดูเหมือนหลายแถวของแบบฟอร์ม x y innergroup outergroup โดยที่ x คือ covariate ที่เป็นตัวเลขซึ่งฉันต้องการถดถอย y (ตัวแปรตัวเลขอื่น), y แต่ละตัวเป็นของกลุ่มอินเนอร์กรุปและกลุ่มอินเทอร์เนชันแต่ละกลุ่มจะซ้อนกันในกลุ่มนอก (เช่นทั้งหมดในกลุ่มที่อยู่ในกลุ่มเดียวกัน) . น่าเสียดายที่ Innergroup มีหลายระดับ (หลายพันคน) และแต่ละระดับมีการสังเกตการณ์ค่อนข้างน้อยดังนั้นฉันคิดว่ารูปแบบนี้อาจเหมาะสม คำถามของฉันคือ ฉันจะเขียนสูตรหลายระดับได้อย่างไร เมื่อlmer เข้ากับโมเดลแล้วจะมีวิธีการทำนายอย่างไร ฉันมีตัวอย่างของเล่นที่เรียบง่ายขึ้น แต่ไม่พบฟังก์ชันทำนาย () คนส่วนใหญ่ดูเหมือนจะสนใจในการอนุมานมากกว่าการทำนายด้วยเทคนิคแบบนี้ ฉันมีหลายล้านแถวดังนั้นการคำนวณอาจเป็นปัญหา แต่ฉันสามารถลดได้ตามความเหมาะสม ฉันไม่ต้องการทำสิ่งที่สองในบางครั้ง แต่ฉันก็อาจเริ่มคิดเกี่ยวกับมันและเล่นกับมัน ผมมีข้อมูลที่คล้ายกันเหมือน แต่ก่อน แต่ไม่มี x, y และในขณะนี้คือตัวแปรทวินามของแบบฟอร์มNK) y ยังมีการทับซ้อนจำนวนมากแม้ในกลุ่มผู้ใช้ ส่วนใหญ่ของไม่เกิน 2 หรือ 3 (หรือน้อยกว่า) …

2
REML หรือ ML เพื่อเปรียบเทียบโมเดลเอฟเฟกต์ผสมสองแบบที่มีเอฟเฟกต์คงที่แตกต่างกัน แต่มีเอฟเฟกต์แบบสุ่มเหมือนกันหรือไม่
พื้นหลัง: หมายเหตุ: ชุดข้อมูลและรหัส r ของฉันรวมอยู่ด้านล่างข้อความ ฉันต้องการใช้ AIC เพื่อเปรียบเทียบแบบจำลองเอฟเฟกต์สองแบบที่สร้างขึ้นโดยใช้แพ็คเกจ lme4 ในอาร์แต่ละรุ่นมีเอฟเฟกต์คงที่หนึ่งแบบและเอฟเฟกต์แบบสุ่มหนึ่งแบบ เอฟเฟกต์คงที่นั้นแตกต่างกันระหว่างรุ่น แต่เอฟเฟกต์แบบสุ่มยังคงเหมือนเดิมระหว่างรุ่น ฉันพบว่าถ้าฉันใช้ REML = T, model2 มีคะแนน AIC ที่ต่ำกว่า, แต่ถ้าฉันใช้ REML = F, model1 มีคะแนน AIC ที่ต่ำกว่า รองรับการใช้ ML: Zuur และคณะ (2009; PAGE 122) แนะนำว่า "ในการเปรียบเทียบโมเดลที่มีเอฟเฟกต์แบบซ้อน (แต่มีโครงสร้างแบบสุ่มเดียวกัน) ต้องใช้การประเมิน ML ไม่ใช่ REML" สิ่งนี้บ่งบอกว่าฉันควรใช้ ML เนื่องจากเอฟเฟกต์แบบสุ่มของฉันเหมือนกันในทั้งสองรุ่น แต่เอฟเฟกต์คงที่ของฉันแตกต่างกัน [Zuur et al. 2552. …

1
MLE เทียบกับกำลังสองน้อยที่สุดในการแจกแจงความน่าจะเป็นที่เหมาะสม
ความประทับใจที่ฉันได้รับจากบทความหนังสือและบทความต่าง ๆ ที่ฉันอ่านคือวิธีที่แนะนำในการกระจายความน่าจะเป็นในชุดของข้อมูลที่แนะนำโดยใช้การประมาณความน่าจะเป็นสูงสุด (MLE) อย่างไรก็ตามในฐานะนักฟิสิกส์วิธีที่ง่ายกว่าคือการใส่ pdf ของโมเดลให้ตรงกับ pdf เชิงประจักษ์ของข้อมูลโดยใช้กำลังสองน้อยที่สุด ทำไม MLE จึงดีกว่ากำลังสองน้อยที่สุดในการแจกแจงความน่าจะเป็นที่เหมาะสม? ใครช่วยกรุณาชี้ให้ฉันไปที่กระดาษ / หนังสือวิทยาศาสตร์ที่ตอบคำถามนี้ ลางสังหรณ์ของฉันเป็นเพราะ MLE ไม่คิดว่ารูปแบบเสียงและ "เสียง" ในรูปแบบไฟล์ PDF ประจักษ์เป็น heteroscedastic และไม่ปกติ

3
ความน่าจะเป็นข้อมูลสูงสุดสำหรับข้อมูลที่หายไปใน R
บริบท : การถดถอยตามลำดับชั้นด้วยข้อมูลที่ขาดหายไปบางส่วน คำถาม : ฉันจะใช้การประมาณค่าความน่าจะเป็นสูงสุด (FIML) ของข้อมูลแบบเต็มเพื่อจัดการกับข้อมูลที่ขาดหายไปใน R ได้อย่างไร มีแพ็คเกจอะไรที่คุณอยากจะแนะนำและมีขั้นตอนทั่วไปอย่างไรบ้าง? แหล่งข้อมูลออนไลน์และตัวอย่างจะมีประโยชน์มากเช่นกัน PS : ฉันเป็นนักวิทยาศาสตร์ทางสังคมที่เพิ่งเริ่มใช้ตัวเลือกหลายอาร์เป็นตัวเลือก แต่ฉันชอบที่โปรแกรม Mplus ที่สง่างามจัดการกับข้อมูลที่หายไปโดยใช้ FIML ได้อย่างไร น่าเสียดายที่ Mplus ดูเหมือนจะไม่เปรียบเทียบแบบจำลองในบริบทของการถดถอยแบบลำดับชั้นในขณะนี้ (โปรดแจ้งให้เราทราบหากคุณรู้วิธีการทำเช่นนั้น!) ฉันสงสัยว่ามีอะไรที่คล้ายกันใน R หรือไม่? ขอบคุณมาก!

1
โอกาสสูงสุดและวิธีการของช่วงเวลาผลิตตัวประมาณเดียวกันเมื่อใด
ฉันถูกถามคำถามนี้เมื่อวันก่อนและไม่เคยคิดมาก่อน สัญชาตญาณของฉันมาจากข้อดีของตัวประมาณค่าแต่ละตัว ความเป็นไปได้สูงสุดนั้นดีกว่าเมื่อเรามีความมั่นใจในกระบวนการสร้างข้อมูลเพราะต่างจากวิธีการในช่วงเวลาที่ใช้ความรู้ของการกระจายทั้งหมด เนื่องจากตัวประมาณค่า MoM ใช้ข้อมูลที่มีอยู่ในช่วงเวลาเท่านั้นดูเหมือนว่าทั้งสองวิธีควรสร้างค่าประมาณเดียวกันเมื่อสถิติที่เพียงพอสำหรับพารามิเตอร์ที่เราพยายามจะประมาณนั้นเป็นช่วงเวลาของข้อมูล ฉันตรวจสอบผลลัพธ์นี้ด้วยการแจกแจงไม่กี่ครั้ง ปกติ (ค่าเฉลี่ยและความแปรปรวนที่ไม่รู้จัก), เอ็กซ์โปเนนเชียลและปัวซองมีสถิติที่เพียงพอเท่ากับช่วงเวลาของพวกเขาและมีตัวประมาณค่า MLEs และ MoM เหมือนกัน ถ้าเราดู Uniformสถิติที่เพียงพอสำหรับคือและตัวประมาณ MoM และ MLE แตกต่างกัน( 0 , θ )(0,θ)(0,\theta)θθ\thetaสูงสุด( X1, ⋯ , Xยังไม่มีข้อความ)สูงสุด(X1,⋯,Xยังไม่มีข้อความ)\max(X_1,\cdots,X_N) ฉันคิดว่าบางทีนี่อาจเป็นเหตุการณ์ที่แปลกประหลาดของตระกูลเอ็กซ์โพเนนเชียล แต่สำหรับ Laplace ที่มีค่าเฉลี่ยสถิติที่เพียงพอคือ1n∑ | Xผม|1nΣ|Xผม|\frac{1}{n} \sum |X_i| และตัวประมาณค่า MLE และ MoM สำหรับความแปรปรวนไม่เท่ากัน ฉันไม่สามารถแสดงผลลัพธ์ใด ๆ โดยทั่วไปได้ มีใครทราบถึงเงื่อนไขทั่วไปบ้างไหม หรือแม้แต่ตัวอย่างเคาน์เตอร์ก็ช่วยให้ฉันปรับสัญชาตญาณ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.