คำถามติดแท็ก likelihood

ให้ตัวแปรสุ่มซึ่งเกิดขึ้นจากการแจกแจงแบบแปรผันความน่าจะเป็นถูกกำหนดให้เป็นความน่าจะเป็นของข้อมูลที่สังเกตได้จากการทำงานของXF(X;θ)θ:L(θ)=P(θ;X=x)

2
Hessian ของความน่าจะเป็นของโปรไฟล์ที่ใช้สำหรับการประเมินข้อผิดพลาดมาตรฐาน
คำถามนี้เป็นแรงบันดาลใจโดยหนึ่งในนี้ ฉันค้นหาสองแหล่งและนี่คือสิ่งที่ฉันพบ A. van der Vaart, สถิติ Assymptotic: มันเป็นไปไม่ได้ที่จะคำนวณความเป็นไปได้ของโพรไฟล์อย่างชัดเจน แต่การประเมินเชิงตัวเลขมักเป็นไปได้ จากนั้นความน่าจะเป็นของโปรไฟล์อาจช่วยลดมิติของฟังก์ชันความน่าจะเป็นได้ ฟังก์ชั่นความน่าจะเป็นโพรไฟล์มักจะใช้ในลักษณะเดียวกับฟังก์ชั่นความน่าจะเป็น (ธรรมดา) ของโมเดลพาราเมตริก นอกเหนือจากการจุดของพวกเขาสูงสุดประมาณθ , อนุพันธ์ที่สองที่θจะใช้เป็นประมาณการลบผกผันของเมทริกซ์ความแปรปรวน asymptotic ของ e ๆ การวิจัยล่าสุดดูเหมือนจะตรวจสอบการปฏิบัตินี้θ^θ^\hat\thetaθ^θ^\hat\theta J. Wooldridge การวิเคราะห์ทางเศรษฐมิติของข้อมูลส่วนและข้อมูลพาเนล (เหมือนกันทั้งสองรุ่น): ในฐานะที่เป็นอุปกรณ์สำหรับการศึกษาคุณสมบัติเชิงซีเอ็นซีฟังก์ชันความเข้มข้นของวัตถุประสงค์มีค่า จำกัด เนื่องจากขึ้นอยู่กับค่าของWทั้งหมดซึ่งในกรณีนี้ฟังก์ชั่นวัตถุประสงค์ไม่สามารถเขียนเป็นผลรวมของคำสั่งสรุปอิสระแบบกระจาย การตั้งค่าหนึ่งที่สมการ (12.89) คือผลรวมของฟังก์ชั่น iid เกิดขึ้นเมื่อเราตั้งสมาธิกับเอฟเฟกต์เฉพาะของแต่ละบุคคลจากแบบจำลองข้อมูลแผงบางแบบไม่เชิงเส้น นอกจากนี้ฟังก์ชั่นวัตถุประสงค์ที่เข้มข้นยังมีประโยชน์ในการสร้างความเท่าเทียมของวิธีการประมาณที่แตกต่างกันg(W,β)g(W,β)g(W,\beta)WWW Wooldridge กล่าวถึงปัญหาในบริบทที่กว้างขึ้นของตัวประมาณ M ดังนั้นมันจึงใช้กับตัวประมาณความเป็นไปได้สูงสุดเช่นกัน ดังนั้นเราจึงได้คำตอบสองข้อสำหรับคำถามเดียวกัน มารในความคิดของฉันอยู่ในรายละเอียด สำหรับบางรุ่นเราสามารถใช้ hessian ของความน่าจะเป็นของโปรไฟล์ได้อย่างปลอดภัยสำหรับบางรุ่นที่ไม่ มีผลลัพธ์ทั่วไปใดบ้างที่ให้เงื่อนไขเมื่อเราสามารถทำได้ (หรือไม่สามารถทำได้)?

3
ความน่าจะเป็นและการกระจายแบบมีเงื่อนไขสำหรับการวิเคราะห์แบบเบย์
เราสามารถเขียนทฤษฎีบทของเบย์ได้ p(θ|x)=f(X|θ)p(θ)∫θf(X|θ)p(θ)dθp(θ|x)=f(X|θ)p(θ)∫θf(X|θ)p(θ)dθp(\theta|x) = \frac{f(X|\theta)p(\theta)}{\int_{\theta} f(X|\theta)p(\theta)d\theta} โดยที่คือด้านหลังคือการแจกแจงแบบมีเงื่อนไขและเป็นค่าก่อนหน้าp(θ|x)p(θ|x)p(\theta|x)f(X|θ)f(X|θ)f(X|\theta)p(θ)p(θ)p(\theta) หรือ p(θ|x)=L(θ|x)p(θ)∫θL(θ|x)p(θ)dθp(θ|x)=L(θ|x)p(θ)∫θL(θ|x)p(θ)dθp(\theta|x) = \frac{L(\theta|x)p(\theta)}{\int_{\theta} L(\theta|x)p(\theta)d\theta} โดยที่คือด้านหลังเป็นฟังก์ชันความน่าจะเป็นและเป็นหน้าที่ก่อนp(θ|x)p(θ|x)p(\theta|x)L(θ|x)L(θ|x)L(\theta|x)p(θ)p(θ)p(\theta) คำถามของฉันคือ ทำไมการวิเคราะห์แบบเบย์ทำโดยใช้ฟังก์ชันความน่าจะเป็นและไม่ใช่การแจกแจงแบบมีเงื่อนไข คุณสามารถพูดด้วยคำพูดว่าโอกาสและการแจกแจงแบบมีเงื่อนไขแตกต่างกันอย่างไร? ฉันรู้ว่าโอกาสไม่ได้เป็นการกระจายความน่าจะเป็นและtheta)L(θ|x)∝f(X|θ)L(θ|x)∝f(X|θ)L(\theta|x) \propto f(X|\theta)

2
ทำความเข้าใจเกี่ยวกับการถดถอยโลจิสติกและความน่าจะเป็น
การประมาณค่าพารามิเตอร์ / การฝึกอบรมการถดถอยโลจิสติกทำงานอย่างไร ฉันจะพยายามใส่สิ่งที่ฉันได้รับจนถึง เอาต์พุตคือ y เอาต์พุตของฟังก์ชันลอจิสติกในรูปแบบของความน่าจะเป็นขึ้นอยู่กับค่าของ x: P( y= 1 | x ) = 11 + e- ωTx≡ σ( ωTx )P(y=1|x)=11+e−ωTx≡σ(ωTx)P(y=1|x)={1\over1+e^{-\omega^Tx}}\equiv\sigma(\omega^Tx) P( y= 0 | x ) = 1 - P( y= 1 | x ) = 1 - 11 + e- ωTxP(y=0|x)=1−P(y=1|x)=1−11+e−ωTxP(y=0|x)=1-P(y=1|x)=1-{1\over1+e^{-\omega^Tx}} สำหรับหนึ่งมิติ Odds ที่เรียกว่าถูกกำหนดดังนี้: p ( y= …

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

6
หากคุณใช้การประมาณจุดที่เพิ่มให้มากที่สุดนั่นจะพูดถึงปรัชญาของคุณอย่างไร? (เป็นประจำหรือ Bayesian หรืออย่างอื่น?)
ถ้ามีคนพูดว่า "วิธีการนั้นใช้การประเมินจุดMLEสำหรับพารามิเตอร์ที่เพิ่มสูงสุดดังนั้นจึงเป็นสิ่งที่เกิดขึ้นบ่อยครั้งและยิ่งไม่ใช่ Bayesian"P ( x | θ )P(x|θ)\mathrm{P}(x|\theta) คุณจะเห็นด้วยไหม อัปเดตบนพื้นหลัง : เมื่อเร็ว ๆ นี้ฉันอ่านกระดาษที่อ้างว่าใช้บ่อย ฉันไม่เห็นด้วยกับการเรียกร้องของพวกเขาที่ดีที่สุดฉันรู้สึกว่ามันคลุมเครือ กระดาษไม่ได้กล่าวถึง MLE อย่างชัดเจน (หรือMAPสำหรับเรื่องนั้น) พวกเขาใช้การประมาณค่าจุดและพวกเขาก็ดำเนินการราวกับว่าการประเมินจุดนี้เป็นจริง พวกเขาทำไม่ได้ทำการวิเคราะห์การกระจายตัวตัวอย่างของตัวประมาณค่านี้หรืออะไรทำนองนั้น แบบจำลองค่อนข้างซับซ้อนและดังนั้นการวิเคราะห์ดังกล่าวอาจเป็นไปไม่ได้ พวกเขาไม่ใช้คำว่า 'หลัง' ที่จุดใดก็ได้ พวกเขาเพียงแค่ใช้การประเมินจุดนี้ที่มูลค่าหน้าและดำเนินการในหัวข้อหลักที่น่าสนใจ - อนุมานข้อมูลที่ขาดหายไป ฉันไม่คิดว่าจะมีอะไรในแนวทางของพวกเขาที่ชี้ให้เห็นว่าปรัชญาของพวกเขาคืออะไร พวกเขาอาจจะตั้งใจที่จะเป็นประจำ (เพราะพวกเขารู้สึกว่าจำเป็นต้องสวมปรัชญาบนแขนเสื้อของพวกเขา) แต่วิธีการที่แท้จริงของพวกเขาค่อนข้างง่าย / สะดวก / ขี้เกียจ / คลุมเครือ ตอนนี้ฉันอยากบอกว่าการวิจัยไม่มีปรัชญาใด ๆ อยู่เบื้องหลัง แต่ฉันคิดว่าทัศนคติของพวกเขาในทางปฏิบัติหรือสะดวกกว่า: "ฉันสังเกตุข้อมูล, , และฉันต้องการประเมินข้อมูลที่ขาดหายไป, . มีพารามิเตอร์ที่ควบคุมความสัมพันธ์ระหว่างและ . ฉันไม่สนใจยกเว้นเรื่องที่จะจบ ถ้าฉันมีค่าประมาณสำหรับมันจะทำให้ง่ายต่อการทำนายจากฉันจะเลือกการประมาณค่าของเพราะสะดวกโดยเฉพาะฉันจะเลือกที่เพิ่ม …

3
เหตุใดความน่าจะเป็นในตัวกรองคาลมานจึงคำนวณโดยใช้ผลลัพธ์ตัวกรองแทนผลลัพธ์ที่ราบรื่นกว่า
ฉันใช้ตัวกรองคาลมานในแบบมาตรฐานมาก ระบบจะแสดงโดยสมรัฐและสมการสังเกต{t}xt + 1= Fxเสื้อ+ vt + 1xเสื้อ+1=Fxเสื้อ+โวลต์เสื้อ+1x_{t+1}=Fx_{t}+v_{t+1}Yเสื้อ= Hxเสื้อ+ A zเสื้อ+ wเสื้อYเสื้อ=Hxเสื้อ+AZเสื้อ+Wเสื้อy_{t}=Hx_{t}+Az_{t}+w_{t} ตำราสอนว่าหลังจากใช้ตัวกรองคาลมานแล้วรับ "การคาดการณ์หนึ่งขั้นตอนล่วงหน้า" (หรือ "การประเมินที่กรองแล้ว") เราควรใช้พวกมันเพื่อคำนวณฟังก์ชันโอกาส:x^t | t - 1x^เสื้อ|เสื้อ-1\hat{x}_{t|t-1} ฉYเสื้อ| ผมt - 1, zเสื้อ( yเสื้อ| ผมt - 1, zเสื้อ) = det [ 2 π( HPt | t - 1H'+ R ) ]- 12ประสบการณ์{ - 12( yเสื้อ- ชx^t | …

2
ทำไมความหนาแน่นหลังเป็นสัดส่วนกับความหนาแน่นก่อนหน้าที่ฟังก์ชันโอกาส?
ตามทฤษฎีบท Bayes' ) แต่ตามข้อความทางเศรษฐมิติของฉันมันบอกว่าP ( θ | Y ) α P ( Y | θ ) P ( θ ) ทำไมถึงเป็นเช่นนี้ ฉันไม่เข้าใจว่าทำไมP ( y ) ถึงถูกเพิกเฉยP( y| θ)P( θ ) = P( θ | y) P( y)P(y|θ)P(θ)=P(θ|y)P(y)P(y|\theta)P(\theta) = P(\theta|y)P(y)P( θ | y) ∝ P( y| θ)P( θ )P(θ|y)∝P(y|θ)P(θ)P(\theta|y) \propto P(y|\theta)P(\theta)P( …

1
คำนวณความน่าจะเป็นบันทึกใหม่จากโมเดล R lm อย่างง่าย
ฉันเพียงแค่พยายามคำนวณใหม่ด้วย dnorm () ความน่าจะเป็นของล็อกจากฟังก์ชัน logLik จาก lm model (in R) ใช้งานได้ (เกือบสมบูรณ์แบบ) สำหรับข้อมูลจำนวนมาก (เช่น n = 1,000): > n <- 1000 > x <- 1:n > set.seed(1) > y <- 10 + 2*x + rnorm(n, 0, 2) > mod <- glm(y ~ x, family = gaussian) > logLik(mod) 'log Lik.' …

1
ค่า P และหลักการความน่าจะเป็น
คำถามนี้ขึ้นมาในชั้นเรียน: ถ้าเราใช้ P-ค่าในการประเมินสมมติฐานในการทดลองซึ่งเป็นส่วนหนึ่งของความน่าจะเป็นหลักการที่เราไม่เชื่อฟัง: พอเพียงหรือconditionality ? สัญชาตญาณของฉันจะบอกว่าพอเพียงตั้งแต่คำนวณ p-value อาศัยอยู่กับผลการสังเกตการทดลองและพอเพียงดูเหมือนว่าจะจัดการกับข้อสังเกตอื่น ๆ ที่อยู่ในการทดลองเดียวในขณะที่conditionalityดูเหมือนว่าจะจัดการมากขึ้นด้วยการทดลองที่แตกต่างกัน

4
ฉันจะตีความกราฟความอยู่รอดของโมเดลอันตราย Cox ได้อย่างไร
คุณจะตีความเส้นโค้งการอยู่รอดจากโมเดลอันตรายตามสัดส่วนของค็อกซ์ได้อย่างไร ในตัวอย่างของเล่นนี้สมมติว่าเรามีโมเดลอันตรายตามสัดส่วนในageตัวแปรในkidneyข้อมูลและสร้างเส้นโค้งการอยู่รอด library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() ตัวอย่างเช่น ณ เวลาคำสั่งใดเป็นจริง หรือทั้งสองอย่างผิดปกติ?200200200 คำแถลงที่ 1: เราจะเหลือวิชา 20% (เช่นถ้าเรามีคนโดยวันที่เราควรเหลืออีกประมาณ ) 100010001000200200200200200200 งบ 2: สำหรับคนที่ได้รับหนึ่งเขา / เธอมีมีโอกาสที่จะอยู่รอดได้ในวันที่20020%20%20\%200200200 ความพยายามของฉัน: ฉันไม่คิดว่าทั้งสองงบจะเหมือนกัน (แก้ไขฉันถ้าฉันผิด) เนื่องจากเราไม่ได้มีการสันนิษฐาน iid (เวลารอดสำหรับทุกคนไม่ได้มาจากการกระจายอย่างอิสระ) มันคล้ายกับการถดถอยโลจิสติกในคำถามของฉันที่นี่อัตราความเป็นอันตรายของแต่ละคนขึ้นอยู่กับสำหรับบุคคลนั้นβTxβTx\beta^Tx

1
การประมาณแบบเบย์ที่มี "แบนก่อน" เหมือนกับการประเมินความเป็นไปได้สูงสุดหรือไม่?
ในสายวิวัฒนาการต้นไม้ phylogenetic มักถูกสร้างขึ้นโดยใช้ MLE หรือการวิเคราะห์แบบเบย์ อาจเกิดการแบนก่อนใช้ในการประเมินแบบเบย์ ตามที่ฉันเข้าใจแล้วการประมาณการแบบเบย์เป็นการประมาณการความเป็นไปได้ที่จะรวมเอาการประเมินก่อนหน้านี้ คำถามของฉันคือถ้าคุณใช้ความคิดก่อนหน้านี้มันแตกต่างจากการวิเคราะห์ความน่าจะเป็นหรือไม่?

1
สังเกตข้อมูลชาวประมงภายใต้การเปลี่ยนแปลง
จาก "ในทุกโอกาส: การสร้างแบบจำลองทางสถิติและการอนุมานโดยใช้โอกาส" โดย Y. Pawitan ความน่าจะเป็นของการกำหนดพารามิเตอร์ใหม่ถูกกำหนดเป็น ดังนั้นถ้าgเป็นแบบหนึ่งต่อหนึ่งดังนั้นL ^ * (\ psi) = L (g ^ {- 1} (\ psi)) (หน้า 45) ฉันพยายามแสดงแบบฝึกหัด 2.20 ซึ่งระบุว่าถ้า\ thetaเป็นสเกลาร์ (และฉันคิดว่าgควรเป็นฟังก์ชันสเกลาร์เช่นกัน) จากนั้น ฉัน ^ * (g (\ hat {\ theta})) = I ( \ hat {\ theta}) \ left | \ frac {\ partial …

2
ตัวประเมิน MCMC ที่แข็งแกร่งของความเป็นไปได้ที่จะเกิดขึ้น?
ฉันพยายามคำนวณความเป็นไปได้เล็กน้อยสำหรับแบบจำลองทางสถิติด้วยวิธีมอนติคาร์โล: ฉ( x ) = ∫ฉ( x ∣ θ ) π( θ )dθฉ(x)=∫ฉ(x|θ)π(θ)dθf(x) = \int f(x\mid\theta) \pi(\theta)\, d\theta ความเป็นไปได้มีความประพฤติดี - ราบรื่นเว้าเข้าสู่ระบบ - แต่มิติสูง ฉันได้ลองการสุ่มตัวอย่างที่สำคัญ แต่ผลลัพธ์นั้นไม่น่าสนใจและขึ้นอยู่กับข้อเสนอที่ฉันใช้ ฉันพิจารณาทำมิลโตเนียนมอนติคาร์โลสั้น ๆ เพื่อคำนวณตัวอย่างหลังสมมติว่ามีชุดเครื่องแบบมาก่อนθθ\thetaและการใช้ค่าเฉลี่ยฮาร์โมนิจนกระทั่งผมเห็นนี้ บทเรียนที่ได้เรียนรู้ค่าเฉลี่ยฮาร์มอนิกสามารถมีความแปรปรวนไม่สิ้นสุด มีตัวประมาณ MCMC ทางเลือกที่เกือบจะง่าย แต่มีความแปรปรวนที่มีพฤติกรรมดีหรือไม่?

1
การคำนวณโอกาสในการบันทึกสำหรับ MLE ที่กำหนด (เชนมาร์คอฟ)
ขณะนี้ฉันทำงานร่วมกับมาร์คอฟเชนและคำนวณค่าความน่าจะเป็นสูงสุดโดยใช้ความน่าจะเป็นในการเปลี่ยนแปลงตามที่แนะนำโดยหลาย ๆ แหล่ง (เช่นจำนวนช่วงการเปลี่ยนภาพจาก a ถึง b หารด้วยจำนวนการเปลี่ยนภาพโดยรวมจาก a ไปยังโหนดอื่น ๆ ) ตอนนี้ฉันต้องการคำนวณความน่าจะเป็นของ MLE
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.