คำถามติดแท็ก estimation

แท็กนี้กว้างเกินไป โปรดระบุแท็กที่เฉพาะเจาะจงมากขึ้น สำหรับคำถามเกี่ยวกับคุณสมบัติของตัวประมาณค่าเฉพาะให้ใช้แท็ก [estimators] แทน

3
วิธีรับช่วงความมั่นใจในการเปลี่ยนแปลงประชากร r-square
ตัวอย่างง่ายๆสมมติว่ามีตัวแบบถดถอยเชิงเส้นสองแบบ รุ่นที่ 1 มีสามทำนาย, x1a, x2bและx2c แบบจำลอง 2 มีตัวทำนายสามตัวจากแบบจำลอง 1 และสองตัวทำนายเพิ่มเติมx2aและx2b มีสมการถดถอยที่ประชากรประชากรแปรปรวนอธิบายคือเป็น สำหรับรุ่นที่ 1 และρ 2 ( 2 )สำหรับรุ่น 2. แปรปรวนเพิ่มขึ้นอธิบายโดยรุ่น 2 ในประชากรที่อยู่Δ ρ 2 = ρ 2 ( 2 ) - ρ 2 ( 1 )ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δρ2=ρ2(2)−ρ2(1)Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} ฉันสนใจในการได้รับข้อผิดพลาดมาตรฐานและช่วงความเชื่อมั่นสำหรับประมาณการของ 2 ในขณะที่ตัวอย่างเกี่ยวข้องกับตัวทำนาย 3 และ 2 ตามลำดับความสนใจงานวิจัยของฉันเกี่ยวข้องกับตัวทำนายจำนวนต่าง ๆ (เช่น …

1
ทำไมตัวประมาณต้องเป็นอิสระจากพารามิเตอร์
นี่คือข้อความที่ตัดตอนมาจาก "สถิติทางคณิตศาสตร์ที่ทันสมัยพร้อมแอปพลิเคชัน" โดย Devore et al อะไรปริศนาฉันก็คือประมาณไม่สามารถช่วยขึ้นอยู่กับตั้งแต่ตัวอย่างขึ้นอยู่กับพารามิเตอร์θθ\theta
10 estimation 

1
สถิติสำหรับการเรียนรู้ของเครื่องจักรเอกสารที่จะเริ่ม?
ฉันมีพื้นหลังในการเขียนโปรแกรมคอมพิวเตอร์และทฤษฎีจำนวนเบื้องต้น แต่ไม่มีการฝึกอบรมทางสถิติที่แท้จริงและเมื่อเร็ว ๆ นี้ "ค้นพบ" ว่าโลกมหัศจรรย์ของเทคนิคทั้งหมดเป็นจริงโลกทางสถิติ ดูเหมือนว่าความจริงของเมทริกซ์, การสร้างเมทริกซ์, เมตริกซ์มิติสูง, งานแต่งงาน, การประมาณความหนาแน่น, การอนุมานแบบเบย์, พาร์ติชั่นมาร์คอฟ, การคำนวณ eigenvector, PageRank เป็นเทคนิคทางสถิติอย่างมากและอัลกอริทึม . เป้าหมายของฉันคือการสามารถอ่านเอกสารที่พูดถึงสิ่งต่าง ๆ และนำไปใช้หรือสร้างอัลกอริทึมในขณะที่เข้าใจสัญลักษณ์ "การพิสูจน์" และการใช้ข้อโต้แย้งทางสถิติ ฉันเดาว่าสิ่งที่ยากที่สุดคือทำตามบทพิสูจน์ทั้งหมดที่เกี่ยวข้องกับเมทริกซ์ เอกสารพื้นฐานอะไรที่ทำให้ฉันเริ่มต้นได้ หรือตำราเรียนที่ดีกับแบบฝึกหัดที่ควรค่าแก่การทำงาน โดยเฉพาะเอกสารบางอย่างที่ฉันอยากจะเข้าใจอย่างสมบูรณ์คือ: แน่นอนเมทริกซ์เสร็จสมบูรณ์ผ่านการเพิ่มประสิทธิภาพนูน, Candes, Recht, 2008 การแปลง Cauchy อย่างรวดเร็วและการถดถอยเชิงเส้นที่รวดเร็วกว่า, Clarkson และคณะ, 2013 เครื่องฉายภาพแบบสุ่มสำหรับรองรับ Vector Machines, Paul et al, 2013 การประมาณความน่าจะเป็นมิติสูงด้วยโมเดลความหนาแน่นลึก, Rippel, Adams, 2013 การรับการประมาณค่าข้อผิดพลาดที่ลดลงและขอบเขตของข้อผิดพลาดในการเข้าใช้งานสากลสำหรับการสร้างเมทริกซ์ระดับต่ำให้เสร็จสมบูรณ์, Király, …

1
การแจกแจงระยะยาวของเหตุการณ์เวลา
สมมติว่าคุณมีบันทึกของเว็บเซิร์ฟเวอร์ ในบันทึกเหล่านี้คุณมีสิ่งอันดับ: user1, timestamp1 user1, timestamp2 user1, timestamp3 user2, timestamp4 user1, timestamp5 ... เวลาประทับเหล่านี้แสดงเช่นการคลิกของผู้ใช้ ตอนนี้user1จะเข้าชมเว็บไซต์หลายครั้ง (เซสชัน) ในระหว่างเดือนและคุณจะมีจำนวนคลิกจากผู้ใช้แต่ละคนในแต่ละเซสชัน (หากว่าเมื่อผู้ใช้เยี่ยมชมเว็บไซต์ของคุณเขาจะคลิกหลายหน้า) สมมติว่าคุณต้องการแบ่งการคลิกเหล่านี้ในเซสชันที่สร้างพวกเขา แต่คุณไม่มีแหล่งข้อมูลเพิ่มเติมใด ๆ เพียงรายการของการประทับเวลา หากคุณคำนวณการแจกแจงช่วงเวลาระหว่างการคลิกสองครั้งที่ตามมาจากผู้ใช้เดียวกันคุณจะได้รับการแจกแจงแบบยาว โดยสังเขปคุณจะมองหา "พารามิเตอร์ที่ถูกตัด" เช่น N วินาทีซึ่งถ้าเป็นtimestamp_{i+1} - timestamp{i} > Nเช่นนั้นคุณtimestamp_{i+1}จะเป็นจุดเริ่มต้นของเซสชันใหม่ ปัญหาคือว่าการกระจายตัวนี้ในความเป็นจริงเป็นการผสมผสานของตัวแปรสองตัว: X = "ช่วงเวลาระหว่างการคลิกสองครั้งที่เกิดขึ้นในเซสชันเดียวกัน" และ Y = "ช่วงเวลาระหว่างการคลิกครั้งสุดท้ายของเซสชันก่อนหน้าและครั้งแรกของใหม่" คำถามคือวิธีประมาณ N นี้ที่หารการแจกแจงสองแบบ (โดยมีการทับซ้อนกันเล็กน้อย) เพียงแค่ดูการระเบิดของการคลิก

1
ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM
ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
ตัวอย่างหมายถึงการประมาณการกระจายตัวที่ดีที่สุดในแง่หนึ่ง
ตามกฎ (จำนวนมาก / อ่อนแอ) ของจำนวนมากให้คะแนนตัวอย่างบางส่วนของการกระจายตัวอย่างของพวกมันหมายถึงf ∗ ( { x i , i = 1 , ... , N } ) : = 1{ xผม∈ Rn, i = 1 , … , N}{xi∈Rn,i=1,…,N}\{x_i \in \mathbb{R}^n, i=1,\ldots,N\}แปลงเป็นการกระจายตัวหมายถึงทั้งความน่าจะเป็นและในขณะที่ขนาดตัวอย่างN ไปไม่มีที่สิ้นสุดฉ* * * *( { xผม, i = 1 , … , N} ) : …

3
ความน่าจะเป็นของเหตุการณ์ที่ไม่สามารถวัดได้
เรารู้จากทฤษฎีการวัดว่ามีเหตุการณ์ที่ไม่สามารถวัดได้เช่นพวกเขาไม่สามารถวัดได้จากเกอ เราเรียกเหตุการณ์ที่มีความน่าจะเป็นซึ่งการวัดความน่าจะเป็นไม่ได้กำหนดไว้อย่างไร เราจะสร้างข้อความประเภทใดเกี่ยวกับเหตุการณ์ดังกล่าว

2
เงื่อนไขสำหรับ M-estimator เพื่อรวมเข้ากับค่าเฉลี่ยจริง
ตัวอย่าง iid ที่ได้รับจากการแจกแจงแบบเกาส์และตัวประมาณค่า M,คุณสมบัติใดในเพียงพอที่จะรับประกันในความน่าจะเป็น? คือเป็นนูนอย่างเคร่งครัดอย่างเคร่งครัดและเพิ่มขึ้นเพียงพอ?X1,...,Xn∼N(μ,σ)X1,...,Xn∼N(μ,σ)X_1,...,X_n \sim N(\mu,\sigma) μm=argmina∑ρ(|Xi−a|)μm=argmina∑ρ(|Xi−a|)\mu_m = \underset{a}{\operatorname{argmin}} \sum\rho(|X_i-a|)ρρ\rhoμm→μμm→μ\mu_m \rightarrow \muρρ\rho
10 estimation 

3
วิธีการประมาณพารามิเตอร์สำหรับการกระจาย Zipf ตัดทอนจากตัวอย่างข้อมูล?
ฉันมีปัญหากับพารามิเตอร์การประมาณสำหรับ Zipf สถานการณ์ของฉันมีดังต่อไปนี้: ฉันมีชุดตัวอย่าง (วัดจากการทดลองที่สร้างการโทรที่ควรทำตามการแจกแจงแบบ Zipf) ฉันต้องแสดงให้เห็นว่าเครื่องกำเนิดนี้สร้างสายด้วยการกระจาย zipf จริงๆ ฉันอ่านคำถาม & คำตอบนี้แล้วจะคำนวณค่าสัมประสิทธิ์ของกฎหมายของ Zipf จากความถี่สูงสุดหนึ่งชุดได้อย่างไร แต่ฉันไปถึงผลลัพธ์ที่ไม่ดีเพราะฉันใช้การแจกแจงที่ถูกตัดทอน ตัวอย่างเช่นถ้าฉันตั้งค่า "s" เป็น "0.9" สำหรับกระบวนการสร้างถ้าฉันพยายามประเมินค่า "s" ตามที่เขียนไว้ใน Q&A ที่รายงานฉันได้รับ "s" เท่ากับ 0.2 ca ฉันคิดว่านี่เป็นเพราะความจริงที่ว่าฉันใช้การกระจาย TRUNCATED (ฉันต้อง จำกัด zipf ด้วยจุดที่ถูกตัดทอนมันถูกตัดทอน) ฉันจะประมาณค่าพารามิเตอร์ด้วยการกระจาย zipf ที่ถูกตัดทอนได้อย่างไร

3
การประมาณค่าแบบจำลองเลขชี้กำลัง
รูปแบบเลขชี้กำลังเป็นรูปแบบที่อธิบายโดยสมการต่อไปนี้: yi^=β0⋅eβ1x1i+…+βkxkiyi^=β0⋅eβ1x1i+…+βkxki\hat{y_{i}}=\beta_{0}\cdot e^{\beta_{1}x_{1i}+\ldots+\beta_{k}x_{ki}} วิธีที่ใช้กันมากที่สุดที่ใช้ในการประเมินแบบจำลองนี้คือการทำให้เป็นเส้นตรงซึ่งสามารถทำได้อย่างง่ายดายโดยการคำนวณลอการิทึมของทั้งสองฝ่าย อะไรคือแนวทางอื่น ๆ ? ฉันสนใจเป็นพิเศษสำหรับผู้ที่สามารถจัดการในการสังเกตyi=0yi=0y_{i}=0 อัปเดต 31.01.2011 ฉันตระหนักถึงความจริงที่ว่ารุ่นนี้ไม่สามารถสร้างศูนย์ได้ ฉันจะอธิบายรายละเอียดเล็กน้อยเกี่ยวกับสิ่งที่ฉันทำตัวแบบและทำไมฉันถึงเลือกรุ่นนี้ สมมติว่าเราต้องการทำนายจำนวนเงินที่ลูกค้าใช้ในร้าน แน่นอนว่าลูกค้าจำนวนมากกำลังมองหาอยู่และพวกเขาไม่ได้ซื้ออะไรเลยทำไมมี 0 ฉันไม่ต้องการใช้แบบจำลองเชิงเส้นเพราะมันสร้างค่าลบจำนวนมากซึ่งไม่สมเหตุสมผล เหตุผลอื่นคือโมเดลนี้ทำงานได้ดีจริง ๆ ดีกว่าแบบเส้นตรงมาก ฉันใช้อัลกอริทึมทางพันธุกรรมเพื่อประมาณค่าพารามิเตอร์เหล่านั้นดังนั้นมันจึงไม่ใช่วิธีการทางวิทยาศาสตร์ ตอนนี้ฉันอยากจะรู้วิธีจัดการกับปัญหาโดยใช้วิธีการทางวิทยาศาสตร์มากขึ้น สามารถสันนิษฐานได้ว่าตัวแปรส่วนใหญ่หรือทั้งหมดเป็นตัวแปรไบนารี่

1
ค้นหา UMVUE จาก
ให้เป็นตัวแปรสุ่มที่มี pdfX1,X2,...,XnX1,X2,...,XnX_1, X_2, . . . , X_n fX(x∣θ)=θ(1+x)−(1+θ)I(0,∞)(x)fX(x∣θ)=θ(1+x)−(1+θ)I(0,∞)(x)f_X(x\mid\theta) =\theta(1 +x)^{−(1+\theta)}I_{(0,\infty)}(x) ที่ไหน θ>0θ>0\theta >0. ให้ UMVUE จาก1θ1θ\frac{1}{\theta} และคำนวณความแปรปรวน ฉันได้เรียนรู้เกี่ยวกับสองวิธีดังกล่าวเพื่อรับ UMVUE ของ: แครมเมอร์ - ราวล่าง (CRLB) Lehmann-Scheffe Thereom ฉันจะลองทำสิ่งนี้โดยใช้สองตัวแรก ฉันต้องยอมรับว่าฉันไม่เข้าใจสิ่งที่เกิดขึ้นที่นี่อย่างสมบูรณ์และฉันกำลังพยายามแก้ไขปัญหาตัวอย่าง ฉันมีสิ่งนั้นfX(x∣θ)fX(x∣θ)f_X(x\mid\theta) เป็นตระกูลเอ็กซ์โปเนนเชียลแบบพารามิเตอร์เดียวที่มี h(x)=I(0,∞)h(x)=I(0,∞)h(x)=I_{(0,\infty)}, c(θ)=θc(θ)=θc(\theta)=\theta, w(θ)=−(1+θ)w(θ)=−(1+θ)w(\theta)=-(1+\theta), t(x)=log(1+x)t(x)=log(1+x)t(x)=\text{log}(1+x) เนื่องจากไม่ใช่ศูนย์บนผล CRLB จึงถูกนำมาใช้ เรามีw′(θ)=1w′(θ)=1w'(\theta)=1ΘΘ\Theta log fX(x∣θ)=log(θ)−(1+θ)⋅log(1+x)log fX(x∣θ)=log(θ)−(1+θ)⋅log(1+x)\text{log }f_X(x\mid\theta)=\text{log}(\theta)-(1+\theta)\cdot\text{log}(1+x) ∂∂θlog fX(x∣θ)=1θ−log(1+x)∂∂θlog fX(x∣θ)=1θ−log(1+x)\frac{\partial}{\partial \theta}\text{log }f_X(x\mid\theta)=\frac{1}{\theta}-\text{log}(1+x) ∂2∂θ2เข้าสู่ระบบ ฉX( …

3
วิธีที่ดีที่สุดในการประเมินวิธีการประมาณ PDF
ฉันต้องการทดสอบความคิดของฉันที่ฉันคิดว่าดีกว่าสิ่งที่ฉันได้เห็น ฉันอาจจะผิด แต่ฉันต้องการที่จะทดสอบความคิดของฉันและเอาชนะข้อสงสัยของฉันโดยการสังเกตเพิ่มเติมบางอย่าง สิ่งที่ฉันคิดที่จะทำคือ: วิเคราะห์กำหนดชุดของการแจกแจง บางส่วนเป็นแบบง่าย ๆ เช่น Gaussian, uniform, หรือ Tophat แต่สิ่งเหล่านี้ต้องยากและท้าทายเช่นการจำหน่ายซิมป์สัน ใช้งานซอฟต์แวร์ตามการแจกแจงเชิงวิเคราะห์และใช้เพื่อสร้างตัวอย่างบางส่วน เนื่องจากการแจกแจงนั้นถูกกำหนดไว้ในการวิเคราะห์ฉันจึงรู้นิยาม PDF ที่แท้จริงของพวกมันอยู่แล้ว มันเยี่ยมมาก จากนั้นฉันจะทดสอบวิธีการประมาณ PDF ต่อไปนี้กับตัวอย่างด้านบน: วิธีการประมาณค่า PDF ที่มีอยู่ (เช่น KDE ที่มีเมล็ดและแบนด์วิดท์ต่างๆ) ความคิดของฉันเองที่ฉันคิดว่าคุ้มค่าที่จะลอง จากนั้นฉันจะวัดข้อผิดพลาดของการประมาณกับ PDF จริง จากนั้นฉันจะรู้ว่าวิธีการประมาณ PDF แบบใดดีกว่า คำถามของฉันคือ: คำถามที่ 1:มีการปรับปรุงแผนของฉันข้างต้นหรือไม่ Q2:ฉันพบว่ามันยากสำหรับฉันที่จะวิเคราะห์ PDF จริงหลาย ๆ อย่าง มีรายการที่ครอบคลุมของ PDF จริงที่กำหนดไว้มากมายที่วิเคราะห์ด้วยความยากลำบากที่แตกต่างกัน (รวมถึงไฟล์ที่ยากมาก) ที่ฉันสามารถนำกลับมาใช้ใหม่ได้หรือไม่?

1
จากการระบุถึงการประมาณ
ฉันกำลังอ่านชิ้นส่วนของ Pearl (Pearl, 2009, 2nd edition) เกี่ยวกับสาเหตุและการดิ้นรนเพื่อสร้างการเชื่อมโยงระหว่างการระบุแบบไม่มีพารามิเตอร์ของแบบจำลองและการประมาณค่าจริง น่าเสียดายที่ Pearl ตัวเองเงียบมากในหัวข้อนี้ เพื่อให้ตัวอย่างผมมีรูปแบบที่เรียบง่ายในใจมีเส้นทางสาเหตุ,และปัจจัยรบกวนที่มีผลต่อตัวแปรทั้งหมด ,และY นอกจากนี้และเกี่ยวข้องกันโดยไม่มีใครสังเกตอิทธิพล,Y ตามกฎของการคำนวณแคลคูลัสตอนนี้ฉันรู้ว่าการแจกแจงความน่าจะเป็นหลังการแทรกแซง (ไม่ต่อเนื่อง) มอบให้โดย:x→z→yx→z→yx \rightarrow z \rightarrow yw→xw→xw \rightarrow xw→zw→zw \rightarrow zw→yw→yw \rightarrow yxxxyyyx←→yx←→yx \leftarrow \rightarrow y P(y∣do(x))=∑w,z[P(z∣w,x)P(w)∑x[P(y∣w,x,z)P(x∣w)]].P(y∣do(x))=∑w,z[P(z∣w,x)P(w)∑x[P(y∣w,x,z)P(x∣w)]]. P(y \mid do(x)) = \sum_{w,z}\bigl[P(z\mid w,x)P(w)\sum_{x}\bigl[P(y\mid w,x,z)P(x\mid w)\bigr]\bigr]. ฉันรู้ว่าฉันสามารถประเมินปริมาณนี้ได้อย่างไร (ไม่ใช่แบบพารามิเตอร์หรือโดยการแนะนำสมมติฐานแบบพารามิเตอร์) โดยเฉพาะอย่างยิ่งในกรณีที่wwwเป็นชุดของตัวแปรที่รบกวนหลายตัวและปริมาณของดอกเบี้ยจะต่อเนื่อง เพื่อประเมินการกระจายการแทรกแซงล่วงหน้าของข้อมูลที่ดูเหมือนจะเป็นไปไม่ได้ในกรณีนี้ มีใครรู้บ้างว่ามีแอปพลิเคชันของวิธีการของ Pearl ที่จัดการกับปัญหาเหล่านี้หรือไม่? ฉันจะมีความสุขมากสำหรับตัวชี้

1
ตัวประมาณที่ไม่เอนเอียงพร้อมความแปรปรวนขั้นต่ำสำหรับ
ให้เป็นตัวอย่าง feom สุ่มกระจายสำหรับ&lt;1 กล่าวคือX1,...,XnX1,...,Xn X_1, ...,X_nGeometric(θ)Geometric(θ)Geometric(\theta)0&lt;θ&lt;10&lt;θ&lt;10<\theta<1 pθ(x)=θ(1−θ)x−1I{1,2,...}(x)pθ(x)=θ(1−θ)x−1I{1,2,...}(x)p_{\theta}(x)=\theta(1-\theta)^{x-1} I_{\{1,2,...\}}(x) ค้นหาตัวประมาณค่าที่เป็นกลางพร้อมค่าความแปรปรวนขั้นต่ำสำหรับg(θ)=1θg(θ)=1θg(\theta)=\frac{1}{\theta} ความพยายามของฉัน: ตั้งแต่การกระจายทางเรขาคณิตจากครอบครัวชี้แจงสถิติเสร็จสมบูรณ์และเพียงพอสำหรับ\นอกจากนี้หากเป็นตัวประมาณสำหรับมันจะไม่เอนเอียง ดังนั้นโดยทฤษฎีบท Rao-Blackwell และทฤษฎีบท Lehmann-Schefféทฤษฎีบท เป็นตัวประมาณที่เรากำลังมองหา∑Xi∑Xi\sum X_i θθ \thetaT(X)=X1T(X)=X1T(X)=X_1g(θ)g(θ)g(\theta)W(X)=E[X1|∑Xi]W(X)=E[X1|∑Xi]W(X) = E[X_1|\sum X_i] เรามีดังต่อไปนี้: W(X)=∑ti=1iP(X1=i|∑Xi=t)=∑ti=1iP(∑i≥2Xi=t−i)P(X1=i)P(∑i≥1Xi=t)W(X)=∑i=1tiP(X1=i|∑Xi=t)=∑i=1tiP(∑i≥2Xi=t−i)P(X1=i)P(∑i≥1Xi=t)W(X) = \sum_{i=1}^t i\, P(X_1=i|\sum X_i =t) = \sum_{i=1}^t i\, \frac{P(\sum_{i \geq 2} X_i =t-i)P(X_1=i)}{P(\sum_{i \geq 1}X_i =t)} เนื่องจากตัวแปรเป็น iid เรขาคณิตการกระจายผลรวมนั้นมีทั้งแบบทวินามลบ แต่ฉันกำลังมีปัญหาในการประมาณค่าสัมประสิทธิ์ทวินามและให้คำตอบสุดท้ายด้วยแบบฟอร์มที่ดีกว่าถ้าเป็นไปได้ฉันจะดีใจถ้าฉันได้รับความช่วยเหลือ ขอบคุณ! แก้ไข:ฉันไม่คิดว่าพวกคุณเข้าใจความสงสัยของฉัน:ฉันคิดว่าฉันทำทุกขั้นตอนที่ถูกต้องอาจจะลืมฟังก์ชั่นตัวบ่งชี้บางอย่างเท่านั้น นี่คือสิ่งที่ฉันทำ: ...=∑i=1ti(t−i−1n−2)θn−i(1−θ)t−i−n+1θ(1−θ)i−1(t−1n−1)θn(1−θ)t−n=∑i=1ti(t−i−1n−2)(t−1n−1)...=∑i=1ti(t−i−1n−2)θn−i(1−θ)t−i−n+1θ(1−θ)i−1(t−1n−1)θn(1−θ)t−n=∑i=1ti(t−i−1n−2)(t−1n−1)...=\sum_{i=1}^ti\frac{\binom{t-i-1}{n-2}\theta^{n-i}(1-\theta)^{t-i-n+1} \theta(1-\theta)^{i-1}}{\binom{t-1}{n-1}\theta^n(1-\theta)^{t-n}}=\sum_{i=1}^t …

3
วิธีการที่ไม่อิงพารามิเตอร์ต่างกันสำหรับการประเมินการแจกแจงความน่าจะเป็นของข้อมูล
ฉันมีข้อมูลบางส่วนและพยายามที่จะทำให้เส้นโค้งเรียบพอดี อย่างไรก็ตามฉันไม่ต้องการบังคับใช้ความเชื่อก่อนหน้านี้มากเกินไปหรือมีแนวคิดรวบยอดที่แข็งแกร่งเกินไป (ยกเว้นสิ่งที่อยู่ในคำถามที่เหลือของฉัน) หรือสิ่งใด ๆ ที่เฉพาะเจาะจง ฉันแค่ต้องการให้มันพอดีกับเส้นโค้งที่เรียบ (หรือมีการกระจายความน่าจะเป็นที่ดีซึ่งมันอาจมาจาก) วิธีเดียวที่ฉันรู้ในการทำเช่นนี้คือการประมาณความหนาแน่นของเคอร์เนล (KDE) ฉันสงสัยว่าถ้าคนรู้วิธีการอื่นในการประเมินสิ่งนั้น ฉันแค่ต้องการรายชื่อของพวกเขาและจากนั้นฉันสามารถทำวิจัยของตัวเองเพื่อค้นหาสิ่งที่ฉันต้องการใช้ ให้การเชื่อมโยงหรือการอ้างอิงที่ดี (หรือสัญชาตญาณที่ดี) ยินดีต้อนรับเสมอ (และได้รับการสนับสนุน)!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.