คำถามติดแท็ก inference

สรุปผลเกี่ยวกับพารามิเตอร์ประชากรจากข้อมูลตัวอย่าง ดู https://en.wikipedia.org/wiki/Inference และ https://en.wikipedia.org/wiki/Statistical_inference

7
คุณจะอธิบายความสำคัญทางสถิติต่อผู้ที่ไม่มีพื้นฐานทางสถิติได้อย่างไร
ที่มา: ฉันต้องทำการวิเคราะห์ข้อมูลสำหรับลูกค้า (ทนายความบางประเภท) ซึ่งเป็นผู้เริ่มต้นแน่นอนในสถิติ เขาถามฉันว่าคำว่า "นัยสำคัญทางสถิติ" หมายถึงอะไรและฉันพยายามอธิบายจริงๆ ... แต่เนื่องจากฉันไม่เก่งในการอธิบายสิ่งที่ฉันล้มเหลว;)

1
Neg Binomial และ Jeffreys 'ก่อนหน้า
ฉันพยายามรับ Jeffreys ก่อนเพื่อการกระจายแบบทวินามลบ ฉันไม่สามารถดูว่าฉันผิดไปไหนดังนั้นถ้ามีคนช่วยชี้ให้เห็นว่าจะได้รับการชื่นชม เอาล่ะเพื่อให้สถานการณ์อย่างนี้ผมจะเปรียบเทียบการกระจายก่อนที่ได้รับใช้ทวินามและทวินามลบที่ (ในทั้งสองกรณี) มีการทดลองและประสบความสำเร็จ ฉันได้คำตอบที่ถูกสำหรับเคสทวินาม แต่ไม่ใช่สำหรับลบทวินามnnnม.ม.m ลองโทรฟรีย์ก่อนtheta) จากนั้นπJ( θ )πJ(θ)\pi_J(\theta) πJ( θ ) ∝ [ I( θ ) ]1 / 2.πJ(θ)α[ผม(θ)]1/2. \pi_J(\theta)\propto [I(\theta)]^{1/2}. ภายใต้เงื่อนไขความสม่ำเสมอ (ปฏิบัติตามที่เรากำลังเผชิญกับตระกูลเอ็กซ์โปเนนเชียล) ผม( θ ) = - E( ∂2เข้าสู่ระบบL ( θ | x )∂θ2)ผม(θ)=-E(∂2เข้าสู่ระบบ⁡L(θ|x)∂θ2) I(\theta)=-E\left(\frac{\partial^2 \log L(\theta|x)}{\partial \theta^2}\right) โดยที่ลบทวินามคือxด้านบน expression (จำนวนความสำเร็จทั้งหมดmได้รับการแก้ไขแล้วnไม่ใช่) การกระจายตัว - ฉันคิดว่า …

1
การประมาณความน่าจะเป็นของความสำเร็จโดยอ้างอิงจากประชากร
สมมติว่าคุณมีสถานการณ์ต่อไปนี้: คุณสังเกตผู้เล่นโบว์ลิ่ง 1,000 คนซึ่งแต่ละคนเล่นเกมค่อนข้างน้อย (พูด 1 ถึง 20) คุณจดบันทึกเปอร์เซ็นต์การนัดหยุดงานสำหรับผู้เล่นแต่ละคนที่มีต่อจำนวนเกมที่ผู้เล่นแต่ละคนเล่น ผู้เล่นโบว์ลิ่งใหม่เข้ามาและเล่น 10 เกมและได้รับ 3 นัด การแจกแจงตามจำนวนนัดสำหรับผู้เล่นใด ๆ ถือว่าเป็นทวินาม ฉันต้องการประเมินความน่าจะเป็น "จริง" ของความสำเร็จสำหรับผู้เล่นรายนั้น โปรดรับทราบสิ่งต่อไปนี้: นี่ไม่ใช่สถานการณ์จริงหรือเป็นปัญหาของโรงเรียน แต่เป็นปัญหาที่คิดด้วยตนเอง ฉันเป็นนักเรียนที่มีการศึกษาสถิติน้อยกว่าหลักสูตรสถิติ 101 ฉันรู้เพียงเล็กน้อยเกี่ยวกับการอนุมานเช่นการประมาณความเป็นไปได้สูงสุด ... ดังนั้นอย่าลังเลที่จะบอกพื้นที่ในสถิติที่ฉันควรอ่าน ปัญหาของฉันอาจขาดข้อมูลหรือถ้ามันจะเป็นประโยชน์สำหรับการพูดการกระจายความน่าจะเป็นของความสำเร็จให้เป็นปกติประมาณโปรดบอกฉัน ขอบคุณมาก

1
R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน
mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
อะไรคือความแตกต่างระหว่าง VAE และ Stochastic Backpropagation สำหรับ Deep Generative Model?
อะไรคือความแตกต่างระหว่างการเข้ารหัสอัตโนมัติ Bay Variation BayesและStochastic Backpropagation สำหรับ Deep Generative Model ? การอนุมานในทั้งสองวิธีนำไปสู่ผลลัพธ์เดียวกันหรือไม่ ฉันไม่ได้ตระหนักถึงการเปรียบเทียบที่ชัดเจนระหว่างทั้งสองวิธีแม้จะมีผู้เขียนทั้งสองกลุ่มอ้างอิงซึ่งกันและกัน

1
เกี่ยวกับการมีอยู่ของ UMVUE และทางเลือกของตัวประมาณของในประชากร
Letเป็นตัวอย่างที่สุ่มมาจากประชากรที่R(X1,X2,⋯,Xn)(X1,X2,⋯,Xn)(X_1,X_2,\cdots,X_n)N(θ,θ2)N(θ,θ2)\mathcal N(\theta,\theta^2)θ∈Rθ∈R\theta\in\mathbb R ฉันกำลังมองหา UMVUE ของ\θθ\theta ข้อต่อความหนาแน่นของคือ(X1,X2,⋯,Xn)(X1,X2,⋯,Xn)(X_1,X_2,\cdots,X_n) fθ(x1,x2,⋯,xn)=∏i=1n1θ2π−−√exp[−12θ2(xi−θ)2]=1(θ2π−−√)nexp[−12θ2∑i=1n(xi−θ)2]=1(θ2π−−√)nexp[1θ∑i=1nxi−12θ2∑i=1nx2i−n2]=g(θ,T(x))h(x)∀(x1,⋯,xn)∈Rn,∀θ∈Rfθ(x1,x2,⋯,xn)=∏i=1n1θ2πexp⁡[−12θ2(xi−θ)2]=1(θ2π)nexp⁡[−12θ2∑i=1n(xi−θ)2]=1(θ2π)nexp⁡[1θ∑i=1nxi−12θ2∑i=1nxi2−n2]=g(θ,T(x))h(x)∀(x1,⋯,xn)∈Rn,∀θ∈R\begin{align} f_{\theta}(x_1,x_2,\cdots,x_n)&=\prod_{i=1}^n\frac{1}{\theta\sqrt{2\pi}}\exp\left[-\frac{1}{2\theta^2}(x_i-\theta)^2\right] \\&=\frac{1}{(\theta\sqrt{2\pi})^n}\exp\left[-\frac{1}{2\theta^2}\sum_{i=1}^n(x_i-\theta)^2\right] \\&=\frac{1}{(\theta\sqrt{2\pi})^n}\exp\left[\frac{1}{\theta}\sum_{i=1}^n x_i-\frac{1}{2\theta^2}\sum_{i=1}^nx_i^2-\frac{n}{2}\right] \\&=g(\theta,T(\mathbf x))h(\mathbf x)\qquad\forall\,(x_1,\cdots,x_n)\in\mathbb R^n\,,\forall\,\theta\in\mathbb R \end{align} ที่และ 1g(θ,T(x))=1(θ2π√)nexp[1θ∑ni=1xi−12θ2∑ni=1x2i−n2]g(θ,T(x))=1(θ2π)nexp⁡[1θ∑i=1nxi−12θ2∑i=1nxi2−n2]g(\theta, T(\mathbf x))=\frac{1}{(\theta\sqrt{2\pi})^n}\exp\left[\frac{1}{\theta}\sum_{i=1}^n x_i-\frac{1}{2\theta^2}\sum_{i=1}^nx_i^2-\frac{n}{2}\right]h(x)=1h(x)=1h(\mathbf x)=1 ที่นี่ขึ้นอยู่กับและถึงและเป็นอิสระจาก\ดังนั้นโดยทฤษฎีบทตัวประกอบฟิชเชอร์ - เนย์แมนสถิติสองมิติก็เพียงพอแล้วสำหรับ\gggθθ\thetax1,⋯,xnx1,⋯,xnx_1,\cdots,x_nT(x)=(∑ni=1xi,∑ni=1x2i)T(x)=(∑i=1nxi,∑i=1nxi2)T(\mathbf x)=\left(\sum_{i=1}^nx_i,\sum_{i=1}^nx_i^2\right)hhhθθ\thetaT(X)=(∑ni=1Xi,∑ni=1X2i)T(X)=(∑i=1nXi,∑i=1nXi2)T(\mathbf X)=\left(\sum_{i=1}^nX_i,\sum_{i=1}^nX_i^2\right)θθ\theta อย่างไรก็ตามไม่ได้เป็นสถิติที่สมบูรณ์ นี่เป็นเพราะTTTEθ⎡⎣2(∑i=1nXi)2−(n+1)∑i=1nX2i⎤⎦=2n(1+n)θ2−(n+1)2nθ2=0∀θEθ[2(∑i=1nXi)2−(n+1)∑i=1nXi2]=2n(1+n)θ2−(n+1)2nθ2=0∀θE_{\theta}\left[2\left(\sum_{i=1}^n X_i\right)^2-(n+1)\sum_{i=1}^nX_i^2\right]=2n(1+n)\theta^2-(n+1)2n\theta^2=0\qquad\forall\,\theta และฟังก์ชั่นไม่ใช่ศูนย์เหมือนกันg∗(T(X))=2(∑ni=1Xi)2−(n+1)∑ni=1X2ig∗(T(X))=2(∑i=1nXi)2−(n+1)∑i=1nXi2g^*(T(\mathbf X))=2\left(\sum_{i=1}^n X_i\right)^2-(n+1)\sum_{i=1}^nX_i^2 แต่ฉันรู้ว่าเป็นสถิติที่น้อยที่สุดTTT ฉันไม่แน่ใจ แต่ฉันคิดว่าสถิติที่สมบูรณ์อาจไม่มีอยู่สำหรับตระกูลเลขชี้กำลังแบบโค้งนี้ แล้วฉันจะรับ UMVUE ได้อย่างไร? หากสถิติที่สมบูรณ์ไม่มีอยู่ตัวประมาณที่ไม่มีอคติ (เช่นในกรณีนี้) ซึ่งเป็นฟังก์ชันของสถิติที่เพียงพอเพียงเล็กน้อยคือ UMVUE หรือไม่ (หัวข้อที่เกี่ยวข้อง: เงื่อนไขที่จำเป็นสำหรับตัวประมาณที่ไม่มีอคติให้เป็น UMVUE คืออะไร …

2
UMVUE จากในขณะที่สุ่มตัวอย่างจากประชากร
ปล่อยเป็นตัวอย่างแบบสุ่มจากความหนาแน่น(X1,X2,…,Xn)(X1,X2,…,Xn)(X_1,X_2,\ldots,X_n)fθ(x)=θxθ−110<x<1,θ>0fθ(x)=θxθ−110<x<1,θ>0f_{\theta}(x)=\theta x^{\theta-1}\mathbf1_{00 ฉันกำลังพยายามที่จะหา UMVUE ของtheta}θ1+θθ1+θ\frac{\theta}{1+\theta} ความหนาแน่นรอยต่อของคือ(X1,…,Xn)(X1,…,Xn)(X_1,\ldots,X_n) fθ(x1,⋯,xn)=θn(∏i=1nxi)θ−110<x1,…,xn<1=exp[(θ−1)∑i=1nlnxi+nlnθ+ln(10<x1,…,xn<1)],θ>0fθ(x1,⋯,xn)=θn(∏i=1nxi)θ−110<x1,…,xn<1=exp⁡[(θ−1)∑i=1nln⁡xi+nln⁡θ+ln⁡(10<x1,…,xn<1)],θ>0\begin{align} f_{\theta}(x_1,\cdots,x_n)&=\theta^n\left(\prod_{i=1}^n x_i\right)^{\theta-1}\mathbf1_{00 \end{align} เนื่องจากประชากร pdfเป็นสมาชิกของตระกูลเลขชี้กำลังหนึ่งพารามิเตอร์นี่แสดงให้เห็นว่าสถิติที่เพียงพอสำหรับคือfθfθf_{\theta}θθ\thetaT(X1,…,Xn)=∑i=1nlnXiT(X1,…,Xn)=∑i=1nln⁡XiT(X_1,\ldots,X_n)=\sum_{i=1}^n\ln X_i ตั้งแต่ตอนแรกจะให้ UMVUE ของให้ฉัน ทฤษฎีบท Lehmann-Scheffe ถ้าไม่แน่ใจว่าความคาดหวังที่มีเงื่อนไขนี้สามารถพบได้โดยตรงหรือหนึ่งที่มีการพบว่าเงื่อนไขการจำหน่าย x_iE(X1)=θ1+θE(X1)=θ1+θE(X_1)=\frac{\theta}{1+\theta}E(X1∣T)E(X1∣T)E(X_1\mid T)θ1+θθ1+θ\frac{\theta}{1+\theta}X1∣∑ni=1lnXiX1∣∑i=1nln⁡XiX_1\mid \sum_{i=1}^n\ln X_i ในทางกลับกันฉันพิจารณาวิธีการต่อไปนี้: เรามีเพื่อให้{2n}Xi∼i.i.dBeta(θ,1)⟹−2θlnXi∼i.i.dχ22Xi∼i.i.dBeta(θ,1)⟹−2θln⁡Xi∼i.i.dχ22X_i\stackrel{\text{i.i.d}}{\sim}\text{Beta}(\theta,1)\implies -2\theta\ln X_i\stackrel{\text{i.i.d}}{\sim}\chi^2_2−2θT∼χ22n−2θT∼χ2n2-2\theta\, T\sim\chi^2_{2n} ดังนั้น TH เพื่อช่วงเวลาดิบเกี่ยวกับศูนย์ตามที่คำนวณโดยใช้ไคสแควร์เป็น pdfrrr−2θT−2θT-2\theta\,TE(−2θT)r=2rΓ(n+r)Γ(n),n+r>0E(−2θT)r=2rΓ(n+r)Γ(n),n+r>0E(-2\theta\,T)^r=2^r\frac{\Gamma\left(n+r\right)}{\Gamma\left(n\right)}\qquad ,\,n+r>0 ดังนั้นดูเหมือนว่าสำหรับทางเลือกที่แตกต่างกันของจำนวนเต็ม , ฉันจะได้รับประมาณเป็นกลาง (และ UMVUEs) ของอำนาจแตกต่างกันของจำนวนเต็ม\ตัวอย่างเช่นและให้ฉันเป็น UMVUE และตามลำดับrrrθθ\thetaE(−Tn)=1θE(−Tn)=1θE\left(-\frac{T}{n}\right)=\frac{1}{\theta}E(1−nT)=θE(1−nT)=θE\left(\frac{1-n}{T}\right)=\theta1θ1θ\frac{1}{\theta}θθ\theta ตอนนี้เมื่อเรามี1}θ>1θ>1\theta>1θ1+θ=(1+1θ)−1=1−1θ+1θ2−1θ3+⋯θ1+θ=(1+1θ)−1=1−1θ+1θ2−1θ3+⋯\frac{\theta}{1+\theta}=\left(1+\frac{1}{\theta}\right)^{-1}=1-\frac{1}{\theta}+\frac{1}{\theta^2}-\frac{1}{\theta^3}+\cdots ฉันสามารถรับ UMVUE ได้และอื่น ๆ ดังนั้นการรวม UMVUE เหล่านี้เป็นฉันจะได้รับที่จำเป็น UMVUE …

2
เหตุใดตัวประมาณจึงถือเป็นตัวแปรสุ่ม
ความเข้าใจของฉันเกี่ยวกับสิ่งที่ตัวประมาณและตัวประมาณคือ: ตัวประมาณ: กฎในการคำนวณค่าประมาณ: ค่าที่คำนวณจากชุดข้อมูลตามตัวประมาณ ระหว่างคำสองคำนี้ถ้าฉันถูกขอให้ชี้ให้เห็นตัวแปรแบบสุ่มฉันจะบอกว่าการประมาณนั้นเป็นตัวแปรสุ่มเนื่องจากค่าของมันจะเปลี่ยนแบบสุ่มตามตัวอย่างในชุดข้อมูล แต่คำตอบที่ฉันได้รับคือ Estimator เป็นตัวแปรสุ่มและการประมาณการไม่ใช่ตัวแปรสุ่ม ทำไมถึงเป็นอย่างนั้น?

2
คำขออ้างอิง: สถิติคลาสสิคสำหรับนักวิทยาศาสตร์ด้านข้อมูลการทำงาน
ฉันเป็นนักวิทยาศาสตร์ข้อมูลที่ทำงานด้วยประสบการณ์ที่แข็งแกร่งในการถดถอยอัลกอริธึมชนิดการเรียนรู้ของเครื่องอื่น ๆ และการเขียนโปรแกรม (ทั้งสำหรับการวิเคราะห์ข้อมูลและการพัฒนาซอฟต์แวร์ทั่วไป) ชีวิตการทำงานส่วนใหญ่ของฉันมุ่งเน้นไปที่การสร้างแบบจำลองเพื่อความแม่นยำในการคาดการณ์ (ทำงานภายใต้ข้อ จำกัด ทางธุรกิจต่าง ๆ ) และการสร้างท่อส่งข้อมูลเพื่อสนับสนุนงานของฉันเอง ฉันไม่มีสถิติการฝึกอบรมอย่างเป็นทางการการศึกษาในมหาวิทยาลัยของฉันเน้นที่คณิตศาสตร์บริสุทธิ์ เช่นนี้ทำให้พลาดการเรียนรู้หัวข้อคลาสสิกจำนวนมากโดยเฉพาะการทดสอบสมมติฐานยอดนิยมต่างๆและเทคนิคการอนุมาน มีการอ้างอิงใด ๆ สำหรับหัวข้อเหล่านี้ที่เหมาะสำหรับใครบางคนที่มีพื้นฐานและระดับประสบการณ์หรือไม่? ฉันสามารถจัดการ (และชื่นชม) ความแม่นยำทางคณิตศาสตร์และเพลิดเพลินไปกับมุมมองอัลกอริทึม ฉันมักจะชอบอ้างอิงที่เสนอแบบฝึกหัดที่มีผู้อ่านซึ่งมีทั้งแบบ (หรืออย่างใดอย่างหนึ่ง) โฟกัสการเขียนโปรแกรมทางคณิตศาสตร์และ (หรือ)

1
มีสถิติที่แท้จริงใด ๆ ที่อยู่เบื้องหลัง
ฉันกำลังอ่านหนังสือเกี่ยวกับ sabermetrics โดยเฉพาะ Mathletics ของ Wayne Winston และในบทแรกเขาแนะนำปริมาณที่สามารถใช้ในการทำนายอัตราการชนะของทีม: และดูเหมือนว่าเขาจะบอกใบ้ว่าครึ่งทางของฤดูกาลมันสามารถใช้ทำนายอัตราการชนะได้ดีกว่า อัตราการชนะในครึ่งแรกของฤดูกาล เขาวางสูตรไว้ที่ ที่คืออัตราส่วนของคะแนนที่ทำแต้มได้ จากนั้นเขาก็พบว่าเลขชี้กำลังเหมาะสมที่สุดในการทำนาย% ของเกมที่ชนะสำหรับ 3 กีฬาและหา Points Scored2Points Scored2+Points Against2≈% Games Won,Points Scored2Points Scored2+Points Against2≈% Games Won,\frac{\text{Points Scored}^2 }{\text{Points Scored}^2 + \text{Points Against}^2} \approx \text{% Games Won},RexpRexp+1,RexpRexp+1, \frac{R^{\text{exp}}}{R^{\text{exp}} + 1}, RRRBaseball: exp≈2,Baseball: exp≈2, \text{Baseball: exp} \approx 2 , Football: exp≈2.7,Football: …

1
จะตีความการทดสอบ Cochran-Mantel-Haenszel ได้อย่างไร
ฉันกำลังทดสอบความเป็นอิสระของตัวแปรสองตัวคือ A และ B แบ่งเป็นชั้น ๆ โดย C. A และ B เป็นตัวแปรไบนารีและ C คือหมวดหมู่ (5 ค่า) ทำการทดสอบที่แม่นยำของฟิชเชอร์สำหรับ A และ B (ชั้นทั้งหมดรวมกัน) ฉันได้รับ: ## (B) ## (A) FALSE TRUE ## FALSE 1841 85 ## TRUE 915 74 OR: 1.75 (1.25 -- 2.44), p = 0.0007 * โดยที่ OR เป็นอัตราต่อรอง (ประมาณและช่วงความมั่นใจ 95%) …

3
แนวคิดของ 'การพิสูจน์ทางสถิติ'
เมื่อข่าวพูดถึงสิ่งที่ 'พิสูจน์ทางสถิติ' พวกเขาใช้แนวคิดทางสถิติที่ถูกต้องกำหนดอย่างถูกต้องใช้มันผิดหรือแค่ใช้รูปแบบโอออกซีซอน ฉันจินตนาการว่า 'การพิสูจน์ทางสถิติ' ไม่ใช่สิ่งที่ดำเนินการเพื่อพิสูจน์สมมติฐานหรือการพิสูจน์ทางคณิตศาสตร์ แต่เป็นการทดสอบทางสถิติมากกว่า
10 inference  proof 

4
ผลกระทบของการอภิปรายในปัจจุบันที่มีนัยสำคัญทางสถิติ
ในช่วงไม่กี่ปีที่ผ่านมานักวิชาการหลายคนได้ยกปัญหาอันตรายของการทดสอบสมมติฐานทางวิทยาศาสตร์ขนานนามว่า "ระดับความเป็นอิสระของนักวิจัย" ซึ่งหมายความว่านักวิทยาศาสตร์มีทางเลือกมากมายให้ทำในระหว่างการวิเคราะห์ที่มีอคติต่อการค้นหาด้วย p-value <5% ทางเลือกที่คลุมเครือเหล่านี้จะยกตัวอย่างเช่นกรณีที่จะรวมซึ่งในกรณีนี้จะถูกจัดประเภทเป็นค่าผิดปกติวิ่งข้อกำหนดรูปแบบต่าง ๆ นานาจนบางสิ่งบางอย่างที่แสดงให้เห็นขึ้นไม่ได้เผยแพร่ผล null ฯลฯ (กระดาษที่จุดประกายการอภิปรายครั้งนี้ในด้านจิตวิทยาเป็นที่นี่ , ดูบทความ Slate ยอดนิยมและการติดตามการอภิปรายโดย Andrew Gelman ที่นี่และนิตยสาร Time ยังได้สัมผัสกับหัวข้อนี้ที่นี่ ) ก่อนหนึ่งคำถามเพื่อความกระจ่าง: นิตยสารThe Timeเขียน "พลัง 0.8 หมายถึงว่ามีการทดสอบสมมติฐานจริงสิบข้อมีเพียงสองข้อเท่านั้นที่จะถูกตัดออกเพราะผลกระทบของข้อมูลเหล่านั้นจะไม่ถูกหยิบขึ้นมาในข้อมูล" ผมไม่แน่ใจว่าวิธีการที่เหมาะกับนี้ในความหมายของอำนาจหน้าที่ที่ผมพบในตำราเรียนซึ่งเป็นน่าจะเป็นของการปฏิเสธโมฆะเป็นหน้าที่ของพารามิเตอร์\ด้วยต่างกันเรามีพลังที่แตกต่างกันดังนั้นฉันจึงไม่เข้าใจคำพูดที่กล่าวมาข้างต้นθθθ\thetaθθ\theta ประการที่สองความหมายของการวิจัย: ในสาขารัฐศาสตร์ / เศรษฐศาสตร์ของฉันนักวิชาการใช้ข้อมูลทั้งหมดของประเทศในปีเดียว ดังนั้นเราไม่ควรกังวลกับตัวอย่างที่เล่นซอนี่? ปัญหาของการรันการทดสอบหลายครั้ง แต่การรายงานเพียงแบบเดียวสามารถแก้ไขได้โดยข้อเท็จจริงที่ว่าคนอื่นในสาขาวิชาจะทดสอบกระดาษของคุณอีกครั้งและทำให้คุณผิดหวังทันทีที่ไม่ได้ผลลัพธ์ที่ดี? การคาดการณ์นี้นักวิชาการในสาขาของฉันมีแนวโน้มที่จะรวมrobustness checkส่วนที่พวกเขาแสดงให้เห็นว่าสเปคหลายรุ่นไม่ได้เปลี่ยนผล เพียงพอหรือไม่ Andrew Gelman และคนอื่น ๆ ยกประเด็นที่ไม่ว่าข้อมูลจะเป็นไปได้เสมอในการค้นหาและเผยแพร่ "รูปแบบ" บางอย่างที่ไม่ได้มีอยู่จริง แต่สิ่งนี้ไม่ควรกังวลเนื่องจากข้อเท็จจริงที่ว่า "รูปแบบ" เชิงประจักษ์จะต้องได้รับการสนับสนุนจากทฤษฎีและทฤษฎีการแข่งขันภายในวินัยจะมีส่วนร่วมในการอภิปราย / การแข่งขันเพื่อค้นหาว่าค่ายใดสามารถหา …

1
ค้นหา UMVUE จาก
ให้เป็นตัวแปรสุ่มที่มี pdfX1,X2,...,XnX1,X2,...,XnX_1, X_2, . . . , X_n fX(x∣θ)=θ(1+x)−(1+θ)I(0,∞)(x)fX(x∣θ)=θ(1+x)−(1+θ)I(0,∞)(x)f_X(x\mid\theta) =\theta(1 +x)^{−(1+\theta)}I_{(0,\infty)}(x) ที่ไหน θ>0θ>0\theta >0. ให้ UMVUE จาก1θ1θ\frac{1}{\theta} และคำนวณความแปรปรวน ฉันได้เรียนรู้เกี่ยวกับสองวิธีดังกล่าวเพื่อรับ UMVUE ของ: แครมเมอร์ - ราวล่าง (CRLB) Lehmann-Scheffe Thereom ฉันจะลองทำสิ่งนี้โดยใช้สองตัวแรก ฉันต้องยอมรับว่าฉันไม่เข้าใจสิ่งที่เกิดขึ้นที่นี่อย่างสมบูรณ์และฉันกำลังพยายามแก้ไขปัญหาตัวอย่าง ฉันมีสิ่งนั้นfX(x∣θ)fX(x∣θ)f_X(x\mid\theta) เป็นตระกูลเอ็กซ์โปเนนเชียลแบบพารามิเตอร์เดียวที่มี h(x)=I(0,∞)h(x)=I(0,∞)h(x)=I_{(0,\infty)}, c(θ)=θc(θ)=θc(\theta)=\theta, w(θ)=−(1+θ)w(θ)=−(1+θ)w(\theta)=-(1+\theta), t(x)=log(1+x)t(x)=log(1+x)t(x)=\text{log}(1+x) เนื่องจากไม่ใช่ศูนย์บนผล CRLB จึงถูกนำมาใช้ เรามีw′(θ)=1w′(θ)=1w'(\theta)=1ΘΘ\Theta log fX(x∣θ)=log(θ)−(1+θ)⋅log(1+x)log fX(x∣θ)=log(θ)−(1+θ)⋅log(1+x)\text{log }f_X(x\mid\theta)=\text{log}(\theta)-(1+\theta)\cdot\text{log}(1+x) ∂∂θlog fX(x∣θ)=1θ−log(1+x)∂∂θlog fX(x∣θ)=1θ−log(1+x)\frac{\partial}{\partial \theta}\text{log }f_X(x\mid\theta)=\frac{1}{\theta}-\text{log}(1+x) ∂2∂θ2เข้าสู่ระบบ ฉX( …

3
การถดถอยของกระบวนการแบบเกาส์สำหรับชุดข้อมูลขนาดใหญ่
ฉันได้รับการเรียนรู้เกี่ยวกับกระบวนการ Gaussian ถดถอยจากวิดีโอออนไลน์และเอกสารประกอบการบรรยายความเข้าใจของฉันก็คือว่าถ้าเรามีชุดข้อมูลที่มีจุดแล้วเราถือว่าข้อมูลที่มีการเก็บตัวอย่างจากมิติหลายตัวแปรแบบเกาส์ ดังนั้นคำถามของฉันคือในกรณีที่คือ 10 ในล้านคนการถดถอยของกระบวนการแบบเกาส์ยังคงใช้ได้ เคอร์เนลเมทริกซ์จะไม่แสดงผลขนาดใหญ่กระบวนการอย่างสมบูรณ์หรือไม่ ถ้าเป็นเช่นนั้นมีเทคนิคในการจัดการกับสิ่งนี้เช่นการสุ่มตัวอย่างจากชุดข้อมูลซ้ำ ๆ หลาย ๆ ครั้งหรือไม่ วิธีการที่ดีในการจัดการกับกรณีดังกล่าวมีอะไรบ้าง nnnnnnnnn

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.