คำถามติดแท็ก central-limit-theorem

สำหรับคำถามเกี่ยวกับทฤษฎีบทขีด จำกัด กลางซึ่งกล่าวว่า: "ให้เงื่อนไขบางประการความหมายของจำนวนตัวแปรสุ่มอิสระที่มากพอที่ทำซ้ำแต่ละค่าที่มีการกำหนดค่าเฉลี่ยที่ดี (วิกิพีเดีย)

7
มีคำอธิบายที่เข้าใจง่ายสำหรับทฤษฎีบทขีด จำกัด กลางคืออะไร?
ในบริบทที่แตกต่างกันเราเรียกใช้ทฤษฎีขีด จำกัด กลางเพื่อพิสูจน์ว่าวิธีการทางสถิติใดก็ตามที่เราต้องการนำมาใช้ (เช่นประมาณการแจกแจงทวินามโดยการแจกแจงแบบปกติ) ฉันเข้าใจรายละเอียดทางเทคนิคว่าทำไมทฤษฎีบทถึงเป็นจริง แต่ตอนนี้เพิ่งเกิดขึ้นกับฉันที่ฉันไม่เข้าใจสัญชาตญาณเบื้องหลังทฤษฎีขีด จำกัด กลาง ดังนั้นสัญชาตญาณที่อยู่เบื้องหลังทฤษฎีบทขีด จำกัด กลางคืออะไร? คำอธิบายของคนธรรมดาจะเหมาะ หากต้องการรายละเอียดทางเทคนิคโปรดสันนิษฐานว่าฉันเข้าใจแนวคิดของ pdf, cdf, ตัวแปรสุ่ม ฯลฯ แต่ไม่มีความรู้เกี่ยวกับแนวคิดคอนเวอร์เจนซ์ฟังก์ชั่นลักษณะหรือสิ่งใดที่เกี่ยวข้องกับทฤษฎีการวัด

7
T-test ไม่ปกติเมื่อ N> 50?
นานมาแล้วฉันได้เรียนรู้ว่าการแจกแจงแบบปกติจำเป็นต้องใช้การทดสอบตัวอย่างสองชุด วันนี้เพื่อนร่วมงานคนหนึ่งบอกฉันว่าเธอเรียนรู้ว่าสำหรับการแจกแจงปกติ N> 50 นั้นไม่จำเป็น มันเป็นเรื่องจริงเหรอ? ถ้าเป็นจริงก็เพราะทฤษฎีบทขีด จำกัด กลาง?

5
ทฤษฎีขีด จำกัด กลางสำหรับค่ามัธยฐานตัวอย่าง
ถ้าฉันคำนวณค่ามัธยฐานของจำนวนการสังเกตที่มากพอจากการแจกแจงแบบเดียวกันทฤษฎีบทขีด จำกัด กลางจะระบุว่าการกระจายของค่ามัธยฐานจะประมาณการกระจายตัวแบบปกติหรือไม่? ความเข้าใจของฉันคือว่านี่เป็นความจริงด้วยวิธีการของกลุ่มตัวอย่างจำนวนมาก แต่มันก็เป็นความจริงกับมัธยฐาน? ถ้าไม่เป็นเช่นนั้นการกระจายตัวพื้นฐานของค่ามัธยฐานตัวอย่างคืออะไร

3
เมื่อรวม p-values ​​ทำไมไม่เฉลี่ยเพียงค่าเฉลี่ย
ฉันเพิ่งเรียนรู้เกี่ยวกับวิธีการของฟิชเชอร์ในการรวมค่า p นี่คือความจริงที่ว่าตามตัวอักษรตามตัวอักษร - ตามตัวอักษร p- ตามตัวอักษรกระจายและ ซึ่งฉันคิดว่าเป็นอัจฉริยะ แต่คำถามของฉันคือทำไมไปทางที่ซับซ้อนนี้ และทำไมไม่ (มีอะไรผิดปกติ) เพียงแค่ใช้ค่าเฉลี่ยของค่า p และใช้ทฤษฎีบทขีด จำกัด กลาง? หรือค่ามัธยฐาน? ฉันพยายามที่จะเข้าใจความเป็นอัจฉริยะของ RA Fisher หลังโครงการอันยิ่งใหญ่นี้−2∑i=1nlogXi∼χ2(2n), given X∼Unif(0,1)−2∑i=1nlog⁡Xi∼χ2(2n), given X∼Unif(0,1)-2\sum_{i=1}^n{\log X_i} \sim \chi^2(2n), \text{ given } X \sim \text{Unif}(0,1)

4
การอ้างอิงใดที่ควรอ้างอิงเพื่อสนับสนุนการใช้ 30 เป็นขนาดตัวอย่างที่ใหญ่พอ
ฉันได้อ่าน / ได้ยินหลายครั้งว่าขนาดตัวอย่างของหน่วยอย่างน้อย 30 หน่วยนั้นถือว่าเป็น "กลุ่มตัวอย่างขนาดใหญ่" (สมมติฐานปกติของวิธีการมักจะถือประมาณเนื่องจาก CLT, ... ) ดังนั้นในการทดลองของฉันฉันมักจะสร้างตัวอย่าง 30 หน่วย คุณช่วยให้ฉันอ้างอิงซึ่งควรจะอ้างถึงเมื่อใช้ขนาดตัวอย่าง 30?

3
พิจารณาผลรวมของ
ฉันสงสัยเกี่ยวกับอันนี้มาระยะหนึ่งแล้ว ฉันพบว่ามันแปลกเล็กน้อยว่าเกิดขึ้นโดยฉับพลันได้อย่างไร โดยพื้นฐานแล้วทำไมเราถึงต้องการเครื่องแบบเพียงสามชุดสำหรับเพื่อให้เรียบเนียนเหมือนที่เคยทำ? และทำไมการปรับให้เรียบจึงเกิดขึ้นค่อนข้างเร็วZnZnZ_n Z2Z2Z_2 : Z3Z3Z_3 : (ภาพที่ถูกขโมยไปอย่างไร้สาระจากบล็อกของ John D. Cook: http://www.johndcook.com/blog/2009/02/12/sums-of-uniform-random-values/ ) ทำไมมันไม่ใช้พูดสี่ชุด? หรือห้า หรือ...?

3
ทำไมกฎหมายจำนวนมากถึงไม่สามารถใช้งานได้ในกรณีราคาหุ้นของ Apple?
นี่คือบทความในครั้งนิวยอร์กที่เรียกว่า"แอปเปิ้ล confronts กฎหมายของตัวเลขที่มีขนาดใหญ่" พยายามอธิบายการเพิ่มขึ้นของราคาหุ้นของ Apple โดยใช้กฎหมายจำนวนมาก บทความนี้มีข้อผิดพลาดทางสถิติ (หรือทางคณิตศาสตร์) อะไรบ้าง

4
อยู่ที่ไหน
ทฤษฎีบทกลาง จำกัด แบบง่ายมาก ซึ่งก็คือ Lindeberg – Lévy CLT ฉันไม่เข้าใจว่าทำไมมีทางด้านซ้ายมือ และ Lyapunov CLT บอกว่า แต่ทำไม ไม่ใช่ ? ทุกคนจะบอกฉันว่าเป็นปัจจัยเหล่านี้เช่นและ ? เราจะรับพวกเขาในทฤษฎีบทได้อย่างไรn−−√((1n∑i=1nXi)−μ) →d N(0,σ2)n((1n∑i=1nXi)−μ) →d N(0,σ2) \sqrt{n}\bigg(\bigg(\frac{1}{n}\sum_{i=1}^n X_i\bigg) - \mu\bigg)\ \xrightarrow{d}\ \mathcal{N}(0,\;\sigma^2) n−−√n\sqrt{n}1sn∑i=1n(Xi−μi) →d N(0,1)1sn∑i=1n(Xi−μi) →d N(0,1) \frac{1}{s_n} \sum_{i=1}^{n} (X_i - \mu_i) \ \xrightarrow{d}\ \mathcal{N}(0,\;1) sn−−√sn\sqrt{s_n}n−−√n\sqrt{n}1sn1sn\frac{1}{s_n}

7
คุณถ่ายทอดความงามของทฤษฎีขีด จำกัด กลางไปยังผู้ที่ไม่ใช่สถิติได้อย่างไร?
พ่อของฉันเป็นคนที่ชอบคณิตศาสตร์ แต่ไม่ค่อยสนใจสถิติมากนัก มันจะเป็นการดีที่จะพยายามอธิบายบางส่วนของสถิติที่ยอดเยี่ยมและ CLT เป็นตัวเลือกอันดับต้น ๆ คุณจะถ่ายทอดความงามทางคณิตศาสตร์และผลกระทบของทฤษฎีบทขีด จำกัด กลางให้กับผู้ที่ไม่ใช่สถิติได้อย่างไร?

6
มีตัวอย่างใดบ้างที่ทฤษฎีบทขีด จำกัด กลางไม่ถือ?
Wikipedia พูดว่า - ในทฤษฎีความน่าจะเป็นทฤษฎีขีด จำกัด กลาง (CLT) กำหนดว่าในสถานการณ์ส่วนใหญ่เมื่อมีการเพิ่มตัวแปรสุ่มแบบอิสระผลรวมปกติที่ถูกต้องของพวกมันมีแนวโน้มไปสู่การแจกแจงแบบปกติ (อย่างไม่เป็นทางการว่า กระจายตามปกติ ... เมื่อมีข้อความว่า "ในสถานการณ์ส่วนใหญ่" ทฤษฎีบทขีด จำกัด กลางในสถานการณ์ใดไม่ทำงาน

6
ทดสอบความแปรปรวนแน่นอน?
เป็นไปได้หรือไม่ที่จะทดสอบความละเอียด (หรือการมีอยู่) ของความแปรปรวนของตัวแปรสุ่มที่ให้กับกลุ่มตัวอย่าง? ในฐานะที่เป็นโมฆะ {ความแปรปรวนที่มีอยู่และ จำกัด } หรือ {การแปรปรวนไม่มีอยู่ / ไม่มีที่สิ้นสุด} จะยอมรับได้ เชิงปรัชญา (และการคำนวณ) สิ่งนี้ดูแปลกมากเพราะไม่ควรมีความแตกต่างระหว่างประชากรที่ไม่มีความแปรปรวนอัน จำกัด และอีกอันที่มีความแปรปรวนขนาดใหญ่มาก (พูด> ) ดังนั้นฉันจึงไม่หวังว่าปัญหานี้ แก้ไข104001040010^{400} วิธีการหนึ่งที่แนะนำให้ฉันคือทฤษฎีบทขีด จำกัด กลาง: สมมติว่ากลุ่มตัวอย่างเป็น iid และประชากรมีค่าเฉลี่ยที่ จำกัด ใครสามารถตรวจสอบได้ว่าค่าเฉลี่ยตัวอย่างมีข้อผิดพลาดมาตรฐานที่เหมาะสมกับการเพิ่มขนาดตัวอย่างหรือไม่ ฉันไม่แน่ใจว่าฉันเชื่อว่าวิธีการนี้จะได้ผล (โดยเฉพาะฉันไม่เห็นวิธีที่จะทำให้เป็นการทดสอบที่เหมาะสม)

1
การคำนวณซ้ำของเอฟเฟกต์จากโมเดล lmer
ฉันเพิ่งอ่านบทความนี้ซึ่งอธิบายถึงวิธีการคำนวณความสามารถในการทำซ้ำ (ความน่าเชื่อถือหรือความสัมพันธ์ภายในอินทราเน็ต) ของการวัดผ่านการสร้างแบบจำลองเอฟเฟกต์ผสม รหัส R จะเป็น: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

4
เหตุใดทฤษฎีการ จำกัด ขั้นกลางจึงผิดพลาดในการจำลองของฉัน
สมมติว่าฉันมีหมายเลขต่อไปนี้: 4,3,5,6,5,3,4,2,5,4,3,6,5 ฉันลองตัวอย่างพวกเขาพูดว่า 5 คนแล้วคำนวณผลรวมของ 5 ตัวอย่าง จากนั้นฉันทำซ้ำซ้ำแล้วซ้ำอีกเพื่อให้ได้ผลรวมจำนวนมากและฉันวางแผนค่าผลรวมในฮิสโตแกรมซึ่งจะเป็นแบบเกาส์เนื่องจากทฤษฎีลิมิตกลาง แต่เมื่อพวกเขาติดตามตัวเลขฉันเพิ่งแทนที่ 4 ด้วยจำนวนที่มาก: 4,3,5,6,5,3,10000000,2,5,4,3,6,5 การสุ่มตัวอย่างจำนวน 5 ตัวอย่างจากสิ่งเหล่านี้จะไม่กลายเป็นเกาส์เซียนในฮิสโตแกรม แต่จะแตกและกลายเป็นเกาส์สองอัน ทำไมถึงเป็นอย่างนั้น?

4
วิธีการฉายเวกเตอร์ใหม่บนพื้นที่ PCA?
หลังจากทำการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันต้องการฉายเวกเตอร์ใหม่ลงบนพื้นที่ PCA (เช่นค้นหาพิกัดในระบบพิกัด PCA) ผมได้คำนวณ PCA ในภาษา R prcompโดยใช้ ตอนนี้ฉันควรคูณเวกเตอร์ของฉันด้วยเมทริกซ์การหมุน PCA ควรจัดองค์ประกอบหลักในเมทริกซ์นี้เป็นแถวหรือคอลัมน์?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

1
ข้อผิดพลาดในการประมาณการกระจายผลรวมสม่ำเสมอ
วิธีการที่ไร้เดียงสาวิธีหนึ่งสำหรับการประมาณการแจกแจงแบบปกติคือการเพิ่มตัวแปรสุ่ม IID จำนวน IID ที่กระจายกันอย่างสม่ำเสมอใน[ 0 , 1 ]จากนั้นกลับมาอีกครั้งและดำเนินการใหม่โดยอาศัยทฤษฎีบทขีด จำกัด กลาง ( หมายเหตุด้านข้าง : มีวิธีการที่แม่นยำมากขึ้นเช่นการแปลง Box – Muller ) ผลรวมของ IID100100100[0,1][0,1][0,1]U(0,1)U(0,1)U(0,1)ตัวแปรสุ่มเป็นที่รู้จักกันกระจายชุดรวมหรือกระจายเออร์วินฮอลล์ ข้อผิดพลาดมีขนาดใหญ่เพียงใดในการประมาณการกระจายตัวแบบสม่ำเสมอโดยการแจกแจงแบบปกติ เมื่อใดก็ตามที่คำถามประเภทนี้เกิดขึ้นเพื่อประมาณผลรวมของตัวแปรสุ่มของ IID ผู้คน (รวมถึงฉัน) จะนำทฤษฎีบท Berry - Esseenมาใช้ซึ่งเป็นเวอร์ชันที่มีประสิทธิภาพของทฤษฎีขีด จำกัด กลางเนื่องจากช่วงเวลาที่สามมีอยู่: |Fn(x)−Φ(x)|≤Cρσ3n−−√|Fn(x)−Φ(x)|≤Cρσ3n|F_n(x) - \Phi(x)| \le \frac{C \rho}{\sigma^3 \sqrt n} ที่เป็นฟังก์ชันการแจกแจงสะสมสำหรับผลรวมของ rescaled IID ตัวแปรสุ่มเป็นสามช่วงเวลาที่แน่นอนกลาง,เป็นส่วนเบี่ยงเบนมาตรฐานและเป็นค่าคงที่แน่นอนซึ่งสามารถนำไปเป็นหรือแม้กระทั่ง1/2FnFnF_nnnnρρ\rhoE|(X−EX)3|E|(X−EX)3|E|(X-EX)^3|σσ\sigmaCCC1111/21/21/2 สิ่งนี้ไม่น่าพอใจ สำหรับผมแล้วการประมาณ Berry - Esseen นั้นใกล้เคียงที่สุดกับการแจกแจงทวินามที่ไม่ต่อเนื่องโดยมีข้อผิดพลาดที่ใหญ่ที่สุดคือสำหรับการแจกแจงทวินามแบบสมมาตร …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.