คำถามติดแท็ก distributions

การแจกแจงเป็นการอธิบายทางคณิตศาสตร์ของความน่าจะเป็นหรือความถี่

2
ดัชนีความมั่นคงของประชากร - การหารด้วยศูนย์
ดัชนีความมั่นคงของประชากรวัดปริมาณการเปลี่ยนแปลงของการแจกแจงของตัวแปรโดยการเปรียบเทียบตัวอย่างข้อมูลในช่วงเวลาสองช่วงเวลา เป็นที่นิยมใช้ในการวัดการเปลี่ยนแปลงของคะแนน มีการคำนวณดังนี้ 1) ตัวอย่างจากช่วงเวลาพื้นฐานจะถูกแยกออก โดยปกติจะแบ่งเป็น deciles 2) ตัวอย่างจากช่วงเวลาเป้าหมายถูกแยกออกโดยใช้ช่วงเวลาเดียวกับในขั้นตอนแรก PSผม=Σผม(Aผม-Bผม) ⋅ l n (AผมBผม)PSผม=Σผม(Aผม-Bผม)⋅ล.n(AผมBผม)PSI = \sum_{i} (A_{i} - B_{i}) \cdot ln(\frac{A_{i}}{B_{i}}) ที่ไหน: AผมAผมA_{i} - ส่วนแบ่งของถังขยะ i-th ในช่วงเวลาฐาน BผมBผมB_{i} - ส่วนแบ่งของถังขยะ i-th ในช่วงเวลาเป้าหมาย คำถาม : ควรทำอย่างไรเมื่อหนึ่งในถังขยะจากตัวอย่างเป้าหมายว่างเปล่า

1
ผลงานของนักเรียน (Gosset) ในการกำหนดแบบทดสอบ t-test คืออะไร?
คำถามล่าสุด , คำถามที่เกี่ยวข้องและแหล่งที่มาอ้างว่าทำเมื่อเร็ว ๆ นี้ผมทราบว่ายังไม่มีข้อความ- 1N−1N-1การแก้ไขสำหรับการประมาณการตัวอย่างความแปรปรวนของประชากรจะเรียกว่าการแก้ไขของ Bessel เบสเซิลเสียชีวิตในปี 1846 ( การอ้างอิงวิกิพีเดีย ) และการทดสอบ t ถูกตีพิมพ์ในปี 1908 ( การอ้างอิงวิกิพีเดีย ) ด้วยเหตุผลบางอย่างฉันคิดเสมอว่าการมีส่วนร่วมของ Gosset (หรือที่รู้จักว่านักเรียน) ในการกำหนด t-test คือการใช้ยังไม่มีข้อความ- 1N−1N-1 ในการคำนวณ s2s2s^2. ดูเหมือนว่าการมีส่วนร่วมนี้จะเป็นของ Bessel อย่างชัดเจน ในหลอดเลือดดำนี้ฉันถามว่าอะไรคือผลงานของ Gosset ในการจัดทำแบบทดสอบ

1
จะเปรียบเทียบเหตุการณ์ที่สังเกตได้กับเหตุการณ์ที่คาดหวังได้อย่างไร
สมมติว่าฉันมีตัวอย่างหนึ่งความถี่ของเหตุการณ์ที่เป็นไปได้ 4 เหตุการณ์: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 และฉันมีโอกาสที่จะเกิดเหตุการณ์ที่คาดหวัง: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 ด้วยผลรวมของความถี่ที่สังเกตได้จากเหตุการณ์ทั้งสี่ของฉัน (18) ฉันสามารถคำนวณความถี่ที่คาดหวังของเหตุการณ์ได้ใช่ไหม expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
Parametrizing การแจกแจงของเบห์น - ฟิชเชอร์
"ปัญหา Behrens - Fisher: บทวิจารณ์" โดย Seock-Ho Kim และ Allen S. Cohen วารสารสถิติการศึกษาและพฤติกรรมเล่ม 23 หมายเลข 4 ฤดูหนาว 2541 หน้า 356–377 ฉันกำลังดูสิ่งนี้และมันบอกว่า: ฟิชเชอร์ (1935, 1939) เลือกสถิติ τ=δ- (x¯2-x¯1)s21/n1+s22/n2-----------√=เสื้อ2cosθ -เสื้อ1บาปθτ=δ-(x¯2-x¯1)s12/n1+s22/n2=เสื้อ2cos⁡θ-เสื้อ1บาป⁡θ \tau = \frac{\delta-(\bar x_2 - \bar x_1)}{\sqrt{s_1^2/n_1+s_2^2/n_2}} = t_2\cos\theta - t_1\sin\theta [ที่ เสื้อผมเสื้อผมt_i เป็นหนึ่งตัวอย่างปกติ เสื้อเสื้อt- สถิติสำหรับ i = 1 , 2ผม=1,2i=1,2] ที่ไหน …

3
วิธีการทดสอบ / พิสูจน์ข้อมูลเป็นศูนย์ที่สูงเกินจริง?
ฉันมีปัญหาที่ฉันคิดว่าควรจะง่าย แต่ไม่สามารถเข้าใจได้ ฉันกำลังดูการผสมเกสรของเมล็ดฉันมีพืช (n = 36) ดอกไม้ที่อยู่ในกลุ่มฉันลองกลุ่มดอกไม้ 3 กลุ่มจากแต่ละต้นและฝัก 6 เมล็ดจากแต่ละกลุ่ม (18 ฝักทั้งหมดจากแต่ละต้น) ฝักสามารถมีได้ระหว่าง 0 ถึงมากที่สุด 4 เมล็ดเรณู ดังนั้นข้อมูลจะถูกนับด้วยขอบเขตบน ฉันกำลังหาค่าเฉลี่ยของเมล็ดประมาณ 10% ของเรณู แต่ที่ใดก็ได้ระหว่าง 1 - 30% ในพืชที่กำหนดดังนั้นมากกว่าข้อมูลที่กระจัดกระจายและแน่นอนว่ามีคลัสเตอร์ที่หายไป 4 ต้นใน 3 พืชดังนั้นจึงไม่สมมาตรอย่างสมบูรณ์ . คำถามที่ฉันถามคือถ้าข้อมูลนี้สนับสนุนความคิดที่โรงงานนี้ต้องการการถ่ายละอองเรณูสำหรับชุดเมล็ด ฉันพบว่าการกระจายของจำนวนเมล็ดในฝักดูเหมือนจะมีมากกว่า 0 ฝักเรณู (6-9 ฝักจาก 16) และอื่น ๆ 3 และ 4 พอดเรณูเมล็ด (2-4 สำหรับแต่ละ) กว่าจะ จะคาดหวังถ้าเมล็ดในประชากรเป็นเพียงการผสมเกสรแบบสุ่ม โดยพื้นฐานแล้วฉันคิดว่านี่เป็นตัวอย่างแบบคลาสสิกสำหรับข้อมูลที่สูงเกินจริงศูนย์แมลงตัวแรกทำอย่างใดอย่างหนึ่งหรือไม่ได้เยี่ยมชมดอกไม้เลย …

1
การจำลองการแจกแจง
ฉันกำลังทำงานที่ได้รับมอบหมายการวางแผนกำลังการผลิตและฉันได้อ่านหนังสือบางเล่ม นี่เป็นเรื่องเกี่ยวกับการแจกแจงโดยเฉพาะ ฉันใช้อาร์ อะไรคือวิธีที่แนะนำในการระบุว่าการกระจายข้อมูลของฉันคืออะไร? มีวิธีการทางสถิติเพื่อระบุหรือไม่ ฉันมีแผนภาพนี้ มีวิธีการจำลองสถานการณ์อย่างไรบ้างเมื่อใช้ R ที่นี่ฉันต้องการสร้างข้อมูลสำหรับการแจกแจงบางอย่างเช่นเลขชี้กำลัง r-java เป็นแนวทางที่ถูกต้องหรือไม่หากฉันต้องการรวมเข้ากับ Java? มีวิธีใดที่จะทำนายผลของการกระจาย (การใช้งาน CPU และอื่น ๆ ) ที่จะมีเมื่อฉันส่งข้อมูลไปยังการแจกจ่ายเฉพาะ? การส่งข้อมูลบางอย่างมีความแตกต่างกันอย่างไร? โปรดพิจารณาสิ่งเหล่านี้เป็นคำถามของผู้เริ่มต้น มีหนังสือหรือเนื้อหาที่เกี่ยวข้องกับการจำลองประเภทนี้หรือไม่? หมายเหตุ แผนภาพคือจากจุดสิ้นสุดของกระดาษhttp://people.stern.nyu.edu/adamodar/pdfiles/papers/probabilistic.pdf ความดีของเทคนิคฟิตฉันได้เจอ การประเมินความดีพอดี ไคสแควร์ Kolmogorov-Smirnov, ความหนาแน่นของสถิติ Anderson-Darling, cdf, PP และ QQ แปลง ฉันไม่แน่ใจว่าการตีความหรือขั้นตอนต่อไปควรทำอย่างไรหากพบว่าการแจกแจงของฉันเป็นแบบปกติหรือแบบเลขยกกำลังเป็นต้นฉันต้องทำอย่างไร คาดการณ์? หวังว่าคำถามนี้ชัดเจน ความล่าช้าของเอ็กซ์โปเนนเชียลจะชักนำให้เกิดความผันผวนของคิวตามหนังสือการวางแผนกำลังการผลิตของฉันโดย Neil Gunther ดังนั้นฉันรู้ว่าจุดหนึ่ง

1
มีวิธีในการประมาณค่าพารามิเตอร์การกระจายที่ได้รับเพียงแค่จำนวน
มีวิธีที่จะพอดีกับการกระจายที่ระบุถ้าคุณได้รับเพียงไม่กี่ quantiles? ตัวอย่างเช่นถ้าฉันบอกคุณว่าฉันมีชุดข้อมูลแกมม่ากระจายและเชิงประจักษ์ 20%, 30%, 50% และ 90% - คุณสมบัติคือตามลำดับ: 20% 30% 50% 90% 0.3936833 0.4890963 0.6751703 1.3404074 ฉันจะไปและประมาณค่าพารามิเตอร์ได้อย่างไร มีหลายวิธีในการทำเช่นนั้นหรือมีขั้นตอนเฉพาะอยู่แล้ว? แก้ไขเพิ่มเติม:ฉันไม่ได้ขอการกระจายแกมม่าโดยเฉพาะนี่เป็นเพียงตัวอย่างเพราะฉันกังวลว่าฉันไม่สามารถอธิบายคำถามได้อย่างเหมาะสม งานของฉันคือฉันมี quantiles ที่กำหนด (2-4) และต้องการประเมินพารามิเตอร์ (1-3) ของการแจกแจงไม่กี่อย่างที่เป็น "ปิด" ที่สุด บางครั้งมีวิธีแก้ปัญหาที่แน่นอน (หรือไม่มีที่สิ้นสุด) บางครั้งไม่ถูกต้องใช่ไหม

2
พารามิเตอร์การบูตแบบกึ่งพารามิเตอร์และแบบไม่มีพารามิเตอร์สำหรับรุ่นผสม
ตัดต่อไปนี้จะนำมาจากบทความนี้ ฉันเป็นมือใหม่ในการบู๊ตสแตรปและพยายามที่จะใช้การบู๊ตสแปปปิ้งแบบกึ่งพารามิเตอร์แบบกึ่งพารามิเตอร์และแบบไม่มีพารามิเตอร์สำหรับแบบจำลองเชิงเส้นผสมกับR bootแพ็คเกจ รหัส R นี่คือRรหัสของฉัน: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

1
ฉันจะพิสูจน์ได้อย่างไรว่าข้อมูลการทดสอบเป็นไปตามการกระจายแบบหางยาว
ฉันมีผลการทดสอบการตอบสนองของเซิร์ฟเวอร์ที่ล่าช้าหลายครั้ง จากการวิเคราะห์ทางทฤษฎีของเราการแจกแจงความล่าช้า (ฟังก์ชันการแจกแจงความน่าจะเป็นของความล่าช้าในการตอบกลับ) ควรมีพฤติกรรมแบบหางยาว แต่ฉันจะพิสูจน์ได้อย่างไรว่าผลการทดสอบมีการกระจายอย่างหนัก

4
ทดสอบความแตกต่างอย่างมีนัยสำคัญในอัตราส่วนของตัวแปรสุ่มแบบกระจาย
เกี่ยวข้องกับการวิเคราะห์อัตราส่วนของตัวแปรและวิธีการกำหนดอัตราส่วนของตัวแปรที่มีการแจกแจงแบบปกติสองแบบหรือค่าผกผันของค่าใดค่าหนึ่ง . สมมติว่าฉันมีตัวอย่างจำนวนหนึ่งจากการแจกแจงแบบสุ่มอย่างต่อเนื่องที่แตกต่างกันสี่แบบซึ่งเราสามารถถือว่าเป็นเรื่องปกติได้ ในกรณีของฉันสิ่งเหล่านี้สอดคล้องกับตัวชี้วัดประสิทธิภาพของระบบไฟล์สองระบบที่แตกต่างกัน (เช่น ext4 และ XFS) ทั้งที่มีและไม่มีการเข้ารหัส ตัวอย่างเช่นเมตริกอาจเป็นจำนวนไฟล์ที่สร้างขึ้นต่อวินาทีหรือเวลาแฝงเฉลี่ยสำหรับการดำเนินการกับไฟล์บางอย่าง เราสามารถสรุปได้ว่าตัวอย่างทั้งหมดที่ได้จากการแจกแจงเหล่านี้จะเป็นผลบวกอย่างแน่นอน ขอเรียกกระจายเหล่านี้ที่และ\}Perffstype,encryptionPerffstype,encryption\textrm{Perf}_{fstype,encryption}fstype∈{xfs,ext4}fstype∈{xfs,ext4}fstype \in \{xfs,ext4\}encryption∈{crypto,nocrypto}encryption∈{crypto,nocrypto}encryption \in \{crypto,nocrypto\} ตอนนี้สมมติฐานของฉันคือการเข้ารหัสทำให้ระบบไฟล์ช้าลงโดยปัจจัยที่ใหญ่กว่าระบบอื่น มีการทดสอบอย่างง่าย ๆ สำหรับสมมติฐานE[Perfxfs,crypto]E[Perfxfs,nocrypto]&lt;E[Perfext4,crypto]E[Perfext4,nocrypto]E[Perfxfs,crypto]E[Perfxfs,nocrypto]&lt;E[Perfext4,crypto]E[Perfext4,nocrypto]\frac{E[\textrm{Perf}_{xfs,crypto}]}{E[\textrm{Perf}_{xfs,nocrypto}]} < \frac{E[\textrm{Perf}_{ext4,crypto}]}{E[\textrm{Perf}_{ext4,nocrypto}]} ?

7
กำลังมองหาข้อมูลประดิษฐ์ 2D เพื่อแสดงคุณสมบัติของอัลกอริทึมการจัดกลุ่ม
ฉันกำลังมองหาชุดข้อมูลของ 2 มิติดาต้าพอยน์ (แต่ละดาต้าพอยน์เป็นเวกเตอร์ของสองค่า (x, y)) ตามการแจกแจงและรูปแบบที่แตกต่างกัน รหัสเพื่อสร้างข้อมูลดังกล่าวก็จะเป็นประโยชน์ ฉันต้องการใช้พวกเขาเพื่อพล็อต / เห็นภาพว่าอัลกอริทึมการจัดกลุ่มทำงานอย่างไร นี่คือตัวอย่างบางส่วน: ดาวเหมือนข้อมูลคลาวด์ สี่กลุ่มแยกง่ายหนึ่ง เกลียว (ไม่มีคลัสเตอร์) แหวน เมฆสองก้อนที่แยกจากกันแทบจะไม่ สองกลุ่มขนานสร้างเกลียว ... ฯลฯ

1
การกระจายตัวของค่าสัมประสิทธิ์การถดถอย
สมมติว่าเรามีโมเดลเชิงเส้น Yผม=β0+β1xผม+εผมyi=β0+β1xi+ϵiy_i = \beta_0 + \beta_1 x_i + \epsilon_iที่ตรงตามสมมติฐานการถดถอยมาตรฐาน (Gauss-Markov) ทั้งหมด เราสนใจθ = 1 /β1θ=1/β1\theta = 1/\beta_1. คำถามที่ 1:ข้อสมมติฐานอะไรที่จำเป็นสำหรับการแจกแจงθ^θ^\hat{\theta} ที่จะกำหนดไว้อย่างดี? β1≠ 0β1≠0\beta_1 \neq 0 จะมีความสำคัญ --- คนอื่น ๆ ? คำถามที่ 2:เพิ่มการสันนิษฐานว่าข้อผิดพลาดเป็นไปตามการแจกแจงแบบปกติ เรารู้ว่าถ้าβ^1β^1\hat{\beta}_1 คือ MLE และ ก.( ⋅ )g(⋅)g(\cdot) เป็นฟังก์ชั่นโมโนโทน ก.(β^1)g(β^1)g\left(\hat{\beta}_1\right) เป็น MLE สำหรับ ก.(β1)g(β1)g(\beta_1). เป็นสิ่งที่จำเป็นต้องมีเพียงอย่างเดียวในพื้นที่ใกล้เคียงของβ1β1\beta_1? ในคำอื่น ๆ คือθ^= 1 /β^θ^=1/β^\hat{\theta} …

3
ฉันจะจำลอง microdata การสำรวจสำมะโนประชากรสำหรับพื้นที่ขนาดเล็กโดยใช้ตัวอย่าง microdata 1% ที่สถิติขนาดใหญ่และมวลรวมในระดับพื้นที่ขนาดเล็กได้อย่างไร
ฉันต้องการทำการวิเคราะห์หลายตัวแปรในระดับบุคคลในระดับเล็ก ๆ ของการรวมกลุ่มทางภูมิศาสตร์ (เขตการเก็บรวบรวมสำมะโนประชากรของออสเตรเลีย) เห็นได้ชัดว่าการสำรวจสำมะโนประชากรไม่สามารถหาได้จากการรวมตัวเพียงเล็กน้อยด้วยเหตุผลความเป็นส่วนตัวดังนั้นฉันจึงตรวจสอบทางเลือกอื่น ๆ ตัวแปรที่น่าสนใจเกือบทั้งหมดจัดอยู่ในหมวดหมู่ ฉันมีสองชุดข้อมูลที่การกำจัดของฉัน: ตัวอย่างการสำรวจสำมะโนประชากร 1% นั้นมีอยู่ในระดับที่สูงกว่าของการรวมตัวเชิงพื้นที่ (พื้นที่ที่มีประชากรประมาณ 190,000 คนและการแยกเชิงพื้นที่ขนาดใหญ่ของประชากร ตารางความถี่สำหรับตัวแปรที่ฉันสนใจในระดับพื้นที่เล็ก ๆ (500 พื้นที่เล็ก ๆ หมายถึงป๊อป = 385, sd = 319, มัธยฐาน = 355) ฉันจะใช้ชุดข้อมูลทั้งสองนี้เพื่อจำลองการกระจายของประชากรในระดับพื้นที่ขนาดเล็กที่ใกล้เคียงกับประชากรจริงของพื้นที่ขนาดเล็กที่สุดได้อย่างไร ฉันขอขอบคุณที่อาจมีวิธีการประจำในการทำเช่นนี้; ถ้าเป็นเช่นนั้นตัวชี้ไปยังตำราหรือบทความในวารสารที่เกี่ยวข้องจะได้รับการชื่นชมอย่างมากมาย

2
การแจกจ่ายนี้มีชื่อหรือไม่? หรือกระบวนการสุ่มที่สามารถสร้างได้คืออะไร?
การกระจายแบบไม่ต่อเนื่องพร้อมฟังก์ชันมวล p(x;k)=k(x+k)(x+k−1),x=1,2,…p(x;k)=k(x+k)(x+k−1),x=1,2,…p(x;k) = \frac{k}{(x+k)(x+k-1)},\quad x = 1,2,\ldots เกิดขึ้นในหน้า 9 ของเอกสารนี้ สำหรับเป็นการกระจายของ Yule-Simon ที่มีแต่ฉันไม่พบตัวอย่างอื่นk=1k=1k=1ρ=1ρ=1\rho=1 มันมีชื่อหรือไม่? ปรากฏในบริบทอื่นหรือไม่ มีกระบวนการสุ่มอย่างง่ายที่อาจสร้างมันขึ้นมา?

1
วิธีการรวมสองตัวแปรที่อยู่ในระดับที่แตกต่างกันอย่างไร
หากฉันมีสองตัวแปรตามการแจกแจงสองแบบที่แตกต่างกันและมีส่วนเบี่ยงเบนมาตรฐานที่แตกต่างกัน ... ฉันต้องแปลงสองตัวแปรอย่างไรเพื่อที่เมื่อรวมผลลัพธ์ทั้งสองจะไม่ "ขับเคลื่อน" โดยความผันผวนที่มากขึ้น ตัวอย่างเช่น ... ตัวแปร A นั้นมีความผันผวนน้อยกว่าตัวแปร B (อยู่ในช่วงตั้งแต่ 0 ถึง 3000) และตัวแปร B ไปๆมาๆ 300 ถึง 350 หากเพิ่มตัวแปรทั้งสองเข้าด้วยกันผลลัพธ์จะถูกขับเคลื่อนโดย A

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.