คำถามติดแท็ก distributions

การแจกแจงเป็นการอธิบายทางคณิตศาสตร์ของความน่าจะเป็นหรือความถี่

1
R ตัวแปรเชิงเส้นถดถอยหมวดหมู่ "ซ่อน" ค่า
นี่เป็นเพียงตัวอย่างที่ฉันเจอหลายครั้งดังนั้นฉันจึงไม่มีข้อมูลตัวอย่าง ใช้แบบจำลองการถดถอยเชิงเส้นใน R: a.lm = lm(Y ~ x1 + x2) x1เป็นตัวแปรต่อเนื่อง x2เป็นหมวดหมู่และมีสามค่าเช่น "ต่ำ", "ปานกลาง" และ "สูง" อย่างไรก็ตามเอาต์พุตที่กำหนดโดย R จะเป็นดังนี้: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 ฉันเข้าใจว่า R แนะนำการเข้ารหัสแบบหลอกบางอย่างเกี่ยวกับปัจจัยดังกล่าว ( …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
การกระจายข้อผิดพลาดรอบ ๆ ข้อมูลการเติบโตของโลจิสติกคืออะไร
ในระบบนิเวศน์เรามักใช้สมการการเติบโตโลจิสติกส์: Nt=KN0ertK+N0ert−1Nt=KN0ertK+N0ert−1 N_t = \frac{ K N_0 e^{rt} }{K + N_0 e^{rt-1}} หรือ Nt=KN0N0+(K−N0)e−rtNt=KN0N0+(K−N0)e−rt N_t = \frac{ K N_0}{N_0 + (K -N_0)e^{-rt}} ที่ไหน KKK คือขีดความสามารถในการบรรทุก (ถึงความหนาแน่นสูงสุด) N0N0N_0 คือความหนาแน่นเริ่มต้น rrr คืออัตราการเติบโต ttt เป็นเวลาตั้งแต่เริ่มต้น คุณค่าของ NtNtN_t มีขอบบนที่อ่อนนุ่ม (K)(K)(K) และขอบเขตที่ต่ำกว่า (N0)(N0)(N_0)มีขอบเขตล่างที่แข็งแกร่งที่ 000. นอกจากนี้ในบริบทเฉพาะของฉันการวัดของ NtNtN_t จะทำโดยใช้ความหนาแน่นของแสงหรือการเรืองแสงซึ่งทั้งสองมีทฤษฎีสูงสุดและทำให้ขอบเขตที่แข็งแกร่ง ข้อผิดพลาดรอบ ๆ NtNtN_t ดังนั้นจึงอาจอธิบายได้ดีที่สุดโดยการแจกแจงแบบมีขอบเขต ที่ค่าน้อย NtNtN_tการกระจายอาจมีความเบ้เป็นบวกอย่างมากขณะที่ค่าของ NtNtN_tเมื่อเข้าหา K …
10 r  distributions  pdf  ecology 

1
การพิสูจน์ลำดับลดลง (สนับสนุนโดยการพล็อตเป็นจำนวนมาก)
คำถามมากมายที่ฉันโพสต์ใน SE ในเดือนที่ผ่านมามีเป้าหมายเพื่อช่วยฉันแก้ปัญหานี้โดยเฉพาะ ตอบคำถามทุกข้อแล้ว แต่ฉันก็ยังหาวิธีแก้ไม่ได้ ดังนั้นฉันคิดว่าฉันควรถามปัญหาที่ฉันพยายามแก้ไขโดยตรง ให้โดยที่ , , (จำนวนเต็ม) และทุกตัวเป็น cdf ส่วนเกิน 1)Xn∼FnXn∼FnX_n \sim F_nFn=(1−(1−Fn−1)c)cFn=(1−(1−Fn−1)c)cF_n = (1-(1-F_{n-1})^c)^cF0=xF0=xF_0 = xc≥2c≥2c\geq 2FnFnF_n(0,1)(0,1)(0,1) ฉันต้องการพิสูจน์ว่าลดลงด้วยสำหรับทุกc (หรือแม้กระทั่งสำหรับcใด ๆ)! ฉันสามารถแสดงให้เห็นว่าF_nแปรสภาพเป็นมวล Dirac ที่ทางออกที่ไม่ซ้ำกับ x_c = (1- (1-x) ^ c) ^ c) สำหรับc = 2 , x_2 = (3- \ sqrt {5}) / 2 \ ประมาณ 0.38 …

5
เหตุใดผลรวมของความน่าจะเป็นในการแจกแจงแบบสม่ำเสมออย่างต่อเนื่องจึงไม่มีความไม่สิ้นสุด
ฟังก์ชันความหนาแน่นของความน่าจะเป็นของการแจกแจงแบบสม่ำเสมอ (ต่อเนื่อง) แสดงไว้ด้านบน พื้นที่ใต้เส้นโค้งคือ 1 - ซึ่งสมเหตุสมผลเนื่องจากผลรวมของความน่าจะเป็นทั้งหมดในการแจกแจงความน่าจะเป็นคือ 1 ฟังก์ชันความน่าจะเป็นข้างต้น (f (x)) สามารถกำหนดเป็น 1 / (ba) สำหรับ x ใน [a, b] และ 0 เป็นอย่างอื่น พิจารณาว่าฉันต้องเลือกจำนวนจริงระหว่าง a (พูด 2) และ b (พูด 6) สิ่งนี้ทำให้ความน่าจะเป็นแบบเดียวกัน = 0.25 อย่างไรก็ตามเนื่องจากมีจำนวนอนันต์ของตัวเลขในช่วงเวลานั้นผลรวมของความน่าจะเป็นทั้งหมดจึงไม่เท่ากับอินฟินิตี้หรือไม่? ฉันกำลังมองเห็นอะไร f (x) ไม่ใช่ความน่าจะเป็นของตัวเลข x ที่เกิดขึ้นหรือไม่

3
ความเป็นอิสระของสถิติจากการแจกแจงแกมม่า
ให้เป็นตัวอย่างที่สุ่มจากการกระจายรังสีแกมมาขวา)X1,...,XnX1,...,XnX_1,...,X_nGamma(α,β)Gamma(α,β)\mathrm{Gamma}\left(\alpha,\beta\right) ให้และS ^ 2เป็นค่าเฉลี่ยตัวอย่างและความแปรปรวนตัวอย่างตามลำดับX¯X¯\bar{X}S2S2S^2 จากนั้นพิสูจน์หรือพิสูจน์ว่าX¯X¯\bar{X}และS2/X¯2S2/X¯2S^2/\bar{X}^2นั้นเป็นอิสระ ความพยายามของฉัน: ตั้งแต่S2/X¯2=1n−1∑ni=1(XiX¯−1)2S2/X¯2=1n−1∑i=1n(XiX¯−1)2S^2/\bar{X}^2 = \frac{1}{n-1} \sum_{i=1}^n \left(\frac{X_i}{\bar{X}}-1\right)^2 เราต้องตรวจสอบความเป็นอิสระของX¯X¯\bar{X}และ(XผมX¯)ni = 1(XผมX¯)ผม=1n\left(\frac{X_i}{\bar{X}} \right)_{i=1}^{n} , แต่ฉันจะสร้างความเป็นอิสระระหว่างพวกเขาได้อย่างไร?

1
สร้างตัวแปรสุ่มด้วยช่วงเวลาที่กำหนด
ฉันรู้ว่าช่วงเวลาแรกของการกระจายบางอย่าง ฉันรู้ว่าการกระจายของฉันนั้นต่อเนื่องไม่มีรูปแบบและมีรูปร่างที่ดี (ดูเหมือนว่าการกระจายแกมม่า) เป็นไปได้ที่จะ:NNN ใช้อัลกอริทึมสร้างตัวอย่างจากการแจกแจงนี้ซึ่งในเงื่อนไขที่ จำกัด จะมีช่วงเวลาเหมือนกันทุกประการ? แก้ไขปัญหานี้ได้อย่างไร ฉันเข้าใจว่าจนกว่าฉันจะมีช่วงเวลาไม่สิ้นสุดคำถามนี้จะไม่มีทางแก้ปัญหาที่ไม่ซ้ำกัน ฉันยินดีที่จะมี เนื่องจากการชี้แจงความคิดเห็น: ฉันไม่จำเป็นต้องกู้คืนการกระจายเดิม ฉันต้องการได้ทุกช่วงเวลา

1
อะไรคือความหมายและความแปรปรวนของตัวแปรหลายตัวแปรที่ถูกตัด 0
ให้จะอยู่ใน d เมทริกซ์ความแปรปรวนร่วมและความแปรปรวนร่วมของ (ด้วย elementwise ที่คำนวณได้สูงสุด) คืออะไรZ∼N(μ,Σ)Z∼N(μ,Σ)Z \sim \mathcal N(\mu, \Sigma)RdRd\mathbb R^dZ+=max(0,Z)Z+=max(0,Z)Z_+ = \max(0, Z) สิ่งนี้เกิดขึ้นเช่นเพราะถ้าเราใช้ฟังก์ชั่นการเปิดใช้งาน ReLU ภายในเครือข่ายที่ลึกและสมมติว่าผ่าน CLT ที่อินพุตไปยังเลเยอร์ที่กำหนดนั้นเป็นปกติประมาณนี่คือการแจกแจงของเอาท์พุต (ฉันแน่ใจว่ามีคนจำนวนมากคำนวณไว้ก่อนหน้านี้ แต่ฉันไม่พบผลลัพธ์ที่ปรากฏในที่ใด ๆ ในวิธีที่อ่านได้อย่างสมเหตุสมผล)

3
ความแตกต่างระหว่างสองสมมาตร rv ของยังมีการกระจายสมมาตรหรือไม่?
ถ้าฉันมีการแจกแจงสมมาตร (เทียบกับค่ามัธยฐาน) สองแบบ XXX และ YYYความแตกต่างของ ยังเป็นการกระจายแบบสมมาตร (เทียบกับค่ามัธยฐาน) ด้วยหรือไม่X−YX−YX-Y

2
การแสดง
ถ้า X∼ C( 0 , 1 )X∼C(0,1)X\sim\mathcal C(0,1)หาการกระจายของ Y=2 X1 -X2Y=2X1−X2Y=\frac{2X}{1-X^2}. เรามี FY( y) = P r ( Y≤ y)FY(y)=Pr(Y≤y)F_Y(y)=\mathrm{Pr}(Y\le y) = P r (2 X1 -X2≤ y)=Pr(2X1−X2≤y)\qquad\qquad\qquad=\mathrm{Pr}\left(\frac{2X}{1-X^2}\le y\right) =⎧⎩⎨⎪⎪⎪⎪⎪⎪Pr(X∈(−∞,−1−1+y2√y])+Pr(X∈(−1,−1+1+y2√y]),ify&gt;0Pr(X∈(−1,−1+1+y2√y])+Pr(X∈(1,−1−1+y2√y]),ify&lt;0={Pr(X∈(−∞,−1−1+y2y])+Pr(X∈(−1,−1+1+y2y]),ify&gt;0Pr(X∈(−1,−1+1+y2y])+Pr(X∈(1,−1−1+y2y]),ify&lt;0\qquad\qquad=\begin{cases} \mathrm{Pr}\left(X\in\left(-\infty,\frac{-1-\sqrt{1+y^2}}{y}\right]\right)+\mathrm{Pr}\left(X\in\left(-1,\frac{-1+\sqrt{1+y^2}}{y}\right]\right),\text{if}\quad y>0\\ \mathrm{Pr}\left(X\in\left(-1,\frac{-1+\sqrt{1+y^2}}{y}\right]\right)+\mathrm{Pr}\left(X\in\left(1,\frac{-1-\sqrt{1+y^2}}{y}\right]\right),\text{if}\quad y<0 \end{cases} ฉันสงสัยว่าความแตกต่างของกรณีด้านบนนั้นถูกต้องหรือไม่ ในทางตรงกันข้ามต่อไปนี้ดูเหมือนว่าวิธีที่ง่ายกว่า: เราสามารถเขียน Y=tan(2tan- 1X)Y=tan⁡(2tan−1⁡X)Y=\tan(2\tan^{-1}X) ใช้ตัวตน 2 ตันZ1 -สีน้ำตาล2Z= ผิวสีแทน2 z2tan⁡z1−tan2⁡z=tan⁡2z\frac{2\tan z}{1-\tan^2z}=\tan 2z ตอนนี้ X∼ …

2
การกระจายความน่าจะเป็นของผลรวมสุ่มของตัวแปรที่ไม่ใช่ของ iid Bernoulli คืออะไร
ฉันพยายามค้นหาการกระจายความน่าจะเป็นของผลรวมของตัวแปรสุ่มจำนวนหนึ่งที่ไม่ได้กระจายตัวแบบเดียวกัน นี่คือตัวอย่าง: จอห์นทำงานที่ศูนย์บริการลูกค้า เขารับสายที่มีปัญหาและพยายามแก้ปัญหา สิ่งที่เขาไม่สามารถแก้ไขได้เขาจะส่งต่อไปยังหัวหน้าของเขา สมมติว่าจำนวนการโทรที่เขาได้รับในหนึ่งวันเป็นไปตามการแจกแจงปัวซองด้วยค่าเฉลี่ยμμ\mu. ความยากลำบากของแต่ละปัญหาแตกต่างกันไปจากสิ่งที่เรียบง่าย (ซึ่งเขาสามารถจัดการได้อย่างแน่นอน) กับคำถามที่พิเศษมากซึ่งเขาไม่รู้วิธีแก้ปัญหา สมมติว่าความน่าจะเป็นที่เขาจะสามารถแก้ปัญหาi -th ตามการแจกแจงแบบเบต้าพร้อมพารามิเตอร์และและเป็นอิสระจากปัญหาก่อนหน้านี้ จำนวนการโทรติดต่อที่เขาแก้ไขในแต่ละวันคือเท่าไหร่?pipip_iαα\alphaββ\beta เป็นทางการมากขึ้นฉันมี: Y=I(N&gt;0)∑Ni=0XiY=I(N&gt;0)∑i=0NXiY = I(N > 0)\sum_{i = 0}^{N} X_i สำหรับ i=0,1,2,...,Ni=0,1,2,...,Ni = 0, 1, 2, ..., N ที่ ,และN∼Poisson(μ)N∼Poisson(μ)N \sim \mathrm{Poisson}(\mu)(Xi|pi)∼Bernoulli(pi)(Xi|pi)∼Bernoulli(pi)(X_i | p_i) \sim \mathrm{Bernoulli}(p_i)pi∼Beta(α,β)pi∼Beta(α,β)p_i \sim \mathrm{Beta}(\alpha, \beta) โปรดทราบว่าสำหรับตอนนี้ฉันยินดีที่จะสมมติว่า XiXiX_iเป็นอิสระ ฉันก็ยอมรับว่าพารามิเตอร์μ,αμ,α\mu, \alpha และ ββ\beta ไม่ส่งผลกระทบซึ่งกันและกันแม้ว่าในตัวอย่างจริงของเรื่องนี้เมื่อใด μμ\mu มีขนาดใหญ่พารามิเตอร์ …

1
รูปแบบการเรียนรู้แบบลึกใดที่สามารถจำแนกหมวดหมู่ที่ไม่ได้เกิดร่วมกัน
ตัวอย่าง: ฉันมีประโยคในรายละเอียดงาน: "วิศวกรอาวุโสของ Java ในสหราชอาณาจักร" ฉันต้องการที่จะใช้รูปแบบการเรียนรู้ที่ลึกที่จะคาดการณ์ว่ามันเป็น 2 ประเภทและEnglish IT jobsถ้าฉันใช้รูปแบบการจำแนกแบบดั้งเดิมมันสามารถทำนายได้เพียง 1 ฉลากที่มีsoftmaxฟังก์ชั่นที่ชั้นสุดท้าย ดังนั้นฉันสามารถใช้โครงข่ายประสาทเทียม 2 แบบในการทำนาย "ใช่" / "ไม่" กับทั้งสองหมวดหมู่ แต่ถ้าเรามีหมวดหมู่มากขึ้นมันก็แพงเกินไป ดังนั้นเราจึงมีรูปแบบการเรียนรู้หรือการเรียนรู้ด้วยเครื่องเพื่อคาดการณ์ 2 หมวดหมู่ขึ้นไปพร้อมกันหรือไม่ "แก้ไข": ด้วย 3 ป้ายกำกับโดยวิธีดั้งเดิมมันจะถูกเข้ารหัสโดย [1,0,0] แต่ในกรณีของฉันมันจะถูกเข้ารหัสโดย [1,1,0] หรือ [1,1,1] ตัวอย่าง: หากเรามี 3 ป้ายกำกับและประโยคอาจเหมาะกับป้ายกำกับเหล่านี้ทั้งหมด ดังนั้นถ้าผลลัพธ์จากฟังก์ชัน softmax คือ [0.45, 0.35, 0.2] เราควรแบ่งมันออกเป็น 3 label หรือ 2 label หรืออาจเป็นหนึ่ง? ปัญหาหลักเมื่อเราทำคือ: …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
สร้างตัวเลขสุ่มจาก“ การกระจายตัวแบบลาด” จากทฤษฎีทางคณิตศาสตร์
เพื่อจุดประสงค์บางอย่างฉันต้องสร้างตัวเลขสุ่ม (ข้อมูล) จากการกระจาย "ชุดลาด" "ความชัน" ของการกระจายนี้อาจแตกต่างกันไปในช่วงเวลาที่สมเหตุสมผลแล้วการกระจายของฉันควรเปลี่ยนจากเครื่องแบบเป็นสามเหลี่ยมตามความชัน นี่คือที่มาของฉัน: มาทำให้มันง่ายและสร้างฟอร์มข้อมูล 000 ถึง BBB(สีน้ำเงิน, สีแดงคือการกระจายแบบสม่ำเสมอ) เพื่อให้ได้ฟังก์ชันความหนาแน่นของความน่าจะเป็นของเส้นสีฟ้าฉันต้องการเพียงสมการของเส้นนั้น ดังนั้น: ฉ(x ) = t g( φ ) x + Y(0 )ฉ(x)=เสื้อก.(φ)x+Y(0)f(x) = tg(\varphi)x + Y(0) และตั้งแต่ (ภาพ): เสื้อg( φ )Y( 0 )=1 / B - Y( 0 )B / 2=1B- tกรัม( φ )B2เสื้อก.(φ)=1/B-Y(0)B/2Y(0)=1B-เสื้อก.(φ)B2\begin{align} tg(\varphi) &= \frac{1/B …

2
ตัวแปรสุ่มที่ Markov, อสมการ Chebyshev แน่น
ฉันสนใจที่จะสร้างตัวแปรสุ่มซึ่งความไม่เท่าเทียมกันของ Markov หรือ Chebyshev แน่น ตัวอย่างเล็ก ๆ น้อย ๆ คือตัวแปรสุ่มต่อไปนี้ P(X=1)=P(X=−1)=0.5P(X=1)=P(X=-1)=0.5P(X=1)=P(X=-1) = 0.50.5 ค่าเฉลี่ยของมันคือศูนย์แปรปรวนคือ 1 และ1 สำหรับตัวแปรสุ่ม chebyshev นี้จะแน่น (ถือด้วยความเสมอภาค)P(|X|≥1)=1P(|X|≥1)=1P(|X| \ge 1) = 1 P(|X|≥1)≤Var(X)12=1P(|X|≥1)≤Var(X)12=1P(|X|\ge 1) \le \frac{\text{Var}(X)}{1^2} = 1 มีตัวแปรสุ่มที่น่าสนใจ (ไม่เหมือนกัน) ที่ Markov และ Chebyshev แน่นกว่านี้หรือไม่? ตัวอย่างบางส่วนจะดี


1
ช่วงเวลาที่ทับซ้อนกันแบบสุ่ม
ฉันจะค้นหานิพจน์การวิเคราะห์ได้อย่างไรในปัญหาต่อไปนี้D(n,l,L)D(n,l,L)D(n,l,L) ผมสุ่มวาง "บาร์" ของความยาวลงในช่วงL] "บาร์" สามารถทับซ้อนกัน ฉันต้องการหาค่าเฉลี่ยความยาวรวมของช่วงเวลาครอบครองโดย "บาร์" อย่างน้อยหนึ่งรายการnnnlll[0,L][0,L][0,L]DDD[ 0 , L ][0,L][0,L] ใน "ความหนาแน่นต่ำ" ขีด จำกัด , การทับซ้อนกันควรจะมีเพียงเล็กน้อยและลิตร ใน "ความหนาแน่นสูง" ขีด จำกัด ,แนวทางLแต่ฉันจะหานิพจน์ทั่วไปสำหรับอย่างไร นั่นควรเป็นปัญหาพื้นฐานทางสถิติ แต่ฉันไม่สามารถหาคำอธิบายที่อธิบายได้ในฟอรัมD = n ⋅ lD=n⋅lD = n\cdot lDDDLLLDDD ความช่วยเหลือใด ๆ ที่จะได้รับการชื่นชมอย่างมาก. โปรดทราบว่าแท่งจะถูกสุ่มสุ่ม (อิสระทางสถิติ) ของกันและกัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.