คำถามติดแท็ก probability

ความน่าจะเป็นให้คำอธิบายเชิงปริมาณของเหตุการณ์ที่เกิดขึ้นโดยเฉพาะ

1
R ตัวแปรเชิงเส้นถดถอยหมวดหมู่ "ซ่อน" ค่า
นี่เป็นเพียงตัวอย่างที่ฉันเจอหลายครั้งดังนั้นฉันจึงไม่มีข้อมูลตัวอย่าง ใช้แบบจำลองการถดถอยเชิงเส้นใน R: a.lm = lm(Y ~ x1 + x2) x1เป็นตัวแปรต่อเนื่อง x2เป็นหมวดหมู่และมีสามค่าเช่น "ต่ำ", "ปานกลาง" และ "สูง" อย่างไรก็ตามเอาต์พุตที่กำหนดโดย R จะเป็นดังนี้: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 ฉันเข้าใจว่า R แนะนำการเข้ารหัสแบบหลอกบางอย่างเกี่ยวกับปัจจัยดังกล่าว ( …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
การพิสูจน์ลำดับลดลง (สนับสนุนโดยการพล็อตเป็นจำนวนมาก)
คำถามมากมายที่ฉันโพสต์ใน SE ในเดือนที่ผ่านมามีเป้าหมายเพื่อช่วยฉันแก้ปัญหานี้โดยเฉพาะ ตอบคำถามทุกข้อแล้ว แต่ฉันก็ยังหาวิธีแก้ไม่ได้ ดังนั้นฉันคิดว่าฉันควรถามปัญหาที่ฉันพยายามแก้ไขโดยตรง ให้โดยที่ , , (จำนวนเต็ม) และทุกตัวเป็น cdf ส่วนเกิน 1)Xn∼FnXn∼FnX_n \sim F_nFn=(1−(1−Fn−1)c)cFn=(1−(1−Fn−1)c)cF_n = (1-(1-F_{n-1})^c)^cF0=xF0=xF_0 = xc≥2c≥2c\geq 2FnFnF_n(0,1)(0,1)(0,1) ฉันต้องการพิสูจน์ว่าลดลงด้วยสำหรับทุกc (หรือแม้กระทั่งสำหรับcใด ๆ)! ฉันสามารถแสดงให้เห็นว่าF_nแปรสภาพเป็นมวล Dirac ที่ทางออกที่ไม่ซ้ำกับ x_c = (1- (1-x) ^ c) ^ c) สำหรับc = 2 , x_2 = (3- \ sqrt {5}) / 2 \ ประมาณ 0.38 …

13
หาก 'B มีแนวโน้มว่าจะได้รับ A' มากกว่า 'A ก็จะได้รับ B' มากกว่า
ฉันพยายามที่จะทำให้สัญชาตญาณชัดเจนขึ้น: "ถ้าทำให้มีแนวโน้มมากขึ้นก็ทำให้Aมีแนวโน้มมากขึ้น" เช่นAAABBBBBBAAA ให้n(S)n(S)n(S)แทนขนาดของพื้นที่ที่AAAและBBBเป็นเช่นนั้น อ้างสิทธิ์: P(B|A)>P(B)P(B|A)>P(B)P(B|A)>P(B)ดังนั้นn(AB)/n(A)>n(B)/n(S)n(AB)/n(A)>n(B)/n(S)n(AB)/n(A) > n(B)/n(S) so n(AB)/n(B)>n(A)/n(S)n(AB)/n(B)>n(A)/n(S)n(AB)/n(B) > n(A)/n(S) อันไหนP(A|B)>P(A)P(A|B)>P(A)P(A|B)>P(A) ฉันเข้าใจคณิตศาสตร์ แต่ทำไมสิ่งนี้ถึงสมเหตุสมผล

1
ตรวจสอบว่าเหรียญมีความยุติธรรมหรือไม่
ฉันถูกเพื่อนคนหนึ่งถามคำถามต่อไปนี้ ฉันไม่สามารถช่วยเธอออกไปได้ แต่ฉันหวังว่าจะมีคนสามารถอธิบายให้ฉันได้ ฉันไม่พบตัวอย่างที่คล้ายกันขอบคุณสำหรับความช่วยเหลือและคำอธิบายใด ๆ Q: ผลการทดสอบการโยนเหรียญ 100 ครั้งจะถูกบันทึกเป็น 0 = "หาง" และ 1 = "หัว" เอาต์พุต x คือสตริงของ 0 และ 1 ของความยาว 100 และจำนวนครั้งที่เราได้รับ 1-0-0 ใน x ถูกคำนวณและมันคือ 20 (เช่น: ถ้า x = (001001110100), 1-0-0 เกิดขึ้น 2 ครั้ง) คุณคิดว่านี่เป็นเหรียญที่ยุติธรรมหรือไม่?

5
เหตุใดผลรวมของความน่าจะเป็นในการแจกแจงแบบสม่ำเสมออย่างต่อเนื่องจึงไม่มีความไม่สิ้นสุด
ฟังก์ชันความหนาแน่นของความน่าจะเป็นของการแจกแจงแบบสม่ำเสมอ (ต่อเนื่อง) แสดงไว้ด้านบน พื้นที่ใต้เส้นโค้งคือ 1 - ซึ่งสมเหตุสมผลเนื่องจากผลรวมของความน่าจะเป็นทั้งหมดในการแจกแจงความน่าจะเป็นคือ 1 ฟังก์ชันความน่าจะเป็นข้างต้น (f (x)) สามารถกำหนดเป็น 1 / (ba) สำหรับ x ใน [a, b] และ 0 เป็นอย่างอื่น พิจารณาว่าฉันต้องเลือกจำนวนจริงระหว่าง a (พูด 2) และ b (พูด 6) สิ่งนี้ทำให้ความน่าจะเป็นแบบเดียวกัน = 0.25 อย่างไรก็ตามเนื่องจากมีจำนวนอนันต์ของตัวเลขในช่วงเวลานั้นผลรวมของความน่าจะเป็นทั้งหมดจึงไม่เท่ากับอินฟินิตี้หรือไม่? ฉันกำลังมองเห็นอะไร f (x) ไม่ใช่ความน่าจะเป็นของตัวเลข x ที่เกิดขึ้นหรือไม่

1
อะไรคือความหมายและความแปรปรวนของตัวแปรหลายตัวแปรที่ถูกตัด 0
ให้จะอยู่ใน d เมทริกซ์ความแปรปรวนร่วมและความแปรปรวนร่วมของ (ด้วย elementwise ที่คำนวณได้สูงสุด) คืออะไรZ∼N(μ,Σ)Z∼N(μ,Σ)Z \sim \mathcal N(\mu, \Sigma)RdRd\mathbb R^dZ+=max(0,Z)Z+=max(0,Z)Z_+ = \max(0, Z) สิ่งนี้เกิดขึ้นเช่นเพราะถ้าเราใช้ฟังก์ชั่นการเปิดใช้งาน ReLU ภายในเครือข่ายที่ลึกและสมมติว่าผ่าน CLT ที่อินพุตไปยังเลเยอร์ที่กำหนดนั้นเป็นปกติประมาณนี่คือการแจกแจงของเอาท์พุต (ฉันแน่ใจว่ามีคนจำนวนมากคำนวณไว้ก่อนหน้านี้ แต่ฉันไม่พบผลลัพธ์ที่ปรากฏในที่ใด ๆ ในวิธีที่อ่านได้อย่างสมเหตุสมผล)

2
ความคาดหวังของสแควร์รูทของผลรวมของตัวแปรสุ่มชุดกำลังสองอิสระ
ให้เป็นอิสระและตัวแปรสุ่มชุดมาตรฐานแบบกระจายเหมือนกันX1, … ,Xn∼ คุณ( 0 , 1 )X1,…,Xn∼U(0,1)X_1,\dots,X_n \sim U(0,1) ปล่อย Yn=ΣผมnX2ผมฉันค้นหา: E [Yn--√]ปล่อย Yn=ΣผมnXผม2ฉันค้นหา: E[Yn]\text{Let }\quad Y_n=\sum_i^nX_i^2 \quad \quad \text{I seek: } \quad \mathbb{E}\big[\sqrt{Y_n } \big] ความคาดหวังของนั้นง่าย:YnYnY_n E [X2]E [Yn]=∫10Y2Y√=13= E [ΣผมnX2ผม] =ΣผมnE [X2ผม] =n3E[X2]=∫01Y2Y=13E[Yn]=E[ΣผมnXผม2]=ΣผมnE[Xผม2]=n3\begin{align} \mathbb{E}\left[X^2\right] &=\int_0^1\frac{y}{2\sqrt{y}}=\frac{1}{3}\\ \mathbb{E}\left[Y_n\right] &=\mathbb{E}\left[\sum_i^nX_i^2\right] = \sum_i^n\mathbb{E}\left[X_i^2\right]=\frac{n}{3} \end{align} ตอนนี้ส่วนที่น่าเบื่อ เมื่อต้องการใช้ LOTUS, ฉันจะต้องไฟล์ PDF ของy_nแน่นอนว่าไฟล์ PDF …

3
มีอะไรสูงกว่า
ดังนั้นฉันจึงมีการทดสอบความน่าจะเป็นและฉันไม่สามารถตอบคำถามนี้ได้ มันเพิ่งถามอะไรแบบนี้ พิจารณาว่า XXX เป็นตัวแปรสุ่ม XXX ⩾⩾\geqslant 000ใช้ความไม่เท่าเทียมกันที่ถูกต้องที่จะพิสูจน์สิ่งที่สูงกว่าหรือเท่ากับ,หรือ 2E(X2)3E(X2)3E(X^2)^3E(X3)2E(X3)2E(X^3)^2 สิ่งเดียวที่ฉันคิดได้ก็คือความไม่เท่าเทียมของ Jensen แต่ฉันไม่รู้วิธีนำไปใช้ที่นี่จริง ๆ

1
ความคาดหวังของตัวแปรสุ่มหารด้วยค่าเฉลี่ยคืออะไร
ให้จะ IID และx_i ดูเหมือนชัดเจน แต่ฉันมีปัญหาอย่างเป็นทางการที่ได้มาXiXiX_iX¯=∑ni=1XiX¯=∑i=1nXi\bar{X} = \sum_{i=1}^{n} X_iE[XiX¯]= ?E[XiX¯]= ? E\left[\frac{X_i}{\bar{X}}\right] = \ ?

1
เราสามารถสรุปได้จากที่เป็นอิสระหรือไม่?
เราไม่สามารถดูตัวอย่างhttps://en.wikipedia.org/wiki/Subindependence สำหรับตัวอย่างที่น่าสนใจ แต่คำถามที่แท้จริงคือ: มีวิธีที่จะเสริมสร้างสภาพเพื่อให้ความเป็นอิสระดังต่อไปนี้? ตัวอย่างเช่นมีชุดของฟังก์ชั่นดังนั้นถ้าสำหรับทั้งหมดจึงเป็นอิสระต่อไปนี้? และชุดฟังก์ชั่นดังกล่าวต้องใหญ่ขนาดไหนไม่มีที่สิ้นสุด?g1,…,gng1,…,gng_1, \dotsc, g_nEgi(X)gj(Y)=Egi(X)Egj(Y)E⁡gi(X)gj(Y)=E⁡gi(X)E⁡gj(Y)\E g_i(X) g_j(Y) =\E g_i(X) \E g_j(Y)i,ji,ji,j และนอกจากนี้มีการอ้างอิงที่ดีที่ปฏิบัติต่อคำถามนี้หรือไม่?

2
หากฉันต้องการมีโอกาส 95% ที่วัตถุน้อยกว่า 1% ผิดฉันต้องมีตัวอย่างจำนวนเท่าใด
ฉันต้องแน่ใจว่าแผนผังเว็บไซต์ XML ของฉันมีขยะน้อยกว่า (ลิงก์เสีย) รายการ URL นั้นอยู่ในหลักแสนและแม้ว่าจะเป็นไปได้ที่จะทดสอบพวกเขาทั้งหมด 1 ต่อ 1 ฉันไม่ต้องการด้วยเหตุผลหลายประการ:1 %1%1\% 1 - Saved bandwidth 2 - Faster traffic for real clients 3 - Less noise in visitor statistics (because my test would count as a visit) 5 - I could go on... ดังนั้นฉันคิดว่าการสุ่มเซตย่อยเพียงพอแล้วปัญหาคือฉันไม่รู้ความน่าจะเป็น มีฟังก์ชั่นง่าย ๆ ที่ฉันสามารถใช้ได้หรือไม่? หากช่วยได้เราสามารถสมมติให้มีข้อมูลเบื้องต้นเกี่ยวกับความน่าจะเป็นของลิงก์ที่จะใช้งานไม่ได้ สมมติว่าข้ามการรันจะมีค่าสำหรับการเชื่อมโยงที่กำหนดใด …

2
การกระจายความน่าจะเป็นของผลรวมสุ่มของตัวแปรที่ไม่ใช่ของ iid Bernoulli คืออะไร
ฉันพยายามค้นหาการกระจายความน่าจะเป็นของผลรวมของตัวแปรสุ่มจำนวนหนึ่งที่ไม่ได้กระจายตัวแบบเดียวกัน นี่คือตัวอย่าง: จอห์นทำงานที่ศูนย์บริการลูกค้า เขารับสายที่มีปัญหาและพยายามแก้ปัญหา สิ่งที่เขาไม่สามารถแก้ไขได้เขาจะส่งต่อไปยังหัวหน้าของเขา สมมติว่าจำนวนการโทรที่เขาได้รับในหนึ่งวันเป็นไปตามการแจกแจงปัวซองด้วยค่าเฉลี่ยμμ\mu. ความยากลำบากของแต่ละปัญหาแตกต่างกันไปจากสิ่งที่เรียบง่าย (ซึ่งเขาสามารถจัดการได้อย่างแน่นอน) กับคำถามที่พิเศษมากซึ่งเขาไม่รู้วิธีแก้ปัญหา สมมติว่าความน่าจะเป็นที่เขาจะสามารถแก้ปัญหาi -th ตามการแจกแจงแบบเบต้าพร้อมพารามิเตอร์และและเป็นอิสระจากปัญหาก่อนหน้านี้ จำนวนการโทรติดต่อที่เขาแก้ไขในแต่ละวันคือเท่าไหร่?pipip_iαα\alphaββ\beta เป็นทางการมากขึ้นฉันมี: Y=I(N>0)∑Ni=0XiY=I(N>0)∑i=0NXiY = I(N > 0)\sum_{i = 0}^{N} X_i สำหรับ i=0,1,2,...,Ni=0,1,2,...,Ni = 0, 1, 2, ..., N ที่ ,และN∼Poisson(μ)N∼Poisson(μ)N \sim \mathrm{Poisson}(\mu)(Xi|pi)∼Bernoulli(pi)(Xi|pi)∼Bernoulli(pi)(X_i | p_i) \sim \mathrm{Bernoulli}(p_i)pi∼Beta(α,β)pi∼Beta(α,β)p_i \sim \mathrm{Beta}(\alpha, \beta) โปรดทราบว่าสำหรับตอนนี้ฉันยินดีที่จะสมมติว่า XiXiX_iเป็นอิสระ ฉันก็ยอมรับว่าพารามิเตอร์μ,αμ,α\mu, \alpha และ ββ\beta ไม่ส่งผลกระทบซึ่งกันและกันแม้ว่าในตัวอย่างจริงของเรื่องนี้เมื่อใด μμ\mu มีขนาดใหญ่พารามิเตอร์ …

1
รูปแบบการเรียนรู้แบบลึกใดที่สามารถจำแนกหมวดหมู่ที่ไม่ได้เกิดร่วมกัน
ตัวอย่าง: ฉันมีประโยคในรายละเอียดงาน: "วิศวกรอาวุโสของ Java ในสหราชอาณาจักร" ฉันต้องการที่จะใช้รูปแบบการเรียนรู้ที่ลึกที่จะคาดการณ์ว่ามันเป็น 2 ประเภทและEnglish IT jobsถ้าฉันใช้รูปแบบการจำแนกแบบดั้งเดิมมันสามารถทำนายได้เพียง 1 ฉลากที่มีsoftmaxฟังก์ชั่นที่ชั้นสุดท้าย ดังนั้นฉันสามารถใช้โครงข่ายประสาทเทียม 2 แบบในการทำนาย "ใช่" / "ไม่" กับทั้งสองหมวดหมู่ แต่ถ้าเรามีหมวดหมู่มากขึ้นมันก็แพงเกินไป ดังนั้นเราจึงมีรูปแบบการเรียนรู้หรือการเรียนรู้ด้วยเครื่องเพื่อคาดการณ์ 2 หมวดหมู่ขึ้นไปพร้อมกันหรือไม่ "แก้ไข": ด้วย 3 ป้ายกำกับโดยวิธีดั้งเดิมมันจะถูกเข้ารหัสโดย [1,0,0] แต่ในกรณีของฉันมันจะถูกเข้ารหัสโดย [1,1,0] หรือ [1,1,1] ตัวอย่าง: หากเรามี 3 ป้ายกำกับและประโยคอาจเหมาะกับป้ายกำกับเหล่านี้ทั้งหมด ดังนั้นถ้าผลลัพธ์จากฟังก์ชัน softmax คือ [0.45, 0.35, 0.2] เราควรแบ่งมันออกเป็น 3 label หรือ 2 label หรืออาจเป็นหนึ่ง? ปัญหาหลักเมื่อเราทำคือ: …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
ตัวแปรสุ่มที่ Markov, อสมการ Chebyshev แน่น
ฉันสนใจที่จะสร้างตัวแปรสุ่มซึ่งความไม่เท่าเทียมกันของ Markov หรือ Chebyshev แน่น ตัวอย่างเล็ก ๆ น้อย ๆ คือตัวแปรสุ่มต่อไปนี้ P(X=1)=P(X=−1)=0.5P(X=1)=P(X=-1)=0.5P(X=1)=P(X=-1) = 0.50.5 ค่าเฉลี่ยของมันคือศูนย์แปรปรวนคือ 1 และ1 สำหรับตัวแปรสุ่ม chebyshev นี้จะแน่น (ถือด้วยความเสมอภาค)P(|X|≥1)=1P(|X|≥1)=1P(|X| \ge 1) = 1 P(|X|≥1)≤Var(X)12=1P(|X|≥1)≤Var(X)12=1P(|X|\ge 1) \le \frac{\text{Var}(X)}{1^2} = 1 มีตัวแปรสุ่มที่น่าสนใจ (ไม่เหมือนกัน) ที่ Markov และ Chebyshev แน่นกว่านี้หรือไม่? ตัวอย่างบางส่วนจะดี

6
ฉันต้องการเรียนรู้เกี่ยวกับทฤษฎีความน่าจะเป็นทฤษฎีการวัดและการเรียนรู้ของเครื่องจักรในที่สุด ฉันจะเริ่มที่ไหน [ปิด]
ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน3 ปีที่ผ่านมา ฉันต้องการเรียนรู้เกี่ยวกับทฤษฎีความน่าจะเป็นทฤษฎีการวัดและการเรียนรู้ของเครื่องจักรในที่สุด เป้าหมายสูงสุดของฉันคือการใช้การเรียนรู้ของเครื่องในซอฟต์แวร์ ฉันศึกษาแคลคูลัสและความน่าจะเป็นพื้นฐานในวิทยาลัย แต่มันก็สวยมาก คุณรู้หลักสูตรออนไลน์หรือหนังสือบางเล่มที่ฉันสามารถใช้เพื่อเรียนรู้เกี่ยวกับวิชาเหล่านี้ ฉันพบแหล่งข้อมูลมากมายบนเว็บ แต่พวกเขาดูเหมือนจะกำหนดเป้าหมายไปยังผู้ชมที่มีความเชี่ยวชาญ ฉันรู้ว่ามันต้องใช้เวลาพอสมควร แต่ฉันจะเริ่มได้ที่ไหนถ้าฉันต้องการเรียนรู้ตั้งแต่ต้น?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.