คำถามติดแท็ก distributions

การแจกแจงเป็นการอธิบายทางคณิตศาสตร์ของความน่าจะเป็นหรือความถี่

2
การกระจายปัวซองนั้นเสถียรและมีสูตรผกผันสำหรับ MGF หรือไม่?
ก่อนอื่นฉันมีคำถามเกี่ยวกับการกระจายของปัวซองว่า "เสถียร" หรือไม่ ไร้เดียงสามาก (และฉันก็ไม่แน่ใจเกี่ยวกับการแจกแจง "เสถียร") ฉันคำนวณการกระจายตัวเชิงเส้นของ Poisson กระจาย RV's โดยใช้ผลิตภัณฑ์ของ MGF ดูเหมือนว่าฉันจะได้รับปัวซองอีกครั้งโดยมีพารามิเตอร์เท่ากับชุดค่าผสมเชิงเส้นของพารามิเตอร์ของ RV แต่ละตัว ดังนั้นฉันจึงสรุปได้ว่าปัวซองนั้น "เสถียร" ฉันกำลังคิดถึงอะไร ประการที่สองมีสูตรผกผันสำหรับ MGF เช่นเดียวกับฟังก์ชั่นลักษณะหรือไม่?

2
สถิติการสั่งซื้อ (เช่นขั้นต่ำ) ของการรวบรวมตัวแปรไคสแควร์ไม่สิ้นสุด?
นี่เป็นครั้งแรกของฉันที่นี่ดังนั้นโปรดแจ้งให้เราทราบหากฉันสามารถชี้แจงคำถามของฉันไม่ว่าทางใดทางหนึ่ง (รวมถึงการจัดรูปแบบแท็ก ฯลฯ ) (และหวังว่าฉันจะสามารถแก้ไขได้ในภายหลัง!) ฉันพยายามค้นหาการอ้างอิงและพยายามแก้ไขตัวเองโดยใช้การเหนี่ยวนำ แต่ล้มเหลวทั้งสองอย่าง ฉันพยายามทำให้การกระจายง่ายขึ้นซึ่งดูเหมือนว่าจะลดลงเป็นสถิติการเรียงลำดับของตัวแปรสุ่มอิสระไม่มีที่สิ้นสุดพร้อมด้วยองศาอิสระที่แตกต่างกัน โดยเฉพาะการกระจายตัวของค่าที่เล็กที่สุดในคืออะไรระหว่าง\ chi ^ 2_2, \ chi ^ 2_4, \ chi ^ 2_6, \ chi ^ 2_8, \ ldots ?χ2χ2\chi^2mmmχ22,χ24,χ26,χ28,…χ22,χ42,χ62,χ82,…\chi^2_2,\chi^2_4,\chi^2_6,\chi^2_8,\ldots ฉันสนใจกรณีพิเศษm=1m=1m=1 : การกระจายขั้นต่ำของ (อิสระ) χ22,χ24,χ26,…χ22,χ42,χ62,…\chi^2_2,\chi^2_4,\chi^2_6,\ldotsคืออะไร? สำหรับกรณีที่น้อยที่สุดฉันสามารถเขียนฟังก์ชันการแจกแจงสะสม (CDF) เป็นผลิตภัณฑ์ที่ไม่มีที่สิ้นสุด แต่ไม่สามารถทำให้มันง่ายขึ้นอีก ฉันใช้ข้อเท็จจริงว่า CDF ของχ22mχ2m2\chi^2_{2m}คือF2m(x)=γ(m,x/2)/Γ(m)=γ(m,x/2)/(m−1)!=1−e−x/2∑k=0m−1xk/(2kk!).F2m(x)=γ(m,x/2)/Γ(m)=γ(m,x/2)/(m−1)!=1−e−x/2∑k=0m−1xk/(2kk!).F_{2m}(x)=\gamma(m,x/2)/\Gamma(m)=\gamma(m,x/2)/(m-1)!=1-e^{-x/2}\sum_{k=0}^{m-1}x^k/(2^k k!). (ด้วยm=1m=1m=1นี่เป็นการยืนยันความคิดเห็นที่สองด้านล่างเกี่ยวกับความเท่าเทียมกับการแจกแจงแบบเอ็กซ์โพเนนเชียลโดยมีความคาดหวัง 2) CDF ของขั้นต่ำสามารถเขียนเป็นFmin(x)=1−(1−F2(x))(1−F4(x))…=1−∏m=1∞(1−F2m(x))Fmin(x)=1−(1−F2(x))(1−F4(x))…=1−∏m=1∞(1−F2m(x))F_{min}(x) = 1-(1-F_2(x))(1-F_4(x))\ldots = 1-\prod_{m=1}^\infty (1-F_{2m}(x)) =1−∏m=1∞(e−x/2∑k=0m−1xk2kk!).=1−∏m=1∞(e−x/2∑k=0m−1xk2kk!).= …

2
Gaussian แบบหลายตัวแปรที่ทนทานใน R
ฉันต้องพอดีกับการแจกแจงแบบเกาส์ทั่วไปกับคลาวด์ 7-point ที่บรรจุค่าผิดปกติจำนวนมากและมีเลเวอเรจสูง คุณรู้จักแพ็คเกจ R ที่ดีสำหรับงานนี้หรือไม่?

3
วิธีการเปรียบเทียบสองชุดข้อมูลกับพล็อต QQ โดยใช้ ggplot2?
ในฐานะที่เป็นทั้งสถิติและสามเณร R ฉันมีช่วงเวลาที่ยากลำบากมากที่พยายามสร้าง qqplots ด้วยอัตราส่วนกว้างยาว 1: 1 ggplot2 ดูเหมือนว่าจะให้การควบคุมการวางแผนมากกว่าแพ็คเกจการวางแผน R เริ่มต้น แต่ฉันไม่เห็นวิธีทำ qqplot ใน ggplot2 เพื่อเปรียบเทียบชุดข้อมูลสองชุด ดังนั้นคำถามของฉัน ggplot2 เทียบเท่ากับอะไรเช่น: qqplot(datset1,dataset2)

2
ใช้การถดถอยปัวซองสำหรับข้อมูลอย่างต่อเนื่อง?
การแจกแจงปัวซงสามารถใช้ในการวิเคราะห์ข้อมูลแบบต่อเนื่องและข้อมูลแบบแยก ฉันมีชุดข้อมูลสองสามชุดที่ตัวแปรตอบสนองต่อเนื่อง แต่มีลักษณะคล้ายกับการแจกแจงปัวซองแทนการแจกแจงแบบปกติ อย่างไรก็ตามการแจกแจงปัวซงเป็นการกระจายแบบไม่ต่อเนื่องและมักเกี่ยวข้องกับตัวเลขหรือจำนวน

2
ทำไมการทดสอบของ McNemar จึงใช้ไคสแควร์ไม่ใช่การแจกแจงแบบปกติ?
ฉันเพิ่งสังเกตเห็นว่าการทดสอบที่ไม่แม่นยำของ McNemar ใช้การแจกแจงแบบ asymptotic ของไคสแควร์อย่างไร แต่เนื่องจากการทดสอบที่แน่นอน (สำหรับตารางกรณีสองกรณี) นั้นขึ้นอยู่กับการแจกแจงทวินามทำไมจึงไม่เป็นเรื่องปกติที่จะแนะนำการประมาณแบบปกติในการแจกแจงทวินาม ขอบคุณ

3
ประมาณ
เป็นวิธีที่ดีที่สุดที่จะใกล้เคียงกับสำหรับจำนวนเต็มสองจำนวนที่กำหนดเมื่อคุณรู้ว่าหมายถึงแปรปรวนเบ้และโด่งเกินของการกระจายต่อเนื่องและเป็นที่ชัดเจนจากการวัดรูปร่างและ (ไม่ใช่ศูนย์) ที่การประมาณปกติไม่เหมาะสมหรือไม่ม. , n μ σ 2 γ 1 γ 2 X γ 1 γ 2Pr[n≤X≤m]Pr[n≤X≤m]Pr[n \leq X \leq m]m,nm,nm,nμμ\muσ2σ2\sigma^2γ1γ1\gamma_1γ2γ2\gamma_2XXXγ1γ1\gamma_1γ2γ2\gamma_2 ปกติฉันจะใช้การประมาณค่าปกติกับการแก้ไขจำนวนเต็ม ... Pr[(n−½)≤X≤(m+½)]=Pr[(n−½)−μσ≤Z≤(m+½)−μσ]=Φ((m+½)−μσ)−Φ((n−½)−μσ)Pr[(n−½)≤X≤(m+½)]=Pr[(n−½)−μσ≤Z≤(m+½)−μσ]=Φ((m+½)−μσ)−Φ((n−½)−μσ)Pr[(n - \text{½})\leq X \leq (m + \text{½})] = Pr[\frac{(n - \text{½})-\mu}{\sigma}\leq Z \leq \frac{(m + \text{½})-\mu}{\sigma}] = \Phi(\frac{(m + \text{½})-\mu}{\sigma}) - \Phi(\frac{(n - \text{½})-\mu}{\sigma}) ... ถ้าความเบ้และความโด่งเกินเป็น …

3
การประมาณค่าเฉลี่ยและ st dev ของเส้นโค้งแบบเกาส์ที่ถูกตัดทอนโดยไม่มีการขัดขวาง
สมมติว่าฉันมีกล่องดำที่สร้างข้อมูลหลังจากการแจกแจงแบบปกติด้วยค่าเฉลี่ย m และส่วนเบี่ยงเบนมาตรฐาน อย่างไรก็ตามสมมติว่าเมื่อใดก็ตามที่มันส่งออกค่า <0 มันจะไม่บันทึกอะไรเลย (ไม่สามารถบอกได้เลยว่ามันเป็นค่าที่ส่งออก) เรามีการแจกแจงแบบเกาส์ที่ถูกตัดทอนโดยไม่มีการขัดขวาง ฉันจะประมาณค่าพารามิเตอร์เหล่านี้ได้อย่างไร

1
R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน
mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
โดยสังเขปเหตุใดไขว้เอนโทรปีจึงวัดระยะทางของการแจกแจงความน่าจะเป็นสองอัน?
สำหรับการแจกแจงแบบแยกสองและข้ามเอนโทรปีจะถูกกำหนดเป็นqพีppQqq H( p , q) = - ∑xp ( x ) บันทึกQ( x )H(p,q)=−∑xp(x)log⁡q(x).H(p,q)=-\sum_x p(x)\log q(x). ฉันสงสัยว่าทำไมนี่เป็นการวัดระยะทางแบบง่าย ๆ ระหว่างการแจกแจงความน่าจะเป็นสองแบบ? ผมเห็นว่าเป็นเอนโทรปีของซึ่งมาตรการ "แปลกใจ" ของพีเป็นตัวชี้วัดที่ส่วนหนึ่งแทนที่โดยQฉันยังไม่เข้าใจความหมายที่เข้าใจง่ายที่อยู่เบื้องหลังคำจำกัดความp p H ( p , q ) p qH( p , p )H(พี,พี)H(p,p)พีพีpพีพีpH( p , q)H(พี,Q)H(p,q)พีพีpQQq

1
วัดความสม่ำเสมอของการแจกแจงในวันธรรมดา
ฉันมีปัญหาคล้ายกับคำถามที่ถามที่นี่: เราวัดความไม่สม่ำเสมอของการแจกแจงได้อย่างไร ฉันมีชุดการแจกแจงความน่าจะเป็นในแต่ละวันของสัปดาห์ ฉันต้องการวัดว่าการกระจายแต่ละครั้งนั้นใกล้กับเท่าไหร่ (1 / 7,1 / 7, ... , 1/7) ตอนนี้ฉันใช้คำตอบจากคำถามข้างต้น L2-Norm ซึ่งมีค่า 1 เมื่อการแจกแจงมีมวล 1 เป็นเวลาหนึ่งวันและจะลดลงสำหรับ (1 / 7,1 / 7, 7, ... , 1/7) ฉันกำลังขยายขนาดเชิงเส้นนี้อยู่ระหว่าง 0 ถึง 1 จากนั้นจึงพลิกมัน 0 หมายความว่าไม่สม่ำเสมออย่างสมบูรณ์และ 1 หมายถึงชุดที่สมบูรณ์แบบ มันใช้งานได้ดี แต่ฉันมีปัญหาหนึ่งเรื่อง มันปฏิบัติต่อทุก ๆ วันทำงานอย่างเท่าเทียมกันเป็นมิติหนึ่งในพื้นที่ 7-Dim ดังนั้นจึงไม่ได้คำนึงถึงความใกล้ชิดของวัน กล่าวอีกนัยหนึ่งก็ให้คะแนนเดียวกันกับ (1 / 2,1 / 2,0,0,0,0,0) …

4
แบ่งข้อมูลออกเป็น N กลุ่มเท่ากัน
ฉันมีชื่อไฟล์ซึ่งมีค่าใน 4 คอลัมน์: ตัวอย่างเช่น: ID, price, click count,rating สิ่งที่ฉันอยากทำคือ "แบ่ง" ดาต้าเบสนี้เป็น N กลุ่มที่แตกต่างกันซึ่งแต่ละกลุ่มจะมีจำนวนแถวเท่ากันโดยมีการกระจายราคาเดียวกันคลิกนับและแอตทริบิวต์การให้คะแนน คำแนะนำใด ๆ ที่ชื่นชมอย่างมากเนื่องจากฉันไม่มีความคิดเพียงเล็กน้อยเกี่ยวกับวิธีการแก้ไขปัญหานี้!
11 r  distributions 

2
การกระจายอัตราต่อรองเข้าสู่ระบบคืออะไร?
ฉันกำลังอ่านหนังสือเกี่ยวกับการเรียนรู้ของเครื่อง (Data Mining โดย Witten, et al., 2011) และพบกับข้อความนี้: ... ยิ่งไปกว่านั้นสามารถใช้การแจกแจงต่าง ๆ ได้ แม้ว่าการแจกแจงแบบปกติมักจะเป็นตัวเลือกที่ดีสำหรับคุณลักษณะตัวเลข แต่ก็ไม่เหมาะสำหรับคุณลักษณะที่มีค่าต่ำสุดที่กำหนดไว้ล่วงหน้า แต่ไม่มีข้อ จำกัด ด้านบน ในกรณีนี้การกระจาย "บันทึกปกติ" เหมาะสมกว่า แอ็ตทริบิวต์ตัวเลขที่ถูกล้อมรอบด้านบนและด้านล่างสามารถสร้างแบบจำลองโดยการกระจาย"ล็อก - ค่าต่อรอง" ฉันไม่เคยได้ยินเรื่องการกระจายตัวนี้ ฉัน googled สำหรับ "การกระจายอัตราต่อรองแบบล็อกออน" แต่ไม่พบการจับคู่แบบตรงทั้งหมดที่เกี่ยวข้อง มีคนช่วยฉันได้ไหม การกระจายตัวนี้คืออะไรและทำไมมันถึงช่วยให้มีตัวเลขที่ถูกล้อมรอบด้านบนและด้านล่าง? ป.ล. ฉันเป็นวิศวกรซอฟต์แวร์ไม่ใช่นักสถิติ

3
เมื่อใดที่สี่เหลี่ยมจัตุรัสน้อยสุดเป็นความคิดที่ไม่ดี
ถ้าฉันมีรูปแบบการถดถอย: Y=Xβ+εY=Xβ+ε Y = X\beta + \varepsilon โดยที่ V[ε]=Id∈Rn×nV[ε]=Id∈Rn×n\mathbb{V}[\varepsilon] = Id \in \mathcal{R} ^{n \times n} และE[ε]=(0,…,0)E[ε]=(0,…,0)\mathbb{E}[\varepsilon]=(0, \ldots , 0) , เมื่อจะใช้βOLSβOLS\beta_{\text{OLS}} , สามัญสี่เหลี่ยมน้อยประมาณการของββ\betaเป็นทางเลือกที่ดีสำหรับการประมาณการ? ฉันกำลังพยายามหาตัวอย่างว่ากำลังสองน้อยที่สุดทำงานได้ไม่ดี ดังนั้นฉันกำลังมองหาการกระจายของข้อผิดพลาดที่เป็นไปตามสมมติฐานก่อนหน้า แต่ให้ผลลัพธ์ที่ไม่ดี หากครอบครัวของการกระจายจะถูกกำหนดโดยค่าเฉลี่ยและความแปรปรวนที่จะดี ถ้าไม่มันก็โอเค ฉันรู้ว่า "ผลลัพธ์ที่ไม่ดี" นั้นค่อนข้างคลุมเครือ แต่ฉันคิดว่าแนวคิดนี้เป็นที่เข้าใจได้ เพียงเพื่อหลีกเลี่ยงความสับสนฉันรู้ว่ากำลังสองน้อยที่สุดไม่เหมาะสมและมีตัวประมาณที่ดีกว่าเช่นการถดถอยสัน แต่นั่นไม่ใช่สิ่งที่ฉันตั้งใจ ฉันต้องการตัวอย่างว่ากำลังสองน้อยที่สุดจะผิดธรรมชาติ ฉันสามารถจินตนาการถึงสิ่งต่าง ๆ เช่นข้อผิดพลาดเวกเตอร์ϵϵ\epsilonอาศัยอยู่ในภูมิภาคที่ไม่มีการนูนของRnRn\mathbb{R}^nแต่ฉันไม่แน่ใจเกี่ยวกับสิ่งนั้น แก้ไข 1: เป็นแนวคิดที่จะช่วยให้คำตอบ (ซึ่งฉันไม่สามารถคิดวิธีการเพิ่มเติม) βOLSβOLS\beta_{\text{OLS}}เป็นสีน้ำเงิน ดังนั้นมันอาจช่วยให้คิดได้ว่าเมื่อตัวประมาณค่าที่ไม่เอนเอียงเชิงเส้นจะไม่เป็นความคิดที่ดี แก้ไข 2: ตามที่ไบรอันชี้ให้เห็นหากXX′XX′XX'นั้นมีเงื่อนไขที่ไม่ดีดังนั้นβOLSβOLS\beta_{\text{OLS}}เป็นความคิดที่ไม่ดีเพราะความแปรปรวนมีขนาดใหญ่เกินไปและควรใช้การถดถอยแบบริดจ์แทน ฉันสนใจมากขึ้นในการรู้ว่าการกระจายใดควรεε\varepsilonเพื่อให้สี่เหลี่ยมน้อยทำงานได้ไม่ดี βOLS∼β+(X′X)−1X′εβOLS∼β+(X′X)−1X′ε\beta_{\text{OLS}} …

3
จะตรวจสอบได้อย่างไรว่าข้อมูลของฉันตรงกับการกระจายปกติหรือไม่
ฉันต้องการตรวจสอบRว่าข้อมูลของฉันตรงกับการแจกแจงแบบล็อกปกติหรือแบบ Pareto ฉันจะทำสิ่งนั้นได้อย่างไร อาจks.testช่วยให้ฉันทำเช่นนั้นได้ แต่ฉันจะรับพารามิเตอร์αα\alphaและkkkสำหรับการกระจาย Pareto สำหรับข้อมูลของฉันได้อย่างไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.