คำถามติดแท็ก normal-distribution

การแจกแจงแบบปกติหรือแบบเกาส์เซียนนั้นมีฟังก์ชั่นความหนาแน่นซึ่งเป็นเส้นโค้งรูประฆังแบบสมมาตร มันเป็นหนึ่งในการแจกแจงที่สำคัญที่สุดในสถิติ ใช้แท็ก [normality] เพื่อสอบถามเกี่ยวกับการทดสอบหา normality

2
ทำไมเราควรใช้ข้อผิดพลาด t แทนข้อผิดพลาดปกติ?
ในบล็อกโพสต์นี้โดย Andrew Gelman มีข้อความต่อไปนี้: แบบจำลองของ Bayesian เมื่อ 50 ปีที่แล้วดูเรียบง่ายอย่างสิ้นหวัง (ยกเว้นแน่นอนสำหรับปัญหาง่าย ๆ ) และฉันคาดหวังว่าแบบจำลองของ Bayesian ในวันนี้จะดูเรียบง่ายอย่างสิ้นหวัง 50 ปี (สำหรับตัวอย่างง่ายๆ: เราควรใช้ t แทนข้อผิดพลาดทั่วไปทุกที่ทุกเวลา แต่เรายังไม่ทำเช่นนี้เพราะความคุ้นเคยนิสัยและความสะดวกสบายทางคณิตศาสตร์สิ่งเหล่านี้อาจเป็นเหตุผลที่ดี ในการเมืองอนุรักษ์นิยมมีข้อโต้แย้งที่ดีหลายประการ - แต่ฉันคิดว่าท้ายที่สุดเมื่อเราคุ้นเคยกับแบบจำลองที่ซับซ้อนกว่านี้เราจะไปในทิศทางนั้น) ทำไมเราควร "ใช้ t เป็นประจำแทนที่จะเป็นข้อผิดพลาดทั่วไปทุกที่"


8
มีการกระจายรูปที่ราบสูงหรือไม่?
ฉันกำลังมองหาการกระจายที่ความหนาแน่นของความน่าจะเป็นลดลงอย่างรวดเร็วหลังจากบางจุดห่างจากค่าเฉลี่ยหรือในคำพูดของฉันเป็น "การกระจายตัวของรูปที่ราบสูง" บางสิ่งบางอย่างในระหว่าง Gaussian และเครื่องแบบ

5
วิธีจัดการกับข้อมูลแบบลำดับชั้น / ซ้อนในการเรียนรู้ของเครื่อง
ฉันจะอธิบายปัญหาด้วยตัวอย่าง สมมติว่าคุณต้องการที่จะทำนายรายได้ของแต่ละบุคคลที่มีคุณลักษณะบางอย่าง: {อายุ, เพศ, ประเทศ, ภูมิภาค, เมือง} คุณมีชุดข้อมูลการฝึกอบรมเช่นนั้น train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

5
มีคำอธิบายว่าทำไมมีปรากฏการณ์ทางธรรมชาติมากมายที่ตามหลังการแจกแจงปกติ?
ฉันคิดว่านี่เป็นหัวข้อที่น่าสนใจและฉันไม่เข้าใจอย่างถ่องแท้ กฎแห่งฟิสิกส์ใดที่ทำให้เกิดปรากฏการณ์ทางธรรมชาติมากมายที่มีการแจกแจงแบบปกติ ดูเหมือนง่ายกว่าที่พวกเขาจะมีการแจกแจงแบบเดียวกัน มันยากสำหรับฉันที่จะเข้าใจสิ่งนี้และฉันรู้สึกว่าฉันขาดข้อมูลบางอย่าง ใครสามารถช่วยฉันด้วยคำอธิบายที่ดีหรือเชื่อมโยงฉันกับหนังสือ / วิดีโอ / บทความ?

3
การกระจายปัวซองแตกต่างจากการแจกแจงแบบปกติอย่างไร
ฉันสร้างเวกเตอร์ที่มีการแจกแจงปัวซงดังนี้: x = rpois(1000,10) ถ้าฉันใช้ฮิสโตแกรมhist(x)การแจกแจงนั้นดูเหมือนการแจกแจงปกติแบบรูประฆังที่คุ้นเคย อย่างไรก็ตามการทดสอบ Kolmogorov-Smirnoff ที่ใช้ks.test(x, 'pnorm',10,3)บอกว่าการกระจายนั้นแตกต่างจากการแจกแจงแบบปกติอย่างมีนัยสำคัญเนื่องจากมีpค่าน้อยมาก ดังนั้นคำถามของฉันคือ: การแจกแจงปัวซองนั้นแตกต่างจากการแจกแจงแบบปกติอย่างไรเมื่อฮิสโตแกรมมีลักษณะคล้ายกับการแจกแจงแบบปกติ

3
R: การสุ่มฟอเรสต์การโยน NaN / Inf ในข้อผิดพลาด“ การเรียกฟังก์ชันต่างประเทศ” แม้จะไม่มีชุดข้อมูลของ NaN [ปิด]
ฉันใช้คาเร็ตเพื่อรันฟอเรสต์แบบสุ่มที่ผ่านการตรวจสอบความถูกต้องข้ามชุดข้อมูล ตัวแปร Y เป็นปัจจัย ไม่มีชุดข้อมูลของ NaN, Inf's หรือ NA ในชุดข้อมูลของฉัน อย่างไรก็ตามเมื่อใช้ป่าสุ่มฉันได้รับ Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs …

2
เสียงสีขาวในสถิติ
ฉันมักจะเห็นคำว่าเสียงสีขาวปรากฏขึ้นเมื่ออ่านเกี่ยวกับแบบจำลองทางสถิติที่แตกต่างกัน อย่างไรก็ตามฉันต้องยอมรับว่าฉันไม่แน่ใจว่าสิ่งนี้หมายความว่าอะไร มันมักจะย่อเป็นWN(0,σ2)WN(0,σ2)WN(0,σ^2)2) นั่นหมายความว่ามันกระจายตามปกติหรืออาจตามการกระจายตัวใด ๆ ?

5
ตัวอย่างชีวิตจริงของการแจกแจงทั่วไป
ฉันเป็นนักเรียนที่จบการศึกษาที่สนใจเรื่องสถิติ ฉันชอบเนื้อหาที่มากเกินไป แต่บางครั้งฉันก็รู้สึกลำบากกับการใช้งานกับชีวิตจริง โดยเฉพาะคำถามของฉันเกี่ยวกับการแจกแจงเชิงสถิติที่ใช้กันทั่วไป (ปกติ - เบต้า - แกมม่า ฯลฯ ) ฉันเดาว่าในบางกรณีฉันได้รับคุณสมบัติเฉพาะที่ทำให้การแจกแจงค่อนข้างดี - ตัวอย่างเช่นคุณสมบัติไร้ความจำของเลขชี้กำลัง แต่สำหรับอีกหลายกรณีฉันไม่ได้มีสัญชาตญาณเกี่ยวกับความสำคัญและพื้นที่การใช้งานของการแจกแจงทั่วไปที่เราเห็นในตำราเรียน อาจมีแหล่งข้อมูลที่ดีมากมายที่จัดการกับข้อกังวลของฉันฉันจะดีใจถ้าคุณสามารถแบ่งปันสิ่งเหล่านั้น ฉันจะมีแรงจูงใจมากขึ้นในเนื้อหาถ้าฉันสามารถเชื่อมโยงกับตัวอย่างในชีวิตจริง

3
การกระจายตัวแบบเกาส์อัตราส่วน: อนุพันธ์ wrt ต้นแบบ 's และ s
ผมทำงานกับสองการแจกแจงปรกติอิสระและYมีวิธี\ mu_xและ\ mu_yและความแปรปรวน\ ^ ซิก 2_xและ\ ^ ซิก 2_yY μ x μ y σ 2 x σ 2 yXXXYYYμxμx\mu_xμyμy\mu_yσ2xσx2\sigma^2_xσ2yσy2\sigma^2_y ฉันสนใจในการกระจายของอัตราส่วนของพวกเขาZ=X/YZ=X/YZ=X/Y Y ทั้งXXXหรือYYYมีค่าเฉลี่ยอยู่ที่ศูนย์ดังนั้นZZZไม่ได้กระจายเป็น Cauchy ฉันต้องการหา CDF ของZZZ , และจากนั้นใช้อนุพันธ์ของ CDF ด้วยความเคารพμxμx\mu_x , μyμy\mu_y , σ2xσx2\sigma^2_xและ\σ2yσy2\sigma^2_y ใครบ้างที่รู้กระดาษที่คำนวณเหล่านี้แล้ว? หรือจะทำสิ่งนี้ด้วยตัวเองได้อย่างไร? ฉันค้นพบสูตรสำหรับ CDF ในเอกสารปี 1969แต่การจดอนุพันธ์เหล่านี้จะเป็นความเจ็บปวดอย่างมาก อาจมีบางคนทำไปแล้วหรือรู้วิธีที่จะทำได้ง่าย ๆ ? ฉันต้องการทราบสัญญาณของตราสารอนุพันธ์เป็นส่วนใหญ่ กระดาษนี้ยังมีการประมาณที่ง่ายขึ้นในการวิเคราะห์ถ้าYYYเป็นบวกส่วนใหญ่ ฉันไม่มีข้อ จำกัด อย่างไรก็ตามการประมาณอาจมีสัญลักษณ์เดียวกับอนุพันธ์ที่แท้จริงแม้จะอยู่นอกช่วงพารามิเตอร์

2
ทำไมค่าเฉลี่ยความคลาดเคลื่อนกำลังสองเป็นค่าเอนโทรปีระหว่างการกระจายเชิงประจักษ์กับแบบจำลองเกาส์เซียน?
ใน 5.5 การเรียนรู้เชิงลึก (โดย Ian Goodfellow, Yoshua Bengio และ Aaron Courville) กล่าวไว้ว่า การสูญเสียใด ๆ ที่ประกอบด้วยความน่าจะเป็นบันทึกเชิงลบคือการข้ามเอนโทรปีระหว่างการแจกแจงเชิงประจักษ์ที่กำหนดโดยชุดการฝึกอบรมและการแจกแจงความน่าจะเป็นที่กำหนดโดยแบบจำลอง ยกตัวอย่างเช่นค่าเฉลี่ยความคลาดเคลื่อนกำลังสองคือการข้ามเอนโทรปีระหว่างการแจกแจงเชิงประจักษ์และแบบจำลองเกาส์เซียน ฉันไม่สามารถเข้าใจว่าทำไมพวกเขาถึงเทียบเท่าและผู้เขียนไม่ขยายในจุด

1
องศาอิสระเป็นหมายเลขที่ไม่ใช่จำนวนเต็มหรือไม่
เมื่อฉันใช้ GAM มันให้ DF ที่เหลือกับฉันคือ (บรรทัดสุดท้ายในรหัส) นั่นหมายความว่าอย่างไร? นอกเหนือไปจากตัวอย่างของ GAM โดยทั่วไปแล้วจำนวนองศาความเป็นอิสระจะเป็นจำนวนที่ไม่ใช่จำนวนเต็มหรือไม่26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 


5
การถดถอยเชิงเส้นใช้การกระจายแบบปกติอย่างไร
ในการถดถอยเชิงเส้นแต่ละค่าที่ทำนายไว้จะถูกเลือกจากการแจกแจงปกติของค่าที่เป็นไปได้ ดูด้านล่าง แต่ทำไมค่าคาดการณ์แต่ละค่าที่สันนิษฐานว่ามาจากการแจกแจงแบบปกติ การถดถอยเชิงเส้นใช้สมมติฐานนี้อย่างไร เกิดอะไรขึ้นถ้าค่าที่เป็นไปได้ไม่ได้กระจายตามปกติ?

3
วิธีการคำนวณช่วงความมั่นใจของอัตราส่วนของสองวิธีปกติ
ฉันต้องการได้รับขีด จำกัด สำหรับช่วงความเชื่อมั่นสำหรับอัตราส่วนของสองวิธี สมมติว่าและ เป็นอิสระอัตราส่วนเฉลี่ย\ ฉันพยายามแก้ปัญหา: แต่สมการนั้นไม่สามารถแก้ไขได้ในหลายกรณี (ไม่มีราก) ฉันกำลังทำอะไรผิดหรือเปล่า? มีแนวทางที่ดีกว่านี้ไหม? ขอบคุณX 1 ∼ N ( θ 1 , σ 2 ) X 2 ∼ N ( θ 2 , σ 2 ) Γ = θ 1 / θ 2 Pr ( - z ( α / 2 ) ) ≤ …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.