คำถามติดแท็ก intuition

คำถามที่แสวงหาความเข้าใจในแนวคิดหรือไม่ใช่คณิตศาสตร์ของสถิติ

2
การทดสอบ Kolmogorov – Smirnov: ค่า p-value และ ks-test ลดลงเมื่อขนาดของกลุ่มตัวอย่างเพิ่มขึ้น
เหตุใดค่า p และค่า ks-test จึงลดลงเมื่อขนาดตัวอย่างเพิ่มขึ้น ใช้รหัส Python นี้เป็นตัวอย่าง: import numpy as np from scipy.stats import norm, ks_2samp np.random.seed(0) for n in [10, 100, 1000, 10000, 100000, 1000000]: x = norm(0, 4).rvs(n) y = norm(0, 4.1).rvs(n) print ks_2samp(x, y) ผลลัพธ์ที่ได้คือ: Ks_2sampResult(statistic=0.30000000000000004, pvalue=0.67507815371659508) Ks_2sampResult(statistic=0.080000000000000071, pvalue=0.89375155241057247) Ks_2sampResult(statistic=0.03499999999999992, pvalue=0.5654378910227662) Ks_2sampResult(statistic=0.026599999999999957, pvalue=0.0016502962880920896) Ks_2sampResult(statistic=0.0081200000000000161, pvalue=0.0027192461984023855) Ks_2sampResult(statistic=0.0065240000000000853, …

1
สัญชาตญาณของการแปรผันของข้อมูล (VI) สำหรับการตรวจสอบความถูกต้องของคลัสเตอร์คืออะไร
สำหรับนักสถิติที่ไม่ใช่ฉันมันยากมากที่จะจับความคิดของVIตัวชี้วัด (การเปลี่ยนแปลงของข้อมูล) แม้หลังจากอ่านบทความที่เกี่ยวข้องโดย Marina Melia "การเปรียบเทียบการจัดกลุ่ม - ระยะทางตามข้อมูล " (วารสารการวิเคราะห์หลายตัวแปร 2007) ในความเป็นจริงฉันไม่คุ้นเคยกับคำศัพท์หลาย ๆ ด้านล่างคือ MWE และฉันต้องการทราบว่าผลลัพธ์หมายถึงอะไรในการวัดต่างๆที่ใช้ ฉันมีสองกลุ่มนี้ใน R และใน ID เดียวกัน: > dput(a) structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, …

3
สัญชาตญาณและการใช้สัมประสิทธิ์การเปลี่ยนแปลง
ฉันกำลังเข้าร่วมหลักสูตรการจัดการการดำเนินงานเบื้องต้นใน Coursera.org ในบางช่วงของหลักสูตรศาสตราจารย์เริ่มจัดการกับความแปรปรวนในเวลาของการปฏิบัติงาน การวัดที่เขาใช้คือสัมประสิทธิ์การแปรผันอัตราส่วนระหว่างส่วนเบี่ยงเบนมาตรฐานและค่าเฉลี่ย: คโวลต์= σμคโวลต์=σμc_v = \frac{\sigma}{\mu} เหตุใดการวัดนี้จึงถูกใช้ ข้อดีและข้อเสียของการทำงานกับCVนอกเหนือจากการทำงานด้วยพูดส่วนเบี่ยงเบนมาตรฐานคืออะไร สัญชาตญาณของการวัดนี้คืออะไร?

2
จะเข้าใจเครือข่ายความเชื่ออย่างลึกซึ้งสำหรับการจำแนกประเภทเสียงได้อย่างไร?
ใน " เครือข่ายความเชื่อเชิงลึกของ Convolutional สำหรับการเรียนรู้ที่ไม่สามารถปรับขนาดได้ของการเป็นตัวแทนลำดับชั้น " โดย Lee et. al. ( PDF ) ข้อเสนอ DBN ของ Convolutional นอกจากนี้ยังมีการประเมินวิธีการสำหรับการจำแนกภาพ ฟังก์ชั่นนี้ดูสมเหตุสมผลเนื่องจากมีคุณสมบัติภาพในพื้นที่เป็นธรรมชาติเช่นมุมและขอบเล็ก ๆ เป็นต้น ใน " การเรียนรู้คุณลักษณะที่ไม่ได้รับการสนับสนุนสำหรับการจำแนกประเภทเสียงโดยใช้เครือข่ายความเชื่อที่ลึกซึ้ง " อัล วิธีนี้ใช้สำหรับเสียงในการจำแนกประเภทต่าง ๆ การระบุลำโพง, การระบุเพศ, การจำแนกประเภทโทรศัพท์และการจำแนกประเภทเพลง / ศิลปิน ส่วนของเครือข่ายนี้สามารถตีความได้อย่างไรสำหรับเสียงเช่นมันสามารถอธิบายได้ว่าภาพเป็นขอบ?

1
R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน
mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
สัญชาตญาณที่อยู่เบื้องหลังเครือข่ายประสาทแบบ Long Long Term Memory (LSTM) กำเริบคืออะไร?
แนวคิดที่อยู่เบื้องหลัง Recurrent Neural Network (RNN) ชัดเจนสำหรับฉัน ฉันเข้าใจในวิธีต่อไปนี้: เรามีลำดับของการสังเกต ( ) (หรือกล่าวอีกนัยหนึ่งคืออนุกรมเวลาหลายตัวแปร) การสังเกตแต่ละครั้งเป็นเวกเตอร์ตัวเลข -dimensional ภายในโมเดล RNN เราถือว่าการสังเกตต่อไปเป็นหน้าที่ของการสังเกตการณ์ก่อนหน้านี้เช่นเดียวกับ "สถานะที่ซ่อน" ก่อนหน้านี้ซึ่งสถานะที่ซ่อนอยู่จะถูกแสดงด้วยตัวเลข เวกเตอร์ (ขนาดของสถานะที่ถูกตรวจสอบและสถานะที่ซ่อนอยู่อาจแตกต่างกัน) รัฐที่ซ่อนตัวเองก็สันนิษฐานว่าขึ้นอยู่กับการสังเกตก่อนหน้านี้และสถานะที่ซ่อนอยู่:โอ⃗ 1, o⃗ 2, … , o⃗ no→1,o→2,…,o→n\vec o_1, \vec o_2, \dots, \vec o_nโอ⃗ ผมo→i\vec o_iยังไม่มีข้อความNNโอ⃗ ฉัน+ 1o→i+1\vec o_{i+1}โอ⃗ ผมo→i\vec o_{i}ชั่วโมง⃗ ผมh→i\vec h_i โอ⃗ ผม, ชั่วโมง⃗ ผม= F( o⃗ ฉัน- …

3
สัญชาตญาณด้านหลังในรูปแบบปิดของ w ในการถดถอยเชิงเส้น
รูปแบบปิดของ w ในการถดถอยเชิงเส้นสามารถเขียนได้ w^=(XTX)−1XTyw^=(XTX)−1XTy\hat{w}=(X^TX)^{-1}X^Ty เราจะอธิบายบทบาทของในสมการนี้ได้อย่างไร(XTX)−1(XTX)−1(X^TX)^{-1}

3
ปรีชาหลังสูตรสำหรับความแปรปรวนของผลรวมของสองตัวแปร
ฉันรู้จากการศึกษาก่อนหน้าว่า Var(A+B)=Var(A)+Var(B)+2Cov(A,B)Var(A+B)=Var(A)+Var(B)+2Cov(A,B)Var(A+B) = Var(A) + Var(B) + 2 Cov (A,B) อย่างไรก็ตามฉันไม่เข้าใจว่าทำไม ฉันสามารถเห็นได้ว่าเอฟเฟกต์จะ 'ผลักดัน' ความแปรปรวนเมื่อ A และ B มีโควารีสูง ทำให้รู้สึกว่าเมื่อคุณสร้างคอมโพสิตจากสองตัวแปรที่มีความสัมพันธ์สูงคุณจะมีแนวโน้มที่จะเพิ่มการสังเกตที่สูงจาก A ด้วยการสังเกตที่สูงจาก B และการสังเกตที่ต่ำจาก A กับการสังเกตที่ต่ำจาก B นี้จะมีแนวโน้มที่ สร้างค่าสูงสุดและต่ำสุดในตัวแปรคอมโพสิตเพิ่มความแปรปรวนของคอมโพสิต แต่ทำไมมันไม่ทำงานคูณแปรปรวนโดยตรง 2?

1
คำอธิบายที่ใช้งานง่ายสำหรับความน่าจะเป็นค่าผกผันของน้ำหนักการรักษา (IPTWs) ในการให้คะแนนความชอบ?
ฉันเข้าใจกลไกของการคำนวณน้ำหนักโดยใช้คะแนนความชอบ : แล้วนำน้ำหนักไปใช้ในการวิเคราะห์การถดถอยและให้น้ำหนักกับ "การควบคุมสำหรับ" หรือยกเลิกการเชื่อมโยงผลกระทบของโควาเรียตในประชากรกลุ่มการรักษาและกลุ่มควบคุมด้วยตัวแปรผลลัพธ์หน้า( xผม)พี(xผม)p(x_i)Wi , j = t r e a tWi , j = c o n t r o l= 1หน้า( xผม)= 11 - p ( xผม)Wผม,J=เสื้อRอีaเสื้อ=1พี(xผม)Wผม,J=คโอnเสื้อRโอล.=11-พี(xผม)\begin{align} w_{i, j={\rm treat}} &= \frac{1}{p(x_i)} \\[5pt] w_{i, j={\rm control}} &= \frac{1}{1-p(x_i)} \end{align} อย่างไรก็ตามในระดับลำไส้ฉันไม่เข้าใจว่าน้ำหนักบรรลุเป้าหมายนี้อย่างไรและทำไมจึงสร้างสมการดังกล่าว

2
Kullback-Leibler Divergence สำหรับสองตัวอย่าง
ฉันพยายามใช้การประมาณเชิงตัวเลขของ Kullback-Leibler Divergence สำหรับสองตัวอย่าง การแก้ปัญหาการดำเนินการวาดตัวอย่างจากสองการแจกแจงปรกติและ(1,2)N(0,1)N(0,1)\mathcal N (0,1)N(1,2)N(1,2)\mathcal N (1,2) สำหรับการประมาณแบบง่ายฉันได้สร้างฮิสโทแกรมสองกราฟและพยายามประมาณอินทิกรัลเชิงตัวเลข ฉันติดอยู่กับการจัดการส่วนต่าง ๆ ของฮิสโตแกรมที่ซึ่งช่องเก็บของฮิสโตแกรมนั้นมีค่าเป็นศูนย์ซึ่งฉันจะสิ้นสุดด้วยการหารด้วยศูนย์หรือลอการิทึมของศูนย์ ฉันจะจัดการปัญหานี้ได้อย่างไร คำถามที่เกี่ยวข้องอยู่ในใจของฉัน: จะคำนวณ KL-Divergence ระหว่างการแจกแจงเครื่องแบบที่แตกต่างกันสองแบบได้อย่างไร ฉันต้อง จำกัด อินทิกรัลกับการรวมกันของการสนับสนุนของการแจกแจงทั้งสองหรือไม่?

1
ทำไม
ในชุดปัญหาฉันได้พิสูจน์ "บทแทรก" ซึ่งผลลัพธ์ของฉันไม่เข้าใจง่าย ZZZคือการแจกแจงแบบปกติมาตรฐานในรูปแบบการเซ็นเซอร์ อย่างเป็นทางการ Z* * * *∼ No r m ( 0 , σ2)Z* * * *~ยังไม่มีข้อความโอRม.(0,σ2)Z^* \sim Norm(0, \sigma^2)และZ= m a x ( Z* * * *, c )Z=ม.ax(Z* * * *,ค)Z = max(Z^*, c) ) จากนั้น E[ Z| Z> c ]= ∫∞คZผมϕ ( zผม) d zผม= …

2
มาตรการที่เหมาะสมในการค้นหาเมทริกซ์ความแปรปรวนร่วมที่เล็กที่สุด
ในหนังสือเรียนฉันกำลังอ่านว่าพวกเขาใช้ความแน่นอนเชิงบวก (กึ่งบวกแน่นอน) เพื่อเปรียบเทียบเมทริกซ์ความแปรปรวนร่วมสองตัว ความคิดที่ว่าถ้า- Bเป็น PD แล้วBมีขนาดเล็กกว่า แต่ฉันพยายามดิ้นรนเพื่อให้ได้สัญชาติญาณของความสัมพันธ์นี้?A - BA−BA-BBBBAAA มีเธรดที่คล้ายกันที่นี่: /math/239166/what-is-the-intuition-for-using-definiteness-to-compare-matrices สัญชาตญาณในการใช้ความแตกต่างเพื่อเปรียบเทียบเมทริกซ์คืออะไร แม้ว่าคำตอบจะดี แต่พวกเขาไม่ได้พูดปรีชา นี่คือตัวอย่างที่ฉันรู้สึกสับสน: [ 1612129] - [ 1224][1612129]−[1224]\begin{equation} \begin{bmatrix} 16 & 12 \\ 12 & 9 \end{bmatrix} - \begin{bmatrix} 1 & 2 \\ 2 & 4 \end{bmatrix} \end{equation} ตอนนี้ที่นี่ดีเทอร์มีแนนต์ของความแตกต่างคือ -25 ดังนั้นความสัมพันธ์ไม่ได้เป็น pd หรือแม้กระทั่ง psd และเมทริกซ์แรกไม่มากกว่าครั้งแรก? ฉันแค่ต้องการเปรียบเทียบเมทริกซ์ความแปรปรวนร่วม 3 …

3
เหตุใดข้อผิดพลาดมาตรฐานของสัดส่วนสำหรับ n ที่กำหนดซึ่งใหญ่ที่สุดสำหรับ 0.5
ความคลาดเคลื่อนมาตรฐานของสัดส่วนจะมากที่สุดเท่าที่จะเป็นไปได้สำหรับ N ที่กำหนดเมื่อสัดส่วนของปัญหาเท่ากับ 0.5 และยิ่งเล็กลงยิ่งอัตราส่วนต่อจาก 0.5 ฉันเห็นได้ว่าเหตุใดจึงเป็นเช่นนี้เมื่อฉันดูสมการสำหรับความคลาดเคลื่อนมาตรฐานของสัดส่วน แต่ฉันไม่สามารถอธิบายสิ่งนี้ได้อีก มีคำอธิบายนอกเหนือจากคุณสมบัติทางคณิตศาสตร์ของสูตรหรือไม่? ถ้าเป็นเช่นนั้นเหตุใดจึงมีความไม่แน่นอนน้อยลงในสัดส่วนที่ประมาณไว้ (สำหรับ N ที่ระบุ) เมื่อใกล้ถึง 0 หรือ 1

1
คำอธิบายที่ใช้งานง่ายของ logloss
ในการแข่งขันหลายต่อรองคะแนนอยู่บนพื้นฐานของ "logloss" เรื่องนี้เกี่ยวข้องกับข้อผิดพลาดการจัดหมวดหมู่ นี่คือคำตอบทางเทคนิคแต่ฉันกำลังมองหาคำตอบที่ใช้งานง่าย ฉันชอบคำตอบสำหรับคำถามนี้เกี่ยวกับระยะทาง Mahalanobis แต่ PCA ไม่ใช่ logloss ฉันสามารถใช้ค่าที่ซอฟต์แวร์การจำแนกประเภทออกมา แต่ฉันไม่เข้าใจจริงๆ ทำไมเราใช้มันแทนที่จะเป็นอัตราบวก / ลบจริง / เท็จ? คุณช่วยฉันได้ไหมเพื่อที่ฉันจะสามารถอธิบายเรื่องนี้กับคุณยายหรือมือใหม่ในสนามได้? ฉันชอบและเห็นด้วยกับคำพูด: คุณไม่เข้าใจอะไรจริงๆเว้นแต่คุณจะสามารถอธิบายให้คุณยายของคุณได้ - อัลเบิร์ตไอน์สไตน์ ฉันพยายามตอบคำถามนี้ด้วยตัวเองก่อนโพสต์ที่นี่ ลิงก์ที่ฉันไม่พบว่าใช้งานง่ายหรือมีประโยชน์จริงๆ ได้แก่ : http://www.r-bloggers.com/making-sense-of-logarithmic-loss/ https://www.quora.com/What-is-an-intuitive-explanation-for-the-log-loss-function https://lingpipe-blog.com/2010/11/02/evaluating-with-probabilistic-truth-log-loss-vs-0-1-loss/ https://www.kaggle.com/wiki/LogarithmicLoss เหล่านี้เป็นข้อมูลและถูกต้อง มีไว้สำหรับผู้ชมด้านเทคนิค พวกเขาไม่ได้วาดภาพอย่างง่ายหรือให้ตัวอย่างที่ง่ายและเข้าถึงได้ พวกเขาไม่ได้เขียนถึงคุณยายของฉัน

3
ทฤษฎีขีด จำกัด กลางและการแจกแจงพาเรโต
ใครบางคนสามารถให้คำอธิบายง่ายๆ (บุคคลทั่วไป) เกี่ยวกับความสัมพันธ์ระหว่างการแจกแจงแบบพาเรโตกับทฤษฎีการ จำกัด ศูนย์กลาง (เช่นนำมาประยุกต์ใช้ได้หรือไม่ทำไม / เพราะเหตุใด) ฉันพยายามที่จะเข้าใจคำสั่งต่อไปนี้: "ทฤษฎีบทขีด จำกัด กลางนั้นใช้ไม่ได้กับการแจกแจงทุกครั้งนี่เป็นเพราะความจริงที่น่าสะพรึงกลัว - ค่าเฉลี่ยตัวอย่างจะถูกจัดกลุ่มรอบค่าเฉลี่ยของการแจกแจงต้นแบบถ้ามีอยู่ แต่การแจกแจงจะไม่มีความหมายได้อย่างไร นั่นไม่ได้หมายความว่าการแจกแจงแบบพาเรโตถ้าคุณพยายามคำนวณโดยใช้วิธีการปกติมันจะเปลี่ยนไปเป็นอนันต์ "

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.