คำถามติดแท็ก regularization

รวมถึงข้อ จำกัด เพิ่มเติม (โดยทั่วไปจะเป็นบทลงโทษสำหรับความซับซ้อน) ในกระบวนการปรับตัวแบบ ใช้เพื่อป้องกันการ overfitting / เพิ่มความแม่นยำในการทำนาย

3
วิธีการถดถอยสันที่ไม่เป็นลบ
วิธีการถดถอยสันที่ไม่เป็นลบ บาศแบบไม่เป็นค่าลบมีให้บริการscikit-learnแต่สำหรับสันเขาฉันไม่สามารถบังคับใช้แบบไม่ลบล้างของเบต้าและแน่นอนฉันได้รับค่าสัมประสิทธิ์เชิงลบ ไม่มีใครรู้ว่าทำไมถึงเป็นเช่นนี้? นอกจากนี้ฉันสามารถใช้สันในแง่ของกำลังสองน้อยที่สุดได้หรือไม่? ย้ายสิ่งนี้ไปยังคำถามอื่น: ฉันสามารถใช้การถดถอยแบบสันในแง่ของการถดถอยแบบ OLS ได้หรือไม่?

2
คำอธิบายที่ชัดเจนสำหรับ "เสถียรภาพเชิงตัวเลขของเมทริกซ์ผกผัน" ในการถดถอยของสันเขาและบทบาทในการลดความพอดี
ฉันเข้าใจว่าเราสามารถใช้การทำให้เป็นมาตรฐานในปัญหาการถดถอยกำลังสองน้อยที่สุดเช่น w∗=argminw[(y−Xw)T(y−Xw)+λ∥w∥2]w∗=argminw⁡[(y−Xw)T(y−Xw)+λ‖w‖2]\boldsymbol{w}^* = \operatorname*{argmin}_w \left[ (\mathbf y-\mathbf{Xw})^T(\boldsymbol{y}-\mathbf{Xw}) + \lambda\|\boldsymbol{w}\|^2 \right] และปัญหานี้มีวิธีแก้ปัญหาแบบปิดเป็น: w^=(XTX+λI)−1XTy.w^=(XTX+λI)−1XTy.\hat{\boldsymbol{w}} = (\boldsymbol{X}^T\boldsymbol{X}+\lambda\boldsymbol{I})^{-1}\boldsymbol{X}^T\boldsymbol{y}. เราเห็นว่าในสมการที่ 2 การทำให้เป็นมาตรฐานนั้นเป็นการเพิ่มλλ\lambdaไปยังแนวทแยงของXTXXTX\boldsymbol{X}^T\boldsymbol{X}ซึ่งทำเพื่อปรับปรุงเสถียรภาพเชิงตัวเลขของการผกผันเมทริกซ์ ความเข้าใจ 'หยาบ' ปัจจุบันของฉันเกี่ยวกับเสถียรภาพเชิงตัวเลขคือถ้าฟังก์ชั่นมากขึ้น 'เสถียรภาพเชิงตัวเลข' ดังนั้นเอาต์พุตของมันจะได้รับผลกระทบน้อยลงอย่างมากจากเสียงรบกวนในอินพุต ฉันมีปัญหาเกี่ยวกับแนวคิดของความเสถียรเชิงตัวเลขที่ได้รับการปรับปรุงให้ดีขึ้นเพื่อภาพรวมที่ใหญ่ขึ้นว่าจะหลีกเลี่ยง / ลดปัญหาการ overfitting อย่างไร ฉันลองดูที่Wikipediaและเว็บไซต์มหาวิทยาลัยอื่น ๆ ไม่กี่แห่ง แต่พวกเขาก็ไม่ได้อธิบายอย่างลึกซึ้งว่าทำไมถึงเป็นเช่นนั้น

1
ในการถดถอยเชิงเส้นเหตุใดการทำให้เป็นมาตรฐานจึงลงโทษค่าพารามิเตอร์ด้วย
ขณะนี้การเรียนรู้การถดถอยสันเขาและฉันสับสนเล็กน้อยเกี่ยวกับการลงโทษของแบบจำลองที่ซับซ้อนมากขึ้น (หรือคำจำกัดความของแบบจำลองที่ซับซ้อนมากขึ้น) จากสิ่งที่ฉันเข้าใจความซับซ้อนของโมเดลไม่จำเป็นต้องสัมพันธ์กับลำดับพหุนาม ดังนั้น:2 + 3 + 4x2+ 5x3+ 6x42+3+4x2+5x3+6x4 2 + 3+ 4x^2 + 5x^3 + 6x^4 เป็นรูปแบบที่ซับซ้อนกว่า: 5x55x5 5x^5 และฉันรู้ว่าจุดของการทำให้เป็นมาตรฐานคือการทำให้ความซับซ้อนของโมเดลต่ำดังนั้นตัวอย่างเช่นเรามีพหุนามลำดับที่ 5 ฉ( x ; w ) =W0+W1x +W2x2+W3x3+W4x4+W5x5f(x;w)=w0+w1x+w2x2+w3x3+w4x4+w5x5 f(x; w) = w_0 + w_1x + w_2x^2 + w_3x^3 + w_4x^4 + w_5x^5 พารามิเตอร์เพิ่มเติมที่เป็น 0 จะดีกว่า แต่สิ่งที่ฉันไม่เข้าใจคือถ้าเป็นพหุนามคำสั่งเดียวกันทำไมค่าพารามิเตอร์ที่ต่ำกว่าจึงถูกลงโทษน้อยกว่า ดังนั้นจะ: 2 …

1
เชิงเส้นตรงกับ RKHS- การถดถอย
ฉันกำลังศึกษาความแตกต่างระหว่างการทำให้เป็นปกติในการถดถอย RKHS และการถดถอยเชิงเส้น แต่ฉันมีเวลายากที่จะเข้าใจความแตกต่างที่สำคัญระหว่างทั้งสอง รับคู่อินพุต - เอาต์พุต (xi,yi)(xi,yi)(x_i,y_i)ฉันต้องการประเมินฟังก์ชั่น f(⋅)f(⋅)f(\cdot) ดังนี้ f(x)≈u(x)=∑i=1mαiK(x,xi),f(x)≈u(x)=∑i=1mαiK(x,xi),\begin{equation}f(x)\approx u(x)=\sum_{i=1}^m \alpha_i K(x,x_i),\end{equation} ที่ไหน K(⋅,⋅)K(⋅,⋅)K(\cdot,\cdot)เป็นฟังก์ชั่นเคอร์เนล ค่าสัมประสิทธิ์αmαm\alpha_m สามารถพบได้โดยการแก้ minα∈Rn1n∥Y−Kα∥2Rn+λαTKα,minα∈Rn1n‖Y−Kα‖Rn2+λαTKα,\begin{equation} {\displaystyle \min _{\alpha\in R^{n}}{\frac {1}{n}}\|Y-K\alpha\|_{R^{n}}^{2}+\lambda \alpha^{T}K\alpha},\end{equation} ที่มีการละเมิดบางส่วนของโน้ตที่i,ji,ji,j 'รายการของเมทริกซ์เคอร์เนลวันที่KKKคือK(xi,xj)K(xi,xj){\displaystyle K(x_{i},x_{j})} {J})} สิ่งนี้จะให้ α∗=(K+λnI)−1Y.α∗=(K+λnI)−1Y.\begin{equation} \alpha^*=(K+\lambda nI)^{-1}Y. \end{equation} อีกวิธีหนึ่งเราสามารถรักษาปัญหาดังกล่าวเป็นปัญหาการถดถอยแบบเส้นตรง / ปัญหาการถดถอยเชิงเส้น: minα∈Rn1n∥Y−Kα∥2Rn+λαTα,minα∈Rn1n‖Y−Kα‖Rn2+λαTα,\begin{equation} {\displaystyle \min _{\alpha\in R^{n}}{\frac {1}{n}}\|Y-K\alpha\|_{R^{n}}^{2}+\lambda \alpha^{T}\alpha},\end{equation} พร้อมทางออก α∗=(KTK+λnI)−1KTY.α∗=(KTK+λnI)−1KTY.\begin{equation} {\alpha^*=(K^{T}K +\lambda nI)^{-1}K^{T}Y}. \end{equation} …

1
การประยุกต์ใช้การถดถอยของริดจ์กับระบบสมการที่บ่อนทำลาย?
เมื่อปัญหากำลังสองน้อยที่สุดซึ่งกำหนดข้อ จำกัด เป็นทรงกลมบนค่าของ\ betaสามารถเขียนเป็น \ start {สมการ} \ \ \ {array} & \ operatorname {min} \ \ | y - X \ beta \ | ^ 2_2 \\ \ operatorname {st} \ \ | \ beta \ | ^ 2_2 \ le \ delta ^ 2 \ end {array} \ …

1
จะเปรียบเทียบเหตุการณ์ที่สังเกตได้กับเหตุการณ์ที่คาดหวังได้อย่างไร
สมมติว่าฉันมีตัวอย่างหนึ่งความถี่ของเหตุการณ์ที่เป็นไปได้ 4 เหตุการณ์: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 และฉันมีโอกาสที่จะเกิดเหตุการณ์ที่คาดหวัง: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 ด้วยผลรวมของความถี่ที่สังเกตได้จากเหตุการณ์ทั้งสี่ของฉัน (18) ฉันสามารถคำนวณความถี่ที่คาดหวังของเหตุการณ์ได้ใช่ไหม expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
คำนวณ ROC curve สำหรับข้อมูล
ดังนั้นฉันมีการทดลอง 16 ครั้งที่ฉันพยายามพิสูจน์ตัวตนบุคคลจากลักษณะทางชีวภาพโดยใช้ Hamming Distance เกณฑ์ของฉันถูกตั้งไว้ที่ 3.5 ข้อมูลของฉันอยู่ด้านล่างและเฉพาะการทดลองใช้ 1 เท่านั้นคือ True Positive: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 จุดสับสนของฉันคือฉันไม่แน่ใจจริงๆเกี่ยวกับวิธีสร้าง ROC curve …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.