สถิติและข้อมูลขนาดใหญ่ optimization

4

เหตุใดจึงต้องใช้การทำให้เป็นมาตรฐานในการถดถอยพหุนามแทนที่จะลดระดับลง

เมื่อทำการถดถอยตัวอย่างเช่นพารามิเตอร์ไฮเปอร์สองตัวที่เลือกมักจะเป็นความสามารถของฟังก์ชัน (เช่นเลขชี้กำลังที่ใหญ่ที่สุดของพหุนาม) และปริมาณของการทำให้เป็นมาตรฐาน สิ่งที่ฉันสับสนคือทำไมไม่เพียงแค่เลือกฟังก์ชั่นความจุต่ำแล้วไม่สนใจการทำให้เป็นมาตรฐาน ด้วยวิธีนี้มันจะไม่เหมาะ ถ้าฉันมีฟังก์ชั่นที่มีความจุสูงพร้อมกับการทำให้เป็นมาตรฐานนั่นก็ไม่ใช่แค่ฟังก์ชั่นความจุต่ำและไม่มีการทำให้เป็นปกติ

32 regression machine-learning optimization regularization polynomial

1

ฟังก์ชันวัตถุประสงค์ PCA: การเชื่อมต่อระหว่างการเพิ่มความแปรปรวนและการลดข้อผิดพลาดคืออะไร?

อัลกอริทึม PCA สามารถกำหนดได้ในรูปของเมทริกซ์สหสัมพันธ์ (สมมติว่าข้อมูลได้ถูกทำให้เป็นมาตรฐานแล้วและเรากำลังพิจารณาการฉายภาพบนพีซีเครื่องแรกเท่านั้น) ฟังก์ชั่นวัตถุประสงค์สามารถเขียนได้เป็น:XXX maxw(Xw)T(Xw)s.t.wTw=1.maxw(Xw)T(Xw)s.t.wTw=1. \max_w (Xw)^T(Xw)\; \: \text{s.t.} \: \:w^Tw = 1. นี่เป็นเรื่องปกติและเราใช้ตัวคูณแบบลากรองจ์เพื่อแก้ปัญหานั่นคือเขียนใหม่เป็น: maxw[(Xw)T(Xw)−λwTw],maxw[(Xw)T(Xw)−λwTw], \max_w [(Xw)^T(Xw) - \lambda w^Tw], ซึ่งเทียบเท่ากับ maxw(Xw)T(Xw)wTw,maxw(Xw)T(Xw)wTw, \max_w \frac{ (Xw)^T(Xw) }{w^Tw}, และด้วยเหตุนี้ ( ดูที่นี่ใน Mathworld ) ดูเหมือนจะเท่ากับmaxw∑i=1n(distance from point xi to line w)2.maxw∑i=1n(distance from point xi to line w)2.\max_w \sum_{i=1}^n \text{(distance from point $x_i$ …

32 pca optimization

6

ทำไมไม่ใช้อนุพันธ์อันดับสามสำหรับการเพิ่มประสิทธิภาพเชิงตัวเลข?

หาก Hessians นั้นดีสำหรับการปรับให้เหมาะสม (ดูเช่นวิธีของ Newton ) ทำไมหยุดอยู่ที่นั่น ลองใช้อนุพันธ์อันดับสาม, สี่, ห้าและหกกันไหม? ทำไมไม่

29 optimization gradient-descent hessian

1

ฟังก์ชั่นการสูญเสีย XGBoost ประมาณด้วยการขยายตัวของเทย์เลอร์

ยกตัวอย่างเช่นใช้ฟังก์ชันวัตถุประสงค์ของโมเดล XGBoost ในการวนซ้ำ 'th:tเสื้อt L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(เสื้อ)=Σผม=1nℓ(Yผม,Y^ผม(เสื้อ-1)+ฉเสื้อ(xผม))+Ω(ฉเสื้อ)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) ที่เป็นฟังก์ชั่นการสูญเสียเป็น 'เอาท์พุทต้นไม้ TH และเป็นกู หนึ่งในขั้นตอนสำคัญ (มากมาย) สำหรับการคำนวณที่รวดเร็วคือการประมาณ:ℓℓ\ellftฉเสื้อf_ttเสื้อtΩΩ\Omega L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), โดยที่และเป็นอนุพันธ์อันดับหนึ่งและสองของฟังก์ชันการสูญเสียgigig_ihihih_i สิ่งที่ฉันขอคือข้อโต้แย้งที่น่าเชื่อถือเพื่อทำให้เข้าใจผิดว่าเหตุใดการประมาณข้างต้นจึงทำงาน: 1) XGBoost ที่มีการประมาณด้านบนเปรียบเทียบกับ XGBoost กับฟังก์ชั่นวัตถุประสงค์ได้อย่างไร สิ่งที่น่าสนใจพฤติกรรมที่มีลำดับสูงกว่าจะหายไปในการประมาณ? 2) มันค่อนข้างยากที่จะเห็นภาพ (และขึ้นอยู่กับฟังก์ชั่นการสูญเสีย) แต่ถ้าฟังก์ชั่นการสูญเสียมีองค์ประกอบลูกบาศก์ขนาดใหญ่แล้วการประมาณอาจจะล้มเหลว มันเป็นวิธีการที่ไม่ก่อให้เกิดปัญหาสำหรับ XGBoost?

28 optimization loss-functions boosting xgboost taylor-series

1

การคำนวณซ้ำของเอฟเฟกต์จากโมเดล lmer

ฉันเพิ่งอ่านบทความนี้ซึ่งอธิบายถึงวิธีการคำนวณความสามารถในการทำซ้ำ (ความน่าเชื่อถือหรือความสัมพันธ์ภายในอินทราเน็ต) ของการวัดผ่านการสร้างแบบจำลองเอฟเฟกต์ผสม รหัส R จะเป็น: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

1

องศาอิสระเป็นหมายเลขที่ไม่ใช่จำนวนเต็มหรือไม่

เมื่อฉันใช้ GAM มันให้ DF ที่เหลือกับฉันคือ (บรรทัดสุดท้ายในรหัส) นั่นหมายความว่าอย่างไร? นอกเหนือไปจากตัวอย่างของ GAM โดยทั่วไปแล้วจำนวนองศาความเป็นอิสระจะเป็นจำนวนที่ไม่ใช่จำนวนเต็มหรือไม่26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

3

อะไรคือผลกระทบของการเลือกฟังก์ชั่นการสูญเสียที่แตกต่างกันในการจัดประเภทเป็นประมาณ 0-1 การสูญเสีย

เรารู้ว่าฟังก์ชันวัตถุประสงค์บางอย่างนั้นง่ายต่อการปรับให้เหมาะสมและบางฟังก์ชันก็ยาก และมีฟังก์ชั่นการสูญเสียมากมายที่เราต้องการใช้ แต่ยากที่จะใช้เช่นการสูญเสีย 0-1 ดังนั้นเราจึงหาฟังก์ชั่นการสูญเสียพร็อกซีเพื่อทำงาน ตัวอย่างเช่นเราใช้การสูญเสียบานพับหรือการสูญเสียโลจิสติกเพื่อ "การสูญเสีย" โดยประมาณ 0-1 ต่อไปนี้พล็อตมาจากหนังสือ PRML คริสบิชอป การสูญเสียบานพับถูกพล็อตเป็นสีน้ำเงินบันทึกการสูญเสียในสีแดง, การสูญเสียสแควร์ในสีเขียวและข้อผิดพลาด 0/1 ในสีดำ ฉันเข้าใจว่าเหตุผลที่เรามีการออกแบบ (สำหรับบานพับและการสูญเสียโลจิสติก) คือเราต้องการให้ฟังก์ชันวัตถุประสงค์นูนออกมา โดยดูที่การสูญเสียและการสูญเสียบานพับโลจิสติกก็ลงโทษเพิ่มเติมเกี่ยวกับกรณีแบ่งอย่างยิ่งและที่น่าสนใจก็ยังจัดได้อย่างถูกต้องลงโทษกรณีถ้าพวกเขาจะจัดอย่างอ่อน มันเป็นการออกแบบที่แปลกจริงๆ คำถามของฉันคือราคาที่เราต้องจ่ายโดยใช้ "ฟังก์ชั่นการสูญเสียพร็อกซี" ที่แตกต่างกันเช่นการสูญเสียบานพับและการสูญเสียโลจิสติกคืออะไร?

27 machine-learning classification optimization loss-functions

6

เหตุใดจึงต้องศึกษาการปรับให้เหมาะสมของนูนสำหรับการเรียนรู้เชิงทฤษฎี?

ฉันกำลังทำงานเกี่ยวกับการเรียนรู้ของเครื่องจักรเชิงทฤษฎี - ในการเรียนรู้การถ่ายโอนเพื่อเจาะจง - สำหรับปริญญาเอก ด้วยความอยากรู้ทำไมฉันต้องเรียนหลักสูตรการเพิ่มประสิทธิภาพแบบนูน? สิ่งที่ได้จากการเพิ่มประสิทธิภาพของนูนฉันสามารถใช้ในการวิจัยของฉันในการเรียนรู้เครื่องทฤษฎี?

27 machine-learning optimization convex transfer-learning

6

ทำไมน้ำหนักที่เล็กลงส่งผลให้ตัวแบบที่เรียบง่ายขึ้นในการทำให้เป็นปกติ

ฉันเสร็จหลักสูตรการเรียนรู้ของ Machine Andrew เมื่อประมาณหนึ่งปีที่แล้วและตอนนี้ฉันกำลังเขียน Math High School Math ของฉันเกี่ยวกับการทำงานของ Logistic Regression และเทคนิคต่าง ๆ เพื่อเพิ่มประสิทธิภาพการทำงาน หนึ่งในเทคนิคเหล่านี้คือการทำให้เป็นมาตรฐาน เป้าหมายของการทำให้เป็นมาตรฐานคือการป้องกันไม่ให้เกิดการล้นเกินโดยการขยายฟังก์ชั่นค่าใช้จ่ายเพื่อรวมเป้าหมายของความเรียบง่ายของแบบจำลอง เราสามารถทำสิ่งนี้ได้โดยการลงโทษขนาดของน้ำหนักโดยการเพิ่มฟังก์ชั่นค่าใช้จ่ายของน้ำหนักแต่ละค่าที่ยกกำลังสองคูณด้วยพารามิเตอร์ปกติ ตอนนี้อัลกอริทึมการเรียนรู้ของเครื่องจะมุ่งที่จะลดขนาดของน้ำหนักในขณะที่ยังคงความถูกต้องในชุดการฝึกอบรม แนวคิดก็คือเราจะไปถึงจุดกึ่งกลางที่เราสามารถสร้างแบบจำลองที่สรุปข้อมูลและไม่พยายามที่จะปรับให้เหมาะกับเสียงรบกวนทั้งหมดโดยมีความซับซ้อนน้อยลง ความสับสนของฉันคือทำไมเราลงโทษขนาดของน้ำหนัก? ทำไมน้ำหนักที่ใหญ่ขึ้นจึงสร้างแบบจำลองที่ซับซ้อนมากขึ้นและน้ำหนักที่เล็กกว่าจึงสร้างแบบจำลองที่เรียบง่ายขึ้น Andrew Ng อ้างว่าในการบรรยายของเขาว่าคำอธิบายนั้นยากสำหรับการสอน แต่ฉันคิดว่าฉันกำลังมองหาคำอธิบายนี้ในตอนนี้ ศ. อึ้งได้ยกตัวอย่างจริง ๆ ว่าฟังก์ชั่นต้นทุนใหม่อาจทำให้น้ำหนักของคุณลักษณะ (เช่น. x ^ 3 และ x ^ 4) มีแนวโน้มเป็นศูนย์เพื่อให้ระดับของแบบจำลองลดลง แต่สิ่งนี้ไม่ได้สร้างความสมบูรณ์ คำอธิบาย ปรีชาญาณของฉันคือน้ำหนักที่น้อยกว่ามักจะเป็นที่ "ยอมรับ" ในคุณสมบัติที่มีเลขชี้กำลังมากกว่าคนที่มีเลขชี้กำลังขนาดเล็ก (เพราะคุณลักษณะที่มีน้ำหนักขนาดเล็กเป็นพื้นฐานของฟังก์ชั่น) น้ำหนักที่เล็กลงแสดงถึง "การมีส่วนร่วม" ที่เล็กลงสำหรับคุณลักษณะที่มีลำดับสูง แต่สัญชาตญาณนี้ไม่เป็นรูปธรรมมาก

27 regression machine-learning optimization regularization overfitting

1

ตัวอย่างทีละขั้นตอนของการสร้างความแตกต่างโดยอัตโนมัติในโหมดย้อนกลับ

ไม่แน่ใจว่าคำถามนี้อยู่ที่นี่หรือไม่ แต่เป็นเรื่องที่เกี่ยวข้องกับวิธีการไล่ระดับสีในการปรับให้เหมาะสมซึ่งดูเหมือนจะอยู่ในหัวข้อที่นี่ อย่างไรก็ตามคุณสามารถโยกย้ายได้ถ้าคุณคิดว่าชุมชนอื่นมีความเชี่ยวชาญในหัวข้อนี้มากกว่า ในระยะสั้นฉันกำลังมองหาตัวอย่างขั้นตอนโดยขั้นตอนของโหมดกลับแตกต่างอัตโนมัติ มีวรรณกรรมไม่มากในหัวข้อที่มีและการใช้งานที่มีอยู่ (เช่นใน TensorFlow ) ยากที่จะเข้าใจโดยไม่ทราบทฤษฎีที่อยู่เบื้องหลัง ดังนั้นฉันจะขอบคุณมากถ้ามีคนสามารถแสดงรายละเอียดสิ่งที่เราส่งผ่านวิธีที่เราดำเนินการและสิ่งที่เรานำออกจากกราฟการคำนวณ สองคำถามที่ฉันมีปัญหากับ: เมล็ด - ทำไมเราต้องการพวกเขาทั้งหมด ย้อนกลับกฎความแตกต่าง - ฉันรู้วิธีสร้างความแตกต่างไปข้างหน้า แต่เราจะย้อนกลับได้อย่างไร เช่นในตัวอย่างจากส่วนนี้อย่างไรเรารู้ว่าw2¯=w3¯w1w2¯=w3¯w1\bar{w_2}=\bar{w_3}w_1 ? เราจะทำงานกับสัญลักษณ์เท่านั้นหรือส่งผ่านค่าจริงหรือไม่ เช่นในตัวอย่างเดียวกันเป็นwiwiw_iและwi¯wi¯\bar{w_i}สัญลักษณ์หรือค่า?

27 optimization derivative tensorflow automatic-differentiation

1

สัญลักษณ์คลาสสิคในสถิติพีชคณิตเชิงเส้นและการเรียนรู้ของเครื่องคืออะไร และการเชื่อมต่อระหว่างสัญลักษณ์เหล่านี้คืออะไร?

เมื่อเราอ่านหนังสือการทำความเข้าใจสัญลักษณ์มีบทบาทสำคัญในการทำความเข้าใจเนื้อหา น่าเสียดายที่ชุมชนต่าง ๆ มีระเบียบแบบสัญกรณ์ต่างกันสำหรับการกำหนดสูตรในแบบจำลองและปัญหาการปรับให้เหมาะสม คนใดคนหนึ่งสามารถสรุปการกำหนดสูตรบางอย่างที่นี่และให้เหตุผลที่เป็นไปได้? ฉันจะให้ตัวอย่างที่นี่: ในวรรณคดีพีชคณิตเชิงเส้นหนังสือคลาสสิกแปลกเบื้องต้นเกี่ยวกับพีชคณิตเชิงเส้น สัญกรณ์ที่ใช้มากที่สุดในหนังสือเล่มนี้คือ Ax=bAx=b A x=b ที่ไหนเป็นเมทริกซ์ค่าสัมประสิทธิ์ ,เป็นตัวแปรที่จะแก้ไขและเป็นเวกเตอร์บนด้านขวาของสมการ เหตุผลหนังสือเลือกสัญกรณ์นี้เป็นเป้าหมายหลักของพีชคณิตเชิงเส้นคือการแก้ระบบเชิงเส้นและคิดออกว่าเป็นเวกเตอร์xด้วยการกำหนดสูตรดังกล่าวปัญหาการเพิ่มประสิทธิภาพของ OLS คือAAAxxxbbbxxx minimizex ∥Ax−b∥2minimizex ‖Ax−b‖2 \underset{x}{\text{minimize}}~~ \|A x-b\|^2 ในสถิติหรือการเรียนรู้ด้วยเครื่อง (จากองค์ประกอบของหนังสือของการเรียนรู้ทางสถิติ ) ผู้คนใช้สัญลักษณ์ที่แตกต่างกันเพื่อแสดงสิ่งเดียวกัน: Xβ=yXβ=yX \beta= y ที่ไหนXXXเป็นเมทริกซ์ข้อมูล , ββ\betaเป็นค่าสัมประสิทธิ์หรือน้ำหนักที่จะเรียนรู้การเรียนรู้ , yyyคือการตอบสนอง เหตุผลที่คนใช้นี้เป็นเพราะคนที่อยู่ในสถิติหรือชุมชนการเรียนรู้เครื่องข้อมูลการขับเคลื่อนเพื่อให้ข้อมูลและตอบสนองเป็นสิ่งที่น่าสนใจที่สุดสำหรับพวกเขาที่พวกเขาใช้XXXและyyyที่จะเป็นตัวแทน ตอนนี้เราสามารถเห็นความสับสนที่เป็นไปได้ทั้งหมด: AAAในสมการแรกเหมือนกับXXXในสมการที่สอง และในสมการที่สองXXXไม่จำเป็นต้องมีการแก้ไข สำหรับข้อกำหนด: AAAคือเมทริกซ์สัมประสิทธิ์ในพีชคณิตเชิงเส้น แต่เป็นข้อมูลในสถิติ ββ\betaถูกเรียกว่า "สัมประสิทธิ์" นอกจากนี้ฉันพูดถึงXβ=yXβ=yX \beta=yไม่ใช่สิ่งที่ผู้คนใช้กันอย่างแพร่หลายในการเรียนรู้ของเครื่องจักรคนใช้เวอร์ชันเวกเตอร์ครึ่งหนึ่งที่สรุปจุดข้อมูลทั้งหมด เช่น min∑iL(yi,f(xi))min∑iL(yi,f(xi)) \min \sum_i \text{L}(y_i,f(x_i)) …

26 machine-learning probability self-study optimization

6

สำหรับปัญหานูนการไล่ระดับสีใน Stochastic Gradient Descent (SGD) ชี้ไปที่ค่าที่สูงที่สุดในโลกเสมอหรือไม่?

ด้วยฟังก์ชั่นค่าใช้จ่ายนูนโดยใช้ SGD เพื่อเพิ่มประสิทธิภาพเราจะมีการไล่ระดับสี (เวกเตอร์) ณ จุดหนึ่งระหว่างกระบวนการปรับให้เหมาะสม คำถามของฉันคือเมื่อให้จุดบนนูนการไล่ระดับสีจะชี้ไปที่ทิศทางที่ฟังก์ชันเพิ่มขึ้น / ลดลงเร็วที่สุดหรือการไล่ระดับสีชี้ไปที่จุดที่เหมาะสมที่สุดหรือมากที่สุดของฟังก์ชันต้นทุนหรือไม่ อดีตเป็นแนวคิดในท้องถิ่นหลังเป็นแนวคิดระดับโลก ในที่สุดก็สามารถมารวมกันเป็นมูลค่าสุดยอดของฟังก์ชั่นค่าใช้จ่าย ฉันสงสัยเกี่ยวกับความแตกต่างระหว่างทิศทางของการไล่ระดับสีที่กำหนดจุดโดยพลการบนนูนและทิศทางที่ชี้ไปที่ค่าสุดขั้วทั่วโลก ทิศทางของการไล่ระดับสีควรเป็นทิศทางที่ฟังก์ชั่นเพิ่ม / ลดเร็วที่สุดในจุดนั้นใช่ไหม

25 neural-networks optimization gradient-descent sgd convex

3

อะไรคือสาเหตุที่เครื่องมือเพิ่มประสิทธิภาพของ Adam ได้รับการพิจารณาว่ามีความแข็งแกร่งต่อมูลค่าของพารามิเตอร์ที่มากเกินไป

ฉันกำลังอ่านเกี่ยวกับเครื่องมือเพิ่มประสิทธิภาพของอดัมสำหรับการเรียนรู้ลึกและได้พบประโยคต่อไปนี้ในหนังสือเรียนใหม่เรื่องการเรียนรู้ลึกโดย Bengio, Goodfellow และ Courville: โดยทั่วไปอาดัมได้รับการยกย่องว่าค่อนข้างแข็งแกร่งต่อการเลือกพารามิเตอร์มากเกินไปแม้ว่าบางครั้งอัตราการเรียนรู้จะต้องเปลี่ยนจากค่าเริ่มต้นที่แนะนำ ถ้านี่เป็นเรื่องจริงมันเป็นเรื่องใหญ่เพราะการค้นหาพารามิเตอร์แบบไฮเปอร์สามารถมีความสำคัญจริงๆ (ในประสบการณ์ของฉันอย่างน้อย) ในประสิทธิภาพทางสถิติของระบบการเรียนรู้ลึก ดังนั้นคำถามของฉันคือทำไม Adam Robust ถึงพารามิเตอร์ที่สำคัญเช่นนั้น? พิเศษและหรือไม่β1β1\beta_1β2β2\beta_2 ฉันอ่านกระดาษของอดัมแล้วและมันก็ไม่ได้ให้คำอธิบายใด ๆ ว่าทำไมมันถึงใช้ได้กับพารามิเตอร์เหล่านั้นหรือทำไมมันถึงมีประสิทธิภาพ พวกเขาแสดงให้เห็นถึงเหตุผลอื่นหรือไม่? นอกจากนี้เมื่อฉันอ่านกระดาษดูเหมือนว่าจำนวนของพารามิเตอร์ไฮเปอร์ที่พวกเขาพยายามทำที่เล็กมากสำหรับเพียง 2 และสำหรับเท่านั้น 3. นี่เป็นการศึกษาเชิงประจักษ์ได้อย่างไรถ้ามันทำงานกับ 2x3 พารามิเตอร์มากเกินไป ?β1β1\beta_1β2β2\beta_2

24 neural-networks deep-learning optimization hyperparameter adam

1

จะกำหนดเงื่อนไขการยกเลิกสำหรับการไล่ระดับสีได้อย่างไร

ที่จริงแล้วฉันอยากถามคุณว่าฉันจะกำหนดเงื่อนไขการยุติสำหรับการไล่ระดับสีได้อย่างไร ฉันสามารถหยุดมันตามจำนวนการวนซ้ำได้หรือไม่เช่นการพิจารณาค่าพารามิเตอร์สำหรับการพูดการวนซ้ำ 100 ครั้ง หรือฉันควรรอดังกล่าวที่แตกต่างกันในค่าพารามิเตอร์ที่สอง 'ใหม่' และ 'เก่า' ที่มีขนาดเล็กมากที่จะสั่งของให้พูด ? นี้จะใช้เวลาแน่นอน10- 610-610^{-6} วิธีที่ดีที่สุดคืออะไร? ในกรณีของฉันการทำซ้ำแม้แต่ครั้งเดียวก็ใช้เวลามาก ในสถานการณ์เช่นนี้หากฉันรอเงื่อนไขที่ 2 อาจต้องใช้เวลาหลายสัปดาห์กว่าที่ฉันจะเดาได้ ดังนั้นฉันควรใช้วิธีใด วิธีจัดการกับสถานการณ์นี้

24 algorithms optimization gradient-descent

4

การประมาณการความน่าจะเป็น EM สูงสุดสำหรับการกระจาย Weibull

หมายเหตุ: ฉันกำลังโพสต์คำถามจากนักเรียนเก่าของฉันไม่สามารถโพสต์ด้วยตนเองได้ด้วยเหตุผลทางเทคนิค รับ iid ตัวอย่างจากการแจก Weibull พร้อม pdf มีตัวแปรที่ขาดหายไปที่เป็นประโยชน์ และด้วยเหตุนี้ EM (ความคาดหวัง - การขยายใหญ่สุด) อัลกอริธึมที่สามารถใช้ในการค้นหา MLE ของแทนที่จะใช้ตรงไปตรงมา การเพิ่มประสิทธิภาพเชิงตัวเลข?x1,…,xnx1,…,xnx_1,\ldots,x_nfk(x)=kxk−1e−xkx>0fk(x)=kxk−1e−xkx>0 f_k(x) = k x^{k-1} e^{-x^k} \quad x>0 fk(x)=∫Zgk(x,z)dzfk(x)=∫Zgk(x,z)dzf_k(x) = \int_\mathcal{Z} g_k(x,z)\,\text{d}zkkk

24 optimization missing-data expectation-maximization weibull gumbel

คำถามติดแท็ก optimization