คำถามติดแท็ก optimization

ใช้แท็กนี้สำหรับการใช้งานการเพิ่มประสิทธิภาพภายในสถิติ

1
เครือข่ายประสาทของฉันไม่สามารถเรียนรู้ระยะทางแบบยุคลิด
ดังนั้นฉันจึงพยายามสอนตัวเองเกี่ยวกับโครงข่ายประสาทเทียม (สำหรับแอพพลิเคชั่นการถดถอยไม่แบ่งภาพแมว) การทดลองครั้งแรกของฉันคือการฝึกอบรมเครือข่ายเพื่อใช้ตัวกรอง FIR และการแปลงฟูริเยร์แบบไม่ต่อเนื่อง (การฝึกอบรมเรื่อง "ก่อน" และ "หลัง") เนื่องจากการดำเนินการเชิงเส้นทั้งสองนั้นสามารถใช้งานได้ในชั้นเดียว ทั้งสองทำงานได้ดี ดังนั้นฉันอยากดูว่าฉันสามารถเพิ่มabs()และทำให้เรียนรู้สเปกตรัมแอมพลิจูด ครั้งแรกที่ฉันคิดเกี่ยวกับจำนวนโหนดที่มันจะต้องอยู่ในชั้นที่ซ่อนอยู่และตระหนักว่า 3 ReLUs นั้นเพียงพอสำหรับการประมาณที่หยาบกabs(x+jy) = sqrt(x² + y²)ร้านดังนั้นฉันจึงทดสอบการทำงานด้วยตัวเองบนตัวเลขที่ซับซ้อนโดดเดี่ยว (2 อินพุต→ 3 ReLU โหนดที่ซ่อนชั้น→ 1 เอาท์พุท) มันทำงานเป็นครั้งคราว: แต่ส่วนใหญ่เวลาที่ฉันลองมันติดอยู่ในขั้นต่ำในท้องถิ่นและล้มเหลวในการหารูปร่างที่เหมาะสม: ฉันลองใช้เครื่องมือเพิ่มประสิทธิภาพและชุดรูปแบบ ReLU ทั้งหมดใน Keras แต่พวกเขาไม่ได้สร้างความแตกต่างมากนัก มีอะไรอีกบ้างที่ฉันสามารถทำได้เพื่อทำให้เครือข่ายง่าย ๆ เช่นนี้มาบรรจบกันอย่างน่าเชื่อถือ? หรือฉันกำลังเข้าใกล้สิ่งนี้ด้วยทัศนคติที่ไม่ถูกต้องและคุณควรจะทิ้งโหนดมากกว่าที่จำเป็นในปัญหาและถ้าครึ่งหนึ่งของพวกเขาตายมันไม่ถือว่าเป็นเรื่องใหญ่อะไร?

2
ทำไมขั้นตอนของฉันถึงเล็กลงเมื่อใช้ขนาดขั้นตอนคงที่ในการไล่ระดับสีแบบลาดชัน
สมมติว่าเรากำลังทำตัวอย่างของเล่นในการไล่ระดับสีที่ดีลดฟังก์ชันกำลังสองโดยใช้ขั้นตอนขนาดคงที่\( )xTAxxTAxx^TAxα=0.03α=0.03\alpha=0.03A=[10,2;2,3]A=[10,2;2,3]A=[10, 2; 2, 3] ถ้าเราพล็อตการติดตามของในการวนซ้ำแต่ละครั้งเราจะได้ตัวเลขดังต่อไปนี้ ทำไมคะแนนจึงมีความหนาแน่นสูงเมื่อเราใช้ขนาดขั้นตอนคงที่ โดยสังหรณ์ใจมันไม่ได้ดูเหมือนขนาดขั้นตอนคงที่ แต่ขนาดขั้นตอนลดลงxxx PS: รหัส R รวมถึงพล็อต A=rbind(c(10,2),c(2,3)) f <-function(x){ v=t(x) %*% A %*% x as.numeric(v) } gr <-function(x){ v = 2* A %*% x as.numeric(v) } x1=seq(-2,2,0.02) x2=seq(-2,2,0.02) df=expand.grid(x1=x1,x2=x2) contour(x1,x2,matrix(apply(df, 1, f),ncol=sqrt(nrow(df))), labcex = 1.5, levels=c(1,3,5,10,20,40)) grid() opt_v=0 alpha=3e-2 x_trace=c(-2,-2) x=c(-2,-2) while(abs(f(x)-opt_v)>1e-6){ x=x-alpha*gr(x) …

4
การฝึกอบรมเครือข่ายประสาทเพื่อการถดถอยจะทำนายค่าเฉลี่ยเสมอ
ฉันกำลังฝึกอบรมเครือข่ายประสาทเทียมแบบง่ายสำหรับการถดถอยซึ่งงานนี้จะทำนายตำแหน่ง (x, y) ของกล่องในภาพเช่น: เอาต์พุตของเครือข่ายมีสองโหนดหนึ่งรายการสำหรับ x และอีกหนึ่งสำหรับ y ส่วนที่เหลือของเครือข่ายเป็นเครือข่ายประสาทเทียมมาตรฐาน การสูญเสียเป็นค่าเฉลี่ยความคลาดเคลื่อนกำลังสองระหว่างตำแหน่งที่ทำนายของกล่องและตำแหน่งจริงของพื้นดิน ฉันกำลังฝึกอบรมเกี่ยวกับ 10,000 ภาพเหล่านี้และการตรวจสอบในปี 2000 ปัญหาที่ฉันมีคือแม้ว่าหลังจากการฝึกอบรมที่สำคัญแล้วการสูญเสียไม่ลดลงจริงๆ หลังจากสังเกตเอาท์พุทของเครือข่ายฉันสังเกตว่าเครือข่ายมีแนวโน้มที่จะส่งออกค่าใกล้ศูนย์สำหรับทั้งสองเอาท์พุทโหนด ดังนั้นการทำนายตำแหน่งของกล่องจึงเป็นจุดศูนย์กลางของภาพเสมอ มีการเบี่ยงเบนบางอย่างในการคาดการณ์ แต่มักจะอยู่ที่ประมาณศูนย์ ด้านล่างแสดงให้เห็นถึงการสูญเสีย: ฉันใช้งานสิ่งนี้ได้หลายครั้งมากกว่าที่แสดงในกราฟนี้และการสูญเสียยังไม่ลดลง น่าสนใจที่นี่การสูญเสียเพิ่มขึ้น ณ จุดหนึ่ง ดังนั้นดูเหมือนว่าเครือข่ายจะทำนายค่าเฉลี่ยของข้อมูลการฝึกอบรมมากกว่าการเรียนรู้ที่เหมาะสม ความคิดเห็นใด ๆ เกี่ยวกับสาเหตุที่อาจเป็นเช่นนี้ ฉันใช้อดัมเป็นเครื่องมือเพิ่มประสิทธิภาพด้วยอัตราการเรียนรู้เริ่มต้นที่ 0.01 และการเปิดใช้งานใหม่ หากคุณมีความสนใจในบางรหัสของฉัน (Keras) มันเป็นด้านล่าง: # Create the model model = Sequential() model.add(Convolution2D(32, 5, 5, border_mode='same', subsample=(2, 2), activation='relu', input_shape=(3, image_width, …

1
วิธีการแพร่กระจายอย่างเหมาะสมดึงเมื่อคำนวณหลายความคาดหวัง
สมมติว่าเราต้องการคำนวณความคาดหวัง: EYEX|Y[f(X,Y)]EYEX|Y[ฉ(X,Y)]E_YE_{X|Y}[f(X,Y)] สมมติว่าเราต้องการประมาณค่านี้โดยใช้การจำลองมอนติคาร์โล EYEX|Y[f(X,Y)]≈1RS∑r=1R∑s=1Sf(xr,s,yr)EYEX|Y[ฉ(X,Y)]≈1RSΣR=1RΣs=1Sฉ(xR,s,YR)E_YE_{X|Y}[f(X,Y)] \approx \frac1{RS}\sum_{r=1}^R\sum_{s=1}^Sf(x^{r,s},y^r) แต่สมมติว่ามันมีค่าใช้จ่ายสูงในการดึงตัวอย่างจากการแจกแจงทั้งสองค่าเพื่อให้เราสามารถวาดหมายเลขคงที่เท่านั้น KKK เราควรจัดสรรอย่างไร ตัวอย่างรวมถึงดึงไปที่การกระจายแต่ละครั้งหรือในสุดขั้วหนึ่งเสมอในด้านนอกและเสมอในด้านในรองในทางกลับกัน ฯลฯ .....KKKK/2K/2K/2K−1K-1K-1 สัญชาตญาณของฉันบอกฉันว่ามันจะต้องทำอย่างไรกับความแปรปรวน / เอนโทรปีของการแจกแจงที่สัมพันธ์กัน สมมติว่าด้านนอกหนึ่งเป็นจุดมวลแล้วส่วนหนึ่งของที่ช่วยลดข้อผิดพลาด MC จะวาดที่ 1 ของและวาดของxy KKKYYYK−1K-1K-1X|YX|YX|Y หวังว่านี่จะชัดเจน

1
ทำไมสืบเชื้อสายการไล่ระดับสีใกล้เคียงแทนวิธีการ subgradient ธรรมดาสำหรับ Lasso?
ฉันคิดที่จะแก้ Lasso ผ่านวิธีการ subgradient วานิลลา แต่ฉันได้อ่านคนที่แนะนำให้ใช้การไล่ระดับสีแบบ Proximal บางคนสามารถเน้นว่าทำไม GD GD ใกล้เคียงแทนที่จะใช้วิธีการ subgradient วานิลลาสำหรับ Lasso?

2
ทำไมยอดรวมยกกำลังสองที่ไม่เพิ่มเมื่อเพิ่มตัวแปรอธิบาย?
ในหนังสือเรียนเศรษฐมิติของฉัน (เศรษฐมิติเบื้องต้น) ครอบคลุม OLS ผู้เขียนเขียนว่า "SSR จะต้องล้มลงเมื่อมีการเพิ่มตัวแปรอธิบายอื่น" ทำไมล่ะ

1
ความแตกต่างระหว่างตัวแก้ปัญหาการเขียนโปรแกรม R กำลังสองต่างกันอย่างไร
ฉันกำลังมองหาแพ็คเกจเพื่อช่วยฉันแก้ปัญหาการหาค่าเหมาะที่สุดกำลังสองและฉันเห็นว่ามีแพ็คเกจต่างกันอย่างน้อยครึ่งโหล ตามหน้านี้ : QP (โปรแกรมกำลังสอง, 90C20): cplexAPI , kernlab , limSolve , LowRankQP , quadprog , Rcplex , Rmosek บางส่วนของเหล่านี้ (Rmosek และ cplexAPI) ขึ้นอยู่กับแพ็คเกจอื่น ๆ ดังนั้นฉันไม่สนใจสิ่งเหล่านั้น อะไรคือความแตกต่างที่โดดเด่นระหว่างแพ็คเกจ QP อื่น ๆ ?
9 r  optimization 

2
การประมาณค่าพารามิเตอร์ด้วยโมเดลเชิงเส้นทั่วไป
โดยค่าเริ่มต้นเมื่อเราใช้glmฟังก์ชั่นใน R มันจะใช้วิธีการวนซ้ำน้อยที่สุดอย่างน้อยสี่เหลี่ยม (IWLS) เพื่อหาโอกาสในการประมาณค่าพารามิเตอร์สูงสุด ตอนนี้ฉันมีสองคำถาม การประมาณค่าของ IWLS รับประกันว่าจะมีฟังก์ชั่นโอกาสสูงสุดในระดับโลก ฉันคิดว่ามันไม่ได้ขึ้นอยู่กับสไลด์สุดท้ายในงานนำเสนอนี้ ! ฉันแค่ต้องการทำให้แน่ใจว่า เราสามารถพูดได้ว่าเหตุผลของคำถามที่ 1 ข้างต้นนั้นเป็นเพราะความจริงที่ว่าวิธีการหาค่าเหมาะที่สุดเชิงตัวเลขเกือบทั้งหมดอาจติดอยู่ที่ค่าสูงสุดในท้องถิ่นมากกว่าค่าสูงสุดทั่วโลก

2
ฉันจะประมาณช่วงความมั่นใจ 95% โดยใช้การทำโปรไฟล์สำหรับพารามิเตอร์ที่ประเมินได้โดยการเพิ่มฟังก์ชั่นบันทึกความเป็นไปได้โดยใช้ optimize ใน R ได้อย่างไร
ฉันจะประมาณช่วงความมั่นใจ 95% โดยใช้การทำโปรไฟล์สำหรับพารามิเตอร์ที่ประเมินได้โดยการเพิ่มฟังก์ชั่นบันทึกความเป็นไปได้โดยใช้ optimize ใน R ได้อย่างไร ฉันรู้ว่าฉันสามารถประเมินเมทริกซ์ความแปรปรวนร่วมแบบไม่มีสัญญาณได้โดยการสลับเฮสเซียนแต่ฉันกังวลว่าข้อมูลของฉันไม่ตรงตามสมมติฐานที่จำเป็นสำหรับวิธีการนี้ที่จะถูกต้อง ฉันต้องการประเมินช่วงความมั่นใจโดยใช้วิธีอื่น วิธีความน่าจะเป็นของโปรไฟล์มีความเหมาะสมตามที่กล่าวไว้ในStryhn และ Christensenและในหนังสือ MASS Venables และ Ripley ของ§8.4, pp. 220-221? ถ้ามีมีแพ็คเกจใดบ้างที่สามารถช่วยฉันทำสิ่งนี้ใน R หรือไม่? ถ้าไม่เช่นนั้นรหัสหลอกสำหรับวิธีการดังกล่าวจะเป็นอย่างไร

2
ข้อดีของการเข้าถึงปัญหาโดยกำหนดฟังก์ชันต้นทุนที่ปรับให้เหมาะสมทั่วโลก
นี่เป็นคำถามที่ค่อนข้างทั่วไป (นั่นคือไม่เฉพาะเจาะจงกับสถิติ) แต่ฉันได้สังเกตเห็นแนวโน้มในการเรียนรู้ของเครื่องและวรรณกรรมทางสถิติที่ผู้เขียนต้องการทำตามวิธีการต่อไปนี้: วิธีที่ 1 : หาวิธีแก้ไขปัญหาที่เกิดขึ้นจริงโดยกำหนดฟังก์ชันต้นทุนที่เป็นไปได้ (เช่นจากจุดยืนการคำนวณ) เพื่อค้นหาโซลูชันที่เหมาะสมที่สุดทั่วโลก (เช่นโดยกำหนดฟังก์ชันต้นทุนนูน) ค่อนข้างมากกว่า: วิธีที่ 2 : หาวิธีแก้ไขปัญหาเดียวกันโดยกำหนดฟังก์ชั่นต้นทุนที่เราอาจไม่สามารถหาทางออกที่ดีที่สุดทั่วโลก (เช่นเราจะได้รับทางออกที่ดีที่สุดในท้องถิ่นเท่านั้น) โปรดทราบว่าการพูดอย่างจริงจังถึงปัญหาทั้งสองนั้นแตกต่างกัน สมมติฐานคือเราสามารถหาทางออกที่ดีที่สุดทั่วโลกสำหรับคนแรก แต่ไม่ใช่สำหรับคนที่สอง ข้อควรพิจารณาอื่น ๆ นอกเหนือจาก (เช่นความเร็วความง่ายในการใช้งาน ฯลฯ ) ฉันกำลังมองหา: คำอธิบายของแนวโน้มนี้ (เช่นข้อโต้แย้งทางคณิตศาสตร์หรือประวัติศาสตร์) ประโยชน์ที่ได้รับ (ในทางปฏิบัติและ / หรือเชิงทฤษฎี) สำหรับการปฏิบัติตามแนวทางที่ 1 แทน 2 เมื่อแก้ปัญหาในทางปฏิบัติ

4
การอ้างอิงการเพิ่มประสิทธิภาพเชิงตัวเลขสำหรับนักสถิติ
ฉันกำลังมองหาการอ้างอิงที่มั่นคง (หรือการอ้างอิง) เกี่ยวกับเทคนิคการเพิ่มประสิทธิภาพเชิงตัวเลขที่มุ่งเป้าไปที่นักสถิตินั่นคือมันจะใช้วิธีการเหล่านี้กับปัญหาเชิงอนุมานมาตรฐาน (เช่น MAP / MLE ในแบบจำลองทั่วไป) สิ่งต่าง ๆ เช่นการไล่ระดับสี (ตรงและสุ่ม), EM และ spinoffs / ภาพรวม, การจำลองการหลอม ฯลฯ ฉันหวังว่ามันจะมีบันทึกการใช้งานจริงบางอย่าง (มักขาดในเอกสาร) ไม่จำเป็นต้องชัดเจนอย่างสมบูรณ์ แต่อย่างน้อยก็ควรมีบรรณานุกรมที่เป็นของแข็ง การค้นหาคร่าวๆปรากฏขึ้นมาสองสามข้อความ: การวิเคราะห์เชิงตัวเลขสำหรับนักสถิติโดย Ken Lange และวิธีการเชิงตัวเลขของ John Monahan ความเห็นของแต่ละคนดูหลากหลาย (และกระจัดกระจาย) จากการตรวจสารบัญสองอย่างแสดงให้เห็นว่าหนังสือของ Lange ฉบับที่ 2 นั้นใกล้เคียงกับสิ่งที่ฉันทำมากที่สุด

2
คำนวณ ROC curve สำหรับข้อมูล
ดังนั้นฉันมีการทดลอง 16 ครั้งที่ฉันพยายามพิสูจน์ตัวตนบุคคลจากลักษณะทางชีวภาพโดยใช้ Hamming Distance เกณฑ์ของฉันถูกตั้งไว้ที่ 3.5 ข้อมูลของฉันอยู่ด้านล่างและเฉพาะการทดลองใช้ 1 เท่านั้นคือ True Positive: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 จุดสับสนของฉันคือฉันไม่แน่ใจจริงๆเกี่ยวกับวิธีสร้าง ROC curve …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.