สถิติและข้อมูลขนาดใหญ่ optimization

1

เครือข่ายประสาทของฉันไม่สามารถเรียนรู้ระยะทางแบบยุคลิด

ดังนั้นฉันจึงพยายามสอนตัวเองเกี่ยวกับโครงข่ายประสาทเทียม (สำหรับแอพพลิเคชั่นการถดถอยไม่แบ่งภาพแมว) การทดลองครั้งแรกของฉันคือการฝึกอบรมเครือข่ายเพื่อใช้ตัวกรอง FIR และการแปลงฟูริเยร์แบบไม่ต่อเนื่อง (การฝึกอบรมเรื่อง "ก่อน" และ "หลัง") เนื่องจากการดำเนินการเชิงเส้นทั้งสองนั้นสามารถใช้งานได้ในชั้นเดียว ทั้งสองทำงานได้ดี ดังนั้นฉันอยากดูว่าฉันสามารถเพิ่มabs()และทำให้เรียนรู้สเปกตรัมแอมพลิจูด ครั้งแรกที่ฉันคิดเกี่ยวกับจำนวนโหนดที่มันจะต้องอยู่ในชั้นที่ซ่อนอยู่และตระหนักว่า 3 ReLUs นั้นเพียงพอสำหรับการประมาณที่หยาบกabs(x+jy) = sqrt(x² + y²)ร้านดังนั้นฉันจึงทดสอบการทำงานด้วยตัวเองบนตัวเลขที่ซับซ้อนโดดเดี่ยว (2 อินพุต→ 3 ReLU โหนดที่ซ่อนชั้น→ 1 เอาท์พุท) มันทำงานเป็นครั้งคราว: แต่ส่วนใหญ่เวลาที่ฉันลองมันติดอยู่ในขั้นต่ำในท้องถิ่นและล้มเหลวในการหารูปร่างที่เหมาะสม: ฉันลองใช้เครื่องมือเพิ่มประสิทธิภาพและชุดรูปแบบ ReLU ทั้งหมดใน Keras แต่พวกเขาไม่ได้สร้างความแตกต่างมากนัก มีอะไรอีกบ้างที่ฉันสามารถทำได้เพื่อทำให้เครือข่ายง่าย ๆ เช่นนี้มาบรรจบกันอย่างน่าเชื่อถือ? หรือฉันกำลังเข้าใกล้สิ่งนี้ด้วยทัศนคติที่ไม่ถูกต้องและคุณควรจะทิ้งโหนดมากกว่าที่จำเป็นในปัญหาและถ้าครึ่งหนึ่งของพวกเขาตายมันไม่ถือว่าเป็นเรื่องใหญ่อะไร?

9 machine-learning neural-networks optimization keras euclidean

2

ทำไมขั้นตอนของฉันถึงเล็กลงเมื่อใช้ขนาดขั้นตอนคงที่ในการไล่ระดับสีแบบลาดชัน

สมมติว่าเรากำลังทำตัวอย่างของเล่นในการไล่ระดับสีที่ดีลดฟังก์ชันกำลังสองโดยใช้ขั้นตอนขนาดคงที่\( )xTAxxTAxx^TAxα=0.03α=0.03\alpha=0.03A=[10,2;2,3]A=[10,2;2,3]A=[10, 2; 2, 3] ถ้าเราพล็อตการติดตามของในการวนซ้ำแต่ละครั้งเราจะได้ตัวเลขดังต่อไปนี้ ทำไมคะแนนจึงมีความหนาแน่นสูงเมื่อเราใช้ขนาดขั้นตอนคงที่ โดยสังหรณ์ใจมันไม่ได้ดูเหมือนขนาดขั้นตอนคงที่ แต่ขนาดขั้นตอนลดลงxxx PS: รหัส R รวมถึงพล็อต A=rbind(c(10,2),c(2,3)) f <-function(x){ v=t(x) %*% A %*% x as.numeric(v) } gr <-function(x){ v = 2* A %*% x as.numeric(v) } x1=seq(-2,2,0.02) x2=seq(-2,2,0.02) df=expand.grid(x1=x1,x2=x2) contour(x1,x2,matrix(apply(df, 1, f),ncol=sqrt(nrow(df))), labcex = 1.5, levels=c(1,3,5,10,20,40)) grid() opt_v=0 alpha=3e-2 x_trace=c(-2,-2) x=c(-2,-2) while(abs(f(x)-opt_v)>1e-6){ x=x-alpha*gr(x) …

9 r machine-learning optimization gradient-descent

4

การฝึกอบรมเครือข่ายประสาทเพื่อการถดถอยจะทำนายค่าเฉลี่ยเสมอ

ฉันกำลังฝึกอบรมเครือข่ายประสาทเทียมแบบง่ายสำหรับการถดถอยซึ่งงานนี้จะทำนายตำแหน่ง (x, y) ของกล่องในภาพเช่น: เอาต์พุตของเครือข่ายมีสองโหนดหนึ่งรายการสำหรับ x และอีกหนึ่งสำหรับ y ส่วนที่เหลือของเครือข่ายเป็นเครือข่ายประสาทเทียมมาตรฐาน การสูญเสียเป็นค่าเฉลี่ยความคลาดเคลื่อนกำลังสองระหว่างตำแหน่งที่ทำนายของกล่องและตำแหน่งจริงของพื้นดิน ฉันกำลังฝึกอบรมเกี่ยวกับ 10,000 ภาพเหล่านี้และการตรวจสอบในปี 2000 ปัญหาที่ฉันมีคือแม้ว่าหลังจากการฝึกอบรมที่สำคัญแล้วการสูญเสียไม่ลดลงจริงๆ หลังจากสังเกตเอาท์พุทของเครือข่ายฉันสังเกตว่าเครือข่ายมีแนวโน้มที่จะส่งออกค่าใกล้ศูนย์สำหรับทั้งสองเอาท์พุทโหนด ดังนั้นการทำนายตำแหน่งของกล่องจึงเป็นจุดศูนย์กลางของภาพเสมอ มีการเบี่ยงเบนบางอย่างในการคาดการณ์ แต่มักจะอยู่ที่ประมาณศูนย์ ด้านล่างแสดงให้เห็นถึงการสูญเสีย: ฉันใช้งานสิ่งนี้ได้หลายครั้งมากกว่าที่แสดงในกราฟนี้และการสูญเสียยังไม่ลดลง น่าสนใจที่นี่การสูญเสียเพิ่มขึ้น ณ จุดหนึ่ง ดังนั้นดูเหมือนว่าเครือข่ายจะทำนายค่าเฉลี่ยของข้อมูลการฝึกอบรมมากกว่าการเรียนรู้ที่เหมาะสม ความคิดเห็นใด ๆ เกี่ยวกับสาเหตุที่อาจเป็นเช่นนี้ ฉันใช้อดัมเป็นเครื่องมือเพิ่มประสิทธิภาพด้วยอัตราการเรียนรู้เริ่มต้นที่ 0.01 และการเปิดใช้งานใหม่ หากคุณมีความสนใจในบางรหัสของฉัน (Keras) มันเป็นด้านล่าง: # Create the model model = Sequential() model.add(Convolution2D(32, 5, 5, border_mode='same', subsample=(2, 2), activation='relu', input_shape=(3, image_width, …

9 machine-learning neural-networks optimization deep-learning loss-functions

1

วิธีการแพร่กระจายอย่างเหมาะสมดึงเมื่อคำนวณหลายความคาดหวัง

สมมติว่าเราต้องการคำนวณความคาดหวัง: EYEX|Y[f(X,Y)]EYEX|Y[ฉ(X,Y)]E_YE_{X|Y}[f(X,Y)] สมมติว่าเราต้องการประมาณค่านี้โดยใช้การจำลองมอนติคาร์โล EYEX|Y[f(X,Y)]≈1RS∑r=1R∑s=1Sf(xr,s,yr)EYEX|Y[ฉ(X,Y)]≈1RSΣR=1RΣs=1Sฉ(xR,s,YR)E_YE_{X|Y}[f(X,Y)] \approx \frac1{RS}\sum_{r=1}^R\sum_{s=1}^Sf(x^{r,s},y^r) แต่สมมติว่ามันมีค่าใช้จ่ายสูงในการดึงตัวอย่างจากการแจกแจงทั้งสองค่าเพื่อให้เราสามารถวาดหมายเลขคงที่เท่านั้น KKK เราควรจัดสรรอย่างไร ตัวอย่างรวมถึงดึงไปที่การกระจายแต่ละครั้งหรือในสุดขั้วหนึ่งเสมอในด้านนอกและเสมอในด้านในรองในทางกลับกัน ฯลฯ .....KKKK/2K/2K/2K−1K-1K-1 สัญชาตญาณของฉันบอกฉันว่ามันจะต้องทำอย่างไรกับความแปรปรวน / เอนโทรปีของการแจกแจงที่สัมพันธ์กัน สมมติว่าด้านนอกหนึ่งเป็นจุดมวลแล้วส่วนหนึ่งของที่ช่วยลดข้อผิดพลาด MC จะวาดที่ 1 ของและวาดของxy KKKYYYK−1K-1K-1X|YX|YX|Y หวังว่านี่จะชัดเจน

9 optimization conditional-probability simulation expected-value monte-carlo

1

ทำไมสืบเชื้อสายการไล่ระดับสีใกล้เคียงแทนวิธีการ subgradient ธรรมดาสำหรับ Lasso?

ฉันคิดที่จะแก้ Lasso ผ่านวิธีการ subgradient วานิลลา แต่ฉันได้อ่านคนที่แนะนำให้ใช้การไล่ระดับสีแบบ Proximal บางคนสามารถเน้นว่าทำไม GD GD ใกล้เคียงแทนที่จะใช้วิธีการ subgradient วานิลลาสำหรับ Lasso?

9 machine-learning optimization lasso gradient-descent

2

ทำไมยอดรวมยกกำลังสองที่ไม่เพิ่มเมื่อเพิ่มตัวแปรอธิบาย?

ในหนังสือเรียนเศรษฐมิติของฉัน (เศรษฐมิติเบื้องต้น) ครอบคลุม OLS ผู้เขียนเขียนว่า "SSR จะต้องล้มลงเมื่อมีการเพิ่มตัวแปรอธิบายอื่น" ทำไมล่ะ

9 regression optimization econometrics intuition sums-of-squares

1

ความแตกต่างระหว่างตัวแก้ปัญหาการเขียนโปรแกรม R กำลังสองต่างกันอย่างไร

ฉันกำลังมองหาแพ็คเกจเพื่อช่วยฉันแก้ปัญหาการหาค่าเหมาะที่สุดกำลังสองและฉันเห็นว่ามีแพ็คเกจต่างกันอย่างน้อยครึ่งโหล ตามหน้านี้ : QP (โปรแกรมกำลังสอง, 90C20): cplexAPI , kernlab , limSolve , LowRankQP , quadprog , Rcplex , Rmosek บางส่วนของเหล่านี้ (Rmosek และ cplexAPI) ขึ้นอยู่กับแพ็คเกจอื่น ๆ ดังนั้นฉันไม่สนใจสิ่งเหล่านั้น อะไรคือความแตกต่างที่โดดเด่นระหว่างแพ็คเกจ QP อื่น ๆ ?

9 r optimization

2

การประมาณค่าพารามิเตอร์ด้วยโมเดลเชิงเส้นทั่วไป

โดยค่าเริ่มต้นเมื่อเราใช้glmฟังก์ชั่นใน R มันจะใช้วิธีการวนซ้ำน้อยที่สุดอย่างน้อยสี่เหลี่ยม (IWLS) เพื่อหาโอกาสในการประมาณค่าพารามิเตอร์สูงสุด ตอนนี้ฉันมีสองคำถาม การประมาณค่าของ IWLS รับประกันว่าจะมีฟังก์ชั่นโอกาสสูงสุดในระดับโลก ฉันคิดว่ามันไม่ได้ขึ้นอยู่กับสไลด์สุดท้ายในงานนำเสนอนี้ ! ฉันแค่ต้องการทำให้แน่ใจว่า เราสามารถพูดได้ว่าเหตุผลของคำถามที่ 1 ข้างต้นนั้นเป็นเพราะความจริงที่ว่าวิธีการหาค่าเหมาะที่สุดเชิงตัวเลขเกือบทั้งหมดอาจติดอยู่ที่ค่าสูงสุดในท้องถิ่นมากกว่าค่าสูงสุดทั่วโลก

9 r estimation generalized-linear-model maximum-likelihood optimization

2

ฉันจะประมาณช่วงความมั่นใจ 95% โดยใช้การทำโปรไฟล์สำหรับพารามิเตอร์ที่ประเมินได้โดยการเพิ่มฟังก์ชั่นบันทึกความเป็นไปได้โดยใช้ optimize ใน R ได้อย่างไร

ฉันจะประมาณช่วงความมั่นใจ 95% โดยใช้การทำโปรไฟล์สำหรับพารามิเตอร์ที่ประเมินได้โดยการเพิ่มฟังก์ชั่นบันทึกความเป็นไปได้โดยใช้ optimize ใน R ได้อย่างไร ฉันรู้ว่าฉันสามารถประเมินเมทริกซ์ความแปรปรวนร่วมแบบไม่มีสัญญาณได้โดยการสลับเฮสเซียนแต่ฉันกังวลว่าข้อมูลของฉันไม่ตรงตามสมมติฐานที่จำเป็นสำหรับวิธีการนี้ที่จะถูกต้อง ฉันต้องการประเมินช่วงความมั่นใจโดยใช้วิธีอื่น วิธีความน่าจะเป็นของโปรไฟล์มีความเหมาะสมตามที่กล่าวไว้ในStryhn และ Christensenและในหนังสือ MASS Venables และ Ripley ของ§8.4, pp. 220-221? ถ้ามีมีแพ็คเกจใดบ้างที่สามารถช่วยฉันทำสิ่งนี้ใน R หรือไม่? ถ้าไม่เช่นนั้นรหัสหลอกสำหรับวิธีการดังกล่าวจะเป็นอย่างไร

9 r confidence-interval maximum-likelihood optimization profile-likelihood

2

ข้อดีของการเข้าถึงปัญหาโดยกำหนดฟังก์ชันต้นทุนที่ปรับให้เหมาะสมทั่วโลก

นี่เป็นคำถามที่ค่อนข้างทั่วไป (นั่นคือไม่เฉพาะเจาะจงกับสถิติ) แต่ฉันได้สังเกตเห็นแนวโน้มในการเรียนรู้ของเครื่องและวรรณกรรมทางสถิติที่ผู้เขียนต้องการทำตามวิธีการต่อไปนี้: วิธีที่ 1 : หาวิธีแก้ไขปัญหาที่เกิดขึ้นจริงโดยกำหนดฟังก์ชันต้นทุนที่เป็นไปได้ (เช่นจากจุดยืนการคำนวณ) เพื่อค้นหาโซลูชันที่เหมาะสมที่สุดทั่วโลก (เช่นโดยกำหนดฟังก์ชันต้นทุนนูน) ค่อนข้างมากกว่า: วิธีที่ 2 : หาวิธีแก้ไขปัญหาเดียวกันโดยกำหนดฟังก์ชั่นต้นทุนที่เราอาจไม่สามารถหาทางออกที่ดีที่สุดทั่วโลก (เช่นเราจะได้รับทางออกที่ดีที่สุดในท้องถิ่นเท่านั้น) โปรดทราบว่าการพูดอย่างจริงจังถึงปัญหาทั้งสองนั้นแตกต่างกัน สมมติฐานคือเราสามารถหาทางออกที่ดีที่สุดทั่วโลกสำหรับคนแรก แต่ไม่ใช่สำหรับคนที่สอง ข้อควรพิจารณาอื่น ๆ นอกเหนือจาก (เช่นความเร็วความง่ายในการใช้งาน ฯลฯ ) ฉันกำลังมองหา: คำอธิบายของแนวโน้มนี้ (เช่นข้อโต้แย้งทางคณิตศาสตร์หรือประวัติศาสตร์) ประโยชน์ที่ได้รับ (ในทางปฏิบัติและ / หรือเชิงทฤษฎี) สำหรับการปฏิบัติตามแนวทางที่ 1 แทน 2 เมื่อแก้ปัญหาในทางปฏิบัติ

9 optimization function

4

การอ้างอิงการเพิ่มประสิทธิภาพเชิงตัวเลขสำหรับนักสถิติ

ฉันกำลังมองหาการอ้างอิงที่มั่นคง (หรือการอ้างอิง) เกี่ยวกับเทคนิคการเพิ่มประสิทธิภาพเชิงตัวเลขที่มุ่งเป้าไปที่นักสถิตินั่นคือมันจะใช้วิธีการเหล่านี้กับปัญหาเชิงอนุมานมาตรฐาน (เช่น MAP / MLE ในแบบจำลองทั่วไป) สิ่งต่าง ๆ เช่นการไล่ระดับสี (ตรงและสุ่ม), EM และ spinoffs / ภาพรวม, การจำลองการหลอม ฯลฯ ฉันหวังว่ามันจะมีบันทึกการใช้งานจริงบางอย่าง (มักขาดในเอกสาร) ไม่จำเป็นต้องชัดเจนอย่างสมบูรณ์ แต่อย่างน้อยก็ควรมีบรรณานุกรมที่เป็นของแข็ง การค้นหาคร่าวๆปรากฏขึ้นมาสองสามข้อความ: การวิเคราะห์เชิงตัวเลขสำหรับนักสถิติโดย Ken Lange และวิธีการเชิงตัวเลขของ John Monahan ความเห็นของแต่ละคนดูหลากหลาย (และกระจัดกระจาย) จากการตรวจสารบัญสองอย่างแสดงให้เห็นว่าหนังสือของ Lange ฉบับที่ 2 นั้นใกล้เคียงกับสิ่งที่ฉันทำมากที่สุด

9 estimation references optimization

2

คำนวณ ROC curve สำหรับข้อมูล

ดังนั้นฉันมีการทดลอง 16 ครั้งที่ฉันพยายามพิสูจน์ตัวตนบุคคลจากลักษณะทางชีวภาพโดยใช้ Hamming Distance เกณฑ์ของฉันถูกตั้งไว้ที่ 3.5 ข้อมูลของฉันอยู่ด้านล่างและเฉพาะการทดลองใช้ 1 เท่านั้นคือ True Positive: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 จุดสับสนของฉันคือฉันไม่แน่ใจจริงๆเกี่ยวกับวิธีสร้าง ROC curve …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

คำถามติดแท็ก optimization