คำถามติดแท็ก optimization

ใช้แท็กนี้สำหรับการใช้งานการเพิ่มประสิทธิภาพภายในสถิติ

4
ทำไมอัลกอริธึมการปรับให้เหมาะสมได้ถูกกำหนดไว้ในแง่ของปัญหาการเพิ่มประสิทธิภาพอื่น ๆ ?
ฉันกำลังทำการวิจัยเกี่ยวกับเทคนิคการปรับให้เหมาะสมสำหรับการเรียนรู้ของเครื่อง แต่ฉันประหลาดใจที่พบว่ามีการกำหนดอัลกอริธึมการเพิ่มประสิทธิภาพจำนวนมากในแง่ของปัญหาการเพิ่มประสิทธิภาพอื่น ๆ ฉันแสดงตัวอย่างบางอย่างดังต่อไปนี้ ตัวอย่างเช่นhttps://arxiv.org/pdf/1511.05133v1.pdf ทุกอย่างดูดีและดี แต่แล้วก็มีนี้ในการอัปเดตz k + 1 .... ดังนั้นอัลกอริทึมที่แก้ปัญหาสำหรับargminคืออะไร? เราไม่รู้และมันก็ไม่พูด อย่างน่าอัศจรรย์เราต้องแก้ปัญหาการหาค่าเหมาะที่สุดอีกอันซึ่งก็คือการหาเวกเตอร์ที่ย่อขนาดเล็กสุดเพื่อให้ผลิตภัณฑ์ชั้นในมีค่าอย่างน้อยที่สุด - จะทำอย่างไรได้บ้าง?argminxargminx\text{argmin}_xzk+1zk+1z^{k+1}argminargmin\text{argmin} ใช้ตัวอย่างอื่น: https://arxiv.org/pdf/1609.05713v1.pdf ทุกอย่างดูดีและดีจนกว่าคุณจะพบตัวดำเนินการใกล้เคียงที่อยู่ตรงกลางของอัลกอริทึมและนิยามของตัวดำเนินการนั้นคืออะไร Boom: argminxargminx\text{argmin}_xfff ใครบางคนได้โปรดให้ความกระจ่างแก่ฉันเพื่อ: ทำไมอัลกอริธึมการปรับให้เหมาะสมจำนวนมากถึงกำหนดไว้ในแง่ของปัญหาการเพิ่มประสิทธิภาพอื่น ๆ (นี่จะไม่ใช่ปัญหาของไก่และไข่ในการแก้ปัญหาที่ 1 คุณต้องแก้ปัญหาที่ 2 โดยใช้วิธีการแก้ปัญหาที่ 3 ซึ่งขึ้นอยู่กับการแก้ปัญหา .... ) xk+1=argminxreally complicated loss functionxk+1=argminxreally complicated loss functionx^{k+1} = \text{argmin}_x \text{really complicated loss function} argminxargminx\text{argmin}_x (Bounty: ทุกคนสามารถอ้างอิงกระดาษที่ผู้เขียนทำให้ชัดเจนอัลกอริทึมสำหรับปัญหาย่อยที่ฝังอยู่ในอัลกอริทึมการเพิ่มประสิทธิภาพระดับสูง?)

2
เทคนิคการเรียนรู้ของเครื่อง“ อัลกอริธึมการประมาณค่า” หรือไม่?
เมื่อเร็ว ๆ นี้มีคำถามที่คล้าย ML มากกว่าใน cstheory stackexchange และฉันโพสต์คำตอบแนะนำวิธีการของ Powell, การไล่ระดับสี, ขั้นตอนวิธีพันธุกรรมหรืออื่น ๆ"ขั้นตอนวิธีการประมาณ" ในความคิดเห็นมีคนบอกฉันว่าวิธีการเหล่านี้คือ "การวิเคราะห์พฤติกรรม" และไม่ใช่ "อัลกอริทึมการประมาณ" และบ่อยครั้งไม่ได้เข้าใกล้ทฤษฎีที่เหมาะสมที่สุด (เพราะพวกเขา "มักติดอยู่ในท้องถิ่นน้อยที่สุด") คนอื่นเห็นด้วยไหม นอกจากนี้ดูเหมือนว่าสำหรับฉันแล้วมีความรู้สึกว่าอัลกอริธึมฮิวริสติกสามารถรับประกันได้ว่าจะใกล้เคียงกับทฤษฎีที่เหมาะสมที่สุดหากตั้งค่าให้สำรวจพื้นที่ส่วนใหญ่ในการค้นหา (เช่นการตั้งค่าพารามิเตอร์ / ขนาดขั้นตอนเล็ก) จะเห็นว่าในกระดาษ ไม่มีใครรู้ว่าสิ่งนี้ได้รับการแสดงหรือพิสูจน์ในกระดาษ (ถ้าไม่ใช่สำหรับอัลกอริธึมขนาดใหญ่อาจเป็นคลาสเล็ก ๆ ที่พูดว่า NNs เป็นต้น)

4
มักจะมี maximizer สำหรับปัญหา MLE หรือไม่?
ฉันสงสัยว่าจะมี maximizer สำหรับปัญหาการประมาณโอกาสสูงสุด (บันทึก -) หรือไม่? กล่าวอีกนัยหนึ่งมีการแจกแจงบางส่วนและพารามิเตอร์บางอย่างซึ่งปัญหา MLE ไม่มี maximizer หรือไม่ คำถามของฉันมาจากการอ้างสิทธิ์ของวิศวกรว่าฟังก์ชั่นค่าใช้จ่าย (ความน่าจะเป็นหรือความเป็นไปได้ในการบันทึกฉันไม่แน่ใจว่ามีจุดประสงค์ใด) ใน MLE มักจะเป็นแบบเว้าเสมอและดังนั้นจึงมี maximizer เสมอ ขอบคุณและขอแสดงความนับถือ!

3
พิกัดเทียบกับการไล่ระดับสี
ฉันถูกสงสัยว่ากรณีการใช้งานที่แตกต่างกันสำหรับสองขั้นตอนวิธีการประสานงานโคตรและการไล่โทนสีโคตร ฉันรู้ว่าโคตรพิกัดมีปัญหากับฟังก์ชั่นที่ไม่ราบรื่น แต่ใช้ในอัลกอริทึมยอดนิยมเช่น SVM และ LASSO อย่างไรก็ตามฉันคิดว่าใช้การไล่ระดับสีอย่างแพร่หลายมากขึ้นโดยเฉพาะกับการฟื้นตัวของ ANNs และสำหรับงานการเรียนรู้ของเครื่องอื่น ๆ อีกมากมาย คำถามของฉันคือ: ปัญหาประเภทใดที่เหมาะกับปัญหาหนึ่ง แต่ไม่ใช่ปัญหาอื่นและในแง่นั้นอะไรที่ทำให้โคตรประสานงานที่เหมาะสมสำหรับ SVM และ LASSO แต่การสืบเชื้อสายที่เหมาะสมสำหรับ ANNs หนึ่งควรเลือกระหว่างทั้งสองเมื่อเลือกอัลกอริทึมการเพิ่มประสิทธิภาพได้อย่างไร

1
ทำไมฟังก์ชั่นต้นทุนของโครงข่ายประสาทเทียมจึงไม่นูน?
มีเธรดที่คล้ายกันที่นี่ ( ฟังก์ชั่นต้นทุนของเครือข่ายประสาทเทียมไม่ใช่แบบนูน? ) แต่ฉันไม่สามารถเข้าใจประเด็นในคำตอบที่นั่นและเหตุผลของฉันในการถามอีกครั้งโดยหวังว่าสิ่งนี้จะชี้แจงปัญหาบางอย่าง: ถ้าฉันใช้ผลรวมของฟังก์ชั่นค่าใช้จ่ายผลต่างยกกำลังสองในที่สุดฉันก็ปรับรูปแบบโดยที่คือค่าฉลากจริงในระหว่างการฝึก เฟสและเป็นค่าป้ายกำกับที่คาดการณ์ไว้ เนื่องจากนี่เป็นรูปสี่เหลี่ยมจัตุรัสจึงควรเป็นฟังก์ชันต้นทุนนูน แล้วอะไรคือสิ่งที่ทำให้นูนใน NN ไม่ได้? Y YΣNi=1(yi−yi^)2Σi=1N(yi−yi^)2 \Sigma_{i=1}^{N}(y_i - \hat{y_i})^2yyyy^y^\hat{y}

4
วิธีการตรวจสอบคุณสมบัติของเมทริกซ์ความแปรปรวนร่วมเมื่อปรับโมเดลปกติหลายตัวแปรโดยใช้ความน่าจะเป็นสูงสุด
สมมติว่าฉันมีรูปแบบดังต่อไปนี้ yi=f(xi,θ)+εiyi=f(xi,θ)+εiy_i=f(x_i,\theta)+\varepsilon_i ที่ , เป็นเวกเตอร์ของตัวแปรอธิบายเป็นพารามิเตอร์ของฟังก์ชันเชิงเส้น - ไม่ใช่และโดยที่ตามธรรมชาติคือคูณเมทริกซ์yi∈RKyi∈RKy_i\in \mathbb{R}^Kxixix_iθθ\thetafffεi∼N(0,Σ)εi∼N(0,Σ)\varepsilon_i\sim N(0,\Sigma)ΣΣ\SigmaK×KK×KK\times K เป้าหมายคือตามปกติในการประมาณการθθ\thetaและΣΣΣ\Sigmaตัวเลือกที่ชัดเจนคือวิธีความน่าจะเป็นสูงสุด Log-โอกาสสำหรับรุ่นนี้ (สมมติว่าเรามีตัวอย่าง(yi,xi),i=1,...,n(yi,xi),i=1,...,n(y_i,x_i),i=1,...,n ) ลักษณะเช่น l(θ,Σ)=−n2log(2π)−n2logdetΣ−∑i=1n(yi−f(xi,θ))′Σ−1(y−f(xi,θ)))l(θ,Σ)=−n2log⁡(2π)−n2log⁡detΣ−∑i=1n(yi−f(xi,θ))′Σ−1(y−f(xi,θ)))l(\theta,\Sigma)=-\frac{n}{2}\log(2\pi)-\frac{n}{2} \log\det\Sigma-\sum_{i=1}^n(y_i-f(x_i,\theta))'\Sigma^{-1}(y-f(x_i,\theta))) ตอนนี้ดูเหมือนง่ายบันทึกความน่าจะเป็นมีการระบุใส่ข้อมูลและใช้อัลกอริทึมบางอย่างสำหรับการเพิ่มประสิทธิภาพที่ไม่ใช่เชิงเส้น ปัญหาคือวิธีการตรวจสอบให้แน่ใจว่าΣΣ\Sigmaเป็นผลบวกแน่นอน การใช้ตัวอย่างoptimใน R (หรืออัลกอริทึมการเพิ่มประสิทธิภาพที่ไม่ใช่เชิงเส้นอื่น ๆ ) จะไม่รับประกันฉันว่าΣΣ\Sigmaนั้นแน่นอนแน่นอน ดังนั้นคำถามคือจะมั่นใจได้อย่างไรว่าΣΣ\Sigmaยังคงเป็นไปในทางบวกแน่นอน? ฉันเห็นทางออกที่เป็นไปได้สองข้อ: ซ่อมแซมΣΣ\Sigmaเป็น RR′RR′RR'โดยที่RRRคือเมทริกซ์รูปสามเหลี่ยมบนหรือสมมาตร จากนั้นΣΣ\Sigmaจะเป็นค่าบวกแน่นอนเสมอและRRRสามารถควบคุมได้ ใช้ความน่าจะเป็นของโปรไฟล์ สืบทอดมาสูตรสำหรับθ^(Σ)θ^(Σ)\hat\theta(\Sigma)และΣ^(θ)Σ^(θ)\hat{\Sigma}(\theta)theta) เริ่มต้นด้วยθ0θ0\theta_0และวนΣ^j=Σ^(θ^j−1)Σ^j=Σ^(θ^j−1)\hat{\Sigma}_j=\hat\Sigma(\hat\theta_{j-1}) , θ^j=θ^(Σ^j−1)θ^j=θ^(Σ^j−1)\hat{\theta}_j=\hat\theta(\hat\Sigma_{j-1})จนกระทั่งการบรรจบกัน มีวิธีอื่นอีกหรือไม่และวิธีการเกี่ยวกับ 2 วิธีนี้พวกเขาจะทำงานได้มาตรฐานหรือไม่ ดูเหมือนว่าจะเป็นปัญหามาตรฐาน แต่การค้นหาอย่างรวดเร็วไม่ได้ให้คำแนะนำใด ๆ แก่ฉัน ฉันรู้ว่าการประมาณแบบเบย์จะเป็นไปได้เช่นกัน แต่ในตอนนี้ฉันไม่ต้องการมีส่วนร่วม

3
ทำไมความน่าจะเป็นสูงสุดและไม่น่าจะเป็นไปได้?
เหตุใดจึงเป็นเรื่องธรรมดาที่จะได้รับการประมาณการความน่าจะเป็นสูงสุดของพารามิเตอร์ แต่คุณแทบไม่เคยได้ยินเกี่ยวกับการประมาณค่าพารามิเตอร์ความน่าจะเป็นที่คาดหวัง (กล่าวคืออิงจากค่าที่คาดหวังมากกว่าโหมดของฟังก์ชันโอกาส) นี่เป็นเหตุผลหลักในเชิงประวัติศาสตร์หรือมีเหตุผลทางเทคนิคหรือเชิงทฤษฎีมากกว่านี้หรือไม่? จะมีข้อได้เปรียบที่สำคัญและ / หรือข้อเสียในการใช้การประมาณความน่าจะเป็นที่คาดหวังมากกว่าการประมาณการความเป็นไปได้สูงสุดหรือไม่? มีบางพื้นที่ที่คาดการณ์ความน่าจะเป็นใช้เป็นประจำหรือไม่?

2
วิธีเลือกระหว่างอัลกอริทึมการเรียนรู้
ฉันต้องใช้โปรแกรมที่จะจัดประเภทระเบียนเป็น 2 หมวดหมู่ (จริง / เท็จ) ขึ้นอยู่กับข้อมูลการฝึกอบรมบางอย่างและฉันสงสัยว่าอัลกอริทึม / วิธีการที่ฉันควรจะดู ดูเหมือนจะมีพวกเขาให้เลือกมากมาย - โครงข่ายประสาทเทียม, อัลกอริทึมทางพันธุกรรม, การเรียนรู้ของเครื่อง, การเพิ่มประสิทธิภาพเบย์เซียนเป็นต้นและอื่น ๆ ฉันไม่แน่ใจว่าจะเริ่มจากตรงไหน ดังนั้นคำถามของฉันคือ ฉันจะเลือกอัลกอริทึมการเรียนรู้ที่ฉันควรใช้สำหรับปัญหาของฉันได้อย่างไร หากสิ่งนี้ช่วยได้นี่คือปัญหาที่ฉันต้องแก้ไข ข้อมูลการฝึกอบรม: ข้อมูล การฝึกอบรมประกอบด้วยแถวจำนวนมากเช่นนี้: Precursor1, Precursor2, Boolean (true/false) การวิ่งที่ ฉันจะได้รับมาก่อน จากนั้น ฉันเลือกอัลกอริทึม A จากอัลกอริธึมที่แตกต่างกัน (หรือสร้างอัลกอริทึมแบบไดนามิก) และใช้กับชุดค่าผสมที่เป็นไปได้ของสารตั้งต้นเหล่านี้และรวบรวม "บันทึก" ที่ถูกปล่อยออกมา "บันทึก" ประกอบด้วยคู่ค่าคีย์หลายคู่ * ฉันใช้อัลกอริทึมที่ยอดเยี่ยมและจัดประเภทระเบียนเหล่านี้เป็น 2 หมวดหมู่ (จริง / เท็จ) ฉันจะสร้างตารางที่มีรูปแบบเดียวกับข้อมูลรถไฟ: Precursor1, Precursor2, Boolean …

1
มีคำอธิบายที่เข้าใจได้ง่ายหรือไม่ว่าเหตุใดการถดถอยโลจิสติกจึงไม่สามารถใช้กับกรณีแยกที่สมบูรณ์ได้ และทำไมการเพิ่มการทำให้เป็นมาตรฐานจะแก้ไขได้?
เรามีการสนทนาที่ดีมากมายเกี่ยวกับการแบ่งแยกที่สมบูรณ์แบบในการถดถอยโลจิสติก เช่นการถดถอยโลจิสติกใน R ทำให้เกิดการแยกที่สมบูรณ์แบบ (ปรากฏการณ์ Hauck-Donner) ตอนนี้คืออะไร และรูปแบบการถดถอยโลจิสติกไม่ได้มาบรรจบ ฉันเองก็ยังรู้สึกว่ามันไม่ง่ายสำหรับสาเหตุที่มันเป็นปัญหาและทำไมการเพิ่มการทำให้เป็นมาตรฐานจะแก้ไขได้ ฉันสร้างภาพเคลื่อนไหวและคิดว่ามันจะเป็นประโยชน์ ดังนั้นโพสต์คำถามของเขาและตอบด้วยตนเองเพื่อแบ่งปันกับชุมชน

7
เหตุใดเมทริกซ์เชิงบวกแน่นอนที่แน่นอน (SPD) จึงมีความสำคัญมาก
ฉันรู้ว่าคำจำกัดความของเมทริกซ์ definite positive (SPD) positive symmetric แต่ต้องการเข้าใจมากกว่านี้ ทำไมพวกเขาถึงมีความสำคัญอย่างสังหรณ์ใจ? นี่คือสิ่งที่ฉันรู้ มีอะไรอีกบ้าง? สำหรับข้อมูลที่กำหนดเมทริกซ์ความแปรปรวนร่วมคือ SPD เมทริกซ์ความแปรปรวนร่วมเป็นตัวชี้วัดที่สำคัญให้ดูโพสต์ที่ยอดเยี่ยมนี้สำหรับคำอธิบายที่เข้าใจง่าย รูปแบบสมการกำลังสองนูนออกหากคือ SPD Convexity เป็นคุณสมบัติที่ดีสำหรับฟังก์ชั่นที่สามารถตรวจสอบให้แน่ใจว่าโซลูชันในพื้นที่นั้นเป็นโซลูชันระดับโลก สำหรับปัญหานูนมีวิธีการแก้ปัญหาที่ดีมากมาย แต่ไม่ใช่สำหรับปัญหาที่ไม่ใช่ covex12x⊤Ax−b⊤x+c12x⊤Ax−b⊤x+c\frac 1 2 x^\top Ax-b^\top x +cAAA เมื่อคือ SPD โซลูชันเพิ่มประสิทธิภาพสำหรับรูปแบบสมการกำลังสองและโซลูชันสำหรับระบบเชิงเส้นเหมือนกัน ดังนั้นเราจึงสามารถทำการแปลงระหว่างสองปัญหาคลาสสิค สิ่งนี้มีความสำคัญเพราะช่วยให้เราสามารถใช้เทคนิคที่ค้นพบในโดเมนหนึ่งในอีกโดเมนหนึ่ง ตัวอย่างเช่นเราสามารถใช้วิธีการไล่ระดับสีแบบคอนจูเกตเพื่อแก้ปัญหาระบบเชิงเส้นAAAminimize 12x⊤Ax−b⊤x+cminimize 12x⊤Ax−b⊤x+c\text{minimize}~~~ \frac 1 2 x^\top Ax-b^\top x +cAx=bAx=bAx=b มีอัลกอริธึมที่ดีมากมาย (เร็วและเสถียรเป็นตัวเลข) ที่ทำงานได้ดีกว่าสำหรับเมทริกซ์ SPD เช่นการสลายตัวของ Cholesky แก้ไข: ฉันไม่ได้พยายามถามตัวตนของเมทริกซ์ SPD …

2
ในมุ้งประสาททำไมใช้วิธีการไล่ระดับสีมากกว่า metaheuristics อื่น ๆ ?
ในการฝึกอบรมโครงข่ายประสาทเทียมที่ลึกและตื้นเหตุใดจึงใช้วิธีการไล่ระดับสี (เช่นการไล่ระดับสีเนสโตฟนิวตัน - ราฟสัน) ที่ใช้กันโดยทั่วไป ฉันหมายถึงวิธีการต่าง ๆ เช่นการจำลองการหลอมการเพิ่มประสิทธิภาพของฝูงมด ฯลฯ ซึ่งได้รับการพัฒนาเพื่อหลีกเลี่ยงการติดอยู่ใน minima ท้องถิ่น

2
วิธีการเพิ่มประสิทธิภาพใดดีที่สุดสำหรับ LSTM
ฉันใช้ theano เพื่อทดสอบกับ LSTM และสงสัยว่าวิธีการเพิ่มประสิทธิภาพใด (SGD, Adagrad, Adadelta, RMSprop, Adam และอื่น ๆ ) ทำงานได้ดีที่สุดสำหรับ LSTMs หรือไม่ มีบทความวิจัยในหัวข้อนี้หรือไม่? นอกจากนี้คำตอบยังขึ้นอยู่กับประเภทของแอปพลิเคชันที่ฉันใช้ LSTM ด้วยหรือไม่ ถ้าเป็นเช่นนั้นฉันใช้ LSTM สำหรับการจำแนกข้อความ (โดยที่ข้อความถูกแปลงเป็นคำเวกเตอร์) ในที่สุดคำตอบจะเหมือนหรือแตกต่างกันสำหรับ RNNs หรือไม่ พอยน์เตอร์ใด ๆ สำหรับงานวิจัยหรือความเข้าใจส่วนบุคคลจะได้รับการชื่นชมอย่างมาก! LSTM ดูเหมือนจะทรงพลังมากและฉันสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับวิธีการใช้งานให้ดีที่สุด

3
อัลกอริทึมพันธุกรรมเป็นตัวเลือกที่ดีสำหรับการเพิ่มประสิทธิภาพเมื่อใด
อัลกอริทึมทางพันธุกรรมเป็นรูปแบบหนึ่งของวิธีการเพิ่มประสิทธิภาพ บ่อยครั้งที่การไล่ระดับสีแบบสุ่มและอนุพันธ์เป็นทางเลือกที่ดีที่สุดสำหรับการปรับฟังก์ชั่นให้ดีที่สุด แต่บางครั้งก็ยังใช้อัลกอริทึมทางพันธุกรรม ตัวอย่างเช่นเสาอากาศของยานอวกาศ ST5 ของนาซาสร้างขึ้นด้วยอัลกอริธึมทางพันธุกรรม: เมื่อใดที่การเพิ่มประสิทธิภาพทางพันธุกรรมเป็นทางเลือกที่ดีกว่าวิธีการไล่ระดับสีแบบลาดชันทั่วไป

2
อะไรคือความหมายของ super script 2 subscript 2 ภายในบริบทของบรรทัดฐาน?
ฉันใหม่สำหรับการเพิ่มประสิทธิภาพ ฉันเห็นสมการที่มีตัวยก 2 และตัวห้อย 2 อยู่ทางด้านขวาของบรรทัดฐาน ตัวอย่างเช่นนี่คือสมการกำลังสองน้อยที่สุด ต่ำสุด||Ax−b||22||Ax−b||22 ||Ax-b||^2_2 ฉันคิดว่าฉันเข้าใจตัวยกที่ 2: มันหมายถึงการเพิ่มมูลค่าของบรรทัดฐาน แต่ตัวห้อยคืออะไร ฉันจะอ่านสมการเหล่านี้ได้อย่างไร

1
เหตุใดการใช้วิธีการของนิวตันในการเพิ่มประสิทธิภาพการถดถอยโลจิสติกจึงเรียกว่าซ้ำกำลังสองน้อยที่สุด?
เหตุใดการใช้วิธีการของนิวตันในการเพิ่มประสิทธิภาพการถดถอยโลจิสติกจึงเรียกว่าซ้ำกำลังสองน้อยที่สุด? ดูเหมือนจะไม่ชัดเจนสำหรับฉันเพราะการสูญเสียด้านการขนส่งและการสูญเสียกำลังสองน้อยที่สุดนั้นต่างกันอย่างสิ้นเชิง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.