วิทยาศาสตร์ข้อมูล optimization

8

ฉันกำลังทำงานเกี่ยวกับการใช้ Stochastic Gradient Descent SGDสำหรับอวนประสาทโดยใช้การขยายพันธุ์กลับและในขณะที่ฉันเข้าใจวัตถุประสงค์ของมันฉันมีคำถามเกี่ยวกับวิธีเลือกค่าสำหรับอัตราการเรียนรู้ อัตราการเรียนรู้ที่เกี่ยวข้องกับรูปร่างของการไล่ระดับสีผิดพลาดตามที่กำหนดอัตราการลดลงหรือไม่? ถ้าเป็นเช่นนั้นคุณจะใช้ข้อมูลนี้เพื่อแจ้งการตัดสินใจของคุณเกี่ยวกับคุณค่าอย่างไร หากไม่ใช่สิ่งที่ฉันควรเลือกค่าประเภทใดและฉันควรเลือกพวกเขาอย่างไร ดูเหมือนว่าคุณต้องการค่าเล็ก ๆ น้อย ๆ เพื่อหลีกเลี่ยงการแก้ไขปัญหา แต่คุณจะเลือกได้อย่างไรว่าคุณจะไม่ติดอยู่ใน minima ท้องถิ่นหรือใช้เวลานานในการสืบทอด มันสมเหตุสมผลหรือไม่ที่จะมีอัตราการเรียนรู้ที่คงที่หรือฉันควรใช้ตัวชี้วัดบางอย่างเพื่อเปลี่ยนค่าของมันเมื่อฉันเข้าใกล้การไล่ระดับสีน้อยที่สุด? กล่าวโดยย่อ: ฉันจะเลือกอัตราการเรียนรู้สำหรับ SGD ได้อย่างไร

85 machine-learning neural-network deep-learning optimization hyperparameter

4

แบบจำลองควรได้รับการฝึกอบรมใหม่หรือไม่หากมีการสังเกตใหม่

ดังนั้นฉันไม่สามารถค้นหาวรรณกรรมใด ๆ ในเรื่องนี้ แต่ดูเหมือนว่ามีบางสิ่งที่ควรค่าแก่การคิด: อะไรคือวิธีปฏิบัติที่ดีที่สุดในการฝึกอบรมแบบจำลองและการปรับให้เหมาะสมถ้ามีการสังเกตใหม่ มีวิธีใดบ้างในการกำหนดระยะเวลา / ความถี่ของการฝึกอบรมรูปแบบใหม่ก่อนที่การคาดการณ์จะเริ่มลดลง? มันเกินความเหมาะสมหรือไม่หากพารามิเตอร์ได้รับการปรับให้เหมาะสมกับข้อมูลที่รวบรวมใหม่? โปรดทราบว่าการเรียนรู้อาจไม่จำเป็นต้องออนไลน์ อาจต้องการอัปเกรดโมเดลที่มีอยู่หลังจากสังเกตความแปรปรวนอย่างมีนัยสำคัญในการคาดการณ์ล่าสุด

28 machine-learning predictive-modeling optimization training

1

มีกฎสำหรับการเลือกขนาดของ mini-batch หรือไม่?

เมื่อฝึกอบรมโครงข่ายประสาทเทียมหนึ่งพารามิเตอร์ขนาดใหญ่คือขนาดของรถมินิบัส ตัวเลือกทั่วไปคือองค์ประกอบ 32, 64 และ 128 ต่อมินิแบทช์ มีกฎ / แนวทางใดบ้างที่ควรมี mini-batch ขนาดใหญ่? สิ่งพิมพ์ใดบ้างที่ตรวจสอบผลกระทบของการฝึกอบรม?

21 neural-network deep-learning convnet optimization

4

โคตรลาดลงมาบรรจบกันเป็นค่าที่เหมาะสมหรือไม่?

ฉันสงสัยว่ามีสถานการณ์ใดบ้างที่มีการไล่ระดับสีแบบเกรเดียนต์ไม่รวมกันเป็นอย่างต่ำ ฉันทราบดีว่าการไล่ระดับสีไม่ได้รับประกันว่าจะมาบรรจบกันในระดับที่เหมาะสมที่สุดในโลก ฉันก็ทราบด้วยว่ามันอาจจะแตกต่างจากที่เหมาะสมถ้าพูดขนาดก้าวใหญ่เกินไป อย่างไรก็ตามดูเหมือนว่าสำหรับฉันถ้ามันเบี่ยงเบนจากค่าที่เหมาะสมบางส่วนมันก็จะไปสู่ค่าที่เหมาะสมที่สุด ดังนั้นการไล่ระดับสีจะรับประกันได้ว่าจะมาบรรจบกันในระดับท้องถิ่นหรือระดับโลก นั่นถูกต้องใช่ไหม? ถ้าไม่คุณช่วยกรุณาอธิบายตัวอย่างคร่าวๆได้ไหม

21 machine-learning neural-network deep-learning optimization gradient-descent

3

แนวทางการเลือกเครื่องมือเพิ่มประสิทธิภาพสำหรับการฝึกอบรมโครงข่ายประสาทเทียม

ฉันใช้โครงข่ายประสาทเทียมมาระยะหนึ่งแล้ว อย่างไรก็ตามสิ่งหนึ่งที่ฉันต่อสู้อย่างต่อเนื่องคือการเลือกเครื่องมือเพิ่มประสิทธิภาพสำหรับการฝึกอบรมเครือข่าย (โดยใช้ backprop) สิ่งที่ฉันมักจะทำคือเริ่มต้นด้วยหนึ่ง (เช่นมาตรฐาน SGD) จากนั้นลองคนอื่น ๆ แบบสุ่มมากทีเดียว ฉันสงสัยว่ามีวิธีที่ดีกว่า (และสุ่มน้อยกว่า) ในการค้นหาเครื่องมือเพิ่มประสิทธิภาพที่ดีเช่นจากรายการนี้: SGD (มีหรือไม่มีโมเมนตัม) AdaDelta AdaGrad RMSProp อาดัม โดยเฉพาะอย่างยิ่งฉันสนใจว่ามีเหตุผลทางทฤษฎีบางอย่างสำหรับการเลือกมากกว่าหนึ่งเนื่องจากข้อมูลการฝึกอบรมมีคุณสมบัติบางอย่างเช่นมันเบาบาง ฉันจะจินตนาการว่าเครื่องมือเพิ่มประสิทธิภาพบางอย่างทำงานได้ดีกว่าโดเมนอื่น ๆ เช่นเมื่อฝึกอบรมเครือข่าย convolutional เทียบกับเครือข่าย feed-forward หรือการจัดหมวดหมู่เทียบกับการถดถอย หากคุณคนใดพัฒนากลยุทธ์และ / หรือสัญชาตญาณว่าคุณจะเลือกเครื่องมือเพิ่มประสิทธิภาพได้อย่างไรฉันจะสนใจเป็นอย่างมาก นอกจากนี้หากมีงานที่ให้เหตุผลทางทฤษฎีในการเลือกงานหนึ่งงานนั่นจะดียิ่งขึ้น

18 neural-network optimization backpropagation

2

คะแนน minima เทียบกับท้องถิ่นในการเรียนรู้อย่างลึกซึ้ง

ฉันได้ยินแอนดรูว์งะ (ในวิดีโอฉันโชคร้ายที่ไม่สามารถหาได้อีกแล้ว) พูดคุยเกี่ยวกับวิธีการเข้าใจความเข้าใจในปัญหาการเรียนรู้ที่ลึกลงไปในความรู้สึกที่พวกเขาถูกมองว่าเป็นปัญหาน้อยกว่าเพราะในพื้นที่มิติสูง การเรียนรู้เชิงลึก) จุดวิกฤติมีแนวโน้มที่จะเป็นจุดอานม้าหรือที่ราบสูงมากกว่าจุดเยือกแข็งในท้องถิ่น ฉันเคยเห็นเอกสาร (เช่นนี้ ) ที่กล่าวถึงสมมติฐานภายใต้ "ขั้นต่ำในท้องถิ่นทุกรายการเป็นขั้นต่ำทั่วโลก" สมมติฐานเหล่านี้ล้วน แต่เป็นเรื่องทางเทคนิค แต่จากสิ่งที่ฉันเข้าใจว่าพวกเขามีแนวโน้มที่จะกำหนดโครงสร้างในโครงข่ายประสาทที่ทำให้มันค่อนข้างเป็นเส้นตรง มันเป็นข้ออ้างที่ถูกต้องหรือไม่ว่าในการเรียนรู้อย่างลึกซึ้ง (รวมถึงสถาปัตยกรรมที่ไม่ใช่เชิงเส้น) ที่ราบสูงมักจะมีขนาดเล็กกว่าท้องถิ่นหรือไม่? และถ้าเป็นเช่นนั้นมีปรีชาญาณ มีอะไรพิเศษเกี่ยวกับการเรียนรู้อย่างลึกซึ้งและจุดอานม้าหรือไม่?

18 machine-learning deep-learning optimization convergence

1

มีคุณสมบัติกี่ตัวอย่างในการใช้ป่าสุ่ม

หน้าวิกิพีเดียซึ่งคำพูด"องค์ประกอบของการเรียนรู้ทางสถิติ"พูดว่า: โดยปกติแล้วสำหรับปัญหาการจัดหมวดหมู่ที่มีคุณสมบัติ⌊ √ppp คุณลักษณะ p ⌋ถูกใช้ในการแบ่งแต่ละครั้ง⌊p–√⌋⌊p⌋\lfloor \sqrt{p}\rfloor ฉันเข้าใจว่านี่เป็นการคาดเดาที่มีการศึกษาค่อนข้างดีและอาจได้รับการยืนยันจากหลักฐานเชิงประจักษ์ แต่มีเหตุผลอื่นที่ทำให้เราเลือกรากที่สองได้หรือไม่ มีปรากฏการณ์ทางสถิติเกิดขึ้นที่นั่นไหม? นี่ช่วยลดความแปรปรวนของข้อผิดพลาดได้หรือไม่? สิ่งนี้เป็นสิ่งเดียวกันสำหรับการถดถอยและการจัดหมวดหมู่หรือไม่

14 statistics random-forest optimization evaluation sampling

2

เหตุใดอัลกอริทึมทางพันธุกรรมจึงไม่ถูกใช้เพื่อเพิ่มประสิทธิภาพโครงข่ายประสาทเทียม

จากความเข้าใจของฉันอัลกอริทึมทางพันธุกรรมเป็นเครื่องมือที่มีประสิทธิภาพสำหรับการเพิ่มประสิทธิภาพหลายวัตถุประสงค์ นอกจากนี้การฝึกอบรม Neural Networks (โดยเฉพาะอย่างยิ่งคนลึก) นั้นยากและมีปัญหามากมาย (ฟังก์ชั่นค่าใช้จ่ายที่ไม่ใช่แบบนูน - minima ท้องถิ่น, หายไปและระเบิดการไล่ระดับสีเป็นต้น) นอกจากนี้ฉันว่าการฝึกอบรมแนวคิด NN กับ GA เป็นไปได้ ฉันสงสัยว่าทำไมพวกเขาไม่ใช้ในทางปฏิบัติ? มันเป็นเรื่องของประสิทธิภาพหรือไม่?

13 neural-network optimization genetic-algorithms

4

Gradient Descent เป็นศูนย์กลางของทุกเครื่องมือเพิ่มประสิทธิภาพหรือไม่

ฉันต้องการทราบว่า Gradient descent เป็นอัลกอริทึมหลักที่ใช้ในเครื่องมือเพิ่มประสิทธิภาพเช่น Adam, Adagrad, RMSProp และเครื่องมือเพิ่มประสิทธิภาพอื่น ๆ

13 machine-learning neural-network deep-learning optimization gradient-descent

2

ทำไมไม่ใช้เทคนิคการเพิ่มประสิทธิภาพ ADAM เสมอไป

ดูเหมือนว่าเครื่องมือเพิ่มประสิทธิภาพAdaptive Moment Estimation (Adam)มักจะทำงานได้ดีขึ้น (เร็วขึ้นและน่าเชื่อถือมากขึ้นถึงระดับต่ำสุดของโลก) เมื่อลดฟังก์ชันต้นทุนในการฝึกอบรมอวนประสาท ทำไมไม่ใช้อดัม? ทำไมถึงต้องกังวลกับการใช้ RMSProp หรือตัวเพิ่มประสิทธิภาพโมเมนตัม

13 neural-network optimization

1

Fisher Scoring v / s พิกัดโคตรสำหรับ MLE ใน R

ฟังก์ชันฐาน R glm()ใช้การให้คะแนน Fishers สำหรับ MLE ในขณะที่วิธีการglmnetดูเหมือนจะใช้พิกัดโคตรเพื่อแก้สมการเดียวกัน โคตรประสานงานนั้นใช้เวลาได้อย่างมีประสิทธิภาพมากกว่า Fisher Scoring เนื่องจาก Fisher Scoring คำนวณเมทริกซ์อนุพันธ์ลำดับที่สองนอกเหนือจากการดำเนินการเมทริกซ์อื่น ๆ ซึ่งทำให้มีราคาแพงในการปฏิบัติในขณะที่โคตรประสานงานสามารถทำงานเดียวกันในเวลา O (np) ทำไมฟังก์ชั่นพื้นฐานของ R จึงใช้ Fisher Scoring? วิธีนี้มีความได้เปรียบเหนือวิธีการเพิ่มประสิทธิภาพอื่น ๆ หรือไม่? การประสานงานทางสายเลือดและการให้คะแนนของชาวประมงเปรียบเทียบกันอย่างไร ฉันค่อนข้างใหม่ในการทำฟิลด์นี้ดังนั้นความช่วยเหลือหรือทรัพยากรใด ๆ จะเป็นประโยชน์

11 machine-learning r algorithms optimization

3

ภาษาที่ดีที่สุดสำหรับการคำนวณทางวิทยาศาสตร์ [ปิด]

ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา ดูเหมือนว่าภาษาส่วนใหญ่จะมีห้องสมุดคำนวณทางวิทยาศาสตร์จำนวนหนึ่ง Python มี Scipy Rust มี SciRust C++มีหลายอย่างรวมถึงViennaCLและArmadillo JavaมีJava NumericsและColtเช่นเดียวกับหลาย ๆ ไม่ต้องพูดถึงภาษาที่ชอบRและJuliaออกแบบมาอย่างชัดเจนสำหรับการคำนวณทางวิทยาศาสตร์ ด้วยตัวเลือกมากมายคุณจะเลือกภาษาที่ดีที่สุดสำหรับงานอย่างไร นอกจากนี้ภาษาใดที่จะเป็นคนที่มีประสิทธิภาพมากที่สุด? PythonและRดูเหมือนว่าจะมีแรงฉุดที่สุดในอวกาศ แต่ภาษาที่รวบรวมได้ดูเหมือนจะเป็นทางเลือกที่ดีกว่า และจะมีอะไรดีกว่านี้Fortranไหม ภาษาที่คอมไพล์ด้วยนอกจากนี้มักจะมีการเร่งความเร็วของ GPU ในขณะที่ตีความภาษาเช่นRและPythonไม่ ฉันควรคำนึงถึงอะไรเมื่อเลือกภาษาและภาษาใดให้ความสมดุลของยูทิลิตี้และประสิทธิภาพที่ดีที่สุด มีภาษาใดบ้างที่มีทรัพยากรการคำนวณทางวิทยาศาสตร์ที่สำคัญที่ฉันพลาดไป

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

2

ทำไมอัตราการเรียนรู้ทำให้น้ำหนักของเครือข่ายประสาทเทียมสูงขึ้น?

ฉันใช้เทนเซอร์โฟลว์เพื่อเขียนโครงข่ายประสาทอย่างง่ายสำหรับการวิจัยนิดหน่อยและฉันมีปัญหามากมายเกี่ยวกับน้ำหนักของ 'น่าน' ในขณะฝึกอบรม ฉันลองวิธีแก้ไขปัญหาที่แตกต่างกันมากมายเช่นการเปลี่ยนเครื่องมือเพิ่มประสิทธิภาพการเปลี่ยนแปลงการสูญเสียขนาดข้อมูลเป็นต้น แต่ไม่มีประโยชน์ ในที่สุดฉันสังเกตเห็นว่าการเปลี่ยนแปลงของอัตราการเรียนรู้ทำให้น้ำหนักของฉันแตกต่างอย่างไม่น่าเชื่อ ใช้อัตราการเรียนรู้. 001 (ซึ่งฉันคิดว่าค่อนข้างอนุรักษ์นิยม) ฟังก์ชั่นย่อเล็กสุดจะเพิ่มความสูญเสียอย่างมาก หลังจากยุคหนึ่งความสูญเสียอาจเพิ่มขึ้นจากจำนวนในหลักพันไปเป็นล้านล้านและจากนั้นไปสู่อนันต์ ('น่าน') เมื่อฉันลดอัตราการเรียนรู้เป็น. 0001 ทุกอย่างก็ใช้ได้ดี 1) เหตุใดลำดับความสำคัญเดียวจึงมีผลเช่นนี้? 2) ทำไมฟังก์ชั่นย่อเล็กสุดทำหน้าที่ตรงข้ามกับฟังก์ชั่นของมันและเพิ่มการสูญเสียสูงสุด? สำหรับฉันแล้วดูเหมือนว่าจะไม่เกิดขึ้นไม่ว่าจะเรียนรู้อะไรก็ตาม

9 machine-learning python tensorflow optimization gradient-descent

คำถามติดแท็ก optimization