คำถามติดแท็ก deep-learning

พื้นที่ใหม่ของการเรียนรู้ของการเรียนรู้ด้วยเครื่องจักรที่เกี่ยวข้องกับเทคโนโลยีที่ใช้สำหรับการเรียนรู้การเป็นตัวแทนของข้อมูลแบบลำดับชั้นส่วนใหญ่ทำด้วยเครือข่ายนิวรัลลึก (เช่นเครือข่ายที่มีเลเยอร์ที่ซ่อนสองชั้นหรือมากกว่า)


4
ช่วงเวลาการทำนายรอบการคาดการณ์อนุกรมเวลา LSTM
มีวิธีการคำนวณช่วงเวลาการทำนาย (การแจกแจงความน่าจะเป็น) รอบการพยากรณ์อนุกรมเวลาจากเครือข่ายประสาท LSTM (หรือการเกิดขึ้นอีกครั้ง) หรือไม่? ตัวอย่างเช่นฉันคาดการณ์ 10 ตัวอย่างในอนาคต (t + 1 ถึง t + 10) ตามตัวอย่างที่สังเกตได้ 10 รายการล่าสุด (t-9 ถึง t) ฉันคาดว่าการทำนายที่ t + 1 จะมากกว่านี้ แม่นยำกว่าการทำนายที่ t + 10 โดยปกติแล้วหนึ่งอาจวาดแถบข้อผิดพลาดรอบการทำนายเพื่อแสดงช่วงเวลา ด้วยโมเดล ARIMA (ภายใต้สมมติฐานของข้อผิดพลาดแบบกระจายทั่วไป) ฉันสามารถคำนวณช่วงการทำนาย (เช่น 95%) รอบค่าที่ทำนายแต่ละค่า ฉันสามารถคำนวณแบบเดียวกัน (หรือบางอย่างที่เกี่ยวข้องกับช่วงเวลาการทำนาย) จากแบบจำลอง LSTM ได้หรือไม่ ฉันทำงานกับ LSTM ใน Keras / Python …

1
ความแตกต่างระหว่างการสุ่มตัวอย่างการอัปแซมปลิงและแบบสองจังหวะในซีเอ็นเอ็นคืออะไร?
ฉันกำลังพยายามที่จะเข้าใจกระดาษนี้และไม่แน่ใจในสิ่งที่การสุ่มตัวอย่างแบบสองทิศทางคืออะไร ใครสามารถอธิบายสิ่งนี้ในระดับสูงได้บ้าง https://arxiv.org/abs/1606.00915

4
Gradient Descent เป็นศูนย์กลางของทุกเครื่องมือเพิ่มประสิทธิภาพหรือไม่
ฉันต้องการทราบว่า Gradient descent เป็นอัลกอริทึมหลักที่ใช้ในเครื่องมือเพิ่มประสิทธิภาพเช่น Adam, Adagrad, RMSProp และเครื่องมือเพิ่มประสิทธิภาพอื่น ๆ

2
การแสดงการฝึกอบรมโครงข่ายประสาทเทียมเชิงลึก
ฉันกำลังพยายามหา Hinton Diagrams ที่เทียบเท่าสำหรับเครือข่ายหลายชั้นเพื่อวางแผนน้ำหนักในระหว่างการฝึก เครือข่ายที่ได้รับการฝึกอบรมจะค่อนข้างคล้ายกับ Deep SRN นั่นคือมันมีการฝึกอบรมน้ำหนักหลายอย่างซึ่งจะทำให้พล็อต Hinton Diagrams หลาย ๆ ภาพพร้อมกันสับสน ไม่มีใครรู้วิธีที่ดีในการมองเห็นกระบวนการปรับปรุงน้ำหนักสำหรับเครือข่ายที่เกิดซ้ำที่มีหลายเลเยอร์ ฉันไม่พบเอกสารจำนวนมากในหัวข้อ ฉันกำลังคิดที่จะแสดงข้อมูลเกี่ยวกับเวลาเกี่ยวกับน้ำหนักต่อเลเยอร์แทนหากฉันไม่สามารถหาอะไรได้ เช่น Weight-delta เมื่อเวลาผ่านไปสำหรับแต่ละเลเยอร์ (ไม่ใช้การเชื่อมต่อทุกครั้ง) PCA เป็นไปได้อีกอย่างหนึ่ง แต่ฉันไม่ต้องการสร้างการคำนวณเพิ่มเติมเนื่องจากการสร้างภาพข้อมูลออนไลน์ในระหว่างการฝึกอบรม

5
ทำไมการเพิ่มชั้นการออกกลางคันช่วยเพิ่มประสิทธิภาพการเรียนรู้อย่างลึก / ด้วยเครื่องจักรเนื่องจากการออกกลางคันช่วยยับยั้งเซลล์ประสาทบางส่วนจากแบบจำลอง
หากการเอาเซลล์ประสาทออกบางส่วนจะส่งผลให้แบบจำลองมีประสิทธิภาพดีขึ้นทำไมไม่ลองใช้โครงข่ายประสาทที่เรียบง่ายกว่าโดยมีเลเยอร์น้อยลงและมีเซลล์ประสาทน้อยลงในตอนแรก เหตุใดจึงต้องสร้างแบบจำลองที่ใหญ่และซับซ้อนกว่าเดิมในตอนเริ่มต้นและระงับบางส่วนในภายหลัง

3
ทำไม Convolutions จึงใช้เลขคี่เป็นตัวกรอง
ถ้าเราดูเอกสารที่ตีพิมพ์ 90-99% โดยใช้ CNN (ConvNet) ส่วนใหญ่ใช้ขนาดตัวกรองของตัวเลขคี่ : {1, 3, 5, 7} สำหรับการใช้งานมากที่สุด สถานการณ์นี้อาจนำไปสู่ปัญหาบางอย่าง: ด้วยขนาดตัวกรองเหล่านี้โดยปกติแล้วการดำเนินการสังวัตนาจะไม่สมบูรณ์แบบด้วยการเติม 2 (การเติมทั่วไป) และขอบบางส่วนของ input_field หายไปในกระบวนการ ... คำถามที่ 1:เหตุใดจึงใช้เพียง odd_numbers สำหรับขนาดตัวกรอง Convolutions คำถามที่ 2:จริง ๆ แล้วมันเป็นปัญหาที่จะละเว้นส่วนเล็ก ๆ ของ input_field ในระหว่างการโน้มน้าว? ทำไมต้องเป็นเช่นนั้น /

2
เหตุใดจึงควรเลือกการกำหนดค่าเริ่มต้นของน้ำหนักและอคติประมาณ 0
ฉันอ่านสิ่งนี้: ในการฝึกอบรมเครือข่ายประสาทของเราเราจะเริ่มต้นแต่ละพารามิเตอร์ W (l) ijWij (l) และแต่ละ b (l) ibi (l) เป็นค่าสุ่มเล็ก ๆ ใกล้ศูนย์ (พูดตามปกติ (0, ϵ2) ปกติ (0 , ϵ2) การกระจายตัวสำหรับขนาดเล็ก ϵϵ, พูด 0.01) จากบทเรียนการเรียนรู้ลึกของ Stanford ที่วรรค 7 ในอัลกอริทึม Backpropagation สิ่งที่ฉันไม่เข้าใจคือเหตุผลว่าทำไมการเริ่มต้นของน้ำหนักหรืออคติควรจะอยู่ที่ประมาณ 0 ?

1
อะไรคือเลเยอร์ Convolutional 1D ในการเรียนรู้เชิงลึก?
ฉันมีความเข้าใจโดยทั่วไปเกี่ยวกับบทบาทและกลไกของเลเยอร์ convolutional ใน Deep Learning สำหรับการประมวลผลภาพในกรณีที่มีการใช้งาน 2D หรือ 3D พวกเขา "เพียงแค่" พยายามจับรูปแบบ 2D ในภาพ (ใน 3 ช่องในกรณี 3D) แต่เมื่อเร็ว ๆ นี้ฉันชนกับชั้น 1D ในบริบทของการประมวลผลภาษาธรรมชาติซึ่งเป็นเรื่องที่แปลกใจสำหรับฉันเพราะในการทำความเข้าใจของฉันการบิด 2D ถูกนำมาใช้เป็นพิเศษในการจับรูปแบบ 2D ที่เป็นไปไม่ได้ ของพิกเซลภาพ อะไรคือตรรกะที่อยู่เบื้องหลัง 1D convolution?

3
ฉันควรใช้ GPU หรือ CPU ในการอนุมาน
ฉันใช้เครือข่ายประสาทการเรียนรู้อย่างลึกซึ้งที่ได้รับการฝึกฝนโดย GPU ตอนนี้ฉันต้องการปรับใช้กับโฮสต์หลายแห่งเพื่ออนุมาน คำถามคือเงื่อนไขในการตัดสินใจว่าฉันควรใช้ GPU หรือซีพียูในการอนุมานคืออะไร? การเพิ่มรายละเอียดเพิ่มเติมจากความคิดเห็นด้านล่าง ฉันยังใหม่กับสิ่งนี้ดังนั้นคำแนะนำจะได้รับการชื่นชม หน่วยความจำ : GPU คือ K80 Framework : Cuda และ cuDNN ขนาดข้อมูลต่อเวิร์กโหลด : 20G การคำนวณโหนดเพื่อใช้งาน : หนึ่งรายการต่องานแม้ว่าจะต้องการพิจารณาตัวเลือกเครื่องชั่ง ราคา : ฉันสามารถจ่ายค่าตัวเลือก GPU ได้หากเหตุผลนั้นสมเหตุสมผล การปรับใช้ : การทำงานบนเซิร์ฟเวอร์โลหะเปลือยที่โฮสต์อยู่ไม่ใช่ในคลาวด์ ตอนนี้ฉันทำงานบน CPU เพียงเพราะแอปพลิเคชันทำงานได้ดี แต่ด้วยเหตุผลดังกล่าวฉันไม่แน่ใจว่าทำไมถึงมีคนพิจารณา GPU ด้วยซ้ำ

3
NNs ที่เรียนรู้อย่างลึกซึ้งแตกต่างจากตอนที่ฉันเรียนเพียง 4 ปีที่แล้ว (2012) อย่างไร
มีการกล่าวในWikipediaและdeeplearning4jว่าการเรียนรู้ระดับลึก NN (DLNN) เป็น NN ที่มีเลเยอร์ที่ซ่อนอยู่> 1 NN ประเภทนี้เป็นมาตรฐานที่มหาวิทยาลัยสำหรับฉันในขณะที่ DLNN นั้นถูก hyped มากในตอนนี้ เคยไปทำแล้ว - เรื่องใหญ่อะไร ฉันได้ยินมาด้วยว่า NN ที่ซ้อนกันนั้นถือว่าเป็นการเรียนรู้อย่างลึกซึ้ง การเรียนรู้อย่างลึกซึ้งเป็นอย่างไร ภูมิหลังของฉันใน NN ส่วนใหญ่มาจากมหาวิทยาลัยไม่ใช่จากงาน: การศึกษาการใช้งานของ NN ในอุตสาหกรรม มีประมาณ 5 หลักสูตรเกี่ยวกับ artif Intel & จักร เรียน - แม้ว่าอาจจะมี 2 คนใน NN ใช้ NN สำหรับโครงการขนาดเล็กและเรียบง่ายเกี่ยวกับการจดจำภาพ - ใช้ NN-Feed Feed-Forward 3 ชั้น ไม่ได้ทำการวิจัยจริง (เหมือนในวิทยานิพนธ์ของแพทย์) …

2
มีการเปลี่ยนแปลงตัวชี้วัดที่ใช้โดยการโทรกลับก่อนหยุดใน Keras หรือไม่
เมื่อใช้การเรียกกลับก่อนหยุดในการฝึกซ้อมของ Keras จะหยุดเมื่อตัวชี้วัดบางตัว (โดยปกติสูญเสียการตรวจสอบ) ไม่เพิ่มขึ้น มีวิธีใช้ตัวชี้วัดอื่น (เช่นความแม่นยำการเรียกคืนการวัด f) แทนการสูญเสียการตรวจสอบหรือไม่ ตัวอย่างทั้งหมดที่ฉันเคยเห็นมีความคล้ายคลึงกับนี้: callbacks.EarlyStopping (monitor = 'val_loss', อดทน = 5, verbose = 0, mode = 'auto')

1
การเรียนรู้หลายงานใน Keras
ฉันกำลังพยายามใช้เลเยอร์ที่แชร์ใน Keras ฉันเห็นว่า Keras มีkeras.layers.concatenateแต่ฉันไม่แน่ใจจากเอกสารเกี่ยวกับการใช้งาน ฉันสามารถใช้มันเพื่อสร้างเลเยอร์ที่ใช้ร่วมกันหลายชั้นได้หรือไม่ อะไรจะเป็นวิธีที่ดีที่สุดในการติดตั้งเครือข่ายประสาทส่วนกลางอย่างง่ายดังที่แสดงด้านล่างโดยใช้ Keras โปรดทราบว่ารูปร่างทั้งหมดของอินพุทเอาท์พุทและเลเยอร์ที่แชร์สำหรับ 3 NN ทั้งหมดนั้นเหมือนกัน มีเลเยอร์ที่แชร์หลายอัน (และเลเยอร์ที่ไม่แชร์) ใน NN สามตัว เลเยอร์สีมีความเป็นเอกลักษณ์ของ NN แต่ละตัวและมีรูปร่างเหมือนกัน โดยทั่วไปรูปภาพแสดงถึง NNs ที่เหมือนกัน 3 รายการพร้อมกับเลเยอร์ที่ซ่อนอยู่หลายชั้นตามด้วยเลเยอร์ที่ซ่อนอยู่ที่ไม่แชร์หลายชั้น ฉันไม่แน่ใจว่าจะแชร์หลายเลเยอร์ได้อย่างไรในตัวอย่าง Twitter มีเลเยอร์ที่แชร์เพียงหนึ่งเลเยอร์ (ตัวอย่างใน API เอกสาร)

1
เหตุผลในการถ่ายภาพสี่เหลี่ยมในการเรียนรู้อย่างลึกซึ้ง
ส่วนใหญ่ของโมเดลการเรียนรู้ลึกขั้นสูงเช่น VGG, RESNET ฯลฯ จำเป็นต้องมีภาพตารางเป็น input มักจะมีขนาดของพิกเซล224x224224x224224x224224x224 มีเหตุผลที่อินพุตจะต้องมีรูปร่างเท่ากันหรือฉันสามารถสร้างแบบจำลอง convnet ด้วยการพูดเช่นกัน (ถ้าฉันต้องการจดจำใบหน้าและตัวอย่างเช่นฉันมีภาพบุคคล)?100x200100x200100x200 มีประโยชน์เพิ่มขึ้นด้วยขนาดพิกเซลที่ใหญ่ขึ้นพูด ?512x512512x512512x512

2
การสูญเสียการตรวจสอบและความถูกต้องยังคงอยู่
ฉันพยายามที่จะใช้กระดาษนี้ในชุดของภาพทางการแพทย์ ฉันกำลังทำอยู่ใน Keras เครือข่ายประกอบด้วยเลเยอร์ Conv 4 และ max-pool ตามด้วยเลเยอร์ที่เชื่อมต่อเต็มที่และซอฟต์แวร์ลักษณนามสูงสุด เท่าที่ฉันรู้ฉันได้ปฏิบัติตามสถาปัตยกรรมที่กล่าวถึงในกระดาษ อย่างไรก็ตามการสูญเสียการตรวจสอบและความถูกต้องเพียงแค่คงอยู่ตลอด ความแม่นยำดูเหมือนจะถูกแก้ไขที่ ~ 57.5% ความช่วยเหลือใด ๆ ที่ฉันอาจจะผิดพลาดจะได้รับการชื่นชมอย่างมาก รหัสของฉัน: from keras.models import Sequential from keras.layers import Activation, Dropout, Dense, Flatten from keras.layers import Convolution2D, MaxPooling2D from keras.optimizers import SGD from keras.utils import np_utils from PIL import Image import numpy as np …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.