คำถามติดแท็ก deep-learning

พื้นที่ของการเรียนรู้ของเครื่องที่เกี่ยวข้องกับการเรียนรู้การเป็นตัวแทนของข้อมูลแบบลำดับชั้นส่วนใหญ่ทำกับเครือข่ายประสาทลึก

5
ฉันควรทำอย่างไรเมื่อเครือข่ายประสาทของฉันไม่ได้เรียนรู้
ฉันกำลังฝึกโครงข่ายประสาท แต่การสูญเสียการฝึกไม่ลดลง ฉันจะแก้ไขสิ่งนี้ได้อย่างไร ฉันไม่ได้ถามเกี่ยวกับการบรรจุเกินหรือกำหนดมาตรฐาน ฉันขอเกี่ยวกับวิธีการแก้ปัญหาที่ประสิทธิภาพของเครือข่ายของฉันไม่ดีขึ้นในชุดฝึกอบรม คำถามนี้เป็นคำถามทั่วไปที่จงใจเพื่อให้คำถามอื่น ๆ เกี่ยวกับวิธีการฝึกอบรมโครงข่ายประสาทเทียมสามารถปิดเป็นซ้ำกับคำถามนี้ได้ด้วยทัศนคติที่ว่า "ถ้าคุณให้ปลาแก่ผู้ชายคุณให้อาหารเขาหนึ่งวัน แต่ถ้าคุณสอน คุณสามารถให้อาหารเขาตลอดชีวิตที่เหลือของเขา " ดูกระทู้ Meta สำหรับการสนทนา: วิธีที่ดีที่สุดในการตอบคำถาม "เครือข่ายประสาทของฉันใช้งานไม่ได้โปรดแก้ไข" คำถามคืออะไร? หากเครือข่ายประสาทของคุณไม่ได้พูดคุยกันดีดู: ฉันควรทำอย่างไรเมื่อเครือข่ายประสาทของฉันไม่ได้พูดคุยกันดี

6
อะไรคือข้อได้เปรียบของ ReLU ผ่านฟังก์ชั่น sigmoid ในโครงข่ายประสาทเทียม?
สถานะของศิลปะของการไม่เชิงเส้นคือการใช้หน่วยเชิงเส้นแบบแก้ไข (ReLU) แทนฟังก์ชั่น sigmoid ในเครือข่ายประสาทลึก ข้อดีคืออะไร ฉันรู้ว่าการฝึกอบรมเครือข่ายเมื่อใช้ ReLU จะเร็วขึ้นและเป็นแรงบันดาลใจทางชีวภาพมากขึ้นข้อดีอื่น ๆ คืออะไร? (นั่นคือข้อเสียของการใช้ sigmoid)?

4
อะไรคือความแตกต่างระหว่างเครือข่ายประสาทเทียม, เครื่อง Boltzmann แบบ จำกัด , และตัวเข้ารหัสอัตโนมัติ?
เมื่อเร็ว ๆ นี้ฉันได้อ่านเกี่ยวกับการเรียนรู้อย่างลึกซึ้งและฉันสับสนเกี่ยวกับข้อกำหนด (หรือพูดเทคโนโลยี) อะไรคือความแตกต่างระหว่าง เครือข่ายประสาทเทียม (CNN), เครื่อง Boltzmann ที่ จำกัด (RBM) และ -เข้ารหัสอัตโนมัติ?

10
ความแตกต่างระหว่างเครือข่ายประสาทและเครือข่ายประสาทลึกคืออะไรและทำไมเครือข่ายลึกถึงทำงานได้ดีขึ้น?
ฉันไม่ได้เห็นคำถามที่ระบุไว้อย่างชัดเจนในข้อกำหนดเหล่านี้และนี่คือเหตุผลที่ฉันสร้างคำถามใหม่ สิ่งที่ฉันสนใจที่จะรู้ไม่ใช่คำจำกัดความของโครงข่ายประสาทเทียม แต่เข้าใจถึงความแตกต่างที่แท้จริงกับเครือข่ายประสาทลึก สำหรับบริบทเพิ่มเติม: ฉันรู้ว่าเครือข่ายประสาทคืออะไรและทำงานอย่างไร backpropagation ฉันรู้ว่า DNN ต้องมีเลเยอร์ที่ซ่อนอยู่หลายชั้น อย่างไรก็ตาม 10 ปีที่ผ่านมาในระดับผมได้เรียนรู้ว่ามีหลายชั้นหรือชั้นหนึ่ง (ไม่นับเข้าและส่งออกชั้น) ก็เท่ากับในแง่ของการทำงานเครือข่ายประสาทสามารถที่จะเป็นตัวแทน (ดู Cybenko ของทฤษฎีบทประมาณสากล ) และว่ามี เลเยอร์มากขึ้นทำให้การวิเคราะห์ซับซ้อนขึ้นโดยไม่เพิ่มประสิทธิภาพ เห็นได้ชัดว่านั่นไม่ใช่กรณีอีกต่อไป ฉันคิดว่าอาจผิดที่ความแตกต่างในแง่ของขั้นตอนวิธีการฝึกอบรมและคุณสมบัติมากกว่าโครงสร้างและดังนั้นฉันจะขอบคุณจริง ๆ ถ้าคำตอบสามารถขีดเส้นใต้เหตุผลที่ทำให้การย้ายไปยัง DNN เป็นไปได้ (เช่นหลักฐานทางคณิตศาสตร์หรือเล่นแบบสุ่มกับเครือข่าย ?) และสิ่งที่พึงประสงค์ (เช่นความเร็วของการบรรจบกัน)

6
1x1 convolution หมายถึงอะไรในเครือข่ายประสาทเทียม
ขณะนี้ฉันกำลังสอน Udacity Deep Learning ในบทที่ 3 พวกเขาพูดถึงการโน้มน้าวใจ 1x1 การแปลง 1x1 นี้ใช้ในโมดูลการเริ่มต้นของ Google ฉันมีปัญหาในการทำความเข้าใจว่าอะไรคือการโน้มน้าวใจ 1x1 ฉันได้เห็นโพสต์นี้โดย Yann Lecun ด้วย ใครช่วยอธิบายเรื่องนี้ให้ฉันหน่อยได้ไหม

4
เหตุใดจึงทำให้ภาพเป็นปกติด้วยการลบภาพของชุดข้อมูลหมายความว่าแทนที่จะเป็นรูปภาพปัจจุบันหมายถึงการเรียนรู้อย่างลึกซึ้ง?
มีความแตกต่างบางอย่างเกี่ยวกับวิธีทำให้รูปภาพเป็นปกติ แต่ส่วนใหญ่ดูเหมือนจะใช้สองวิธีนี้: ลบค่าเฉลี่ยต่อแชนเนลที่คำนวณเหนือรูปภาพทั้งหมด (เช่น VGG_ILSVRC_16_layers ) ลบตามพิกเซล / ช่องคำนวณเหนือภาพทั้งหมด (เช่นCNN_S , ดูเครือข่ายอ้างอิงของ Caffe ด้วย ) วิธีธรรมชาติของฉันจะทำให้ภาพแต่ละภาพเป็นปกติ รูปภาพที่ถ่ายในเวลากลางวันจะทำให้เซลล์ประสาทยิงมากกว่าภาพในเวลากลางคืนและในขณะที่มันอาจแจ้งให้เราทราบถึงเวลาที่เรามักจะสนใจเกี่ยวกับคุณสมบัติที่น่าสนใจอื่น ๆ ในขอบ ฯลฯ Pierre Sermanetอ้างถึงใน 3.3.3 ว่าการฟื้นฟูความคมชัดในท้องถิ่นนั้นน่าจะเป็นแบบต่อภาพ แต่ฉันไม่ได้เจอสิ่งนี้ในตัวอย่าง / แบบฝึกหัดที่ฉันเคยเห็น ฉันเคยเห็นคำถาม Quora ที่น่าสนใจและโพสต์ของ Xiu-Shen Weiแต่พวกเขาดูเหมือนจะไม่สนับสนุนแนวทางทั้งสองข้างต้น ฉันพลาดอะไรไปแน่ ๆ ? นี่เป็นปัญหาการปรับสีให้เป็นมาตรฐานหรือมีกระดาษที่อธิบายว่าทำไมคนจำนวนมากถึงใช้วิธีนี้?

4
ทำไมเครือข่ายประสาทเทียมถึงลึกขึ้น แต่ไม่กว้างขึ้น
ในช่วงไม่กี่ปีที่ผ่านมาเครือข่ายประสาทเทียม (หรือเครือข่ายประสาทลึกทั่วไป) ได้กลายเป็นเครือข่ายที่ล้ำลึกและล้ำลึกโดยเครือข่ายที่ล้ำสมัยเริ่มจาก 7 ชั้น ( AlexNet ) ถึง 1,000 ชั้น ( มุ้งที่เหลือ)ในพื้นที่ 4 ปี. เหตุผลที่อยู่เบื้องหลังการเพิ่มประสิทธิภาพจากเครือข่ายที่ลึกกว่าคือสามารถเรียนรู้การทำงานที่ไม่ใช่เชิงเส้นที่ซับซ้อนมากขึ้น เมื่อได้รับข้อมูลการฝึกอบรมที่เพียงพอสิ่งนี้จะช่วยให้เครือข่ายสามารถแยกแยะความแตกต่างระหว่างคลาสต่างๆ อย่างไรก็ตามแนวโน้มดูเหมือนจะไม่ได้ตามด้วยจำนวนพารามิเตอร์ในแต่ละชั้น ตัวอย่างเช่นจำนวนของคุณลักษณะแผนที่ในเลเยอร์ convolutional หรือจำนวนโหนดในเลเยอร์ที่เชื่อมต่ออย่างเต็มที่ยังคงอยู่ในระดับเดียวกันและยังคงมีขนาดค่อนข้างเล็กแม้จะมีจำนวนเลเยอร์เพิ่มขึ้นอย่างมาก จากสัญชาตญาณของฉันดูเหมือนว่าการเพิ่มจำนวนพารามิเตอร์ต่อชั้นจะทำให้แหล่งข้อมูลที่สมบูรณ์ยิ่งขึ้นสำหรับการเรียนรู้ฟังก์ชั่นที่ไม่ใช่เชิงเส้น แต่ความคิดนี้ดูเหมือนจะถูกมองข้ามโดยเพิ่มเพียงเลเยอร์เพิ่มขึ้นแต่ละอันมีพารามิเตอร์จำนวนน้อย ดังนั้นในขณะที่เครือข่ายได้กลายเป็น "ลึก" พวกเขาไม่ได้กลายเป็น "กว้าง" ทำไมนี้

3
เหตุใดนักวิจัยเครือข่ายประสาทจึงสนใจเกี่ยวกับยุค
ยุคในโคตรลาดไล่ระดับถูกกำหนดเป็นผ่านเดียวผ่านข้อมูล สำหรับมินิบัสของ SGD แต่ละอันจะมีการสุ่มตัวอย่างkkkการคำนวณการไล่ระดับสีและพารามิเตอร์จะได้รับการอัพเดต ในการตั้งค่ายุคตัวอย่างจะถูกวาดโดยไม่ต้องเปลี่ยน แต่ดูเหมือนว่าไม่จำเป็น ทำไมไม่ดึงมินิบัสของ SGD แต่ละอันมาเป็นสุ่มจากข้อมูลทั้งหมดในแต่ละรอบ จากยุคจำนวนมากความเบี่ยงเบนเล็ก ๆ ที่กลุ่มตัวอย่างเห็นมากหรือน้อยมักจะดูเหมือนไม่สำคัญkkk

3
อะไรคือความแตกต่างระหว่างเครือข่ายประสาทและเครือข่ายความเชื่อที่ลึกซึ้ง?
ฉันได้รับความประทับใจว่าเมื่อผู้คนพูดถึงเครือข่าย 'ความเชื่อลึก' ว่านี่เป็นเครือข่ายประสาท แต่มีขนาดใหญ่มาก สิ่งนี้ถูกต้องหรือเครือข่ายที่มีความเชื่ออย่างลึกซึ้งหรือไม่ก็บอกเป็นนัยว่าอัลกอริธึมเองนั้นแตกต่างกัน (เช่นไม่มีตัวส่งต่อโครงข่ายประสาท

8
ห้องสมุด R สำหรับการเรียนรู้ลึก
ฉันสงสัยว่ามีห้องสมุด R ที่ดีอยู่ที่นั่นสำหรับการเรียนรู้โครงข่ายประสาทเทียมหรือไม่? ฉันรู้ว่ามีของnnet, neuralnetและRSNNSแต่ไม่มีของเหล่านี้ดูเหมือนจะใช้วิธีการเรียนรู้ลึก ฉันสนใจโดยเฉพาะอย่างยิ่งในการหากินตามด้วยการเรียนรู้ภายใต้การดูแลและใช้การออกกลางคันเพื่อป้องกันไม่ให้ร่วมการปรับตัว / แก้ไข: หลังจากไม่กี่ปีที่ผ่านมาฉันได้พบแพ็คเกจการเรียนรู้ระดับลึก h20 ที่ออกแบบมาอย่างดีและติดตั้งง่าย ฉันชอบแพ็คเกจ mxnetซึ่งยากต่อการติดตั้ง แต่สนับสนุนสิ่งต่าง ๆ เช่น covnets ทำงานบน GPU และเร็วมาก

5
ใช้การเรียนรู้เชิงลึกสำหรับการทำนายอนุกรมเวลา
ฉันใหม่ในด้านการเรียนรู้อย่างลึกซึ้งและสำหรับฉันขั้นตอนแรกคือการอ่านบทความที่น่าสนใจจากเว็บไซต์ deeplearning.net ในเอกสารเกี่ยวกับการเรียนรู้อย่างลึกซึ้งฮินตันและคนอื่น ๆ ส่วนใหญ่พูดถึงการใช้มันกับปัญหาภาพ ใครบางคนพยายามที่จะตอบฉันว่ามันสามารถนำไปใช้กับปัญหาของการทำนายค่าอนุกรมเวลา (การเงินการจราจรทางอินเทอร์เน็ต ... ) และสิ่งที่สำคัญที่ฉันควรมุ่งเน้นถ้าเป็นไปได้?

5
เครื่องมือเพิ่มประสิทธิภาพของอดัมพร้อมการสลายตัวแบบทวีคูณ
ในรหัส Tensorflow ส่วนใหญ่ฉันเห็น Adam Optimizer ใช้กับอัตราการเรียนรู้คงที่1e-4(เช่น 0.0001) รหัสมักจะมีลักษณะดังต่อไปนี้: ...build the model... # Add the optimizer train_op = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) # Add the ops to initialize variables. These will include # the optimizer slots added by AdamOptimizer(). init_op = tf.initialize_all_variables() # launch the graph in a session sess = tf.Session() # Actually …

3
เครือข่ายแบบเรียกซ้ำ vs Recursive Neural: NLP ไหนดีกว่ากัน?
มีเครือข่ายประสาทที่เกิดขึ้นอีกและเครือข่ายประสาทแบบเรียกซ้ำ ทั้งสองมักจะแสดงโดยตัวย่อเดียวกัน: RNN ตามที่Wikipedia , Recurrent NN เป็นความจริงแล้ว Recursive NN แต่ฉันไม่เข้าใจคำอธิบายจริงๆ ยิ่งกว่านั้นฉันดูเหมือนจะไม่พบสิ่งที่ดีกว่า (พร้อมตัวอย่างหรือมากกว่านั้น) สำหรับการประมวลผลภาษาธรรมชาติ ความจริงก็คือถึงแม้ว่า Socher จะใช้ Recursive NN สำหรับ NLP ในการสอนของเขาแต่ฉันไม่พบการใช้งานที่ดีของเครือข่ายประสาทแบบเรียกซ้ำและเมื่อฉันค้นหาใน Google คำตอบส่วนใหญ่เกี่ยวกับ NN ที่เกิดขึ้นอีก นอกจากนั้นมี DNN อื่นที่ใช้กับ NLP ได้ดีกว่าหรือไม่นั้นขึ้นอยู่กับงาน NLP หรือไม่ ความเชื่อลึกหรือตาข่าย Autoencoders ซ้อนกัน? (ฉันดูเหมือนจะไม่พบการใช้งานใด ๆ ที่พิเศษสำหรับ ConvNets ใน NLP และการใช้งานส่วนใหญ่อยู่ในวิสัยทัศน์ของเครื่องในใจ) ในที่สุดฉันต้องการใช้งาน DNN สำหรับ C ++ (ดีกว่าถ้ามีการรองรับ GPU) …

2
ทำไม Convolutional Neural Networks ไม่ใช้ Support Vector Machine เพื่อจัดประเภท?
ในช่วงไม่กี่ปีที่ผ่านมา Convolutional Neural Networks (CNNs) ได้กลายเป็นสุดยอดของการรับรู้วัตถุในคอมพิวเตอร์วิสัยทัศน์ โดยทั่วไปแล้วซีเอ็นเอ็นประกอบด้วยหลายชั้น convolutional ตามมาด้วยสองชั้นเชื่อมต่ออย่างเต็มที่ สัญชาตญาณที่อยู่เบื้องหลังสิ่งนี้คือเลเยอร์ convolutional เรียนรู้การแสดงข้อมูลอินพุตที่ดีขึ้นและเลเยอร์ที่เชื่อมต่ออย่างสมบูรณ์จากนั้นเรียนรู้ที่จะจำแนกการแสดงนี้ตามชุดฉลาก อย่างไรก็ตามก่อนที่ CNNs จะเริ่มครอบครอง Support Vector Machines (SVMs) เป็นสิ่งที่ล้ำสมัย ดังนั้นจึงมีเหตุผลที่จะบอกว่า SVM ยังคงเป็นลักษณนามที่แข็งแกร่งกว่าเครือข่ายนิวรัลสองชั้นที่เชื่อมต่อเต็มที่ ดังนั้นฉันสงสัยว่าทำไม CNN ที่ล้ำสมัยมักใช้เลเยอร์ที่เชื่อมต่ออย่างเต็มที่เพื่อการจำแนกประเภทมากกว่า SVM ด้วยวิธีนี้คุณจะได้สิ่งที่ดีที่สุดทั้งสองโลก: การแสดงคุณสมบัติที่แข็งแกร่งและตัวจําแนกที่แข็งแกร่งมากกว่าการแสดงคุณสมบัติที่แข็งแกร่ง แต่เป็นตัวจําแนกที่อ่อนแอเท่านั้น ... ความคิดใด ๆ

1
ทำความเข้าใจกับ“ ค่าต่ำสุดในท้องถิ่นเกือบทั้งหมดมีค่าฟังก์ชั่นที่คล้ายกันมากกับค่าระดับโลก”
ในการโพสต์บล็อกล่าสุดโดย Rong Ge ได้มีการกล่าวว่า: เป็นที่เชื่อกันว่าสำหรับปัญหาต่าง ๆ รวมถึงการเรียนรู้อวนลึกสุดขั้นต่ำในท้องถิ่นเกือบทั้งหมดมีค่าฟังก์ชั่นที่คล้ายกันมากกับระดับโลกที่เหมาะสม ความเชื่อนี้มาจากไหน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.