คำถามติดแท็ก deep-learning

พื้นที่ของการเรียนรู้ของเครื่องที่เกี่ยวข้องกับการเรียนรู้การเป็นตัวแทนของข้อมูลแบบลำดับชั้นส่วนใหญ่ทำกับเครือข่ายประสาทลึก

1
Connectionist Temporal Classification (CTC) คืออะไร
ฉันต้องการทำโครงการรู้จำอักขระด้วยแสง (OCR) หลังจากทำวิจัยแล้วฉันเจอสถาปัตยกรรมที่น่าสนใจ: CNN + RNN + CTC ฉันคุ้นเคยกับเครือข่ายประสาทที่ซับซ้อน (CNN) และเครือข่ายประสาทที่เกิดขึ้นอีก (RNN) แต่ Connectionist Temporal Classification (CTC) คืออะไร ฉันต้องการคำอธิบายในแง่ของคนธรรมดา

1
มิติข้อมูล VC บอกอะไรเราเกี่ยวกับการเรียนรู้อย่างลึกซึ้ง
ในการเรียนรู้เครื่องจักรขั้นพื้นฐานเราได้รับการสอน "กฎง่ายๆ" ต่อไปนี้: ก) ขนาดของข้อมูลของคุณควรมีขนาดอย่างน้อย 10 เท่าของขนาด VC ของชุดสมมติฐานของคุณ b) เครือข่ายประสาทเทียมที่มีการเชื่อมต่อ N มีมิติ VC ประมาณ N ดังนั้นเมื่อเครือข่ายนิวรัลการเรียนรู้อย่างลึกซึ้งได้พูดไปแล้วหลายล้านหน่วยนี่หมายความว่าเราควรจะพูดจุดข้อมูลนับพันล้านหรือไม่ คุณช่วยส่องแสงนี้ให้หน่อยได้ไหม?

1
"ความสามารถ" ของรูปแบบการเรียนรู้ของเครื่องคืออะไร?
ฉันกำลังศึกษานี้กวดวิชาในแปรผัน Autoencoders โดยคาร์ล Doersch ในหน้าสองมันระบุ: หนึ่งในเฟรมเวิร์กดังกล่าวที่ได้รับความนิยมมากที่สุดคือ Variational Autoencoder [1, 3] ซึ่งเป็นหัวเรื่องของบทช่วยสอนนี้ สมมติฐานของรุ่นนี้อ่อนแอและการฝึกอบรมนั้นรวดเร็วผ่านการ backpropagation VAE ทำการประมาณค่า แต่ข้อผิดพลาดที่แนะนำโดยการประมาณนี้มีขนาดเล็กมากซึ่งเป็นแบบจำลองความจุสูง ลักษณะเหล่านี้มีส่วนทำให้ความนิยมเพิ่มขึ้นอย่างรวดเร็ว ฉันเคยอ่านข้อเรียกร้องเหล่านี้เกี่ยวกับโมเดลความจุสูงมาแล้ว แต่ดูเหมือนว่าฉันจะไม่พบคำจำกัดความที่ชัดเจนสำหรับมัน ฉันยังพบคำถาม stackoverflow ที่เกี่ยวข้องนี้แต่สำหรับฉันคำตอบนั้นไม่น่าพอใจมาก มีคำจำกัดความสำหรับความสามารถของแบบจำลองหรือไม่? คุณวัดได้ไหม

1
ทำไมเราไม่ใช้อัตราการเรียนรู้ที่ไม่คงที่เพื่อไล่ระดับสีที่เหมาะสมสำหรับสิ่งอื่น ๆ จากนั้นจึงใช้โครงข่ายประสาทเทียม
วรรณกรรมการเรียนรู้ลึกนั้นเต็มไปด้วยเทคนิคที่ชาญฉลาดโดยใช้อัตราการเรียนรู้ที่ไม่คงที่ในการไล่ระดับสี สิ่งต่าง ๆ เช่นการสลายตัวแบบเอ็กซ์โพเนนเชียล, RMSprop, Adagrad ฯลฯ นั้นง่ายต่อการติดตั้งและมีอยู่ในชุดการเรียนรู้ลึก ๆ มีเหตุผลสำหรับสิ่งนี้หรือไม่? ถ้าเป็นที่คนไม่สนใจมีเหตุผลทำไมเราไม่ต้องดูแลนอกเครือข่ายประสาท?

3
เครือข่ายประสาทลึก - เพียงเพื่อการจำแนกภาพ?
ตัวอย่างทั้งหมดที่ฉันพบโดยใช้ความเชื่ออย่างลึกล้ำหรือโครงข่ายประสาทเทียมใช้สำหรับการจำแนกภาพการตรวจจับแชทและการรู้จำเสียง โครงข่ายใยประสาทเทียมแบบลึกยังมีประโยชน์สำหรับงานการปรับเปลี่ยนแบบดั้งเดิมซึ่งคุณสมบัติไม่ได้มีโครงสร้าง (เช่นไม่จัดเรียงตามลำดับหรือตาราง) ถ้าใช่คุณยกตัวอย่างได้ไหม

1
มีความแตกต่างระหว่างการฝึกอบรม autoencoder ที่ซ้อนกันและเครือข่ายประสาท 2 ชั้นหรือไม่?
สมมติว่าฉันกำลังเขียนอัลกอริทึมสำหรับการสร้าง autoencoder 2 ชั้นซ้อนกันและเครือข่ายประสาท 2 ชั้น พวกเขาเป็นสิ่งเดียวกันหรือแตกต่างกันอย่างไร สิ่งที่ฉันเข้าใจคือเมื่อฉันสร้างตัวเข้ารหัสอัตโนมัติแบบซ้อนกันฉันจะสร้างเลเยอร์ทีละชั้น สำหรับเครือข่ายประสาทฉันจะเริ่มต้นพารามิเตอร์ทั้งหมดใน netowork และจากนั้นสำหรับแต่ละจุดข้อมูลฉันผ่านมันผ่านเครือข่ายและคำนวณการสูญเสีย (เช่นระยะห่างจากนิวเคลียส) และทำการ backpropagation

2
Spatial Dropout ใน 2D นำมาใช้อย่างไร
นี่คือการอ้างอิงถึงกระดาษการแปลภาษาอย่างมีประสิทธิภาพของวัตถุโดยใช้เครือข่าย Convolutionalและจากสิ่งที่ฉันเข้าใจว่าการใช้งานกลางคันนั้นเป็นแบบ 2D หลังจากอ่านรหัสจาก Keras เกี่ยวกับวิธีการนำ Spatial 2D Dropout ไปใช้โดยทั่วไปจะมีหน้ากากรูปแบบไบนารีแบบสุ่ม [batch_size, 1, 1, num_channels] อย่างไรก็ตาม Dropout 2D เชิงพื้นที่นี้ทำอะไรกับบล็อก Convolution อินพุตของรูปร่างอย่างแน่นอน [batch_size, ส่วนสูง, ความกว้าง, num_channels] การคาดเดาปัจจุบันของฉันคือว่าสำหรับแต่ละพิกเซลถ้าเลเยอร์ / ช่องใด ๆ ของพิกเซลมีค่าเป็นลบช่องทั้งหมดของพิกเซลนั้นจะมีค่าเริ่มต้นเป็นศูนย์ ถูกต้องหรือไม่ อย่างไรก็ตามถ้าการเดาของฉันถูกต้องแล้วการใช้รูปแบบไบนารีของรูปร่าง [batch_size, ความสูง, ความกว้าง, num_channels] ที่อยู่ในมิติของบล็อกอินพุตดั้งเดิมจะให้องค์ประกอบแบบปกติที่ชาญฉลาด (นี่คือตาม การใช้งานแบบเลื่อนลงของ tensorflow ที่กำหนดรูปร่างของไบนารีมาสก์เป็นรูปร่างของอินพุต) เพราะมันจะหมายความว่าหากพิกเซลใด ๆ ในบล็อกการแปลงเป็นลบดังนั้นบล็อกการแปลงทั้งหมดจะเริ่มต้นที่ 0 นี่คือส่วนที่สร้างความสับสนที่ฉันไม่ค่อยเข้าใจ

3
ทำไมเครือข่ายนิวรัลจึงต้องเลือกคุณสมบัติ / วิศวกรรม
โดยเฉพาะอย่างยิ่งในบริบทของการแข่งขัน kaggle ฉันได้สังเกตเห็นว่าประสิทธิภาพของโมเดลนั้นเกี่ยวกับการเลือกคุณสมบัติ / วิศวกรรม ในขณะที่ฉันสามารถเข้าใจได้อย่างสมบูรณ์ว่าเหตุใดในกรณีที่ต้องจัดการกับอัลกอริธึม ML / แบบเก่ามากกว่าเดิมฉันไม่เห็นว่าทำไมมันถึงเป็นเช่นนี้เมื่อใช้โครงข่ายประสาทเทียมลึก อ้างถึงหนังสือการเรียนรู้ลึก: การเรียนรู้เชิงลึกแก้ปัญหาศูนย์กลางนี้ในการเรียนรู้การเป็นตัวแทนโดยการแนะนำการเป็นตัวแทนที่แสดงในแง่ของการเป็นตัวแทนอื่น ๆ ที่ง่ายกว่าการเป็นตัวแทน การเรียนรู้อย่างลึกซึ้งทำให้คอมพิวเตอร์สามารถสร้างแนวคิดที่ซับซ้อนจากแนวคิดที่เรียบง่าย ดังนั้นฉันจึงคิดเสมอว่าถ้า "ข้อมูลอยู่ในข้อมูล" เครือข่ายประสาทที่มีความลึกและมีพารามิเตอร์เพียงพอจะรับคุณสมบัติที่เหมาะสมเมื่อใช้เวลาในการฝึกอบรมเพียงพอ

2
วิธีการฝึกเลเยอร์การฝังในเลเยอร์ Keras การฝัง
เลเยอร์การฝังได้รับการฝึกฝนในเลเยอร์ Keras อย่างไร (พูดโดยใช้ tensorflow แบ็กเอนด์ความหมายมันคล้ายกับ word2vec, ถุงมือหรือข้อความอย่างรวดเร็ว) สมมติว่าเราไม่ใช้การฝังที่ถูกเตรียมไว้

4
โครงข่ายประสาทเทียมสำหรับการถดถอยแบบหลายเอาต์พุต
ฉันมีชุดข้อมูลที่มีคอลัมน์อินพุต 34 คอลัมน์และ 8 คอลัมน์เอาต์พุต วิธีหนึ่งในการแก้ปัญหาคือใช้อินพุต 34 ตัวและสร้างโมเดลการถดถอยแบบแยกเฉพาะสำหรับแต่ละคอลัมน์เอาต์พุต ฉันสงสัยว่าปัญหานี้สามารถแก้ไขได้โดยใช้เพียงหนึ่งโมเดลโดยเฉพาะอย่างยิ่งการใช้ Neural Network ฉันใช้ตัวรับหลายเลเยอร์ แต่ต้องการโมเดลหลายตัวเช่นเดียวกับการถดถอยเชิงเส้น สามารถเรียงลำดับตามลำดับที่1การเรียนรู้เป็นทางเลือกได้หรือไม่? ฉันลองใช้ TensorFlow ดูเหมือนจะไม่สามารถจัดการค่าลอยได้ ข้อเสนอแนะใด ๆ ที่จะแก้ไขปัญหานี้โดยใช้รูปแบบรวมเป็นหนึ่งเดียวโดยเฉพาะโดยใช้โครงข่ายประสาทเทียมจะได้รับการชื่นชม Ilya Sutskever, Oriol Vinyals, & Quoc V. Le (2014) ลำดับการเรียนรู้ต่อเนื่องกับโครงข่ายประสาทเทียม ความก้าวหน้าในระบบประมวลผลข้อมูลประสาท , 27. ( pdf )

2
Bayesian Deep Learning คืออะไร
การเรียนรู้แบบเบย์ลึกคืออะไรและเกี่ยวข้องกับสถิติแบบเบย์แบบดั้งเดิมและการเรียนรู้แบบลึกแบบดั้งเดิมอย่างไร อะไรคือแนวคิดหลักและคณิตศาสตร์ที่เกี่ยวข้อง? ฉันจะบอกว่ามันไม่ใช่แค่สถิติแบบเบย์ น้ำเชื้อทำงานอย่างไรรวมถึงการพัฒนาและแอพพลิเคชั่นหลักในปัจจุบัน PS: การเรียนรู้ลึกแบบเบย์ได้รับความสนใจเป็นอย่างมากให้ดูที่ NIPS workshop

1
ทำไมการเรียนรู้การเสริมแรงลึกจึงไม่เสถียร?
ในรายงานปี 2558 ของ DeepMind เกี่ยวกับการเรียนรู้การเสริมแรงอย่างลึกซึ้งนั้นกล่าวว่า "ความพยายามก่อนหน้าในการรวม RL กับเครือข่ายประสาทล้มเหลวส่วนใหญ่ล้มเหลวเนื่องจากการเรียนรู้ไม่แน่นอน" จากนั้นกระดาษจะแสดงสาเหตุบางประการของสิ่งนี้ขึ้นอยู่กับความสัมพันธ์ข้ามการสังเกต ใครสักคนช่วยอธิบายความหมายของมันได้บ้าง? มันเป็นรูปแบบของการ overfitting ที่เครือข่ายนิวรัลเรียนรู้โครงสร้างบางอย่างที่มีอยู่ในการฝึกอบรม แต่อาจไม่ได้อยู่ที่การทดสอบ? หรือมันหมายถึงอย่างอื่น? กระดาษสามารถพบได้: http://www.nature.com/nature/journal/v518/n7540/full/nature14236.html และส่วนที่ฉันพยายามเข้าใจคือ: การเรียนรู้การเสริมแรงนั้นเป็นที่รู้กันว่าไม่เสถียรหรือแม้กระทั่งที่จะแยกออกเมื่อตัวประมาณฟังก์ชั่นที่ไม่เชิงเส้นเช่นเครือข่ายประสาทถูกนำมาใช้เพื่อเป็นตัวแทนของฟังก์ชั่นการกระทำตามตัวอักษร ความไม่แน่นอนนี้มีสาเหตุหลายประการ: ความสัมพันธ์ที่มีอยู่ในลำดับของการสังเกตความจริงที่ว่าการอัปเดตเล็ก ๆ เป็น Q อาจเปลี่ยนแปลงนโยบายอย่างมีนัยสำคัญดังนั้นจึงเปลี่ยนการกระจายข้อมูลและความสัมพันธ์ระหว่างค่าการกระทำและค่าเป้าหมาย เราจัดการกับความไม่แน่นอนเหล่านี้ด้วยรูปแบบแปลกใหม่ของ Q-learning ซึ่งใช้ความคิดหลักสองประการ อันดับแรกเราใช้กลไกที่ได้รับแรงบันดาลใจทางชีววิทยาเรียกว่าการเล่นซ้ำที่สุ่มข้อมูลผ่านซึ่งจะเป็นการลบความสัมพันธ์ในลำดับการสังเกตและทำให้การเปลี่ยนแปลงการกระจายข้อมูลราบรื่นขึ้น ประการที่สองเราใช้การอัพเดทซ้ำที่ปรับค่าการกระทำ (Q) ไปยังค่าเป้าหมายที่มีการปรับปรุงเป็นระยะเท่านั้นซึ่งจะช่วยลดความสัมพันธ์กับเป้าหมาย

2
ทำไมเครือข่ายประสาทถูกหลอกง่าย
ฉันได้อ่านเอกสารเกี่ยวกับการสร้างภาพด้วยตนเองเพื่อ "หลอก" เครือข่ายประสาท (ดูด้านล่าง) นี่เป็นเพราะเครือข่ายเป็นแบบจำลองความน่าจะเป็นแบบมีเงื่อนไขเท่านั้นหรือไม่? หากเครือข่ายสามารถจำลองความน่าจะเป็นแบบร่วมกรณีดังกล่าวจะยังคงเกิดขึ้นได้หรือไม่p ( y , x )p(y|x)p(y|x)p(y|x)p(y,x)p(y,x)p(y,x) ฉันเดาภาพที่สร้างขึ้นเทียมดังกล่าวมีความแตกต่างจากข้อมูลการฝึกอบรมเพื่อให้พวกเขามีความน่าจะเป็นที่ต่ำ(x) ดังนั้นควรต่ำแม้ว่าจะสูงสำหรับภาพเหล่านี้p ( y , x ) p ( y | x )p(x)p(x)p(x)p(y,x)p(y,x)p(y,x)p(y|x)p(y|x)p(y|x) ปรับปรุง ฉันลองแบบจำลองทั่วไปแล้วมันกลับกลายเป็นว่าไม่ได้มีประโยชน์ดังนั้นฉันเดาว่านี่น่าจะเป็นผลมาจาก MLE? ฉันหมายถึงในกรณีที่ KL divergence ถูกใช้เป็นฟังก์ชันการสูญเสียค่าของโดยที่มีขนาดเล็กไม่ส่งผลกระทบต่อการสูญเสีย ดังนั้นสำหรับอิมเมจที่วางแผนไว้ซึ่งไม่ตรงกับค่าของสามารถกำหนดเองได้p d a t a ( x ) p d a t a p θpθ(x)pθ(x)p_{\theta}(x)pdata(x)pdata(x)p_{data}(x)pdatapdatap_{data}pθpθp_{\theta} ปรับปรุง ฉันพบบล็อกของ Andrej Karpathy …

1
“ จบสิ้น” หมายความว่าอย่างไรในวิธีการเรียนรู้ลึก
ฉันต้องการรู้ว่ามันคืออะไรและมันแตกต่างจากการประกอบกันอย่างไร สมมติว่าฉันต้องการบรรลุความแม่นยำสูงในการจัดหมวดหมู่และการแบ่งเซ็กเมนต์สำหรับงานเฉพาะถ้าฉันใช้เครือข่ายที่แตกต่างกันเช่น CNN, RNN และอื่น ๆ เพื่อให้บรรลุสิ่งนี้เรียกว่าแบบ end to end model หรือไม่? (สถาปัตยกรรม?) หรือไม่?

1
เทคนิคการเสริมข้อมูลที่มีประโยชน์สำหรับเครือข่ายประสาทเทียมระดับลึกคืออะไร?
พื้นหลัง: ฉันเพิ่งเข้าใจในระดับลึกถึงความสำคัญของการเสริมข้อมูลเมื่อการฝึกอบรมเครือข่ายประสาทสับสนหลังจากที่ได้เห็นการพูดคุยที่ดีเยี่ยมนี้โดยเจฟฟรีย์ฮินตัน เขาอธิบายว่าโครงข่ายประสาทเทียมแบบยุคปัจจุบันไม่สามารถสรุปกรอบการอ้างอิงของวัตถุภายใต้การทดสอบทำให้ยากสำหรับเครือข่ายที่จะเข้าใจอย่างแท้จริงว่าภาพสะท้อนของวัตถุนั้นเหมือนกัน งานวิจัยบางชิ้นพยายามแก้ไขสิ่งนี้ นี่คือหนึ่งในตัวอย่างมากมาย ฉันคิดว่าสิ่งนี้ช่วยในการกำหนดวิธีการเพิ่มข้อมูลที่สำคัญในวันนี้เมื่อฝึกอบรมเครือข่ายประสาทเทียม เทคนิคการเสริมข้อมูลมักจะไม่ได้ทำการเปรียบเทียบกัน ดังนั้น: คำถาม: มีเอกสารอะไรบ้างที่ผู้ปฏิบัติงานรายงานว่ามีประสิทธิภาพดีขึ้นเป็นพิเศษ เทคนิคการเสริมข้อมูลที่คุณพบว่ามีประโยชน์อะไรบ้าง?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.