สถิติและข้อมูลขนาดใหญ่ deep-learning

4

จะอธิบายการทำให้เป็นมาตรฐานของการออกกลางคันในศัพท์ง่ายๆได้อย่างไร?

หากคุณมีครึ่งหน้าเพื่ออธิบายการออกกลางคันคุณจะดำเนินการอย่างไร เหตุผลใดที่อยู่เบื้องหลังเทคนิคนี้

17 neural-networks deep-learning regularization dropout

4

เป็นไปได้หรือไม่ที่จะให้ภาพที่มีขนาดต่างกันเป็นข้อมูลเข้าสู่โครงข่ายประสาทเทียม?

เราสามารถให้ภาพที่มีขนาดตัวแปรเป็นอินพุตสำหรับเครือข่ายประสาทเทียมสำหรับการตรวจจับวัตถุได้หรือไม่? ถ้าเป็นไปได้เราจะทำอย่างไร แต่ถ้าเราพยายามที่จะครอบตัดภาพเราจะสูญเสียบางส่วนของภาพและถ้าเราพยายามที่จะปรับขนาดแล้วความคมชัดของภาพจะหายไป หมายความว่าการใช้คุณสมบัติเครือข่ายโดยธรรมชาติดีที่สุดถ้าความคมชัดของภาพเป็นประเด็นหลักในการพิจารณา?

17 deep-learning tensorflow keras computer-vision object-detection

2

กรณีการใช้งานที่ทันสมัยของเครื่องจักร Boltzmann ที่ จำกัด (RBM's)?

ความเป็นมา:งานวิจัยสมัยใหม่จำนวนมากในช่วง 4 ปีที่ผ่านมา (โพสต์เล็กซ์เน็ต ) ดูเหมือนว่าจะไม่ได้ใช้การเตรียมการล่วงหน้าสำหรับเครือข่ายประสาทเทียมเพื่อให้ได้ผลลัพธ์การจำแนกประเภทที่ทันสมัย ตัวอย่างเช่นผลลัพธ์อันดับต้น ๆ สำหรับผู้ที่จำไม่ได้ที่นี่มีเพียง 2 เอกสารจาก 50 อันดับแรกที่ดูเหมือนว่าจะใช้แบบจำลองกำเนิดซึ่งทั้งสองเป็น RBM เอกสารที่ได้รับรางวัลอีก 48 ฉบับเกี่ยวกับสถาปัตยกรรมการส่งต่อการเลือกปฏิบัติที่แตกต่างกันด้วยความพยายามอย่างมากในการค้นหาการเริ่มต้นน้ำหนักที่ดีขึ้น / แปลกใหม่และฟังก์ชั่นการเปิดใช้งานที่แตกต่างจาก sigmoid ที่ใช้ใน RBM คำถาม:มีเหตุผลที่ทันสมัยในการใช้เครื่อง Boltzmann ที่ จำกัด อีกต่อไปหรือไม่? หากไม่มีมีการดัดแปลงตามความเป็นจริงที่สามารถนำไปใช้กับสถาปัตยกรรมการส่งต่อฟีดเหล่านี้เพื่อสร้างเลเยอร์ใด ๆ แรงจูงใจ:ฉันถามเพราะบางรุ่นที่ฉันเห็นมีให้ใช้งานโดยปกติจะเป็นรุ่นต่าง ๆ ใน RBM ไม่จำเป็นต้องมีคู่ที่แยกแยะความแตกต่างแบบอะนาล็อกที่ชัดเจนกับเลเยอร์ / โมเดลเชิงกำเนิดเหล่านี้และวีซ่าในทางกลับกัน ตัวอย่างเช่น: mcRBM ssRBM CRBM (แม้ว่าใครจะเถียง CNN ที่ใช้ฟีดไปข้างหน้าสถาปัตยกรรมคือสถาปัตยกรรมแบบอะนาล็อกที่เลือกปฏิบัติ) นอกจากนี้สิ่งเหล่านี้ก็ชัดเจนก่อน alexnet เช่นกันจาก 2010, 2011 และ 2009 …

16 references deep-learning rbm generative-models

1

จำนวนแผนที่คุณลักษณะในเครือข่ายประสาทเทียม

เมื่อเรียนรู้โครงข่ายประสาทเทียมฉันมีคำถามเกี่ยวกับรูปต่อไปนี้ 1) C1 ในเลเยอร์ 1 มีแผนที่คุณลักษณะ 6 รูปแบบนั่นหมายความว่ามีเมล็ดหก convolutional หรือไม่? เคอร์เนล Convolutional แต่ละตัวใช้ในการสร้างแผนที่คุณลักษณะตามอินพุต 2) S1 ในเลเยอร์ 2 มี 6 แผนที่คุณลักษณะ, C2 มี 16 คุณสมบัติแผนที่ กระบวนการดูเหมือนจะได้รับแผนที่คุณลักษณะทั้ง 16 เหล่านี้จากแผนที่คุณลักษณะ 6 แห่งใน S1 หรือไม่

16 machine-learning neural-networks deep-learning pattern-recognition conv-neural-network

3

ขั้นตอนการบิดในเครือข่ายประสาทเทียมทำอะไร

ฉันกำลังศึกษาโครงข่ายประสาทเทียม (CNNs) เนื่องจากการใช้งานในคอมพิวเตอร์วิสัยทัศน์ ฉันคุ้นเคยกับเครือข่ายประสาทฟีดมาตรฐานแล้วฉันหวังว่าบางคนที่นี่สามารถช่วยฉันในการทำความเข้าใจกับ CNN นี่คือสิ่งที่ฉันคิดเกี่ยวกับซีเอ็นเอ็น: ใน feed-foward NNs แบบดั้งเดิมเรามีข้อมูลการฝึกอบรมที่แต่ละองค์ประกอบประกอบด้วยเวกเตอร์ฟีเจอร์ที่เราใส่เข้าไปใน NN ใน "เลเยอร์อินพุต" ดังนั้นด้วยการรับรู้ภาพเราสามารถมีแต่ละพิกเซลเป็นหนึ่งอินพุต นี่คือคุณสมบัติเวกเตอร์ของเรา หรืออีกวิธีหนึ่งเราสามารถสร้างเวกเตอร์คุณลักษณะอื่น ๆ ที่มีขนาดเล็กกว่าด้วยตนเอง ข้อดีของ CNN คือมันสามารถสร้างเวกเตอร์ฟีเจอร์ที่แข็งแกร่งกว่าซึ่งไม่แปรเปลี่ยนภาพและตำแหน่ง ตามภาพต่อไปนี้แสดงให้เห็นว่า (จากบทช่วยสอนนี้ ) ซีเอ็นเอ็นสร้างแผนที่คุณลักษณะที่ป้อนเข้าสู่เครือข่ายประสาทเทียมมาตรฐาน (จริงๆแล้วมันเป็นขั้นตอนก่อนประมวลผลขนาดใหญ่) วิธีที่เราได้คุณสมบัติเหล่านั้น "ดีกว่า" คือการสลับการแปลงตัวอย่างและการสุ่มตัวอย่าง ฉันเข้าใจว่าการสุ่มตัวอย่างย่อยทำงานอย่างไร สำหรับแผนที่คุณลักษณะแต่ละอันใช้เวลาเพียงเซตย่อยของพิกเซลหรือเราสามารถหาค่าเฉลี่ยของพิกเซล แต่สิ่งที่ฉันสับสนเป็นหลักคือวิธีการทำงานของขั้นตอนการโน้มน้าวใจ ฉันคุ้นเคยกับการโน้มน้าวใจจากทฤษฎีความน่าจะเป็น (ความหนาแน่นสำหรับผลรวมของตัวแปรสุ่มสองตัว) แต่พวกเขาทำงานใน CNN ได้อย่างไรและทำไมพวกเขาถึงมีประสิทธิภาพ คำถามของฉันคล้ายกับคำถามนี้แต่โดยเฉพาะอย่างยิ่งฉันไม่แน่ใจว่าทำไมขั้นตอนการแปลงข้อความแรกจึงใช้งานได้

16 neural-networks deep-learning conv-neural-network convolution

1

อะไรคือความสำคัญของจำนวนตัวกรองการสนทนาในเครือข่ายแบบ Convolutional

จำนวนของฟิลเตอร์ในชั้นของสังวัตนาถ่ายทอดอย่างไร ตัวเลขนี้มีผลต่อประสิทธิภาพหรือคุณภาพของสถาปัตยกรรมอย่างไร ฉันหมายความว่าเราควรเลือกใช้ตัวกรองจำนวนมากขึ้นหรือไม่ สิ่งที่ดีของพวกเขา? และผู้คนกำหนดจำนวนตัวกรองต่างกันสำหรับเลเยอร์ต่างกันได้อย่างไร ฉันหมายถึงการดูคำถามนี้: วิธีการกำหนดจำนวนผู้ประกอบการ convolutional ใน CNN? คำตอบที่ระบุเลเยอร์ 3 convolution ที่มีจำนวนฟิลเตอร์และขนาดต่างกันอีกครั้งในคำถามนี้: จำนวนแผนที่คุณลักษณะในโครงข่ายประสาทเทียม คุณสามารถดูได้จากภาพที่เรามีตัวกรอง 28 * 28 * 6 สำหรับชั้นแรกและตัวกรอง 10 * 10 * 16 สำหรับชั้นที่สอง พวกเขามากับตัวเลขเหล่านี้ได้อย่างไรนี่ผ่านการลองผิดลองถูกไหม? ขอบคุณล่วงหน้า

16 deep-learning conv-neural-network

2

คำอธิบายของ Spikes ในการสูญเสียการฝึกอบรมเทียบกับการทำซ้ำกับ Adam Optimizer

ฉันกำลังฝึกอบรมโครงข่ายประสาทเทียมโดยใช้ i) SGD และ ii) เครื่องมือเพิ่มประสิทธิภาพอดัม เมื่อใช้งานปกติ SGD ฉันจะได้รับการสูญเสียการฝึกอบรมที่ราบรื่นเมื่อเทียบกับเส้นโค้งการวนซ้ำตามที่เห็นด้านล่าง อย่างไรก็ตามเมื่อฉันใช้ Adam Optimizer กราฟการสูญเสียการฝึกอบรมมีหนามแหลมบางอย่าง อะไรคือคำอธิบายของเดือยแหลมเหล่านี้? รายละเอียดรูปแบบ: 14 input nodes -> 2 layer ที่ซ่อนอยู่ (100 -> 40 units) -> 4 output units ฉันกำลังใช้พารามิเตอร์เริ่มต้นสำหรับอดัมbeta_1 = 0.9, beta_2 = 0.999, และepsilon = 1e-8batch_size = 32 i) กับ SGD ii) กับอดัม

16 neural-networks deep-learning adam

1

ความยาวของลำดับที่เป็นไปได้สำหรับ RNN ถึงรุ่นคืออะไร

ฉันกำลังมองหาการใช้ LSTM ( หน่วยความจำระยะสั้นระยะยาว ) ของเครือข่ายประสาทกำเริบ (RNN) สำหรับการสร้างแบบจำลองข้อมูลชุดเวลา เมื่อความยาวของข้อมูลเพิ่มขึ้นความซับซ้อนของเครือข่ายจะเพิ่มขึ้น ดังนั้นฉันจึงสงสัยว่าจะมีความยาวของลำดับอย่างไรกับโมเดลที่มีความแม่นยำดี ฉันต้องการใช้ LSTM รุ่นที่ค่อนข้างเรียบง่ายโดยไม่ยากที่จะใช้วิธีการที่ทันสมัย การสังเกตการณ์แต่ละครั้งใน Timeseries ของฉันมีตัวแปรตัวเลข 4 ตัวและจำนวนการสังเกตจะอยู่ที่ประมาณ 100,000 ถึง 1.000.000

15 neural-networks deep-learning lstm

4

เครือข่ายประสาทเทียมคืออะไร *

เมื่อเราเจาะลึกลงไปในวรรณกรรมของNeural Networksเราจะหาวิธีอื่น ๆ ด้วยโทโพโลยีของนิวโรมอร์ฟิค (สถาปัตยกรรมแบบ "Neural-Network") และฉันไม่ได้พูดคุยเกี่ยวกับยูนิเวอร์แซประมาณทฤษฎีบท ตัวอย่างได้รับด้านล่าง จากนั้นมันทำให้ฉันสงสัยว่า: อะไรคือความหมายของเครือข่ายประสาทเทียม? โทโพโลยีของมันดูเหมือนจะครอบคลุมทุกอย่าง ตัวอย่าง: หนึ่งในการระบุตัวแรกที่เราทำคือระหว่าง PCA และ Linear Autoencoder ที่มีตุ้มน้ำหนักในตัวเข้ารหัสและตัวถอดรหัส นอกจากนี้ยังมีการระบุร่วมกันระหว่างตัวแบบเชิงเส้น (การถดถอยแบบโลจิสติกส์ในแบบพิเศษ) และแบบโครงข่ายประสาทเทียมโดยไม่มีเลเยอร์ที่ซ่อนอยู่และเลเยอร์เอาท์พุทเดี่ยว การระบุนี้เปิดหลายประตู ซีรี่ส์ฟูริเยร์และเทย์เลอร์? ANNs SVM ? ANN กระบวนการแบบเกาส์ ANN (พร้อมเลเยอร์ที่ซ่อนเดี่ยวพร้อมยูนิตที่ซ่อนไม่ จำกัด ) และเช่นเดียวกับที่ง่าย ๆ เราสามารถรวมเวอร์ชันปกติโดยพลการกับฟังก์ชั่นการสูญเสียพิเศษของอัลกอริทึมเหล่านี้ลงในกรอบโครงข่ายประสาทเทียม แต่ยิ่งเราขุดมากเท่าไหร่ ฉันเพิ่งเข้าสู่Deep Neural Decision Treesซึ่งทำให้การระบุสถาปัตยกรรม ANN ที่เฉพาะเจาะจงกับต้นไม้การตัดสินใจทำให้สามารถเรียนรู้สิ่งเหล่านี้ได้ด้วยวิธีการของ ANN (เช่นการไล่ระดับสีย้อนกลับของ Gradient Descent) จากนี้เราสามารถสร้างป่าสุ่มและต้นไม้ตัดสินใจเพิ่มไล่โทนสีจากทอพอโลยีโครงข่ายประสาทเทียมเพียงอย่างเดียว หากทุกอย่างสามารถแสดงเป็นโครงข่ายใยประสาทเทียมอะไรคือตัวกำหนดเครือข่ายประสาทเทียม

15 machine-learning neural-networks deep-learning unsupervised-learning supervised-learning

2

โครงข่ายประสาทเทียมเทียบกับทุกอย่างอื่น

ฉันไม่ได้พบคำตอบที่น่าพอใจนี้จากGoogle แน่นอนถ้าข้อมูลที่ฉันมีนั้นเป็นของคำสั่งซื้อหลายล้านรายการการเรียนรู้อย่างลึกซึ้งเป็นวิธี และฉันได้อ่านว่าเมื่อฉันไม่มีข้อมูลขนาดใหญ่แล้วอาจเป็นการดีกว่าถ้าใช้วิธีอื่นในการเรียนรู้ของเครื่อง เหตุผลที่ได้รับคือความพอดี การเรียนรู้ของเครื่อง: เช่นการดูข้อมูลการแยกคุณลักษณะการสร้างฟีเจอร์ใหม่จากสิ่งที่รวบรวม ฯลฯ สิ่งต่าง ๆ เช่นการลบตัวแปรที่มีความสัมพันธ์สูง ฯลฯ การเรียนรู้ของเครื่องทั้งหมด 9 หลา และฉันสงสัยว่า: ทำไมเครือข่ายประสาทที่มีเลเยอร์ที่ซ่อนอยู่หนึ่งชั้นนั้นไม่ใช่ยาครอบจักรวาลเพื่อแก้ไขปัญหาการเรียนรู้ของเครื่อง? พวกมันคือตัวประมาณสากลการจัดการที่มากเกินไปสามารถจัดการได้ด้วย dropout, l2 normalization, l1 normalization, batch-normalization ความเร็วการฝึกอบรมไม่ใช่ปัญหาถ้าเรามีตัวอย่างการฝึกอบรมเพียง 50,000 ตัวอย่าง เวลาทดสอบดีกว่าให้เราบอกว่าป่าสุ่ม ดังนั้นทำไมไม่ - ทำความสะอาดข้อมูล, กำหนดค่าที่หายไปตามปกติ, จัดทำข้อมูล, จัดทำมาตรฐานข้อมูล, โยนมันไปยังเครือข่ายประสาทเทียมโดยใช้เลเยอร์ที่ซ่อนอยู่หนึ่งชั้นและใช้การทำให้เป็นมาตรฐานจนกว่าคุณจะเห็นว่า พวกเขาไปยังจุดสิ้นสุด ไม่มีปัญหาเรื่องการไล่ระดับสีหรือการไล่ระดับสีหายไปเนื่องจากเป็นเพียงเครือข่าย 2 ชั้น หากต้องการเลเยอร์ลึกนั่นหมายความว่าจะต้องเรียนรู้คุณลักษณะแบบลำดับชั้นและอัลกอริธึมการเรียนรู้ของเครื่องอื่นก็ไม่ดีเช่นกัน ตัวอย่างเช่น SVM เป็นเครือข่ายประสาทเทียมที่มีการสูญเสียบานพับเท่านั้น ตัวอย่างที่บางอัลกอริทึมการเรียนรู้ของเครื่องอื่นจะมีประสิทธิภาพสูงกว่าเครือข่ายนิวรัล 2 ชั้น (อาจจะ 3? คุณสามารถให้ลิงค์กับปัญหาและฉันจะฝึกอบรมโครงข่ายประสาทเทียมที่ดีที่สุดที่ฉันสามารถทำได้และเราสามารถดูได้ว่าเครือข่ายประสาท 2 ชั้นหรือ …

15 regression machine-learning classification neural-networks deep-learning

2

เหตุใดการคาดการณ์ของอนุกรมเวลาจึง“ แย่มาก”

ฉันพยายามเรียนรู้วิธีใช้ Neural Networks ฉันกำลังอ่านบทช่วยสอนนี้ หลังจากติดตั้งโครงข่ายประสาทในอนุกรมเวลาโดยใช้ค่าที่เพื่อทำนายค่าที่t + 1ผู้เขียนได้รับพล็อตต่อไปนี้โดยที่เส้นสีฟ้าคืออนุกรมเวลาสีเขียวคือการทำนายข้อมูลรถไฟสีแดงคือ การคาดการณ์ข้อมูลการทดสอบ (เขาใช้การทดสอบรถไฟแบบแยก)เสื้อเสื้อtt + 1เสื้อ+1t+1 และเรียกมันว่า "เราจะเห็นว่าแบบจำลองนั้นทำงานได้ค่อนข้างแย่ในการปรับทั้งชุดฝึกอบรมและชุดทดสอบ เสื้อเสื้อtt - 1เสื้อ-1t-1t - 2เสื้อ-2t-2t + 1เสื้อ+1t+1 และพูดว่า "เมื่อมองที่กราฟเราจะเห็นโครงสร้างเพิ่มเติมในการทำนาย" คำถามของฉัน ทำไมคนยากจนคนแรก? มันเกือบจะสมบูรณ์แบบสำหรับฉันมันทำนายการเปลี่ยนแปลงทุกอย่างสมบูรณ์แบบ และในทำนองเดียวกันทำไมอันดับสองถึงดีกว่า? "โครงสร้าง" อยู่ที่ไหน สำหรับฉันมันดูด้อยกว่าครั้งแรกมาก โดยทั่วไปการคาดการณ์ของซีรีย์เวลาจะดีและเมื่อไร

15 time-series neural-networks predictive-models deep-learning prediction

3

จำนวนเลเยอร์ขั้นต่ำในเครือข่ายประสาทลึก

เราจะเริ่มจำแนกประเภทเครือข่ายประสาทหลายชั้นเป็นเครือข่ายประสาทลึกหรือในอีกทางหนึ่ง 'จำนวนชั้นต่ำสุดในเครือข่ายประสาทลึกคืออะไร'

15 machine-learning neural-networks deep-learning terminology

4

คุณต้องการข้อมูลเท่าไหร่สำหรับเครือข่ายประสาทเทียม?

หากฉันมีโครงข่ายประสาทเทียม (CNN) ซึ่งมีพารามิเตอร์ประมาณ 1,000,000 พารามิเตอร์จำเป็นต้องใช้ข้อมูลการฝึกอบรมจำนวนเท่าใด (สมมติว่าฉันกำลังทำโคตรลาดแบบสุ่ม) มีกฎง่ายๆไหม? หมายเหตุเพิ่มเติม: เมื่อฉันทำ stochastic gradient descent (เช่น 64 patch สำหรับ 1 การวนซ้ำ) หลังจาก ~ 10,000 iterations ความแม่นยำของตัวจําแนกสามารถเข้าถึงค่าคงที่หยาบ) นี่หมายถึงไม่จำเป็นต้องใช้ข้อมูลจำนวนมาก? เช่นเดียวกับข้อมูล 100k-1,000k

15 machine-learning neural-networks deep-learning conv-neural-network

1

CNN หลีกเลี่ยงปัญหาการไล่ระดับสีที่หายไปได้อย่างไร

ฉันอ่านมากเกี่ยวกับเครือข่ายประสาทการสนทนาและสงสัยว่าพวกเขาจะหลีกเลี่ยงปัญหาการไล่ระดับสีที่หายไปได้อย่างไร ฉันรู้ว่าเครือข่ายที่มีความเชื่อลึกนั้นมีกองเข้ารหัสอัตโนมัติระดับเดียวหรือเครือข่ายตื้น ๆ ที่ผ่านการฝึกอบรมล่วงหน้าและสามารถหลีกเลี่ยงปัญหานี้ได้ แต่ฉันไม่รู้ว่ามันจะหลีกเลี่ยงได้อย่างไรใน CNNs ตามที่Wikipedia : แม้จะมีปัญหาการไล่ระดับสีที่หายไป แต่พลังการประมวลผลที่เหนือกว่าของ GPU ทำให้การเผยแพร่กลับเป็นไปได้อย่างง่ายดายสำหรับเครือข่ายประสาทที่มีการป้อนลึกแบบหลายชั้น ฉันไม่เข้าใจว่าทำไมการประมวลผล GPU จะลบปัญหานี้หรือไม่

15 machine-learning optimization deep-learning gradient-descent

2

ข้อผิดพลาด Bayes คืออะไรในการเรียนรู้ของเครื่อง?

http://www.deeplearningbook.org/contents/ml.htmlหน้า 116 อธิบายข้อผิดพลาดของ Bayes ดังต่อไปนี้ โมเดลอุดมคติคือ oracle ที่รู้การกระจายความน่าจะเป็นจริงที่สร้างข้อมูล แม้รูปแบบดังกล่าวจะยังคงเกิดข้อผิดพลาดในปัญหามากมายเนื่องจากอาจมีสัญญาณรบกวนในการกระจาย ในกรณีของการเรียนรู้ภายใต้การดูแลการทำแผนที่จาก x ถึง y อาจจะสุ่มโดยเนื้อแท้หรือ y อาจเป็นฟังก์ชันที่กำหนดขึ้นซึ่งเกี่ยวข้องกับตัวแปรอื่นนอกเหนือจากที่รวมอยู่ใน x ข้อผิดพลาดที่เกิดขึ้นจากการพยากรณ์ทำนายจากการแจกแจงจริง p (x, y) เรียกว่าข้อผิดพลาด Bayes คำถาม โปรดอธิบายข้อผิดพลาด Bayes อย่างสังหรณ์ใจ? แตกต่างจากข้อผิดพลาดลดลงไม่ได้อย่างไร ฉันจะพูดว่า error error = Bias + Variance + Bayes ได้ไหม? ความหมายของ "y อาจเป็นแบบสุ่มโดยเนื้อแท้" คืออะไร?

15 machine-learning deep-learning terminology

คำถามติดแท็ก deep-learning