คำถามติดแท็ก deep-learning

พื้นที่ของการเรียนรู้ของเครื่องที่เกี่ยวข้องกับการเรียนรู้การเป็นตัวแทนของข้อมูลแบบลำดับชั้นส่วนใหญ่ทำกับเครือข่ายประสาทลึก

6
ทฤษฎีหลักในการเรียนรู้ของเครื่อง (Deep) คืออะไร
เมื่อไม่นานมานี้ Al Rahimi ได้พูดคุยที่เร้าใจมากใน NIPS 2017 เมื่อเปรียบเทียบการเรียนรู้ของเครื่องกับ Alchemy หนึ่งในข้ออ้างของเขาคือเราต้องกลับไปสู่การพัฒนาเชิงทฤษฎีเพื่อให้ทฤษฎีบทง่าย ๆ พิสูจน์ผลลัพธ์พื้นฐาน เมื่อเขาบอกว่าฉันเริ่มมองหาทฤษฎีบทหลักของ ML แต่ไม่สามารถหาการอ้างอิงที่ดีที่เข้าใจถึงผลลัพธ์หลักได้ ดังนั้นนี่คือคำถามของฉัน: อะไรคือทฤษฎีบททางคณิตศาสตร์หลักปัจจุบัน (ทฤษฎี) ใน ML / DL และพวกเขาพิสูจน์อะไร ฉันเดาว่างานของ Vapnik จะไปที่ไหนสักแห่งที่นี่ ปัญหาพิเศษที่เปิดกว้างทางทฤษฎีคืออะไร

4
เมล็ดถูกนำไปใช้กับแผนที่คุณลักษณะเพื่อสร้างแผนที่คุณลักษณะอื่น ๆ อย่างไร
ฉันพยายามที่จะทำความเข้าใจกับส่วนต่าง ๆ ของโครงข่ายประสาทเทียม ดูรูปต่อไปนี้: ฉันไม่มีปัญหาในการทำความเข้าใจกับชั้นแรกของการบิดที่เรามีเมล็ดที่แตกต่างกัน 4 ขนาด (ขนาด ) ซึ่งเราได้ทำการเชื่อมต่อกับภาพอินพุตเพื่อรับแผนที่คุณลักษณะ 4 แบบk × kk×kk \times k สิ่งที่ฉันไม่เข้าใจคือเลเยอร์ convolution ถัดไปซึ่งเราไปจาก 4 ฟีเจอร์แมปถึง 6 ฟีเจอร์แมป ฉันคิดว่าเรามี 6 เมล็ดในเลเยอร์นี้ (ดังนั้นให้แผนที่คุณลักษณะเอาต์พุต 6 รายการ) แต่เมล็ดเหล่านี้ทำงานบนแผนที่คุณลักษณะ 4 รายการที่แสดงใน C1 ได้อย่างไร เมล็ดเป็นแบบสามมิติหรือเป็นแบบสองมิติและทำซ้ำในแผนที่คุณลักษณะอินพุต 4 ตัวหรือไม่

7
การอ้างอิงเครือข่ายนิวรัล (ตำรา, หลักสูตรออนไลน์) สำหรับผู้เริ่มต้น
ฉันต้องการเรียนรู้โครงข่ายประสาท ฉันเป็นนักภาษาศาสตร์คอมพิวเตอร์ ฉันรู้วิธีการเรียนรู้ด้วยเครื่องเชิงสถิติและสามารถเขียนโค้ดใน Python ได้ ฉันกำลังมองหาที่จะเริ่มต้นด้วยแนวคิดของมันและรู้ว่าหนึ่งหรือสองรูปแบบที่นิยมซึ่งอาจเป็นประโยชน์จากมุมมองของภาษาศาสตร์เชิงคำนวณ ฉันเรียกดูเว็บเพื่อการอ้างอิงและพบหนังสือและเอกสารสองสามฉบับ Ripley, Brian D. (1996) การจดจำรูปแบบและ Neural Networks, Cambridge บิชอปซม. (2538) เครือข่ายประสาทรับรู้รูปแบบออกซ์ฟอร์ด: สำนักพิมพ์มหาวิทยาลัยออกซ์ฟอร์ด เชื่อมโยงบางอย่างเช่นวิทยานิพนธ์ฉบับนี้ , เหล่านี้บันทึกหลักสูตร (มหาวิทยาลัยโตรอนโตจิตวิทยากรม) เหล่านี้บันทึกหลักสูตร (มหาวิทยาลัยวิสคอนซินวิทยาการคอมพิวเตอร์) และสไลด์โชว์ (การวิจัย Facebook) โดยทั่วไปแล้วหลักสูตร Coursera นั้นดีถ้ามีใครรู้อะไรที่เกี่ยวข้องกับพวกเขา ฉันชอบวัสดุที่มีภาษาที่ชัดเจนและเป็นตัวอย่างที่กว้างขวาง

6
ความสำคัญของการฟื้นฟูท้องถิ่นใน CNN
ฉันพบว่า Imagenet และ CNN ขนาดใหญ่อื่น ๆ ใช้ประโยชน์จากเลเยอร์การทำให้เป็นมาตรฐานการตอบสนองในท้องถิ่น อย่างไรก็ตามฉันไม่พบข้อมูลมากมายเกี่ยวกับพวกเขา มีความสำคัญเพียงใดและควรใช้เมื่อใด จากhttp://caffe.berkeleyvision.org/tutorial/layers.html#data-layers : "เลเยอร์การปรับสภาพการตอบสนองแบบโลคอลดำเนินการ“ การยับยั้งด้านข้าง” โดยการทำให้เป็นมาตรฐานในพื้นที่อินพุตท้องถิ่นในโหมด ACROSS_CHANNELS ภูมิภาคภายในจะขยายผ่านช่องทางใกล้เคียง แต่ไม่มีขอบเขตเชิงพื้นที่ (เช่นมีรูปร่างเป็น local_size x 1 x 1) ในโหมด WITHIN_CHANNEL ภูมิภาคท้องถิ่นจะขยายพื้นที่ออกไป แต่อยู่ในช่องแยก (เช่นพวกเขามีรูปร่าง 1 x local_size x local_size) แต่ละค่าอินพุตจะถูกหารด้วย (1+ (α / n) ∑ix2i) βโดยที่ n คือขนาดของแต่ละพื้นที่ท้องถิ่นและผลรวมจะถูกยึดเหนือพื้นที่ที่อยู่กึ่งกลางที่ค่านั้น (เพิ่มการเติมศูนย์เป็นศูนย์หากจำเป็น) " แก้ไข: ดูเหมือนว่าชั้นเหล่านี้มีผลกระทบน้อยที่สุดและไม่ได้ใช้อีกต่อไป โดยทั่วไปบทบาทของพวกเขาได้รับการ outplayed โดยเทคนิคการทำให้เป็นมาตรฐานอื่น ๆ …

4
ฟังก์ชันการเปิดใช้งาน rectilinear ช่วยแก้ปัญหาการไล่ระดับสีที่หายไปในเครือข่ายประสาทได้อย่างไร
ฉันพบหน่วยการเชิงเส้นที่ถูกต้อง (ReLU) ยกย่องในหลาย ๆ ที่เพื่อแก้ปัญหาการไล่ระดับสีที่หายไปสำหรับเครือข่ายประสาท นั่นคือหนึ่งใช้สูงสุด (0, x) เป็นฟังก์ชั่นการเปิดใช้งาน เมื่อการเปิดใช้งานเป็นบวกจะเห็นได้ชัดว่านี่เป็นสิ่งที่ดีกว่าพูดว่าฟังก์ชั่นการเปิดใช้งาน sigmoid เนื่องจากการสืบทอดมาเป็น 1 เสมอแทนที่จะเป็นค่าเล็ก ๆ โดยพลการสำหรับ x ขนาดใหญ่ ในทางกลับกันการได้มานั้นคือ 0 เมื่อ x น้อยกว่า 0 ในกรณีที่แย่ที่สุดเมื่อหน่วยไม่เคยถูกเปิดใช้งานน้ำหนักของหน่วยนี้จะไม่เปลี่ยนแปลงอีกต่อไปและหน่วยจะไม่มีประโยชน์ตลอดไป - ซึ่งดูเหมือนว่า เลวร้ายยิ่งกว่าการไล่ระดับสีขนาดเล็กที่หายไปมาก อัลกอริทึมการเรียนรู้จะจัดการกับปัญหานั้นอย่างไรเมื่อพวกเขาใช้ ReLU

3
แนวทางในการเลือกพารามิเตอร์ในการเรียนรู้ลึก
ฉันกำลังมองหากระดาษที่สามารถช่วยในการให้แนวทางเกี่ยวกับวิธีการเลือกไฮเปอร์พารามิเตอร์ของสถาปัตยกรรมลึกเช่นตัวเข้ารหัสอัตโนมัติแบบเรียงซ้อนหรือเครือข่ายที่เชื่ออย่างลึกซึ้ง มีพารามิเตอร์หลายตัวและฉันสับสนมากเกี่ยวกับวิธีเลือกพวกเขา การใช้การตรวจสอบข้ามไม่ได้เป็นตัวเลือกเนื่องจากการฝึกอบรมใช้เวลานานมาก!

7
ทำไมการทำให้เป็นมาตรฐานไม่สามารถแก้ปัญหาความหิวโหยของโครงข่ายประสาทได้
ปัญหาที่ฉันเห็นบ่อยขึ้นในบริบทของเครือข่ายประสาททั่วไปและโดยเฉพาะอย่างยิ่งเครือข่ายประสาทลึกคือพวกเขากำลัง "หิวข้อมูล" - นั่นคือพวกเขาทำงานได้ไม่ดียกเว้นว่าเรามีชุดข้อมูลขนาดใหญ่ ที่จะฝึกอบรมเครือข่าย ความเข้าใจของฉันคือว่านี่เป็นเพราะความจริงที่ว่า NNets โดยเฉพาะอย่างยิ่ง NNets ลึกมีระดับของเสรีภาพจำนวนมาก ดังนั้นในแบบจำลอง NNet จึงมีพารามิเตอร์จำนวนมากและหากจำนวนพารามิเตอร์ของแบบจำลองมีขนาดใหญ่เมื่อเทียบกับจำนวนจุดข้อมูลการฝึกอบรมมีแนวโน้มที่จะเพิ่มขึ้นพอดี แต่ทำไมปัญหานี้ถึงไม่ได้รับการแก้ไขโดยการทำให้เป็นมาตรฐาน เท่าที่ฉันรู้ NNets สามารถใช้การทำให้เป็นมาตรฐาน L1 และ L2 และยังมีวิธีการทำให้เป็นมาตรฐานของตนเองเช่นการออกกลางคันซึ่งสามารถลดจำนวนพารามิเตอร์ในเครือข่าย เราสามารถเลือกวิธีการทำให้เป็นมาตรฐานของเราเช่นที่พวกเขาบังคับใช้ parsimony และ จำกัด ขนาดของเครือข่ายได้หรือไม่? เพื่อชี้แจงความคิดของฉัน: สมมติว่าเรากำลังใช้ Deep NNet ขนาดใหญ่เพื่อพยายามสร้างแบบจำลองข้อมูลของเรา แต่ชุดข้อมูลมีขนาดเล็กและสามารถจำลองโดยโมเดลเชิงเส้นได้ แล้วทำไมน้ำหนักของเครือข่ายไม่มาบรรจบกันในลักษณะที่เซลล์ประสาทหนึ่งเลียนแบบการถดถอยเชิงเส้นและส่วนอื่น ๆ ทั้งหมดมารวมกันเป็นศูนย์ เหตุใดการทำให้เป็นมาตรฐานไม่ช่วยด้วยสิ่งนี้


4
ฉันควรทำอย่างไรเมื่อเครือข่ายประสาทของฉันไม่สามารถพูดคุยได้ดี
ฉันกำลังฝึกอบรมโครงข่ายประสาทและการสูญเสียการฝึกอบรมลดลง แต่การสูญเสียการตรวจสอบไม่ได้หรือลดลงน้อยกว่าที่ฉันคาดไว้มากขึ้นอยู่กับการอ้างอิงหรือการทดลองกับสถาปัตยกรรมและข้อมูลที่คล้ายคลึงกันมาก ฉันจะแก้ไขสิ่งนี้ได้อย่างไร สำหรับคำถาม ฉันควรทำอย่างไรเมื่อเครือข่ายประสาทของฉันไม่ได้เรียนรู้ คำถามนี้ได้รับการดลใจคำถามก็คือจงใจทิ้งไว้โดยทั่วไปเพื่อให้คำถามอื่น ๆ เกี่ยวกับวิธีการลดความผิดพลาดในการวางนัยทั่วไปของโครงข่ายใยประสาทเทียมลงไปถึงระดับที่พิสูจน์แล้วว่าสามารถบรรลุได้ ดูเพิ่มเติมที่เธรดเฉพาะบน Meta: มีคำถามทั่วไปที่เราสามารถเปลี่ยนเส้นทางคำถามประเภท "ทำไมเครือข่ายประสาทของฉันถึงไม่พูดคุยได้ดี?"

3
มีการรวมกำไรเลเยอร์ก่อนหรือหลังเลเยอร์การออกกลางคันหรือไม่
ฉันกำลังสร้างโครงข่ายประสาทเทียม (CNN) ที่ฉันมีเลเยอร์คู่ตามด้วยชั้นรวมกำไรและฉันต้องการใช้การออกกลางคันเพื่อลดการล้น ฉันมีความรู้สึกเช่นนี้ว่าควรจะใช้เลเยอร์การออกกลางคันหลังจากเลเยอร์รวม แต่ฉันไม่มีอะไรที่จะสำรอง สถานที่ที่เหมาะสมในการเพิ่มเลเยอร์กลางคันคืออะไร ก่อนหรือหลังเลเยอร์ร่วมกัน?

4
ความแตกต่างระหว่างการเข้ารหัสแบบเบาบางและตัวเข้ารหัสอัตโนมัติคืออะไร
การเข้ารหัสแบบเบาบางหมายถึงการเรียนรู้ชุดเวกเตอร์พื้นฐานที่ครบวงจรเพื่อเป็นตัวแทนเวกเตอร์อินพุต (<- ทำไมเราต้องการสิ่งนี้) ความแตกต่างระหว่างการเข้ารหัสแบบเบาบางและตัวเข้ารหัสอัตโนมัติคืออะไร เมื่อใดที่เราจะใช้การเข้ารหัสแบบเบาบางและตัวเข้ารหัสอัตโนมัติ

3
ก่อนการฝึกอบรมในโครงข่ายประสาทเทียมแบบลึก?
มีใครเคยเห็นวรรณกรรมเกี่ยวกับการฝึกอบรมล่วงหน้าในโครงข่ายประสาทเทียมแบบลึกหรือไม่? ฉันเห็นเฉพาะการฝึกอบรมล่วงหน้าในเครื่องสร้างรหัสอัตโนมัติหรือเครื่องโบลต์แมนที่ จำกัด เท่านั้น

2
เหตุใดจึงไม่มีเครื่องมือการเรียนรู้การเสริมลึกสำหรับหมากรุกคล้ายกับ AlphaGo?
คอมพิวเตอร์มีเวลานานที่จะสามารถเล่นหมากรุกโดยใช้ "กำลังดุร้าย" - เทคนิคค้นหาความลึกระดับหนึ่งแล้วประเมินตำแหน่ง อย่างไรก็ตามคอมพิวเตอร์ AlphaGo ใช้ ANN เพื่อประเมินตำแหน่งเท่านั้น (มันไม่ทำการค้นหาเชิงลึกเท่าที่ฉันรู้) เป็นไปได้ไหมที่จะสร้างเอ็นจิ้นหมากรุกที่เล่นหมากรุกในแบบเดียวกับ AlphaGo เล่น Go? ทำไมไม่มีใครทำอย่างนี้? โปรแกรมนี้จะทำงานได้ดีกว่าโปรแกรมหมากรุกชั้นนำ (และผู้เล่นหมากรุก) ในปัจจุบันหรือไม่?

2
คำจำกัดความของ "แผนที่คุณลักษณะ" (aka "แผนที่เปิดใช้งาน") ในเครือข่ายประสาทเทียมคืออะไร
พื้นหลัง Intro ภายในเครือข่ายประสาทเทียมเรามักจะมีโครงสร้าง / การไหลทั่วไปที่มีลักษณะดังนี้: ภาพอินพุต (เช่นเวกเตอร์ 2D x) (เลเยอร์ Convolutional ที่ 1 (Conv1) เริ่มที่นี่ ... ) ตั้งค่าฟิลเตอร์ ( w1) ตามภาพ 2D (เช่นการz1 = w1*x + b1คูณผลิตภัณฑ์ดอท) ที่z13D และb1เป็นอคติ ใช้ฟังก์ชั่นการเปิดใช้งาน (เช่น ReLu) เพื่อสร้างแบบz1ไม่เป็นเชิงเส้น (เช่นa1 = ReLu(z1)) โดยที่a1เป็น 3D (เลเยอร์ Convolutional ที่สอง (Conv2) เริ่มที่นี่ ... ) โน้มน้าวชุดของตัวกรองตามการเปิดใช้งานที่คำนวณใหม่ (เช่นการz2 = w2*a1 + …

3
สร้างตัวเข้ารหัสอัตโนมัติใน Tensorflow เพื่อให้เกิน PCA
Hinton และ Salakhutdinov ในการลดมิติข้อมูลด้วย Neural Networks, Science 2006เสนอ PCA แบบไม่เชิงเส้นผ่านการใช้ autoencoder แบบลึก ฉันพยายามสร้างและฝึกอบรมโปรแกรมสร้างรหัสอัตโนมัติ PCA ด้วย Tensorflow หลายครั้ง แต่ฉันไม่เคยได้รับผลลัพธ์ที่ดีกว่า linear PCA ฉันจะฝึกอบรมตัวเข้ารหัสอัตโนมัติได้อย่างมีประสิทธิภาพได้อย่างไร (แก้ไขในภายหลังโดย @amoeba: เวอร์ชันเดิมของคำถามนี้มีรหัส Python Tensorflow ที่ทำงานไม่ถูกต้องสามารถพบได้ในประวัติการแก้ไข)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.