คำถามติดแท็ก deep-learning

พื้นที่ใหม่ของการเรียนรู้ของการเรียนรู้ด้วยเครื่องจักรที่เกี่ยวข้องกับเทคโนโลยีที่ใช้สำหรับการเรียนรู้การเป็นตัวแทนของข้อมูลแบบลำดับชั้นส่วนใหญ่ทำด้วยเครือข่ายนิวรัลลึก (เช่นเครือข่ายที่มีเลเยอร์ที่ซ่อนสองชั้นหรือมากกว่า)

5
ปัญหา“ ตาย ReLU” ในเครือข่ายประสาทคืออะไร?
อ้างอิงจากบันทึกของหลักสูตรสแตนฟอร์ดเกี่ยวกับเครือข่ายประสาทเทียมเพื่อการจดจำภาพย่อหน้าบอกว่า: "น่าเสียดายที่หน่วย ReLU นั้นบอบบางในระหว่างการฝึกและสามารถ" ตาย "ได้ตัวอย่างเช่นการไล่ระดับสีขนาดใหญ่ที่ไหลผ่านเซลล์ประสาท ReLU อาจทำให้น้ำหนักนั้นอัปเดตในลักษณะที่เซลล์ประสาทจะไม่เปิดใช้งานบน datapoint ใด ๆ อีก เกิดขึ้นแล้วการไล่ระดับสีที่ไหลผ่านหน่วยจะเป็นศูนย์จากจุดนั้นตลอดไปนั่นคือหน่วย ReLU สามารถตายอย่างไม่สามารถกลับคืนได้ในระหว่างการฝึกอบรมเนื่องจากพวกเขาสามารถชนกับข้อมูลได้มากมายตัวอย่างเช่นคุณอาจพบว่า 40 % ของเครือข่ายของคุณอาจเป็น "ตาย" (เช่นเซลล์ประสาทที่ไม่เคยเปิดใช้งานในชุดข้อมูลการฝึกอบรมทั้งหมด) หากอัตราการเรียนรู้สูงเกินไปหากตั้งค่าอัตราการเรียนรู้ที่เหมาะสมจะทำให้เกิดปัญหาน้อยลง " การตายของเซลล์ประสาทที่นี่หมายถึงอะไร คุณช่วยกรุณาอธิบายคำอธิบายที่เข้าใจง่ายด้วยคำศัพท์ที่ง่ายขึ้นได้ไหม

6
เมื่อใดที่จะใช้ GRU ผ่าน LSTM
แตกต่างที่สำคัญระหว่าง GRU และ LSTM เป็นที่ GRU มีสองประตู ( ตั้งค่าและการปรับปรุงประตู) ขณะที่ LSTM มีสามประตู (คือการป้อนข้อมูล , การส่งออกและลืมประตู) ทำไมเราใช้ประโยชน์จาก GRU เมื่อเราควบคุมเครือข่ายได้อย่างชัดเจนผ่านโมเดล LSTM (เนื่องจากเรามีสามประตู) ในสถานการณ์ใดที่ GRU ต้องการมากกว่า LSTM

8
การเลือกอัตราการเรียนรู้
ฉันกำลังทำงานเกี่ยวกับการใช้ Stochastic Gradient Descent SGDสำหรับอวนประสาทโดยใช้การขยายพันธุ์กลับและในขณะที่ฉันเข้าใจวัตถุประสงค์ของมันฉันมีคำถามเกี่ยวกับวิธีเลือกค่าสำหรับอัตราการเรียนรู้ อัตราการเรียนรู้ที่เกี่ยวข้องกับรูปร่างของการไล่ระดับสีผิดพลาดตามที่กำหนดอัตราการลดลงหรือไม่? ถ้าเป็นเช่นนั้นคุณจะใช้ข้อมูลนี้เพื่อแจ้งการตัดสินใจของคุณเกี่ยวกับคุณค่าอย่างไร หากไม่ใช่สิ่งที่ฉันควรเลือกค่าประเภทใดและฉันควรเลือกพวกเขาอย่างไร ดูเหมือนว่าคุณต้องการค่าเล็ก ๆ น้อย ๆ เพื่อหลีกเลี่ยงการแก้ไขปัญหา แต่คุณจะเลือกได้อย่างไรว่าคุณจะไม่ติดอยู่ใน minima ท้องถิ่นหรือใช้เวลานานในการสืบทอด มันสมเหตุสมผลหรือไม่ที่จะมีอัตราการเรียนรู้ที่คงที่หรือฉันควรใช้ตัวชี้วัดบางอย่างเพื่อเปลี่ยนค่าของมันเมื่อฉันเข้าใกล้การไล่ระดับสีน้อยที่สุด? กล่าวโดยย่อ: ฉันจะเลือกอัตราการเรียนรู้สำหรับ SGD ได้อย่างไร

15
คุณมองเห็นสถาปัตยกรรมเครือข่ายประสาทเทียมได้อย่างไร
เมื่อเขียนบทความ / นำเสนอเกี่ยวกับหัวข้อที่เกี่ยวกับโครงข่ายประสาทเทียมมักจะแสดงภาพสถาปัตยกรรมเครือข่าย อะไรคือวิธีที่ดี / ง่ายในการมองเห็นสถาปัตยกรรมทั่วไปโดยอัตโนมัติ

5
วิธีการวาดไดอะแกรมสถาปัตยกรรมเครือข่ายการเรียนรู้ระดับลึก
ฉันสร้างแบบจำลองของฉันแล้ว ตอนนี้ฉันต้องการวาดแผนภาพสถาปัตยกรรมเครือข่ายสำหรับงานวิจัยของฉัน ตัวอย่างที่แสดงด้านล่าง:

5
การทำนายอนุกรมเวลาโดยใช้ ARIMA กับ LSTM
ปัญหาที่ฉันจัดการคือการทำนายค่าอนุกรมเวลา ฉันกำลังดูซีรีส์ครั้งเดียวในแต่ละครั้งและตามตัวอย่างเช่น 15% ของข้อมูลอินพุตฉันต้องการทำนายค่าในอนาคต จนถึงตอนนี้ฉันเจอสองรุ่น: LSTM (หน่วยความจำระยะสั้นระยะยาวคลาสของเครือข่ายประสาทที่เกิดขึ้นอีก) ARIMA ฉันลองทั้งสองและอ่านบทความเกี่ยวกับพวกเขา ตอนนี้ฉันพยายามทำความเข้าใจให้ดีขึ้นเกี่ยวกับวิธีเปรียบเทียบทั้งสอง สิ่งที่ฉันได้พบจนถึง: LSTM ทำงานได้ดีขึ้นหากเราจัดการกับข้อมูลจำนวนมากและมีข้อมูลการฝึกอบรมเพียงพอในขณะที่ ARIMA จะดีกว่าสำหรับชุดข้อมูลขนาดเล็ก (ถูกต้องหรือไม่) ARIMA ต้องการชุดพารามิเตอร์(p,q,d)ที่ต้องคำนวณตามข้อมูลในขณะที่ LSTM ไม่ต้องการตั้งค่าพารามิเตอร์ดังกล่าว อย่างไรก็ตามมีพารามิเตอร์หลายอย่างที่เราต้องปรับแต่งสำหรับ LSTM แก้ไข:หนึ่งความแตกต่างที่สำคัญระหว่างสองที่ฉันสังเกตเห็นในขณะที่อ่านบทความที่ดีที่นี่คือ ARIMA สามารถทำงานได้ดีในซีรีส์เวลานิ่ง (ที่ไม่มีฤดูกาลแนวโน้มและอื่น ๆ ) และคุณต้องดูแลว่าถ้า ต้องการใช้ ARIMA นอกเหนือจากคุณสมบัติที่กล่าวถึงข้างต้นฉันไม่สามารถหาจุดหรือข้อเท็จจริงอื่นใดที่สามารถช่วยฉันเลือกรูปแบบที่ดีที่สุดได้ ฉันจะขอบคุณจริง ๆ ถ้ามีคนช่วยฉันค้นหาบทความเอกสารหรือสิ่งอื่น ๆ (ไม่มีโชคจนถึงตอนนี้มีเพียงความคิดเห็นทั่วไปบางส่วนที่นี่และที่นั่นและไม่มีอะไรจากการทดลอง) ฉันต้องพูดถึงว่าตอนแรกฉันกำลังจัดการกับข้อมูลสตรีมมิ่ง แต่ตอนนี้ฉันกำลังใช้ชุดข้อมูล NABซึ่งรวมถึง 50 ชุดข้อมูลที่มีขนาดสูงสุด 20k จุดข้อมูล

2
ควรใช้การเริ่มต้นปกติ (He หรือ Glorot) มากกว่าการเริ่มต้นสม่ำเสมอหรือไม่ และผลกระทบอะไรกับ Batch Normalization
ฉันรู้ว่าเครือข่ายที่เหลือ (ResNet) ทำให้เขาเริ่มต้นปกติเป็นที่นิยม ใน ResNet จะใช้การกำหนดค่าเริ่มต้นตามปกติขณะที่ชั้นแรกใช้การกำหนดค่าเริ่มต้นที่สม่ำเสมอ ฉันได้ดูกระดาษ ResNet และกระดาษ "Delving Deep to Rectifiers" (เขาเริ่มต้นกระดาษ) แต่ฉันไม่พบพูดถึงเกี่ยวกับ init ปกติกับชุด init นอกจากนี้: การทำให้เป็นมาตรฐานแบบกลุ่มช่วยให้เราสามารถใช้อัตราการเรียนรู้ที่สูงขึ้นมากและระวังการเริ่มต้นน้อยลง ในบทคัดย่อของ Batch Normalization นั้นมีการกล่าวกันว่า Batch Normalization นั้นช่วยให้เราระมัดระวังการเริ่มต้นน้อยลง ResNet เองยังคงสนใจว่าเมื่อใดควรใช้ init ปกติกับชุด init (แทนที่จะใช้เพียงกับ init init) ดังนั้น: ควรใช้การเริ่มต้น (He หรือ Glorot) แบบกระจายทั่วไปมากกว่าการเริ่มต้นสม่ำเสมอหรือไม่ การกำหนดค่าเริ่มต้นทั่วไปที่กระจายด้วย Batch Normalization คืออะไร หมายเหตุด้าน: มันเป็นเพลงที่ใช้ init ปกติกับ Batch …

3
วิธีการต่อสู้ underfitting ในตาข่ายประสาทลึก
เมื่อฉันเริ่มต้นด้วยโครงข่ายใยประสาทเทียม (NN) ฉันคิดว่าฉันต้องต่อสู้กับปัญหาล้นใจเป็นปัญหาหลัก แต่ในทางปฏิบัติฉันไม่สามารถทำให้ NN ของฉันผ่านอุปสรรคอัตราความผิดพลาด 20% ได้ ฉันไม่สามารถเอาชนะคะแนนของฉันในป่าสุ่ม! ฉันกำลังมองหาคำแนะนำที่กว้างมากหรือไม่ควรให้คำแนะนำทั่วไปว่าควรทำอะไรเพื่อให้ NN เริ่มจับภาพแนวโน้มของข้อมูล สำหรับการใช้งาน NN ฉันใช้ Theano Stacked Auto Encoder กับโค้ดจากบทช่วยสอนที่ใช้งานได้ดี (อัตราความผิดพลาดน้อยกว่า 5%) สำหรับการจำแนกชุดข้อมูล MNIST มันเป็นตรอนหลายชั้นด้วยชั้น softmax ด้านบนกับแต่ละซ่อนภายหลังเป็นก่อนการฝึกอบรมเป็น autoencoder (อธิบายอย่างเต็มที่ในการกวดวิชา , บทที่ 8) มีคุณสมบัติอินพุต ~ 50 และ ~ 10 คลาสเอาต์พุต NN มี sigmoid neurons และข้อมูลทั้งหมดถูกทำให้เป็นมาตรฐาน [0,1] ฉันลองการกำหนดค่าต่าง ๆ มากมาย: จำนวนเลเยอร์และเซลล์ประสาทที่ซ่อนอยู่ในนั้น (100-> …

3
จำนวนพารามิเตอร์ในโมเดล LSTM
LSTM แบบซ้อนเดียวมีพารามิเตอร์กี่พารามิเตอร์ จำนวนพารามิเตอร์กำหนดขอบเขตล่างตามจำนวนตัวอย่างการฝึกอบรมที่จำเป็นและยังมีผลต่อเวลาการฝึกอบรม ดังนั้นการทราบจำนวนพารามิเตอร์จึงมีประโยชน์สำหรับรูปแบบการฝึกอบรมที่ใช้ LSTM

4
การเพิ่มคุณสมบัติให้กับ Time Series รุ่น LSTM
ได้รับการอ่านขึ้นเล็กน้อยเกี่ยวกับ LSTM และการใช้งานของพวกเขาสำหรับชุดเวลาและมันน่าสนใจ แต่ก็ยากในเวลาเดียวกัน สิ่งหนึ่งที่ฉันมีปัญหาในการทำความเข้าใจคือวิธีการเพิ่มคุณลักษณะเพิ่มเติมลงในรายการคุณลักษณะของอนุกรมเวลาอยู่แล้ว สมมติว่าคุณมีชุดข้อมูลของคุณเช่นนี้: T-3, T-2, T-1, เอาท์พุท ตอนนี้ให้บอกว่าคุณรู้ว่าคุณมีคุณสมบัติที่มีผลต่อการส่งออก แต่ไม่จำเป็นต้องเป็นคุณลักษณะอนุกรมเวลาให้บอกว่าสภาพอากาศภายนอก นี่คือสิ่งที่คุณสามารถเพิ่มได้และ LSTM จะสามารถแยกแยะความแตกต่างของอนุกรมเวลาและอะไรไม่ได้

4
เหตุใดขนาดชุดเล็กจึงดีกว่า“ ชุดเดียว” ที่มีข้อมูลการฝึกอบรมทั้งหมด?
ฉันมักจะอ่านว่าในกรณีของการเรียนรู้แบบลึกการฝึกตามปกติคือการใช้ชุดเล็ก ๆ ฉันไม่สามารถเข้าใจเหตุผลที่อยู่เบื้องหลังนี้ได้ เว้นแต่ว่าฉันเข้าใจผิดขนาดแบทช์คือจำนวนอินสแตนซ์การฝึกอบรมที่เห็นโดยโมเดลระหว่างการทำซ้ำการฝึกอบรม และยุคคือการเปิดเต็มเมื่อแต่ละกรณีการฝึกอบรมได้รับการเห็นโดยรูปแบบ ถ้าเป็นเช่นนั้นฉันไม่สามารถเห็นข้อได้เปรียบของการวนซ้ำชุดย่อยที่แทบไม่มีนัยสำคัญของการฝึกอบรมหลายครั้งในทางตรงกันข้ามกับการใช้ "แบทช์สูงสุด" โดยการเปิดเผยอินสแตนซ์การฝึกอบรมที่มีอยู่ทั้งหมดในแต่ละครั้ง ความทรงจำ). ข้อดีของวิธีนี้คืออะไร?

3
batch_size ใน Keras มีผลกระทบต่อคุณภาพของผลลัพธ์หรือไม่
ฉันกำลังจะฝึกอบรมเครือข่าย LSTM ขนาดใหญ่ด้วยบทความ 2-3 ล้านรายการและกำลังดิ้นรนกับข้อผิดพลาดของหน่วยความจำ (ฉันใช้ AWS EC2 g2x2 ขนาดใหญ่) batch_sizeผมพบว่าหนึ่งในวิธีการแก้ปัญหาคือการลด อย่างไรก็ตามฉันไม่แน่ใจว่าพารามิเตอร์นี้เกี่ยวข้องกับปัญหาประสิทธิภาพการใช้หน่วยความจำหรือไม่หรือจะส่งผลต่อผลลัพธ์ของฉันเท่านั้น ตามความเป็นจริงฉันก็สังเกตเห็นว่าbatch_sizeโดยปกติแล้วการใช้ตัวอย่างเป็นพลังของสองซึ่งฉันไม่เข้าใจเช่นกัน ฉันไม่รังเกียจหากเครือข่ายของฉันใช้เวลาในการฝึกอบรมนานขึ้น แต่ฉันต้องการทราบว่าการลดbatch_sizeจะทำให้คุณภาพการคาดการณ์ของฉันลดลงหรือไม่ ขอบคุณ

3
อะไรคือความแตกต่างระหว่าง“ การเปรียบเทียบกับการแปล” และ“ การแปรผันของการแปล”
ฉันมีปัญหาในการทำความเข้าใจความแตกต่างระหว่างequivariant กับการแปลและคงที่กับการแปล ในหนังสือเรียนรู้ลึก MIT Press, 2016 (I. Goodfellow, A. Courville และ Y. Bengio) สามารถพบได้บนเครือข่าย convolutional: [... ] รูปแบบเฉพาะของการใช้พารามิเตอร์ร่วมกันทำให้เลเยอร์มีคุณสมบัติที่เรียกว่าความสมดุลเพื่อการแปล [... ] การรวมกำไรกันช่วยให้การแทนค่ากลายเป็นค่าประมาณที่ไม่แน่นอนกับการแปลขนาดเล็กของอินพุต มีความแตกต่างระหว่างพวกเขาหรือเป็นคำที่ใช้สลับกันได้?

13
วิทยาศาสตร์ข้อมูลที่เกี่ยวข้องกับคำพูดตลก
เป็นธรรมเนียมที่ผู้ใช้ของชุมชนต่าง ๆจะอ้างถึงสิ่งที่ตลกเกี่ยวกับทุ่งนาของพวกเขา มันอาจเป็นเรื่องสนุกที่จะแบ่งปันเรื่องตลกของคุณเกี่ยวกับการเรียนรู้ของเครื่องการเรียนรู้ลึกวิทยาศาสตร์ข้อมูลและสิ่งที่คุณเผชิญทุกวัน!

6
คำอธิบายการสูญเสียข้ามเอนโทรปี
สมมติว่าฉันสร้าง NN สำหรับการจัดหมวดหมู่ ชั้นสุดท้ายเป็นชั้นหนาแน่นด้วยการเปิดใช้งาน softmax ฉันมีห้าคลาสที่แตกต่างกันเพื่อจัดประเภท สมมติว่าสำหรับการฝึกอบรมเช่นเดียวtrue labelคือในขณะที่การคาดการณ์จะเป็น[1 0 0 0 0] [0.1 0.5 0.1 0.1 0.2]ฉันจะคำนวณการสูญเสียเอนโทรปีของตัวอย่างนี้ได้อย่างไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.