คำถามติดแท็ก deep-learning

พื้นที่ของการเรียนรู้ของเครื่องที่เกี่ยวข้องกับการเรียนรู้การเป็นตัวแทนของข้อมูลแบบลำดับชั้นส่วนใหญ่ทำกับเครือข่ายประสาทลึก

3
อะไรคือข้อดีของการซ้อน LSTM หลาย ๆ ชุด?
อะไรคือข้อดีทำไมหนึ่งจะใช้ LSTM หลายซ้อนในเครือข่ายลึกด้านละด้าน ฉันใช้ LSTM เพื่อแสดงลำดับของอินพุตเป็นอินพุตเดียว ดังนั้นเมื่อฉันมีตัวแทนเดียว - ทำไมฉันจะผ่านมันอีกครั้ง ฉันถามสิ่งนี้เพราะฉันเห็นสิ่งนี้ในโปรแกรมสร้างภาษาที่เป็นธรรมชาติ

1
เหตุใดหน่วยโฆษณาเชิงเส้นที่แก้ไขแล้วจึงถือว่าเป็นแบบไม่เชิงเส้น
ทำไมฟังก์ชั่นการเปิดใช้งานของหน่วยเชิงเส้นที่ถูกแก้ไข (ReLU) จึงไม่ถือว่าเป็นแบบเชิงเส้น ฉ( x ) = สูงสุด( 0 , x )f(x)=max(0,x) f(x) = \max(0,x) พวกเขาเป็นเส้นตรงเมื่ออินพุตเป็นบวกและจากความเข้าใจของฉันที่จะปลดล็อคพลังตัวแทนของเครือข่ายลึกนั้นต้องมีการเปิดใช้งานที่ไม่ใช่เชิงเส้นมิฉะนั้นเครือข่ายทั้งหมดอาจแสดงเป็นเลเยอร์เดียว

1
ระบบเข้ารหัสอัตโนมัติแบบแปรปรวนคืออะไรและใช้งานการเรียนรู้อะไรบ้าง
ตามนี้และนี้คำตอบ autoencoders ดูเหมือนจะเป็นเทคนิคที่ใช้โครงข่ายประสาทเทียมสำหรับการลดมิติ ฉันต้องการทราบเพิ่มเติมว่าautoencoder แบบแปรผันคืออะไร(ความแตกต่าง / ประโยชน์หลัก ๆ ของมันมากกว่า autoencoders แบบดั้งเดิม) และสิ่งที่เป็นหน้าที่การเรียนรู้หลักที่อัลกอริทึมเหล่านี้ใช้

3
อะไรคือสาเหตุที่เครื่องมือเพิ่มประสิทธิภาพของ Adam ได้รับการพิจารณาว่ามีความแข็งแกร่งต่อมูลค่าของพารามิเตอร์ที่มากเกินไป
ฉันกำลังอ่านเกี่ยวกับเครื่องมือเพิ่มประสิทธิภาพของอดัมสำหรับการเรียนรู้ลึกและได้พบประโยคต่อไปนี้ในหนังสือเรียนใหม่เรื่องการเรียนรู้ลึกโดย Bengio, Goodfellow และ Courville: โดยทั่วไปอาดัมได้รับการยกย่องว่าค่อนข้างแข็งแกร่งต่อการเลือกพารามิเตอร์มากเกินไปแม้ว่าบางครั้งอัตราการเรียนรู้จะต้องเปลี่ยนจากค่าเริ่มต้นที่แนะนำ ถ้านี่เป็นเรื่องจริงมันเป็นเรื่องใหญ่เพราะการค้นหาพารามิเตอร์แบบไฮเปอร์สามารถมีความสำคัญจริงๆ (ในประสบการณ์ของฉันอย่างน้อย) ในประสิทธิภาพทางสถิติของระบบการเรียนรู้ลึก ดังนั้นคำถามของฉันคือทำไม Adam Robust ถึงพารามิเตอร์ที่สำคัญเช่นนั้น? พิเศษและหรือไม่β1β1\beta_1β2β2\beta_2 ฉันอ่านกระดาษของอดัมแล้วและมันก็ไม่ได้ให้คำอธิบายใด ๆ ว่าทำไมมันถึงใช้ได้กับพารามิเตอร์เหล่านั้นหรือทำไมมันถึงมีประสิทธิภาพ พวกเขาแสดงให้เห็นถึงเหตุผลอื่นหรือไม่? นอกจากนี้เมื่อฉันอ่านกระดาษดูเหมือนว่าจำนวนของพารามิเตอร์ไฮเปอร์ที่พวกเขาพยายามทำที่เล็กมากสำหรับเพียง 2 และสำหรับเท่านั้น 3. นี่เป็นการศึกษาเชิงประจักษ์ได้อย่างไรถ้ามันทำงานกับ 2x3 พารามิเตอร์มากเกินไป ?β1β1\beta_1β2β2\beta_2

2
Krizhevsky '12 CNN ได้รับเซลล์ประสาท 253,440 ในชั้นแรกอย่างไร
ในAlex Krizhevsky และคณะ การจัดหมวดหมู่ของ Imagenet ด้วยเครือข่ายนิวรัล convolutionalพวกเขาระบุจำนวนของเซลล์ประสาทในแต่ละชั้น (ดูแผนภาพด้านล่าง) อินพุตของเครือข่ายคือ 150,528 มิติและจำนวนของเซลล์ประสาทในเลเยอร์ที่เหลือของเครือข่ายนั้นมอบให้โดย 253,440–186,624–64,896–64,896–43,896–43,264–4096–4096–1000 มุมมอง 3 มิติ จำนวนเซลล์ประสาทสำหรับเลเยอร์ทั้งหมดหลังจากที่แรกมีความชัดเจน วิธีง่ายๆในการคำนวณเซลล์ประสาทคือการคูณสามมิติของชั้นนั้น ( planes X width X height): ชั้นที่ 2: 27x27x128 * 2 = 186,624 ชั้นที่ 3: 13x13x192 * 2 = 64,896 เป็นต้น อย่างไรก็ตามการดูเลเยอร์แรก: ชั้นที่ 1: 55x55x48 * 2 = 290400 ขอให้สังเกตว่านี่ไม่ใช่ 253,440ตามที่ระบุไว้ในกระดาษ! คำนวณขนาดผลงาน อีกวิธีหนึ่งในการคำนวณเมตริกซ์เอาท์พุทของการแปลงคือ: …

2
จะเริ่มต้นองค์ประกอบของเมทริกซ์ตัวกรองได้อย่างไร
ฉันพยายามทำความเข้าใจกับเครือข่ายประสาทเทียมให้ดีขึ้นด้วยการเขียนรหัส Python ที่ไม่ได้ขึ้นอยู่กับไลบรารี่ (เช่น Convnet หรือ TensorFlow) และฉันติดอยู่ในวรรณกรรมเกี่ยวกับวิธีเลือกค่าสำหรับเคอร์เนลเมทริกซ์เมื่อ ทำการสังวัตนาบนรูปภาพ ฉันพยายามที่จะเข้าใจรายละเอียดการใช้งานในขั้นตอนระหว่างฟีเจอร์แมปในภาพด้านล่างแสดงเลเยอร์ของซีเอ็นเอ็น ตามแผนภาพนี้: เคอร์เนลเมทริกซ์เคอร์เนล "ขั้นตอน" เหนือภาพสร้างแผนผังคุณลักษณะโดยที่แต่ละพิกเซลคือผลรวมของผลิตภัณฑ์องค์ประกอบที่ชาญฉลาดระหว่างน้ำหนักของเคอร์เนลแต่ละตัว (หรือเมทริกซ์ฟิลเตอร์) และค่าพิกเซลที่สอดคล้องกันของภาพอินพุต คำถามของฉันคือเราจะเริ่มต้นน้ำหนักของเคอร์เนล (หรือตัวกรอง) เมทริกซ์ได้อย่างไร ในการสาธิตข้างต้นพวกเขาเป็นเพียง 1 และ 0 แต่ฉันคิดว่านี่เป็นเรื่องง่ายจากสาเกของแผนภาพ น้ำหนักเหล่านี้ผ่านการฝึกอบรมในบางขั้นตอนการประมวลผลล่วงหน้าหรือไม่ หรือเลือกโดยผู้ใช้อย่างชัดเจน?

3
สถาปัตยกรรมของตัวเข้ารหัสอัตโนมัติแบบเรียงซ้อนคืออะไร?
ดังนั้นฉันจึงพยายามที่จะจัดเตรียมภาพลักษณ์ของมนุษย์โดยใช้ตาข่ายแบบ Convolutional ฉันอ่านเอกสาร ( Paper1และPaper2 ) และลิงก์ stackoverflowนี้แต่ฉันไม่แน่ใจว่าฉันเข้าใจโครงสร้างของอวน (มันไม่ได้นิยามไว้อย่างชัดเจนในเอกสาร) คำถาม: ฉันสามารถป้อนข้อมูลของฉันตามด้วยเลเยอร์เสียงตามด้วยเลเยอร์ Conv ตามด้วยเลเยอร์รวมกำไร - หลังจากนั้นฉันจะยกเลิกการรวมกลุ่มก่อนที่จะให้ผลลัพธ์ของฉัน (ซึ่งเป็นรูปอินพุตของฉัน) บอกว่าฉันมีหลายภาพ (135,240) ถ้าฉันใช้ 32, (12,21) เมล็ด, ตามด้วย (2,2) การรวมฉันจะจบลงด้วยแผนที่คุณลักษณะ 32 (62, 110) ตอนนี้ฉันจะยกเลิกการพูลเพื่อรับแผนที่คุณลักษณะ 32 (124, 220) แล้วแบนได้หรือไม่ ก่อนให้เลเยอร์เอาต์พุต (135,240) ของฉัน ถ้าฉันมีเลเยอร์ Conv-pool หลายเลเยอร์ฉันควรฝึกพวกมันทีละตัว - เช่นในระบบถอดรหัสอัตโนมัติ หรือ - ฉันสามารถมีบางสิ่งเช่นอินพุต - Conv-pool-Conv-pool-conv-pool-output (เอาต์พุตเหมือนกับอินพุต) ได้หรือไม่? ในกรณีดังกล่าวการรวมกำไรการลดราคาควรมีการจัดการอย่างไร ฉันควรยกเลิกการพูลในเลเยอร์พูลสุดท้ายก่อนออกผลลัพธ์หรือไม่ …

1
กลไกความสนใจคืออะไรกันแน่?
มีการใช้กลไกการเรียนรู้ในเอกสารการเรียนรู้ลึกต่างๆในช่วงไม่กี่ปีที่ผ่านมา Ilya Sutskever หัวหน้าฝ่ายวิจัยของ Open AI ได้ชื่นชมพวกเขาอย่างกระตือรือร้น: https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 Eugenio Culurciello ที่ Purdue University ได้อ้างว่า RNNs และ LSTMs ควรถูกทอดทิ้งเนื่องจากเป็นเครือข่ายประสาทที่เน้นความสนใจอย่างหมดจด: https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 ดูเหมือนว่าจะเป็นการพูดเกินจริง แต่ก็ปฏิเสธไม่ได้ว่าแบบจำลองความสนใจล้วนๆทำหน้าที่ในการสร้างแบบจำลองได้ค่อนข้างดี: เราทุกคนรู้เกี่ยวกับกระดาษที่มีชื่อเหมาะสมจาก Google ความสนใจคือสิ่งที่คุณต้องการ แต่สิ่งที่ว่ามีรูปแบบความสนใจตาม? ฉันยังไม่พบคำอธิบายที่ชัดเจนของโมเดลดังกล่าว สมมติว่าฉันต้องการคาดการณ์ค่าใหม่ของอนุกรมเวลาหลายตัวแปรตามค่าที่ผ่านมา มันค่อนข้างชัดเจนว่าจะทำอย่างไรกับ RNN ที่มีเซลล์ LSTM ฉันจะทำเช่นเดียวกันกับแบบจำลองตามความสนใจได้อย่างไร

2
กฎสำหรับการเลือกพารามิเตอร์ไฮเปอร์เน็ตเวิร์กโครงข่ายประสาทเทียม
มีเอกสารที่ดีหรือไม่ที่ครอบคลุมวิธีการบางส่วนในการเลือกขนาดของตัวกรองรวบรวมหน่วยและกำหนดจำนวนชั้นของ convolutional

5

3
รูปแบบของภาพ (png, jpg, gif) มีผลต่อวิธีการฝึกอบรมการรับรู้ภาพของโครงข่ายประสาทหรือไม่?
ฉันทราบว่ามีความก้าวหน้ามากมายเกี่ยวกับการจดจำรูปภาพการจำแนกภาพและอื่น ๆ ด้วยอวนประสาทที่ซับซ้อน แต่ถ้าฉันฝึกเน็ตให้บอกว่าภาพ PNG มันจะใช้ได้กับภาพที่เข้ารหัสเท่านั้นเหรอ? คุณสมบัติรูปภาพอื่น ๆมีผลกับสิ่งนี้อย่างไร (ช่องอัลฟาการพัวพันความละเอียด ฯลฯ )

4
ทำไม softmax เอาท์พุตจึงไม่ใช่สิ่งที่ไม่แน่นอนสำหรับการเรียนรู้แบบลึก?
ฉันได้ทำงานกับ Convolutional Neural Networks (CNNs) มาระยะหนึ่งแล้วซึ่งส่วนใหญ่เป็นข้อมูลภาพสำหรับเซกเมนต์เซกเมนต์ / เซกเมนต์อินสแตนซ์ ฉันมักจะเห็นภาพซอฟต์แม็กซ์ของเอาต์พุตเครือข่ายเป็น "แผนที่ความร้อน" เพื่อดูว่าการเปิดใช้งานพิกเซลต่อคลาสสำหรับระดับหนึ่งนั้นสูงเพียงใด ฉันตีความการเปิดใช้งานในระดับต่ำว่า "ไม่แน่นอน" / "ไม่มั่นใจ" และมีการเปิดใช้งานสูงตามการคาดการณ์ "มั่นใจ" / "มั่นใจ" โดยทั่วไปสิ่งนี้หมายถึงการตีความเอาต์พุต softmax (ค่าภายใน( 0 , 1 )(0,1)(0,1) ) เป็นความน่าจะเป็นหรือ (ไม่) การวัดความแน่นอนของโมเดล ( เช่นฉันตีความวัตถุ / พื้นที่ที่มีการเปิดใช้งานซอฟต์แม็กซ์ต่ำโดยเฉลี่ยอยู่ที่พิกเซลของมันยากสำหรับ CNN ในการตรวจจับดังนั้น CNN จึง "ไม่แน่ใจ" เกี่ยวกับการทำนายวัตถุชนิดนี้ ) ในการรับรู้ของฉันนี้มักจะทำงานและเพิ่มตัวอย่างเพิ่มเติมของพื้นที่ "ไม่แน่นอน" เพื่อผลลัพธ์การฝึกอบรมปรับปรุงผลลัพธ์เหล่านี้ อย่างไรก็ตามตอนนี้ฉันได้ยินมาค่อนข้างบ่อยจากหลาย ๆ ด้านที่การใช้ / การตีความเอาต์พุต softmax …

2
เครื่อง Boltzmann ที่ จำกัด : มันถูกใช้ในการเรียนรู้ของเครื่องได้อย่างไร?
พื้นหลัง: ใช่เครื่อง Boltzmann ที่ จำกัด (RBM) สามารถใช้เพื่อเริ่มต้นน้ำหนักของเครือข่ายประสาท นอกจากนี้ยังสามารถนำมาใช้ในวิธี "เลเยอร์โดยชั้น" เพื่อสร้างเครือข่ายความเชื่อลึก(นั่นคือเพื่อฝึกอบรมเลเยอร์ th ด้านบนของ - ชั้นที่แล้วจากนั้นในการฝึกอบรมชั้น -th ด้านบนของชั้น -th ล้างและทำซ้ำ ... nnn( n - 1 )(n-1)(n-1)n + 1n+1n+1nnn) เกี่ยวกับวิธีการใช้ RBM รายละเอียดสามารถพบได้จากเธรดการ สอนที่ดีสำหรับเครื่อง Boltzmann (RBM)ที่ จำกัด ซึ่งสามารถหาเอกสารและแบบฝึกหัดได้ คำถามของฉันจะเป็น: RBM ใช้จริง ๆ ในโครงการอุตสาหกรรมหรือโครงการวิชาการหรือไม่ ถ้าใช่มีการใช้งานอย่างไรและโครงการใด มีห้องสมุดยอดนิยมใด ๆ (เช่น tensorflow, Caffe, Theono และอื่น ๆ ) มีโมดูล …

2
ส่งเสริมเครือข่ายประสาท
เมื่อเร็ว ๆ นี้ฉันกำลังทำงานเกี่ยวกับการเรียนรู้อัลกอริทึมการส่งเสริมเช่น adaboost, การไล่ระดับสีและฉันได้ทราบความจริงที่ว่าผู้เรียนอ่อนแอที่ใช้กันมากที่สุดคือต้นไม้ ฉันอยากรู้ว่ามีตัวอย่างที่ประสบความสำเร็จเมื่อเร็ว ๆ นี้ (ฉันหมายถึงบางบทความหรือบทความ) สำหรับการใช้เครือข่ายประสาทในฐานะผู้เรียนพื้นฐาน

2
สถาปัตยกรรมคอขวดทำงานในเครือข่ายประสาทได้อย่างไร
เรากำหนดสถาปัตยกรรมคอขวดเป็นประเภทที่พบในกระดาษResNetโดยที่ [เลเยอร์ 3x3 Conv สอง] ถูกแทนที่ด้วย [หนึ่ง 1x1 Conv, หนึ่ง 3x3 Conv และอีกหนึ่ง 1x1 Conv ชั้น] ผมเข้าใจว่าชั้น 1x1 แปลงจะใช้เป็นรูปแบบของการลดมิติ (และบูรณะ) ซึ่งจะมีการอธิบายในโพสต์อื่น อย่างไรก็ตามฉันไม่แน่ใจว่าทำไมโครงสร้างนี้จึงมีประสิทธิภาพเหมือนกับเค้าโครงดั้งเดิม คำอธิบายที่ดีบางประการอาจรวมถึง: มีการใช้ความยาวแบบก้าวใดและเลเยอร์ใด ตัวอย่างอินพุตและเอาต์พุตมิติของแต่ละโมดูลคืออะไร? แผนผังคุณลักษณะ 56x56 แสดงในแผนภาพด้านบนอย่างไร 64-d อ้างถึงจำนวนตัวกรองเหตุใดจึงแตกต่างจากตัวกรอง 256-d มีการใช้น้ำหนักหรือฟล็อปกี่ครั้งในแต่ละชั้น การอภิปรายใด ๆ ที่ชื่นชมอย่างมาก!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.