คำถามติดแท็ก neural-network

โครงข่ายประสาทเทียม (ANN) ประกอบด้วย 'เซลล์ประสาท' - การสร้างโปรแกรมที่เลียนแบบคุณสมบัติของเซลล์ประสาทชีวภาพ ชุดของการเชื่อมต่อแบบถ่วงน้ำหนักระหว่างเซลล์ประสาททำให้สามารถเผยแพร่ข้อมูลผ่านเครือข่ายเพื่อแก้ปัญหาปัญญาประดิษฐ์โดยที่ผู้ออกแบบเครือข่ายมีแบบจำลองของระบบจริง

3
วิธีเพิ่มหมวดหมู่ใหม่ในรูปแบบการเรียนรู้ลึก
สมมติว่าฉันถ่ายโอนการเรียนรู้บนเครือข่ายที่ผ่านการฝึกอบรมมาแล้วเพื่อรับรู้วัตถุ 10 รายการ เพิ่มรายการที่ 11 ที่เครือข่ายสามารถจำแนกได้อย่างไรโดยไม่สูญเสีย 10 หมวดหมู่ทั้งหมดที่ฉันได้รับการฝึกฝนแล้วหรือข้อมูลจากแบบจำลองที่ผ่านการฝึกอบรมมาก่อน เพื่อนบอกฉันว่างานวิจัยที่กำลังเกิดขึ้นในสาขานี้ แต่ฉันไม่สามารถหาเอกสารที่เกี่ยวข้องหรือชื่อที่จะค้นหา? ขอขอบคุณ.

3
ความแตกต่างระหว่าง RNNs การสร้างข้อความที่อิงกับคำและการเขียนคืออะไร?
ในขณะที่อ่านเกี่ยวกับการสร้างข้อความด้วยเครือข่ายประสาทที่เกิดขึ้นอีกฉันสังเกตเห็นว่ามีตัวอย่างบางส่วนที่ถูกนำไปใช้เพื่อสร้างคำแบบข้อความต่อคำและตัวละครอื่น ๆ เป็นตัวละครโดยไม่ได้ระบุว่าทำไม ดังนั้นสิ่งที่เป็นความแตกต่างระหว่างรุ่น RNN ที่คาดการณ์ข้อความต่อคำพื้นฐานและคนที่คาดการณ์ข้อความต่อถ่านพื้นฐาน? การใช้ RNN แบบคำต้องใช้ขนาดคลังใหญ่กว่าหรือไม่? RNN ที่ใช้ถ่านเป็นแบบอย่างที่ดีกว่าหรือไม่? บางทีความแตกต่างเพียงอย่างเดียวคือการป้อนข้อมูล (การเข้ารหัสแบบร้อนแรงหรือการใส่คำศัพท์) รายการใดที่จะเลือกสำหรับการสร้างข้อความ

1
ความแตกต่างของฟังก์ชั่นการเปิดใช้งานในเครือข่ายประสาทโดยทั่วไป
ฉันได้ศึกษาประเภทฟังก์ชั่นการเปิดใช้งานสำหรับเครือข่ายประสาท ฟังก์ชั่นนั้นค่อนข้างตรงไปตรงมา แต่ความแตกต่างของแอพพลิเคชั่นนั้นไม่ชัดเจน มันสมเหตุสมผลที่หนึ่งแตกต่างระหว่างฟังก์ชั่นประเภทตรรกะและเชิงเส้นขึ้นอยู่กับเอาต์พุตไบนารี / ต่อเนื่องที่ต้องการ แต่สิ่งที่เป็นข้อได้เปรียบของฟังก์ชั่น sigmoid มากกว่าเชิงเส้นง่าย ๆ ? ReLU นั้นเข้าใจยากเป็นพิเศษสำหรับฉันเช่น: อะไรคือจุดที่ใช้ฟังก์ชั่นที่มีลักษณะเป็นเส้นตรงในกรณีที่มีอินพุตเป็นบวก แต่ "แบน" ในกรณีที่เป็นฟิล์มเนกาทีฟ? สัญชาตญาณที่อยู่เบื้องหลังสิ่งนี้คืออะไร? หรือเป็นเพียงแค่ข้อผิดพลาดในการทดลองง่ายๆไม่มีอะไรเพิ่มเติม

2
ทำไมฟังก์ชั่นการเปิดใช้งานจึงต้องเป็นแบบโมโนโทนิก?
ฉันกำลังเตรียมสอบเครือข่ายประสาท ในหลายโปรโตคอลจากการสอบเดิมฉันได้อ่านว่าฟังก์ชั่นการเปิดใช้งานของเซลล์ประสาท ฉันเข้าใจว่าฟังก์ชั่นการเปิดใช้งานควรมีความแตกต่างได้มีอนุพันธ์ซึ่งไม่ได้เป็น 0 ในจุดส่วนใหญ่และไม่ใช่เชิงเส้น ฉันไม่เข้าใจว่าทำไมการเป็นโมโนโทนิกจึงมีความสำคัญ / เป็นประโยชน์ ฉันรู้ว่าฟังก์ชั่นการเปิดใช้งานต่อไปนี้และพวกเขาเป็นแบบโมโนโทนิค: Relu sigmoid Tanh Softmax: ฉันไม่แน่ใจว่านิยาม monotonicity สามารถใช้ได้กับฟังก์ชั่นด้วยฉ: Rn→ Rม.ฉ:Rn→Rม.f: \mathbb{R}^n \rightarrow \mathbb{R}^mn , m > 1n,ม.>1n, m > 1 Softplus (ประจำตัว) แต่ผมยังไม่เห็นเหตุผลว่าทำไมเช่น 2φ ( x ) = x2φ(x)=x2\varphi(x) = x^2 ทำไมฟังก์ชั่นการเปิดใช้งานจึงต้องเป็นแบบโมโนโทนิก? (คำถามด้านที่เกี่ยวข้อง: มีเหตุผลใดที่ฟังก์ชันลอการิทึม / เลขชี้กำลังไม่ได้ใช้เป็นฟังก์ชันเปิดใช้งานหรือไม่)

1
วิธีเพิ่มคุณสมบัติที่ไม่ใช่รูปภาพควบคู่กับรูปภาพด้านข้างเป็นอินพุตของ CNN
ฉันกำลังฝึกอบรมโครงข่ายประสาทเทียมเพื่อจำแนกภาพตามสภาพหมอก (3 คลาส) อย่างไรก็ตามสำหรับแต่ละภาพประมาณ 150.000 ภาพฉันยังมีตัวแปรอุตุนิยมวิทยาสี่ตัวที่มีอยู่ซึ่งอาจช่วยในการทำนายชั้นเรียนของภาพ ฉันสงสัยว่าฉันจะเพิ่มตัวแปรทางอุตุนิยมวิทยา (เช่นอุณหภูมิความเร็วลม) ไปยังโครงสร้าง CNN ที่มีอยู่เพื่อให้สามารถช่วยในการจำแนกประเภทได้อย่างไร วิธีหนึ่งที่ฉันสามารถนึกได้ก็คือการสร้างโครงข่ายประสาทประสาทขนาดเล็กอีกข้างหนึ่งไว้ข้างๆ CNN แล้วต่อผลลัพธ์ของชั้น CNN และชั้นที่ซ่อนอยู่ของโครงข่ายประสาทเทียมที่ไม่ใช่ภาพต่อกันที่ชั้นหนาแน่น วิธีที่สองที่ฉันนึกได้คือเพียงติดต่อคุณสมบัติเหล่านี้กับชั้นที่มีความหนาแน่นสูง อย่างไรก็ตามในกรณีนี้ตัวแปรที่ไม่ใช่รูปภาพจะ (ฉันคิดว่า) จะสามารถคาดการณ์เชิงเส้นได้เท่านั้น มีวิธีอื่นที่ดีกว่าที่จะรวมคุณสมบัติที่ไม่ใช่รูปภาพไว้ในโมเดลหรือไม่ และวิธีการที่แนะนำคืออะไรเมื่อพิจารณาปริมาณข้อมูลที่ฉันมี อีกคำถามที่ฉันมีคือฉันควรยกเลิกการตรึงเลเยอร์ convolutional หรือไม่ในขณะที่ฝึกฝนด้วยคุณสมบัติที่ไม่ใช่รูปภาพเหล่านี้ เลเยอร์ของ Resnet-18 เหล่านี้ (ซึ่งถูกกำหนดค่าเริ่มต้นว่าผ่านการฝึกอบรมล่วงหน้าบน ImageNet) ได้รับการปรับแต่งแล้วโดยใช้ภาพ ฉันเดาว่าฉันควรให้พวกมันแข็งตัวและทำให้ชั้นที่หนาทึบหลุดออกเท่านั้นเพราะมันเป็นเพียงที่นี่ที่คุณสมบัติที่ไม่ใช่รูปภาพเข้ามา 'ติดต่อ' กับคุณสมบัติของภาพ (ไม่ใช่ก่อนหน้านี้ใน CNN) ถ้าฉันผิดนี่โปรดพูดอย่างนั้น!

1
Back-propagation ผ่านเลเยอร์การรวมสูงสุด
ฉันมีขนาดเล็กย่อยคำถามคำถามนี้ ฉันเข้าใจว่าเมื่อการแพร่กระจายย้อนกลับผ่านเลเยอร์รวมกำไรสูงสุดการไล่ระดับสีจะถูกส่งกลับในลักษณะที่เซลล์ประสาทในเลเยอร์ก่อนหน้าซึ่งถูกเลือกเมื่อแม็กซ์ได้รับการไล่ระดับสีทั้งหมด สิ่งที่ฉันไม่แน่ใจ 100% คือวิธีการไล่ระดับสีในเลเยอร์ถัดไปที่ได้รับการส่งกลับไปยังเลเยอร์รวมกำไร ดังนั้นคำถามแรกคือถ้าฉันมีเลเยอร์ร่วมกันเชื่อมต่อกับเลเยอร์เชื่อมต่ออย่างเต็มที่ - เช่นภาพด้านล่าง เมื่อคำนวณการไล่สีสำหรับ cyan "neuron" ของ pooling layer ฉันจะรวมการไล่ระดับสีทั้งหมดจากเซลล์เลเยอร์ FC หรือไม่ หากสิ่งนี้ถูกต้องแล้ว "เซลล์ประสาท" ของเลเยอร์รวมกำไรทุกคนมีการไล่ระดับสีเดียวกันหรือไม่ ตัวอย่างเช่นถ้าเซลล์ประสาทแรกของเลเยอร์ FC มีการไล่ระดับสีที่ 2, ที่สองมีการไล่ระดับสีที่ 3 และที่สามการไล่ระดับที่ 6 การไล่ระดับสีของ "เซลล์ประสาท" สีน้ำเงินและสีม่วงในชั้นรวมกำไรคืออะไรและทำไม? และคำถามที่สองคือเมื่อเลเยอร์ร่วมกันเชื่อมต่อกับอีกชั้นหนึ่ง ฉันจะคำนวณการไล่ระดับสีได้อย่างไร ดูตัวอย่างด้านล่าง สำหรับ "เซลล์ประสาท" ที่อยู่บนสุดสุดของชั้นรวมกำไร (สีเขียวที่กำหนดไว้) ฉันแค่ใช้การไล่ระดับสีของเซลล์ประสาทสีม่วงในชั้น Conv ต่อไปและกำหนดเส้นทางกลับใช่ไหม? สีเขียวที่เติมเต็มแล้วล่ะ? ฉันต้องคูณคอลัมน์แรกของเซลล์ประสาทในเลเยอร์ถัดไปเนื่องจากกฎลูกโซ่ หรือฉันจะต้องเพิ่มพวกเขา? โปรดอย่าโพสต์สมการและบอกฉันว่าคำตอบของฉันอยู่ตรงนั้นเพราะฉันพยายามคลุมหัวสมการและฉันยังไม่เข้าใจมันอย่างสมบูรณ์แบบนั่นคือเหตุผลที่ฉันถามคำถามนี้ในแบบง่าย ๆ ทาง


3
ทำไมต้องเลือก Max Pooling ที่จะลดขนาดภาพลงไป
แนวคิดของการใช้ตัวกรองเพื่อทำสิ่งต่าง ๆ เช่นระบุขอบเป็นแนวคิดที่ยอดเยี่ยม ตัวอย่างเช่นคุณสามารถถ่ายภาพที่ 7 ด้วยฟิลเตอร์บางตัวคุณสามารถลงเอยด้วยภาพที่ถูกแปลงซึ่งเน้นลักษณะที่แตกต่างของภาพต้นฉบับ ต้นฉบับ 7: สามารถมีประสบการณ์โดยเครือข่ายเป็น: สังเกตว่าภาพแต่ละภาพแตกต่างจากเดิม 7 อย่างไร ทั้งหมดนี้ยอดเยี่ยม แต่จากนั้นพูดว่าเลเยอร์ถัดไปในเครือข่ายของคุณคือเลเยอร์รวมกำไรสูงสุด โดยทั่วไปแล้วคำถามของฉันดูเหมือนจะไม่เกินความเป็นจริงหรือไม่ เราแค่ระมัดระวังและไตร่ตรองอย่างรอบคอบด้วยการระบุขอบโดยใช้ฟิลเตอร์ - ตอนนี้เราไม่สนใจเรื่องนี้อีกต่อไปเนื่องจากเราได้ทำลายนรกจากค่าพิกเซล! โปรดแก้ไขให้ฉันถ้าฉันผิด แต่เราเปลี่ยนจาก 25 X 25 เป็น 2 X 2! ทำไมไม่ลองตรงไปที่ Max Pooling ในตอนนั้นพวกเราจะไม่จบลงด้วยสิ่งเดียวกันหรือเปล่า? ในฐานะที่เป็นส่วนขยายคำถามของฉันฉันไม่สามารถช่วย แต่สงสัยว่าจะเกิดอะไรขึ้นถ้าบังเอิญทั้งสี่สี่เหลี่ยมทั้งหมดเกิดขึ้นมีพิกเซลที่มีค่าสูงสุดเดียวกัน แน่นอนว่านี่ไม่ใช่กรณีที่หายากใช่ไหม ทันใดนั้นภาพการฝึกของคุณทั้งหมดก็เหมือนกันทุกประการ

4
วิธีการปรับขนาดอาร์เรย์ของจำนวนเต็มที่ลงนามให้อยู่ในช่วงตั้งแต่ 0 ถึง 1
ฉันกำลังใช้Brainในการฝึกอบรมโครงข่ายประสาทเทียมในชุดคุณลักษณะที่มีทั้งค่าบวกและค่าลบ แต่สมองต้องการค่าอินพุตระหว่าง 0 ถึง 1 วิธีที่ดีที่สุดในการทำให้ข้อมูลของฉันเป็นปกติคืออะไร

3
เอาต์พุตของฟังก์ชัน model.predict จาก Keras หมายถึงอะไร
ฉันได้สร้างแบบจำลอง LSTM เพื่อทำนายคำถามที่ซ้ำกันในชุดข้อมูลอย่างเป็นทางการของ Quora ป้ายทดสอบเป็น 0 หรือ 1 1 หมายถึงคู่คำถามซ้ำกัน หลังจากสร้างแบบจำลองโดยใช้model.fitฉันทดสอบแบบจำลองโดยใช้model.predictกับข้อมูลการทดสอบ ผลลัพธ์คืออาร์เรย์ของค่าบางอย่างดังนี้: [ 0.00514298] [ 0.15161049] [ 0.27588326] [ 0.00236167] [ 1.80067325] [ 0.01048524] [ 1.43425131] [ 1.99202418] [ 0.54853892] [ 0.02514757] ฉันแค่แสดง 10 ค่าแรกในอาร์เรย์ ฉันไม่เข้าใจค่าเหล่านี้หมายถึงอะไรและป้ายกำกับที่คาดการณ์ไว้สำหรับคู่คำถามแต่ละคู่คืออะไร

2
เหตุใดอัลกอริทึมทางพันธุกรรมจึงไม่ถูกใช้เพื่อเพิ่มประสิทธิภาพโครงข่ายประสาทเทียม
จากความเข้าใจของฉันอัลกอริทึมทางพันธุกรรมเป็นเครื่องมือที่มีประสิทธิภาพสำหรับการเพิ่มประสิทธิภาพหลายวัตถุประสงค์ นอกจากนี้การฝึกอบรม Neural Networks (โดยเฉพาะอย่างยิ่งคนลึก) นั้นยากและมีปัญหามากมาย (ฟังก์ชั่นค่าใช้จ่ายที่ไม่ใช่แบบนูน - minima ท้องถิ่น, หายไปและระเบิดการไล่ระดับสีเป็นต้น) นอกจากนี้ฉันว่าการฝึกอบรมแนวคิด NN กับ GA เป็นไปได้ ฉันสงสัยว่าทำไมพวกเขาไม่ใช้ในทางปฏิบัติ? มันเป็นเรื่องของประสิทธิภาพหรือไม่?

4
Gradient Descent เป็นศูนย์กลางของทุกเครื่องมือเพิ่มประสิทธิภาพหรือไม่
ฉันต้องการทราบว่า Gradient descent เป็นอัลกอริทึมหลักที่ใช้ในเครื่องมือเพิ่มประสิทธิภาพเช่น Adam, Adagrad, RMSProp และเครื่องมือเพิ่มประสิทธิภาพอื่น ๆ

2
ทำไมไม่ใช้เทคนิคการเพิ่มประสิทธิภาพ ADAM เสมอไป
ดูเหมือนว่าเครื่องมือเพิ่มประสิทธิภาพAdaptive Moment Estimation (Adam)มักจะทำงานได้ดีขึ้น (เร็วขึ้นและน่าเชื่อถือมากขึ้นถึงระดับต่ำสุดของโลก) เมื่อลดฟังก์ชันต้นทุนในการฝึกอบรมอวนประสาท ทำไมไม่ใช้อดัม? ทำไมถึงต้องกังวลกับการใช้ RMSProp หรือตัวเพิ่มประสิทธิภาพโมเมนตัม

2
การแสดงการฝึกอบรมโครงข่ายประสาทเทียมเชิงลึก
ฉันกำลังพยายามหา Hinton Diagrams ที่เทียบเท่าสำหรับเครือข่ายหลายชั้นเพื่อวางแผนน้ำหนักในระหว่างการฝึก เครือข่ายที่ได้รับการฝึกอบรมจะค่อนข้างคล้ายกับ Deep SRN นั่นคือมันมีการฝึกอบรมน้ำหนักหลายอย่างซึ่งจะทำให้พล็อต Hinton Diagrams หลาย ๆ ภาพพร้อมกันสับสน ไม่มีใครรู้วิธีที่ดีในการมองเห็นกระบวนการปรับปรุงน้ำหนักสำหรับเครือข่ายที่เกิดซ้ำที่มีหลายเลเยอร์ ฉันไม่พบเอกสารจำนวนมากในหัวข้อ ฉันกำลังคิดที่จะแสดงข้อมูลเกี่ยวกับเวลาเกี่ยวกับน้ำหนักต่อเลเยอร์แทนหากฉันไม่สามารถหาอะไรได้ เช่น Weight-delta เมื่อเวลาผ่านไปสำหรับแต่ละเลเยอร์ (ไม่ใช้การเชื่อมต่อทุกครั้ง) PCA เป็นไปได้อีกอย่างหนึ่ง แต่ฉันไม่ต้องการสร้างการคำนวณเพิ่มเติมเนื่องจากการสร้างภาพข้อมูลออนไลน์ในระหว่างการฝึกอบรม

3
เหตุใดระบบสร้างโค้ดอัตโนมัติสำหรับการลดขนาดแบบสมมาตร
ฉันไม่ได้เป็นผู้เชี่ยวชาญใน autoencoders หรือเครือข่ายประสาทด้วยวิธีการใด ๆ ดังนั้นยกโทษให้ฉันถ้านี่เป็นคำถามที่โง่ สำหรับวัตถุประสงค์ของการลดขนาดหรือการแสดงภาพกลุ่มในข้อมูลมิติสูงเราสามารถใช้ autoencoder เพื่อสร้างการแสดงภาพ 2 มิติ (สูญเสีย) โดยการตรวจสอบผลลัพธ์ของเลเยอร์เครือข่ายด้วย 2 โหนด ตัวอย่างเช่นด้วยสถาปัตยกรรมต่อไปนี้เราจะตรวจสอบผลลัพธ์ของเลเยอร์ที่สาม [ X] → N1= 100 → N2= 25 → ( N3= 2 ) → N4= 25 → N5= 100 → [ X][X]→N1=100→N2=25→(N3=2)→N4=25→N5=100→[X][X] \rightarrow N_1=100 \rightarrow N_2=25 \rightarrow (N_3=2) \rightarrow N_4=25 \rightarrow N_5=100 \rightarrow [X] โดยที่คือข้อมูลอินพุตและคือจำนวนโหนดในเลเยอร์ …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.