คำถามติดแท็ก neural-networks

โครงข่ายประสาทเทียม (ANNs) เป็นรูปแบบการคำนวณในวงกว้างโดยยึดตามเครือข่ายประสาทชีววิทยาอย่างเข้มงวด พวกเขารวม NNs ของ feedforward (รวมถึง NN ที่ "ลึก"), NNs convolutional, NNs ที่เกิดซ้ำเป็นต้น

2
คำถามเกี่ยวกับ Bag of Words ต่อเนื่อง
ฉันมีปัญหาในการเข้าใจประโยคนี้: สถาปัตยกรรมที่เสนอครั้งแรกคล้ายกับ NNLM ของ feedforward โดยที่เลเยอร์ที่ไม่ใช่เชิงเส้นจะถูกลบออกและเลเยอร์การฉายจะใช้ร่วมกันสำหรับทุกคำ (ไม่ใช่แค่เมทริกซ์การฉาย); ดังนั้นคำทั้งหมดจึงถูกฉายในตำแหน่งเดียวกัน (เวกเตอร์ของพวกมันมีค่าเฉลี่ย) ชั้นฉายภาพกับเมทริกซ์การฉายคืออะไร? มันหมายความว่าอย่างไรที่คำทุกคำจะถูกฉายในตำแหน่งเดียวกัน แล้วทำไมเวกเตอร์ของพวกมันจึงมีค่าเฉลี่ย? ประโยคที่เป็นครั้งแรกของส่วนที่ 3.1 ของการประมาณค่าที่มีประสิทธิภาพของการแสดงคำในปริภูมิเวกเตอร์ (Mikolov et al. 2013)

1
ฝึกอบรมโครงข่ายประสาทเทียม
ฉันกำลังทำงานกับซอฟต์แวร์จดจำใบหน้าที่ใช้เครือข่ายประสาทเทียมเพื่อจดจำใบหน้า จากการอ่านของฉันฉันได้รวบรวมว่าเครือข่ายประสาทเทียมได้แบ่งปันน้ำหนักเพื่อประหยัดเวลาในการฝึก แต่วิธีหนึ่งจะปรับการกระจายกลับเพื่อให้สามารถใช้ในโครงข่ายประสาทเทียม ในการแพร่กระจายย้อนกลับหนึ่งใช้สูตรที่คล้ายกับสิ่งนี้ในการฝึกอบรมน้ำหนัก New Weight = Old Weight + LEARNING_RATE * 1 * Output Of InputNeuron * Delta อย่างไรก็ตามเนื่องจากในเครือข่ายประสาทเทียมน้ำหนักที่ใช้ร่วมกันจึงมีการใช้น้ำหนักแต่ละเซลล์ร่วมกับเซลล์ประสาทหลายตัวดังนั้นฉันจะตัดสินใจได้อย่างไรว่าOutput of InputNeuronจะใช้อุปกรณ์ใด กล่าวอีกนัยหนึ่งเนื่องจากน้ำหนักถูกแชร์ฉันจะตัดสินใจได้อย่างไรว่าต้องเปลี่ยนน้ำหนักด้วย

2
พล็อตขอบเขตการตัดสินใจสำหรับ perceptron
ฉันพยายามพล็อตขอบเขตการตัดสินใจของอัลกอริทึม Perceptron และฉันสับสนมากเกี่ยวกับบางสิ่ง อินสแตนซ์อินพุตของฉันอยู่ในรูปแบบโดยทั่วไปอินสแตนซ์อินพุต 2D ( x 1และx 2 ) และค่าเป้าหมายคลาสไบนารี ( y ) [1 หรือ 0][ ( x1, x2) ,y][(x1,x2),Y][(x_{1},x_{2}), y]x1x1x_{1}x2x2x_{2}YYy เวกเตอร์น้ำหนักของฉันจึงอยู่ในรูปแบบ: ][ w1, w2][W1,W2][w_{1}, w_{2}] ตอนนี้ฉันต้องรวมพารามิเตอร์ bias เพิ่มเติมและด้วยเหตุนี้เวกเตอร์น้ำหนักของฉันกลายเป็นเวกเตอร์3 × 1หรือไม่ มันคือ1 × 3เวกเตอร์ ฉันคิดว่าควรเป็น1 × 3เนื่องจากเวกเตอร์มีเพียง 1 แถวและคอลัมน์ nW0W0w_{0}3 × 13×13 \times 11 ×31×31 \times 31 × 31×31 …

2
การคำนวณมิติ VC ของเครือข่ายประสาทเทียม
ถ้าฉันมีโทโพโลยีที่ไม่เกิดขึ้นอีกคงที่ (DAG) (ชุดคงที่ของโหนดและขอบ แต่อัลกอริทึมการเรียนรู้สามารถเปลี่ยนแปลงน้ำหนักบนขอบ) ของ sigmoid neurons กับเซลล์ประสาทซึ่งสามารถใช้สตริงใน{ - 1 , 1 } nเป็นอินพุตและนำไปสู่หนึ่งเอาต์พุต (ซึ่งส่งออกมูลค่าจริงที่เราปัดขึ้นเป็น 1 หรือลงไปที่ -1 หากเป็นค่าคงที่ที่กำหนดไว้แน่นอนจาก 0) มีวิธีใดในการคำนวณ (หรือโดยประมาณ) VC-dimension ของเครือข่ายนี้หรือไม่?nnn{ - 1 , 1 }n{−1,1}n\{-1,1\}^n หมายเหตุ ฉันถามการปรับปรุงอัลกอริทึมที่แม่นยำยิ่งขึ้นเล็กน้อยใน CS.SE: การคำนวณอย่างมีประสิทธิภาพหรือประมาณมิติ VC ของเครือข่ายประสาทเทียม

2
ฉันจะปรับปรุงเสถียรภาพเครือข่ายประสาทของฉันได้อย่างไร
ฉันใช้ neuralnet ใน R เพื่อสร้าง NN พร้อมอินพุต 14 ช่องและเอาต์พุตเดียว ฉันสร้าง / ฝึกอบรมเครือข่ายหลายครั้งโดยใช้ข้อมูลการฝึกอบรมอินพุตเดียวกันและสถาปัตยกรรมเครือข่าย / การตั้งค่าเดียวกัน หลังจากสร้างเครือข่ายแล้วฉันจะใช้กับชุดข้อมูลทดสอบแบบสแตนด์อโลนเพื่อคำนวณค่าที่คาดการณ์ไว้ ฉันพบว่ามีความแปรปรวนจำนวนมากในแต่ละรอบซ้ำของข้อมูลที่คาดการณ์ถึงแม้ว่าอินพุตทั้งหมด (ทั้งข้อมูลการฝึกอบรมและข้อมูลการทดสอบ) จะยังคงเหมือนเดิมทุกครั้งที่ฉันสร้างเครือข่าย ฉันเข้าใจว่าจะมีความแตกต่างของน้ำหนักที่ผลิตภายใน NN ในแต่ละครั้งและจะไม่มีเครือข่ายประสาทเทียมสองเครือข่ายเหมือนกัน แต่ฉันจะพยายามสร้างเครือข่ายที่สอดคล้องกันมากขึ้นในแต่ละขบวนรถไฟได้อย่างไรจากข้อมูลที่เหมือนกัน

4
ทำไมเราไม่เรียนรู้พารามิเตอร์ไฮเปอร์?
ฉันใช้กระดาษที่ได้รับความนิยมอย่างมากเรื่อง "การอธิบายและการฝ่าฝืนตัวอย่างที่เป็นที่นิยม " และในกระดาษมันฝึกฟังก์ชั่นวัตถุประสงค์เชิงรุก J '' (θ) = αJ (θ) + (1 - α) J '(θ) มันถือว่าαเป็นพารามิเตอร์ αสามารถ 0.1, 0.2, 0.3 และอื่น ๆ โดยไม่คำนึงถึงเอกสารเฉพาะนี้ฉันสงสัยว่าทำไมเราไม่รวมαไว้ในพารามิเตอร์ของเราและเรียนรู้αที่ดีที่สุด ข้อเสียที่จะทำคืออะไร? มันเป็นเพราะการใส่มากเกินไป? ถ้าเป็นเช่นนั้นเพราะเหตุใดการเรียนรู้พารามิเตอร์อีก 1 รายการจึงทำให้มีจำนวนข้อมูลมากเกินไป?

2
จะไม่กรองหลายตัวในเลเยอร์ convolutional เรียนรู้พารามิเตอร์เดียวกันในระหว่างการฝึกอบรม?
จากสิ่งที่ฉันได้เรียนรู้เราใช้ตัวกรองหลายตัวใน Conv Layer ของ CNN เพื่อเรียนรู้ตัวตรวจจับคุณสมบัติที่แตกต่างกัน แต่เนื่องจากตัวกรองเหล่านี้มีการใช้งานคล้ายกัน (เช่นเลื่อนและคูณกับพื้นที่ของอินพุต) พวกเขาจะไม่ได้เรียนรู้พารามิเตอร์เดียวกันในระหว่างการฝึกอบรมหรือไม่ ดังนั้นการใช้ตัวกรองหลายรายการจะซ้ำซ้อน?

3
CIFAR-10 ไม่สามารถรับความแม่นยำสูงกว่า 60% ได้ Keras พร้อมแบ็กเอนด์ Tensorflow [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดเมื่อปีที่แล้ว การฝึกอบรมหลังจาก 15 epochs บนชุดข้อมูล CIFAR-10 ดูเหมือนว่าจะทำให้การสูญเสียการตรวจสอบความถูกต้องไม่ลดลงอีกต่อไปโดยประมาณ 1.4 (มีความแม่นยำในการตรวจสอบ 60%) ฉันได้สับชุดฝึกอบรมแล้วหารด้วย 255 และนำเข้าเป็น float32 ฉันได้ลองสถาปัตยกรรมจำนวนมากทั้งที่มีและไม่มีการออกกลางคันในชั้น Conv2D และดูเหมือนว่าจะไม่มีอะไรทำงาน สถาปัตยกรรมเดียวกันมีความแม่นยำถึง 99.7% สำหรับชุดทดสอบสำหรับ MNIST โปรดดูสถาปัตยกรรมด้านล่าง: (หมายเหตุ: ฉันได้ลองเพิ่มการออกกลางคันและเพิ่ม / ลดอัตราการเรียนรู้ของเครื่องมือเพิ่มประสิทธิภาพ Adam เพื่อป้องกันการ overfitting ทั้งหมดนี้เป็นการป้องกันการ overfitting แต่ด้วยชุดฝึกอบรมและการทดสอบที่มีความแม่นยำต่ำประมาณ 60%) with tf.device('/gpu:0'): tf.placeholder(tf.float32, shape=(None, 20, 64)) #placeholder initialized (pick /cpu:0 or /gpu:0) …

2
เครือข่ายประสาทเทียมสามารถใช้เป็นภาพอินพุตที่มีขนาดต่างกันได้หรือไม่?
ฉันกำลังทำงานบนเครือข่ายการสนทนาเพื่อการจดจำรูปภาพและฉันสงสัยว่าฉันสามารถใส่ภาพที่มีขนาดต่างกันได้หรือไม่ ในโครงการนี้: https://github.com/harvardnlp/im2markup พวกเขาพูดว่า: and group images of similar sizes to facilitate batching ดังนั้นแม้หลังจากประมวลผลล่วงหน้าภาพยังคงมีขนาดแตกต่างกันซึ่งเหมาะสมเนื่องจากไม่ตัดบางส่วนของสูตร มีปัญหาในการใช้ขนาดที่แตกต่างกันหรือไม่? หากมีฉันจะแก้ไขปัญหานี้ได้อย่างไร (เนื่องจากสูตรจะไม่พอดีกับขนาดภาพเดียวกัน) การป้อนข้อมูลใด ๆ จะได้รับการชื่นชมมาก

4
ความแตกต่างระหว่างโครงข่ายประสาทและการเรียนรู้อย่างลึกซึ้ง
ในแง่ของความแตกต่างระหว่างโครงข่ายประสาทและการเรียนรู้เชิงลึกเราสามารถแสดงรายการได้หลายรายการเช่นมีเลเยอร์เพิ่มขึ้นชุดข้อมูลขนาดใหญ่ฮาร์ดแวร์คอมพิวเตอร์ทรงพลังเพื่อให้การฝึกอบรมมีความซับซ้อน นอกจากนี้มีคำอธิบายรายละเอียดเพิ่มเติมเกี่ยวกับความแตกต่างระหว่าง NN และ DL หรือไม่?

1
ความสัมพันธ์ระหว่างอัตราการเรียนรู้และจำนวนเลเยอร์ที่ซ่อนอยู่?
มีกฎของหัวแม่มือระหว่างความลึกของเครือข่ายประสาทและอัตราการเรียนรู้หรือไม่? ฉันสังเกตเห็นว่ายิ่งเครือข่ายลึกเท่าไรอัตราการเรียนรู้ก็จะยิ่งต่ำลงเท่านั้น หากถูกต้องทำไมถึงเป็นเช่นนั้น

2
โมเดลกราฟิกและเครื่องจักร Boltzmann เกี่ยวข้องกับคณิตศาสตร์หรือไม่?
ในขณะที่ฉันได้ทำการเขียนโปรแกรมด้วยเครื่องจักร Boltzmann ในระดับฟิสิกส์จริง ๆ แล้วฉันไม่คุ้นเคยกับลักษณะทางทฤษฎีของพวกเขา ในทางตรงกันข้ามฉันรู้ว่าเป็นจำนวนเงินที่เจียมเนื้อเจียมตัวเกี่ยวกับทฤษฎีของแบบจำลองกราฟิก (ประมาณสองสามบทแรกของหนังสือเล่ม Lauritzen ของกราฟิกรุ่น ) คำถาม:มีความสัมพันธ์ที่มีความหมายระหว่างโมเดลกราฟิกและเครื่องจักร Boltzmann หรือไม่? เครื่อง Boltzmann เป็นรูปแบบกราฟิกหรือไม่? เห็นได้ชัดว่าเครื่อง Boltzmann เป็นโครงข่ายประสาทประเภทหนึ่ง ฉันเคยได้ยินว่าเครือข่ายประสาทบางส่วนเกี่ยวข้องกับคณิตศาสตร์ในรูปแบบกราฟิกและบางเครือข่ายนั้นไม่ใช่ คำถามที่เกี่ยวข้องกับ CrossValidated ที่ไม่ตอบคำถามของฉัน: คล้ายกับคำถามก่อนหน้านี้ที่ถูกถามมาก่อน: อะไรคือความสัมพันธ์ระหว่างโมเดลลำดับชั้นเครือข่ายประสาทเทียมโมเดลกราฟิกเครือข่ายแบบเบย์? แต่มีความเฉพาะเจาะจงมากขึ้น ยิ่งกว่านั้นคำตอบที่ได้รับการยอมรับสำหรับคำถามนั้นไม่ได้ทำให้ฉันสับสน - แม้ว่าโหนดในการแสดงกราฟิกมาตรฐานของโครงข่ายประสาทเทียมไม่ได้เป็นตัวแทนของตัวแปรแบบสุ่มซึ่งไม่ได้หมายความว่าไม่มีตัวแทนดังกล่าวอยู่จริง โดยเฉพาะฉันคิดว่าโหนดในการแสดงกราฟิกทั่วไปของห่วงโซ่มาร์คอฟเป็นตัวแทนของชุดของสถานะที่เป็นไปได้มากกว่าตัวแปรสุ่มแต่ก็สามารถสร้างกราฟที่แสดงความสัมพันธ์แบบพึ่งพาเงื่อนไขระหว่างXiXiX_iXiXiX_iซึ่งแสดงให้เห็นว่าห่วงโซ่มาร์คอฟทุกอันที่จริงแล้วเป็นสนามสุ่มของมาร์คอฟ คำตอบยังบอกอีกว่าเครือข่ายประสาท (สันนิษฐานรวมถึงเครื่อง Boltzmann) เป็น "พินิจพิเคราะห์" แต่ไม่ได้เข้าไปดูรายละเอียดเพิ่มเติมเพื่ออธิบายสิ่งที่อ้างว่าหมายถึงและคำถามที่ตามมาอย่างชัดเจน จ่าหน้า ในทำนองเดียวกันคำตอบที่ได้รับการยอมรับเชื่อมโยงไปยังเว็บไซต์ของ Kevin Murphy (ฉันอ่านวิทยานิพนธ์ปริญญาเอกของเขาเมื่อเรียนรู้เกี่ยวกับเครือข่าย Bayesian) แต่เว็บไซต์นี้พูดถึงเครือข่าย Bayesian เท่านั้นและไม่ได้กล่าวถึงเครือข่ายประสาทเลย - แตกต่าง. คำถามอื่น ๆ นี้อาจคล้ายกับของฉันมากที่สุด: …

3
เป็นไปได้ไหมที่จะฝึกโครงข่ายประสาทเทียมเพื่อวาดภาพในบางสไตล์?
เป็นไปได้ไหมที่จะฝึกโครงข่ายประสาทเทียมเพื่อวาดภาพในบางสไตล์? (ดังนั้นจึงใช้รูปภาพและวาดใหม่ในสไตล์ที่ฝึกมา) มีเทคโนโลยีใดที่ได้รับการรับรองสำหรับสิ่งนั้นหรือไม่? ฉันรู้เกี่ยวกับอัลกอริทึม DeepArt มันเป็นการดีที่จะเติมภาพหลักด้วยรูปแบบบางอย่าง (ตัวอย่างเช่นรูปภาพ vangoghify) แต่ฉันกำลังมองหาบางอย่างที่แตกต่าง - ตัวอย่างเช่นทำให้การ์ตูนในสไตล์ที่แน่นอนจากแนวตั้งอินพุท

1
เครือข่ายประสาทมักใช้เวลาสักครู่เพื่อ“ เริ่มเล่น” ระหว่างการฝึกซ้อมหรือไม่?
ฉันพยายามที่จะฝึกอบรมเครือข่ายประสาทลึกเพื่อจัดหมวดหมู่โดยใช้การขยายพันธุ์กลับ โดยเฉพาะฉันใช้เครือข่ายประสาทเทียมสำหรับการจำแนกภาพโดยใช้ห้องสมุด Tensor Flow ในระหว่างการฝึกฉันพบกับพฤติกรรมแปลก ๆ และฉันแค่สงสัยว่ามันเป็นเรื่องปกติหรือว่าฉันอาจจะทำอะไรผิด ดังนั้นเครือข่ายประสาทเทียมของฉันมี 8 ชั้น (5 convolutional, 3 เชื่อมต่อเต็ม) น้ำหนักและอคติทั้งหมดจะเริ่มต้นด้วยตัวเลขสุ่มขนาดเล็ก จากนั้นฉันตั้งขนาดขั้นตอนและดำเนินการฝึกอบรมด้วยชุดเล็กโดยใช้ Adam Optimizer ของ Tensor Flow พฤติกรรมแปลก ๆ ที่ฉันกำลังพูดถึงคือประมาณ 10 ลูปแรกจากข้อมูลการฝึกอบรมของฉันการสูญเสียการฝึกอบรมโดยทั่วไปไม่ลดลง น้ำหนักกำลังได้รับการปรับปรุง แต่การสูญเสียการฝึกอบรมอยู่ที่ประมาณค่าเดียวกันบางครั้งจะเพิ่มขึ้นและบางครั้งจะลดลงระหว่างชุดมินิ มันคงอยู่แบบนี้ซักพักแล้วและฉันก็มักจะได้รับความประทับใจว่าการสูญเสียจะไม่ลดลง ทันใดนั้นการสูญเสียการฝึกอบรมก็ลดลงอย่างรวดเร็ว ตัวอย่างเช่นภายในประมาณ 10 ลูปผ่านข้อมูลการฝึกอบรมความแม่นยำในการฝึกอบรมจะอยู่ที่ประมาณ 20% ถึงประมาณ 80% จากนั้นเป็นต้นมาทุกอย่างก็จบลงอย่างบรรจบกัน สิ่งเดียวกันเกิดขึ้นทุกครั้งที่ฉันเรียกใช้ขั้นตอนการฝึกอบรมตั้งแต่เริ่มต้นและด้านล่างเป็นกราฟที่แสดงตัวอย่างการวิ่งหนึ่งครั้ง ดังนั้นสิ่งที่ฉันสงสัยคือว่านี่เป็นพฤติกรรมปกติด้วยการฝึกอบรมโครงข่ายประสาทเทียมลึกหรือไม่ หรือเป็นไปได้ว่ามีบางอย่างที่ฉันทำผิดซึ่งทำให้เกิดความล่าช้านี้ ขอบคุณมาก ๆ!

1
NeuralNetwork ชั้นเดียวที่มีการเปิดใช้งาน ReLU เท่ากับ SVM หรือไม่
สมมติว่าฉันมีเครือข่ายประสาทเดี่ยวชั้นเดียวที่มีอินพุต n และเอาต์พุตเดียว (งานการจำแนกประเภทไบนารี) ถ้าฉันตั้งค่าฟังก์ชั่นการเปิดใช้งานในโหนดเอาท์พุทเป็นฟังก์ชั่น sigmoid- แล้วผลที่ได้คือลักษณนามลอจิสติกถดถอย ในสถานการณ์เดียวกันนี้ถ้าฉันเปลี่ยนการเปิดใช้งานเอาต์พุตเป็น ReLU (หน่วยเชิงเส้นที่แก้ไขแล้ว) ดังนั้นโครงสร้างผลลัพธ์จะเหมือนกับหรือคล้ายกับ SVM หรือไม่ ถ้าไม่ใช่เพราะอะไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.