คำถามติดแท็ก conv-neural-network

Convolutional Neural Networks เป็นประเภทของโครงข่ายประสาทที่มีเพียงชุดย่อยของการเชื่อมต่อที่เป็นไปได้ระหว่างชั้นที่มีอยู่เพื่อสร้างภูมิภาคที่ทับซ้อนกัน พวกเขามักใช้สำหรับงานภาพ

2
มีเหตุผลทางคณิตศาสตร์สำหรับการโน้มน้าวใจในเครือข่ายประสาทเกินความได้เปรียบ?
ในโครงข่ายประสาทเทียม (CNN) เมทริกซ์ของตุ้มน้ำหนักในแต่ละขั้นตอนจะทำให้แถวและคอลัมน์พลิกเพื่อรับเมทริกซ์เคอร์เนลก่อนที่จะดำเนินการต่อไป นี่คือคำอธิบายในชุดวิดีโอของ Hugo Larochelle ที่นี่ : คอมพิวเตอร์แผนที่ที่ซ่อนอยู่จะสอดคล้องกับการทำบิดต่อเนื่องกับช่องจากชั้นก่อนหน้านี้โดยใช้เมทริกซ์เคอร์เนล [ ... ] และเคอร์เนลที่คำนวณจากน้ำหนักเมทริกซ์ซ่อนWijWijW_{ij}ที่เราพลิกแถวและ คอลัมน์ ถ้าเราจะเปรียบเทียบขั้นตอนการลดลงของการบิดคูณเมทริกซ์ปกติเช่นเดียวกับในประเภทอื่น ๆ NN, ความได้เปรียบจะเป็นคำอธิบายที่ชัดเจน อย่างไรก็ตามนี่อาจไม่ใช่การเปรียบเทียบที่ตรงประเด็นที่สุด ... ในการถ่ายภาพดิจิตอลการประมวลผลแอพลิเคชันของบิดของตัวกรองเพื่อภาพ ( นี้เป็นวิดีโอ youtube ที่ดีสำหรับการปฏิบัติปรีชา ) ดูเหมือนว่าเกี่ยวข้องกับ: ความจริงที่ว่าการโน้มน้าวนั้นเชื่อมโยงกันในขณะที่ความสัมพันธ์(ข้าม -)ไม่ใช่ ความเป็นไปได้ที่จะใช้ตัวกรองในโดเมนความถี่ของภาพเป็นการคูณเนื่องจากการสนทนาในโดเมนเวลาเทียบเท่ากับการคูณในโดเมนความถี่ ( ทฤษฎีบทการสนทนา ) ในสภาพแวดล้อมทางเทคนิคนี้โดยเฉพาะของ DSP correlationถูกกำหนดเป็น: F∘I(x,y)=∑j=−NN∑i=−NNF(i,j)I(x+i,y+j)F∘I(x,y)=∑j=−NN∑i=−NNF(i,j)I(x+i,y+j)F\circ I(x,y)=\sum_{j=-N}^{N}\sum_{i=-N}^N\, F(i,j)\,I(x+i, y+j) ซึ่งเป็นผลรวมของเซลล์ทั้งหมดในผลิตภัณฑ์ Hadamard: F∘I(x,y)=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢F[−N,−N]I[x−N,y−N]⋮F[0,−N]I[x,y−N]⋮F[N,−N]I[x+N,y−N]⋯⋱⋯⋱⋯F[−N,0]I[x−N,y−N]⋮F[0,0]I[x,y]⋮F[N,0]I[x+N,y]⋯⋱⋯⋱⋯F[−N,N]I[x−N,y+N]⋮F[0,N]I[x,y+N]⋮F[N,N]I[x+N,y+N]⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥F∘I(x,y)=[F[−N,−N]I[x−N,y−N]⋯F[−N,0]I[x−N,y−N]⋯F[−N,N]I[x−N,y+N]⋮⋱⋮⋱⋮F[0,−N]I[x,y−N]⋯F[0,0]I[x,y]⋯F[0,N]I[x,y+N]⋮⋱⋮⋱⋮F[N,−N]I[x+N,y−N]⋯F[N,0]I[x+N,y]⋯F[N,N]I[x+N,y+N]]\small F\circ I(x,y)=\Tiny\begin{bmatrix}F[-N,-N]\,I[x-N,y-N]&\cdots&F[-N,0]\,I[x-N,y-N]&\cdots& F[-N,N]\,I[x-N,y+N]\\ \vdots&\ddots&\vdots&\ddots&\vdots\\ F[0,-N]\,I[x,y-N]&\cdots&F[0,0]\,I[x,y]&\cdots& F[0,N]\,I[x,y+N]\\ \vdots&\ddots&\vdots&\ddots&\vdots\\ …

2
“ การแปรเปลี่ยนแบบไม่แปรเปลี่ยน” หมายถึงอะไรในบริบทของเครือข่ายประสาทเทียมที่ทำการรับรู้ภาพ
ฉันได้เห็นคำว่า "การเปลี่ยนแปลงค่าคงที่" ในเวอร์ชันของภารกิจการรับรู้หลักของ MNIST มันหมายความว่าอะไร?

2
การเริ่มต้นน้ำหนักของ CNN ซาเวียร์
ในบทช่วยสอนบางอย่างฉันพบว่ามีการระบุว่าการเริ่มต้นน้ำหนัก "ซาเวียร์" (กระดาษ: การทำความเข้าใจกับความยากลำบากในการฝึกอบรมเครือข่ายนิวรัล feedforward ลึก ) เป็นวิธีที่มีประสิทธิภาพในการเริ่มต้นน้ำหนักของเครือข่ายประสาท สำหรับเลเยอร์ที่เชื่อมต่ออย่างสมบูรณ์มีกฎง่ายๆในบทเรียนเหล่านี้: Var(W)=2nin+nout,simpler alternative:Var(W)=1ninVar(W)=2nin+nout,simpler alternative:Var(W)=1ninVar(W) = \frac{2}{n_{in} + n_{out}}, \quad \text{simpler alternative:} \quad Var(W) = \frac{1}{n_{in}} โดยที่คือความแปรปรวนของตุ้มน้ำหนักสำหรับเลเยอร์เริ่มต้นด้วยการแจกแจงแบบปกติและ ,คือจำนวนของเซลล์ประสาทในพาเรนต์และในเลเยอร์ปัจจุบันVar(W)Var(W)Var(W)ninninn_{in}noutnoutn_{out} มีกฎของหัวแม่มือคล้ายกันสำหรับเลเยอร์ convolutional? ฉันกำลังดิ้นรนเพื่อหาว่าอะไรจะดีที่สุดในการเริ่มต้นน้ำหนักของชั้น convolutional เช่นในเลเยอร์ที่มีรูปร่างของน้ำหนัก(5, 5, 3, 8)ดังนั้นขนาดเคอร์เนลคือการ5x5กรองสามช่องสัญญาณ (อินพุต RGB) และการสร้าง8แผนที่คุณลักษณะ ... จะถูก3พิจารณาว่าเป็นจำนวนเซลล์ประสาทอินพุตหรือไม่ หรือมากกว่า75 = 5*5*3เพราะอินพุตเป็น5x5แพตช์สำหรับแต่ละช่องสี ฉันจะยอมรับทั้งสองคำตอบที่เฉพาะเจาะจงเพื่อชี้แจงปัญหาหรือคำตอบ "ทั่วไป" มากกว่านี้เพื่ออธิบายกระบวนการทั่วไปของการค้นหาน้ำหนักเริ่มต้นที่ถูกต้องและการเชื่อมโยงแหล่งที่มาโดยเฉพาะ

3
ทฤษฎีการประมาณค่าแบบสากลสำหรับเครือข่ายแบบ Convolutional
ทฤษฎีบทการประมาณแบบสากลเป็นผลลัพธ์ที่มีชื่อเสียงสำหรับเครือข่ายประสาทโดยทั่วไประบุว่าภายใต้สมมติฐานบางฟังก์ชั่นสามารถประมาณได้อย่างสม่ำเสมอโดยเครือข่ายประสาทในความแม่นยำ มีผลลัพธ์ที่คล้ายคลึงกันที่ใช้กับเครือข่ายประสาทเทียมหรือไม่?


2
โมเดล Google Inception: ทำไมมี softmax หลายอัน?
โทโพโลยีของโมเดล Google Inception สามารถพบได้ที่นี่: Google Inception Netowrk ฉันสังเกตเห็นว่ามีซอฟต์แม็กซ์ 3 เลเยอร์ในรุ่นนี้ (# 154, # 152, # 145) และ 2 ในนั้นเป็นรุ่นแรก ๆ ของรุ่นนี้ จากสิ่งที่ฉันรู้เลเยอร์ softmax เป็นผลลัพธ์สุดท้ายดังนั้นทำไมจึงมีมากมาย จุดประสงค์ของอีก 2 เลเยอร์คืออะไร

3
โครงข่ายประสาทเทียม (เช่นเครือข่ายประสาทเทียม) สามารถรับน้ำหนักเชิงลบได้หรือไม่?
เป็นไปได้ไหมที่จะมีน้ำหนักติดลบ (หลังจากยุคที่เพียงพอ) สำหรับเครือข่ายประสาทเทียมที่ลึกล้ำเมื่อเราใช้ ReLU สำหรับเลเยอร์การเปิดใช้งานทั้งหมด?

5
มีเครื่องมือทางสายตาสำหรับการออกแบบและการใช้มุ้งประสาท / การเรียนรู้เชิงลึกหรือไม่? [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน10 เดือนที่ผ่านมา ฉันรู้ว่ามีห้องสมุดจำนวนมากสำหรับการเรียนรู้ของเครื่องและการเรียนรู้อย่างลึกซึ้งเช่น caffe, Theano, TensorFlow, keras, ... แต่สำหรับฉันดูเหมือนว่าฉันต้องรู้จักสถาปัตยกรรมของโครงข่ายประสาทที่ฉันต้องการใช้ มีเครื่องมือ (ภาพ) ที่อนุญาตให้ทำการทดลองกับการออกแบบเครือข่ายที่แตกต่างกันและนำไปใช้กับข้อมูลของตัวเองหรือไม่? ฉันกำลังคิดเกี่ยวกับบางสิ่งเช่นสนามเด็กเล่น TensorFlowแต่มีข้อมูล n-มิติและเลเยอร์ชนิดต่าง ๆ ขอบคุณล่วงหน้า!

4
ในซีเอ็นเอ็นมีการยกตัวอย่างและแปลงรูปแบบเดียวกันหรือไม่
ทั้งคำว่า "อัพแซมปลิง" และ "ทรานสคริซิชั่น" จะถูกใช้เมื่อคุณกำลังทำ "deconvolution" (<- ไม่ใช่คำศัพท์ที่ดี แต่ให้ฉันใช้ที่นี่) แต่เดิมฉันคิดว่าพวกเขาหมายถึงสิ่งเดียวกัน แต่ดูเหมือนว่าฉันจะแตกต่างกันหลังจากที่ฉันอ่านบทความเหล่านี้ ใครช่วยอธิบายหน่อยได้ไหม Transpose convolution : ดูเหมือนว่าเราสามารถใช้มันได้เมื่อเราเผยแพร่การสูญเสียผ่านเครือข่ายประสาทเทียม convolutonal http://andrew.gibiansky.com/blog/machine-learning/convolutional-neural-networks/#Backward-Propagation https://github.com/vdumoulin/conv_arithmetic https://arxiv.org/pdf/1312.6034v2.pdfส่วนที่ 4 "สำหรับเลเยอร์ convolutional ... " Upsampling : ดูเหมือนว่าเราจะใช้มันเมื่อเราต้องการสุ่มตัวอย่างจากอินพุตที่เล็กลงไปสู่อินพุตที่ใหญ่ขึ้นในโครงสร้าง convnet-decovnet https://www.youtube.com/watch?v=ByjaPdWXKJ4&feature=youtu.be&t=22m

1
บล็อกการเรียนรู้ที่เหลือคืออะไรในบริบทของเครือข่ายที่หลงเหลืออยู่ลึกในการเรียนรู้อย่างลึก
ฉันกำลังอ่านการเรียนรู้ส่วนที่เหลือลึกเพื่อการจดจำรูปภาพและฉันมีปัญหาในการทำความเข้าใจกับความมั่นใจ 100% สิ่งที่บล็อกส่วนเหลือตกค้างคำนวณ อ่านกระดาษของพวกเขาพวกเขามีรูปที่ 2: ซึ่งแสดงให้เห็นถึงสิ่งที่บล็อกส่วนที่เหลือควรจะเป็น การคำนวณของส่วนที่เหลือเป็นเพียงบล็อกเดียวกับ: y=σ(W2σ(W1x+b1)+b2+x)y=σ(W2σ(W1x+b1)+b2+x) \mathbf{y} = \sigma( W_2 \sigma( W_1 \mathbf{x} + b_1 ) + b_2 + \mathbf{x} ) หรือมันเป็นอย่างอื่น? ในคำอื่น ๆ อาจจะพยายามที่จะตรงกับสัญกรณ์ของกระดาษคือ: F(x)+x=[W2σ(W1x+b1)+b2]+xF(x)+x=[W2σ(W1x+b1)+b2]+x \mathcal F(x) + x = \left[ W_2 \sigma( W_1 \mathbf{x} + b_1 ) + b_2 \right] + \mathbf{x} มันเป็นเรื่องจริงเหรอ? โปรดสังเกตว่าหลังจากการรวมกลุ่มวงกลมคำว่า ReLU จะปรากฏบนกระดาษดังนั้นผลลัพธ์ของบล็อกส่วนที่เหลือ …

2
การทำงานของ DepthConcat ใน 'ทำงานอย่างลึกล้ำด้วยความเชื่อมั่น' ทำงานอย่างไร
การอ่านลึกลงไปด้วยความเชื่อมั่นฉันได้พบกับเลเยอร์DepthConcatซึ่งเป็นหน่วยการสร้างของโมดูลการลงทะเบียนที่เสนอซึ่งรวมเอาท์พุทของเทนเซอร์หลายขนาดที่แตกต่างกัน ผู้เขียนเรียกสิ่งนี้ว่า "Concatenation Filter" ดูเหมือนจะมีการนำไปใช้งานสำหรับ Torchแต่ฉันไม่เข้าใจจริงๆ บางคนสามารถอธิบายด้วยคำพูดง่าย ๆ ได้ไหม

2
การเลือกขนาดตัวกรองความก้าวหน้า ฯลฯ ใน CNN
ฉันกำลังดูการบรรยาย CS231N จาก Stanford และฉันพยายามที่จะสรุปประเด็นสำคัญในสถาปัตยกรรมของ CNN สิ่งที่ฉันพยายามจะเข้าใจก็คือหากมีแนวทางทั่วไปในการเลือกขนาดตัวกรอง convolution และสิ่งต่าง ๆ เช่นความก้าวหน้าหรือสิ่งนี้เป็นศิลปะมากกว่าวิทยาศาสตร์? การรวมกันฉันเข้าใจว่ามีอยู่ส่วนใหญ่เพื่อชักนำรูปแบบของค่าคงที่ของการแปลในรูปแบบ ในทางกลับกันฉันไม่มีสัญชาตญาณที่ดีในการเลือกขนาดกางเกง มีแนวทางอื่นที่นอกเหนือไปจากการพยายามบีบอัดขนาดเลเยอร์ปัจจุบันหรือพยายามที่จะทำให้เกิดการตอบสนองที่กว้างขึ้นไปยังเซลล์ประสาทหรือไม่? ใครรู้เอกสารที่ดีหรือคล้ายกันที่กล่าวถึงนี้

3
Non-linearity ก่อนชั้น Softmax สุดท้ายในเครือข่ายประสาทเทียม
ฉันกำลังศึกษาและพยายามใช้โครงข่ายประสาทเทียม แต่ฉันคิดว่าคำถามนี้ใช้ได้กับผู้เรียนหลายคนโดยทั่วไป เซลล์ส่งออกในเครือข่ายของฉันเป็นตัวแทนของการเปิดใช้งานของแต่ละชั้นเรียน: เซลล์ประสาทที่ใช้งานมากที่สุดสอดคล้องกับระดับที่คาดการณ์ไว้สำหรับการป้อนข้อมูลที่กำหนด ในการพิจารณาค่าใช้จ่ายข้ามเอนโทรปีสำหรับการฝึกอบรมฉันเพิ่มเลเยอร์ softmax ที่ส่วนท้ายของเครือข่ายเพื่อให้ค่าการเปิดใช้งานของเซลล์ประสาทแต่ละค่าถูกตีความเป็นค่าความน่าจะเป็น คำถามของฉันคือ: เซลล์ประสาทในชั้นเอาต์พุตควรใช้ฟังก์ชันที่ไม่ใช่เชิงเส้นกับอินพุตหรือไม่ สัญชาตญาณของฉันคือมันไม่จำเป็น: ถ้าอินพุตกับ th เอาต์พุตเซลล์ประสาทคือจุดผลิตภัณฑ์ระหว่างเวกเตอร์ (มาจากเลเยอร์ก่อนหน้า) และน้ำหนักสำหรับเซลล์ประสาทนั้นx T θ ฉัน x θ ฉันผมผมixTθผมxTθผมx^T\theta_ixxxθผมθผม\theta_i และถ้าฉันใช้ฟังก์ชั่นที่ไม่ใช่เชิงเส้นเดียวเช่น sigmoid หรือ ReLU ดังนั้นการเปิดใช้งานเอาต์พุตขนาดใหญ่จะยังคงสอดคล้องกับใหญ่ที่สุดดังนั้นจากมุมมองนี้ฟังก์ชั่นที่ไม่ใช่เชิงเส้นจะไม่เปลี่ยนการทำนายxTθผมxTθผมx^T\theta_i มีอะไรผิดปกติกับการตีความนี้หรือไม่? มีปัจจัยการฝึกอบรมบางอย่างที่ฉันมองเห็นหรือไม่ และถ้าฉันพูดถูกสิ่งใดจะเปลี่ยนไปถ้าแทนที่จะใช้ฟังก์ชั่น sigmoid ฉันใช้ฟังก์ชั่น ReLUซึ่งไม่ใช่ฟังก์ชั่นโมโนโทนิกอย่างแน่นอนสูงสุด( 0 , xTθผม)สูงสุด(0,xTθผม)\max(0,x^T\theta_i) แก้ไข จากการอ้างอิงถึงคำตอบของ Karel ซึ่งคำตอบโดยทั่วไปคือ "ขึ้นอยู่กับ" นี่คือคำอธิบายโดยละเอียดเพิ่มเติมเกี่ยวกับเครือข่ายและข้อสงสัยของฉัน: สมมติว่าฉันมีเลเยอร์ที่ซ่อนอยู่ N ชั้นและชั้นการส่งออกของฉันเป็นเพียงชั้น softmax เหนือชุดของเซลล์ประสาทที่เป็นตัวแทนของคลาส (ดังนั้นผลลัพธ์ที่คาดหวังของฉันคือความน่าจะเป็นที่ข้อมูลอินพุตเป็นของแต่ละชั้นเรียน) สมมติว่าเลเยอร์ N-1 แรกมีเซลล์ประสาทแบบไม่เชิงเส้นอะไรคือความแตกต่างระหว่างการใช้เซลล์ประสาทแบบไม่เชิงเส้นกับเชิงเส้นตรงในเลเยอร์ …

5
ฟังก์ชั่นการสูญเสียใดที่ฉันควรใช้สำหรับการตรวจจับแบบไบนารีในการตรวจจับใบหน้า / ไม่ใบหน้าใน CNN
ฉันต้องการใช้การเรียนรู้ลึกในการฝึกอบรมการตรวจจับใบหน้าไบนารี / ไม่ใช่ใบหน้าสิ่งที่สูญเสียฉันควรใช้ผมคิดว่ามันเป็นSigmoidCrossEntropyLossหรือบานพับการสูญเสีย ใช่แล้ว แต่ฉันสงสัยด้วยว่าฉันควรใช้ softmax แต่มีเพียงสองคลาสเท่านั้น?

2
เหตุใด CNN จึงสรุปด้วยเลเยอร์ FC
จากความเข้าใจของฉัน CNN ประกอบด้วยสองส่วน ส่วนแรก (Conv / พูลเลเยอร์) ซึ่งทำการแยกคุณสมบัติและส่วนที่สอง (fc layer) ซึ่งทำการจำแนกจากฟีเจอร์ เนื่องจากมุ้งที่เชื่อมต่ออย่างสมบูรณ์ไม่ใช่ตัวแยกประเภทที่ดีที่สุด (เช่นพวกเขาได้รับประสิทธิภาพที่ดีกว่าโดย SVM และ RF ส่วนใหญ่) ทำไม CNNs จึงสรุปด้วยเลเยอร์ FC แทนที่จะเป็น SVM หรือ RF?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.