คำถามติดแท็ก neural-networks

โครงข่ายประสาทเทียม (ANNs) เป็นรูปแบบการคำนวณในวงกว้างโดยยึดตามเครือข่ายประสาทชีววิทยาอย่างเข้มงวด พวกเขารวม NNs ของ feedforward (รวมถึง NN ที่ "ลึก"), NNs convolutional, NNs ที่เกิดซ้ำเป็นต้น

2
เครือข่ายที่เหลือเกี่ยวข้องกับการไล่ระดับสีอย่างรวดเร็วหรือไม่?
เมื่อเร็ว ๆ นี้เราเห็นการเกิดขึ้นของ Residual Neural Net นั้นแต่ละชั้นประกอบด้วยโมดูลการคำนวณและการเชื่อมต่อทางลัดที่เก็บรักษาอินพุตไว้กับเลเยอร์เช่นเอาท์พุทของการจัดแสดงชั้น ith: เครือข่ายอนุญาตให้แยกคุณลักษณะที่เหลือและช่วยให้ความลึกที่ลึกขึ้นในขณะที่มีประสิทธิภาพมากขึ้นสำหรับปัญหาการไล่ระดับสีที่หายไปเพื่อให้ได้ประสิทธิภาพการทำงานที่ทันสมัยy i + 1 = c i + y icicic_iyi+1=ci+yiyi+1=ci+yi y_{i+1} = c_i + y_i การขุดลึกลงไปในการเพิ่มระดับความลาดชันซึ่งเป็นเทคนิคการตระการตาที่ทรงพลังในโลกแห่งการเรียนรู้ของเครื่องซึ่งดูเหมือนว่าจะทำการเพิ่มประสิทธิภาพการไล่ระดับสีบนส่วนที่เหลือของการสูญเสียมันยากที่จะไม่เห็นความคล้ายคลึงกัน ฉันรู้ว่าพวกมันเหมือนกัน แต่ไม่เหมือนกัน - ข้อแตกต่างที่สำคัญอย่างหนึ่งที่ฉันสังเกตเห็นก็คือการเพิ่มความลาดชันนั้นจะทำการปรับให้เหมาะสมที่สุดกับคำศัพท์เสริมในขณะที่ส่วนที่เหลืออยู่จะทำให้เครือข่ายทั้งหมดดีที่สุด ผมไม่ได้เห็นเขา et al, ทราบว่านี่เป็นส่วนหนึ่งของแรงจูงใจของพวกเขาในของพวกเขากระดาษเดิม ดังนั้นฉันจึงสงสัยว่าความเข้าใจของคุณในหัวข้อนี้คืออะไรและขอให้คุณแบ่งปันแหล่งข้อมูลที่น่าสนใจที่คุณมี ขอบคุณ.

4
โครงข่ายประสาทเทียม - ความหมายของน้ำหนัก
ฉันใช้ฟีดไปข้างหน้า NN ฉันเข้าใจแนวคิด แต่คำถามของฉันเกี่ยวกับน้ำหนัก คุณจะตีความพวกเขาได้อย่างไรเช่นพวกเขาเป็นตัวแทนของอะไรหรือพวกเขาจะยกเลิกการรูทรูดได้อย่างไร ฉันพบสิ่งที่เรียกว่า "น้ำหนักของพื้นที่" แต่ฉันไม่แน่ใจว่ามันหมายถึงอะไร

1
Q-learning ด้วย Neural Network เป็นฟังก์ชันการประมาณ
ฉันกำลังพยายามที่จะใช้เครือข่ายประสาทเพื่อให้ใกล้เคียงกับ Q-ค่าใน Q-การเรียนรู้ในขณะที่มีคำถามเกี่ยวกับ Q-การเรียนรู้โดยใช้โครงข่ายประสาทเทียม ตามที่แนะนำในคำตอบแรกฉันใช้ฟังก์ชั่นการเปิดใช้งานเชิงเส้นสำหรับเลเยอร์เอาท์พุทในขณะที่ฉันยังคงใช้ฟังก์ชั่นการเปิดใช้งาน sigmoid ในเลเยอร์ที่ซ่อนอยู่ (2 แม้ว่าฉันจะสามารถเปลี่ยนได้ในภายหลัง) ฉันยังใช้ NN เดี่ยวที่คืนค่าเอาต์พุตสำหรับแต่ละการดำเนินการQ ( a )Q(a)Q(a)ตามที่แนะนำ อย่างไรก็ตามอัลกอริทึมยังคงแยกออกสำหรับปัญหาการทรงตัวของรถเข็นเสาอย่างง่าย ดังนั้นฉันกลัวว่าการอัปเดต Q ของฉันจะผิด หลังจากการเริ่มต้นสิ่งที่ฉันทำในแต่ละขั้นตอนมีดังต่อไปนี้: คำนวณQเสื้อ( sเสื้อ)Qt(st)Q_t(s_t)โดยใช้การขยายพันธุ์ไปข้างหน้าของ NN สำหรับการดำเนินการทั้งหมด เลือกการกระทำใหม่T , ที่ดินในรัฐใหม่s Taเสื้อata_tsเสื้อsts_t คำนวณQเสื้อ( st + 1)Qt(st+1)Q_t(s_{t+1})โดยใช้การขยายพันธุ์ไปข้างหน้าของ NN สำหรับการดำเนินการทั้งหมด a t Q t + 1 ( sQt + 1( sเสื้อ,เสื้อ) = Qเสื้อ( sเสื้อ,เสื้อ) + αเสื้อ[ …

3
แบบจำลอง skip-gram ของ Word2Vec สร้างเวกเตอร์เอาต์พุตได้อย่างไร
ฉันมีปัญหาในการทำความเข้าใจโมเดลอัลกอริทึมของ Word2Vec ในกระเป๋าของคำอย่างต่อเนื่องเป็นเรื่องง่ายที่จะเห็นว่าคำบริบทสามารถ "พอดี" ในเครือข่ายประสาทเนื่องจากคุณโดยเฉลี่ยพวกเขาหลังจากที่คูณการเป็นตัวแทนการเข้ารหัสหนึ่งร้อนด้วยเมทริกซ์อินพุต W. อย่างไรก็ตามในกรณีของ skip-gram คุณจะได้รับเวกเตอร์คำอินพุตโดยการคูณการเข้ารหัสแบบร้อนกับเมทริกซ์อินพุตและจากนั้นคุณควรจะได้เวกเตอร์ C (= ขนาดหน้าต่าง) สำหรับคำบริบทโดยการคูณ การแทนค่าเวกเตอร์อินพุทด้วยเมทริกซ์เอาต์พุต W ' สิ่งที่ฉันหมายถึงคือการมีคำศัพท์ขนาดและการเข้ารหัสขนาด ,อินพุตเมทริกซ์และเป็นเมทริกซ์เอาต์พุต ให้คำว่าด้วยการเข้ารหัสหนึ่งร้อนด้วยคำบริบทและ (กับ reps หนึ่งร้อนและ ) ถ้าคุณคูณด้วยเมทริกซ์อินพุตคุณจะได้รับตอนนี้คุณจะสร้างเวกเตอร์คะแนนจากสิ่งนี้ได้อย่างไรN W ∈ R V × N W ' ∈ R N × V W ฉันx ฉันW J W H x J x H x ฉัน W …

2
การจำแนกประเภทที่มีข้อมูล“ ไม่ทราบ” บางส่วน
สมมติว่าฉันต้องการเรียนรู้ลักษณนามที่ใช้เวกเตอร์ของตัวเลขเป็นอินพุตและให้เลเบลของคลาสเป็นเอาต์พุต ข้อมูลการฝึกอบรมของฉันประกอบด้วยคู่ของอินพุตและเอาท์พุตจำนวนมาก อย่างไรก็ตามเมื่อฉันมาทดสอบข้อมูลใหม่บางอย่างข้อมูลนี้จะสมบูรณ์เพียงบางส่วนเท่านั้น ตัวอย่างเช่นถ้าเวกเตอร์การป้อนข้อมูลมีความยาว 100 อาจมีเพียง 30 องค์ประกอบเท่านั้นที่จะได้รับค่า เป็นตัวอย่างของสิ่งนี้พิจารณาการรู้จำภาพเมื่อเป็นที่ทราบกันว่าส่วนหนึ่งของภาพนั้นถูกบดบัง หรือพิจารณาการจัดประเภทในแง่ทั่วไปที่ทราบว่าส่วนหนึ่งของข้อมูลเสียหาย ในทุกกรณีฉันรู้ว่าองค์ประกอบใดในเวกเตอร์ข้อมูลคือส่วนที่ไม่รู้จัก ฉันสงสัยว่าฉันจะเรียนรู้ลักษณนามที่จะทำงานกับข้อมูลประเภทนี้ได้อย่างไร ฉันสามารถตั้งค่าองค์ประกอบที่ "ไม่รู้จัก" เป็นตัวเลขสุ่ม แต่เนื่องจากมีองค์ประกอบที่ไม่รู้จักมากกว่าที่รู้จักบ่อยครั้งสิ่งนี้ไม่ได้ดูเหมือนโซลูชันที่ดี หรือฉันสามารถเปลี่ยนองค์ประกอบในข้อมูลการฝึกอบรมเป็น "ไม่ทราบ" และฝึกอบรมกับสิ่งเหล่านี้แทนที่จะเป็นข้อมูลที่สมบูรณ์ แต่อาจต้องมีการสุ่มตัวอย่างแบบละเอียดขององค์ประกอบที่รู้จักและไม่รู้จักทั้งหมด โดยเฉพาะอย่างยิ่งฉันกำลังคิดเกี่ยวกับโครงข่ายประสาท ความคิดใด ๆ ขอบคุณ!

1
R neuralnet - คำนวณให้คำตอบคงที่
ฉันกำลังพยายามใช้neuralnetแพ็คเกจของ R (เอกสารที่นี่ ) เพื่อคาดการณ์ นี่คือสิ่งที่ฉันพยายามทำ: library(neuralnet) x <- cbind(runif(50, min=1, max=500), runif(50, min=1, max=500)) y <- x[, 1] * x[, 2] train <- data.frame(x, y) n <- names(train) f <- as.formula(paste('y ~', paste(n[!n %in% 'y'], collapse = ' + '))) net <- neuralnet(f, train, hidden = c(5, 5), threshold=0.01) …

5
พื้นหลังทางคณิตศาสตร์สำหรับเครือข่ายประสาท
ไม่แน่ใจว่าสิ่งนี้เหมาะสมสำหรับไซต์นี้หรือไม่ แต่ฉันเริ่มต้น MSE ของฉันในสาขาวิทยาศาสตร์คอมพิวเตอร์ (BS ในคณิตศาสตร์ประยุกต์) และต้องการที่จะมีพื้นฐานที่แข็งแกร่งในการเรียนรู้ของเครื่อง หนึ่งในความสนใจย่อยของฉันคือเครือข่ายประสาท พื้นหลังทางคณิตศาสตร์ที่ดีสำหรับ ANNs คืออะไร เช่นเดียวกับในด้านอื่น ๆ ของการเรียนรู้ของเครื่องฉันคิดว่าพีชคณิตเชิงเส้นมีความสำคัญ แต่ส่วนอื่น ๆ ของคณิตศาสตร์มีความสำคัญอย่างไร ผมวางแผนที่จะอ่านโครงข่ายประสาท: บทนำอย่างเป็นระบบหรือโครงข่ายประสาทเทียมสำหรับการจดจำรูปแบบ ใครบ้างมีคำแนะนำการป้อนข้อมูลหรือคำแนะนำอื่น ๆ

4
เป็นไปได้ที่จะได้รับ ANN ที่ดีขึ้นโดยการลบการเชื่อมต่อบางอย่าง?
ฉันสงสัยว่าในบางสถานการณ์มีความเป็นไปได้ที่ ANN จะทำงานได้ดีขึ้นหรือไม่ถ้าคุณตัดการเชื่อมต่อบางอย่างกับพวกเขาเป็นตัวอย่าง: สร้าง ANN หนึ่งอันโดยใช้ A และ B หลายชั้นของ ANN แบบสองชั้นในแบบคู่ขนาน (โหนดอินพุตและเอาต์พุตเดียวกัน) เพิ่มการเชื่อมต่อ "การสื่อสาร" สองสามอย่างระหว่างเลเยอร์ A และ B ที่ซ่อนอยู่? เราจะได้ผลลัพธ์ที่ดีกว่า นี่ใช้ในทางปฏิบัติหรือไม่ใช้แค่เครือข่ายที่เชื่อมต่อแบบหลายชั้นเสมอ

1
การสูญเสียน้ำหนักคืออะไร?
ฉันเริ่มต้นด้วยการเรียนรู้อย่างลึกซึ้งและฉันมีคำถามที่คำตอบที่ฉันไม่สามารถหาได้บางทีฉันอาจค้นหาไม่ถูกต้อง ฉันได้เห็นคำตอบนี้แล้ว แต่ก็ยังไม่ชัดเจนว่าการลดลงของน้ำหนักคืออะไรและเกี่ยวข้องกับฟังก์ชั่นลดน้ำหนักอย่างไร

2
สัญชาตญาณที่อยู่เบื้องหลังเครือข่ายประสาทแบบ Long Long Term Memory (LSTM) กำเริบคืออะไร?
แนวคิดที่อยู่เบื้องหลัง Recurrent Neural Network (RNN) ชัดเจนสำหรับฉัน ฉันเข้าใจในวิธีต่อไปนี้: เรามีลำดับของการสังเกต ( ) (หรือกล่าวอีกนัยหนึ่งคืออนุกรมเวลาหลายตัวแปร) การสังเกตแต่ละครั้งเป็นเวกเตอร์ตัวเลข -dimensional ภายในโมเดล RNN เราถือว่าการสังเกตต่อไปเป็นหน้าที่ของการสังเกตการณ์ก่อนหน้านี้เช่นเดียวกับ "สถานะที่ซ่อน" ก่อนหน้านี้ซึ่งสถานะที่ซ่อนอยู่จะถูกแสดงด้วยตัวเลข เวกเตอร์ (ขนาดของสถานะที่ถูกตรวจสอบและสถานะที่ซ่อนอยู่อาจแตกต่างกัน) รัฐที่ซ่อนตัวเองก็สันนิษฐานว่าขึ้นอยู่กับการสังเกตก่อนหน้านี้และสถานะที่ซ่อนอยู่:โอ⃗ 1, o⃗ 2, … , o⃗ no→1,o→2,…,o→n\vec o_1, \vec o_2, \dots, \vec o_nโอ⃗ ผมo→i\vec o_iยังไม่มีข้อความNNโอ⃗ ฉัน+ 1o→i+1\vec o_{i+1}โอ⃗ ผมo→i\vec o_{i}ชั่วโมง⃗ ผมh→i\vec h_i โอ⃗ ผม, ชั่วโมง⃗ ผม= F( o⃗ ฉัน- …


2
ฟังก์ชั่นค่าใช้จ่ายข้ามเอนโทรปีในเครือข่ายประสาท
ฉันกำลังดูฟังก์ชั่นค่าใช้จ่ายข้ามเอนโทรปีที่พบในบทช่วยสอนนี้ : C=−1n∑x[ylna+(1−y)ln(1−a)]C=−1n∑x[yln⁡a+(1−y)ln⁡(1−a)]C = -\frac{1}{n} \sum_x [y \ln a+(1−y)\ln(1−a)] เราสรุปอะไรกันแน่? มันเป็นของแน่นอนกว่าแต่และไม่เปลี่ยนกับxทั้งหมดของ 's เป็นปัจจัยการผลิตเข้าไปในหนึ่ง ถูกกำหนดแม้ในย่อหน้าข้างต้นสมการที่เป็นฟังก์ชั่นของผลรวมของทั้งหมดที่ 'และ ' s xxxyyyaaaxxxxxxaaaaaawwwxxx นอกจากนี้ถูกนิยามเป็นจำนวนอินพุตในเซลล์ประสาทนี้โดยเฉพาะใช่ไหม มันเป็นคำพูดเป็น"จำนวนรายการข้อมูลการฝึกอบรม"nnn แก้ไข: ฉันคิดถูกแล้ว C=−1n∑x[ylna+(1−y)ln(1−a)]C=−1n∑x[yln⁡a+(1−y)ln⁡(1−a)]C= -\frac{1}{n} \sum_x [y \ln a+(1−y)\ln(1−a)] จะเป็นฟังก์ชั่นค่าใช้จ่ายสำหรับเครือข่ายทั้งหมดในขณะที่ C=[ylna+(1−y)ln(1−a)]C=[yln⁡a+(1−y)ln⁡(1−a)]C = [y \ln a+(1−y)\ln(1−a)] จะมีค่าใช้จ่ายสำหรับเซลล์ประสาทส่วนบุคคลหรือไม่ ผลรวมไม่ควรอยู่เหนือเซลล์ประสาทขาออกแต่ละอัน?

2
วิธีการฝึกอบรม SVM ผ่านการ backpropagation?
ฉันสงสัยว่าเป็นไปได้ไหมที่จะฝึก SVM (พูดเป็นเส้นตรงเพื่อทำให้เป็นเรื่องง่าย) โดยใช้การขยายภาพย้อนหลัง? ปัจจุบันฉันอยู่ในอุปสรรคเพราะฉันสามารถคิดได้เฉพาะการเขียนผลลัพธ์ของตัวจําแนกเป็น f(x;θ,b)=sgn(θ⋅x−(b+1))=sgn(g(x;θ,b))f(x;θ,b)=sgn(θ⋅x−(b+1))=sgn(g(x;θ,b)) f(\mathbf{x};\theta,b) = \text{sgn}(\theta\cdot\mathbf{x} - (b+1)) = \text{sgn}(g(\mathbf{x};\theta,b)) ดังนั้นเมื่อเราลองและคำนวณ "ย้อนกลับผ่าน" (ข้อผิดพลาดที่แพร่กระจาย) เราจะได้รับ เนื่องจากอนุพันธ์ของsgn(x)คือ dsgn(x)∂E∂x=∂E∂f(x;θ,b)∂f(x;θ,b)x=∂E∂f(x;θ,b)∂sgn(g(x;θ,b))∂g(x;θ,b)∂g(x;θ,b)∂x=δdsgn(z)dzθ=δ⋅0⋅θ=0∂E∂x=∂E∂f(x;θ,b)∂f(x;θ,b)x=∂E∂f(x;θ,b)∂sgn(g(x;θ,b))∂g(x;θ,b)∂g(x;θ,b)∂x=δdsgn(z)dzθ=δ⋅0⋅θ=0 \begin{align} \frac{\partial E}{\partial \mathbf{x}} &= \frac{\partial E}{\partial f(\mathbf{x};\theta,b)} \frac{\partial f(\mathbf{x};\theta,b)}{\mathbf{x}} \\ &= \frac{\partial E}{\partial f(\mathbf{x};\theta,b)} \frac{\partial \text{sgn}(g(\mathbf{x};\theta,b))}{\partial g(\mathbf{x};\theta,b)} \frac{\partial g(\mathbf{x};\theta,b)}{\partial \mathbf{x}} \\ &= \delta \, \frac{d \text{sgn}(z)}{dz} \, \theta \\ &= …

3
เครือข่ายประสาทสามารถเรียนรู้การทำงานและการทำงานของมันได้หรือไม่
ฉันเข้าใจว่าเครือข่ายนิวรัล (NNs) สามารถพิจารณาได้ว่าเป็นผู้ประมาณสากลสำหรับฟังก์ชั่นและอนุพันธ์ภายใต้สมมติฐานบางประการ (ทั้งเครือข่ายและฟังก์ชั่นโดยประมาณ) ในความเป็นจริงฉันได้ทำการทดสอบจำนวนมากเกี่ยวกับฟังก์ชั่นที่เรียบง่าย แต่ไม่สำคัญ (เช่นพหุนาม) และดูเหมือนว่าฉันสามารถประมาณพวกเขาและอนุพันธ์อันดับแรกได้เป็นอย่างดี (ตัวอย่างแสดงไว้ด้านล่าง) อย่างไรก็ตามสิ่งที่ไม่ชัดเจนสำหรับฉันคือว่าทฤษฎีบทที่นำไปสู่การขยาย (หรืออาจจะขยาย) ไปยัง functionals และอนุพันธ์การทำงานของพวกเขา ลองพิจารณาตัวอย่างเช่นการใช้งาน: F[f(x)]=∫badx f(x)g(x)F[f(x)]=∫abdx f(x)g(x)\begin{equation} F[f(x)] = \int_a^b dx ~ f(x) g(x) \end{equation} ด้วยการใช้งานอนุพันธ์: δF[f(x)]δf(x)=g(x)δF[f(x)]δf(x)=g(x)\begin{equation} \frac{\delta F[f(x)]}{\delta f(x)} = g(x) \end{equation} ที่f(x)f(x)f(x)ขึ้นอยู่ทั้งหมดและไม่ใช่นิดบนg(x)g(x)g(x)) NN สามารถเรียนรู้การทำแผนที่ด้านบนและอนุพันธ์ของหน้าที่ได้หรือไม่ โดยเฉพาะอย่างยิ่งหากมีใครแยกโดเมนxxxมากกว่า[a,b][a,b][a,b]และให้f(x)f(x)f(x)(ที่จุดที่ไม่น่าสนใจ) เป็นอินพุตและF[f(x)]F[f(x)]F[f(x)]ในฐานะที่เป็นเอาท์พุท NN สามารถเรียนรู้การทำแผนที่นี้อย่างถูกต้อง (อย่างน้อยในทางทฤษฎี)? ถ้าเป็นเช่นนั้นมันสามารถเรียนรู้อนุพันธ์ของการทำแผนที่ได้หรือไม่ ฉันได้ทำการทดสอบหลายครั้งและดูเหมือนว่า NN อาจเรียนรู้การแมปF[f(x)]F[f(x)]F[f(x)]ได้ในระดับหนึ่ง อย่างไรก็ตามในขณะที่ความถูกต้องของการทำแผนที่นี้ก็โอเค แต่ก็ไม่ได้ยอดเยี่ยม และที่น่าเป็นห่วงก็คืออนุพันธ์ของฟังก์ชันที่คำนวณได้นั้นเป็นขยะที่สมบูรณ์ (ทั้งสองอย่างนี้อาจเกี่ยวข้องกับปัญหาในการฝึกอบรมและอื่น …

1
ฉันสามารถใช้ ReLU ใน autoencoder เป็นฟังก์ชั่นการเปิดใช้งานได้หรือไม่?
เมื่อติดตั้ง autoencoder กับโครงข่ายประสาทเทียมคนส่วนใหญ่จะใช้ sigmoid เป็นฟังก์ชั่นการเปิดใช้งาน เราสามารถใช้ ReLU แทนได้หรือไม่? (เนื่องจาก ReLU ไม่มีขีด จำกัด บนขอบเขตโดยทั่วไปหมายถึงภาพอินพุตสามารถมีพิกเซลใหญ่กว่า 1 ซึ่งแตกต่างจากเกณฑ์ที่ จำกัด สำหรับ autoencoder เมื่อใช้ sigmoid)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.