คำถามติดแท็ก neural-networks

โครงข่ายประสาทเทียม (ANNs) เป็นรูปแบบการคำนวณในวงกว้างโดยยึดตามเครือข่ายประสาทชีววิทยาอย่างเข้มงวด พวกเขารวม NNs ของ feedforward (รวมถึง NN ที่ "ลึก"), NNs convolutional, NNs ที่เกิดซ้ำเป็นต้น

1
วิธีสร้างเคอร์เนล perceptron อย่างง่าย?
ปัญหาการจัดหมวดหมู่ที่มีขอบเขตไม่เชิงเส้นไม่สามารถแก้ไขได้โดยง่ายตรอน รหัส R ต่อไปนี้มีวัตถุประสงค์เพื่อเป็นตัวอย่างและเป็นไปตามตัวอย่างนี้ใน Python): nonlin <- function(x, deriv = F) { if (deriv) x*(1-x) else 1/(1+exp(-x)) } X <- matrix(c(-3,1, -2,1, -1,1, 0,1, 1,1, 2,1, 3,1), ncol=2, byrow=T) y <- c(0,0,1,1,1,0,0) syn0 <- runif(2,-1,1) for (iter in 1:100000) { l1 <- nonlin(X %*% syn0) l1_error <- y - l1 …

2
pretraining คืออะไรและคุณจะฝึกฝนเครือข่ายประสาทเทียมอย่างไร
ฉันเข้าใจว่าการเตรียมการล่วงหน้านั้นใช้เพื่อหลีกเลี่ยงปัญหาบางอย่างด้วยการฝึกอบรมทั่วไป ถ้าฉันใช้ backpropagation ด้วยพูด autoencoder ฉันรู้ว่าฉันกำลังจะเจอปัญหาเวลาเพราะ backpropagation ช้าและฉันสามารถติดอยู่ใน optima ท้องถิ่นและไม่ได้เรียนรู้คุณสมบัติบางอย่าง สิ่งที่ฉันไม่เข้าใจคือวิธีที่เราฝึกฝนเครือข่ายและสิ่งที่เราทำเพื่อฝึกฝน ตัวอย่างเช่นหากเราได้รับเครื่อง Boltzmann ที่มีการ จำกัด จำนวนมากเราจะจัดการเครือข่ายนี้ได้อย่างไร

1
วิธีการกำหนดจำนวนของผู้ประกอบการ convolutional ในซีเอ็นเอ็น?
ในงานด้านการมองเห็นคอมพิวเตอร์เช่นการจำแนกประเภทวัตถุด้วย Convolutional Neural Networks (CNN) เครือข่ายจะให้ประสิทธิภาพที่น่าดึงดูด แต่ฉันไม่แน่ใจว่าจะตั้งค่าพารามิเตอร์ในเลเยอร์ convolutional ได้อย่างไร ตัวอย่างเช่นรูปภาพระดับสีเทา ( 480x480) เลเยอร์ convolutional แรกอาจใช้โอเปอเรเตอร์ convolutional เช่น11x11x10ซึ่งหมายเลข10หมายถึงจำนวนของโอเปอเรเตอร์ convolutional คำถามคือวิธีการกำหนดจำนวนผู้ประกอบการ convolutional ใน CNN?

4
การพยากรณ์อนุกรมเวลา R ด้วยเครือข่ายประสาทเทียม auto.arima และ ets
ฉันได้ยินมาบ้างเกี่ยวกับการใช้โครงข่ายประสาทเทียมในการทำนายอนุกรมเวลา ฉันจะเปรียบเทียบวิธีการพยากรณ์อนุกรมเวลาของฉัน (ข้อมูลการค้าปลีกรายวัน) ได้ดีกว่า: auto.arima (x), ets (x) หรือ nnetar (x) ฉันสามารถเปรียบเทียบ auto.arima กับ ets โดย AIC หรือ BIC แต่ฉันจะเปรียบเทียบกับเครือข่ายประสาทได้อย่างไร ตัวอย่างเช่น: > dput(x) c(1774, 1706, 1288, 1276, 2350, 1821, 1712, 1654, 1680, 1451, 1275, 2140, 1747, 1749, 1770, 1797, 1485, 1299, 2330, 1822, 1627, 1847, 1797, 1452, 1328, 2363, 1998, …

1
การเปรียบเทียบ CPH แบบจำลองเวลาความล้มเหลวเร่งหรือโครงข่ายประสาทเทียมสำหรับการวิเคราะห์การอยู่รอด
ฉันยังใหม่กับการวิเคราะห์การเอาชีวิตรอดและเมื่อเร็ว ๆ นี้ฉันได้เรียนรู้ว่ามีวิธีที่แตกต่างในการทำเพื่อให้ได้เป้าหมายที่แน่นอน ฉันสนใจในการนำไปใช้จริงและความเหมาะสมของวิธีการเหล่านี้ ฉันได้รับการนำเสนอด้วยCox Proportional-Hazards , โมเดลเวลาความล้มเหลวเร่งความเร็วและเครือข่ายประสาท (multilayer perceptron) เป็นวิธีการที่จะทำให้ผู้ป่วยรอดชีวิตจากการได้รับเวลาสถานะและข้อมูลทางการแพทย์อื่น ๆ การศึกษานี้ได้รับการกล่าวถึงในอีกห้าปีข้างหน้าและเป้าหมายคือการให้ความเสี่ยงต่อการอยู่รอดในแต่ละปีเพื่อให้มีการบันทึกใหม่ ฉันพบสองอินสแตนซ์ที่มีวิธีอื่นที่เลือกไว้เหนือ Cox PH: ฉันพบ " วิธีรับการทำนายในแง่ของเวลาการเอาชีวิตรอดจากโมเดล Cox PH " และได้มีการกล่าวไว้ว่า: หากคุณมีความสนใจโดยเฉพาะอย่างยิ่งในการได้รับการประเมินความน่าจะเป็นของการอยู่รอดที่จุดเวลาโดยเฉพาะอย่างยิ่งผมจะชี้ให้คุณไปสู่รูปแบบการอยู่รอดพารา (เวลาในการเร่ง aka ความล้มเหลว) สิ่งเหล่านี้ถูกนำมาใช้ในแพ็คเกจการเอาตัวรอดสำหรับ R และจะให้การแจกแจงเวลาการอยู่รอดแบบอิงพารามิเตอร์ซึ่งคุณสามารถเสียบเวลาที่คุณสนใจและกลับมาเป็นความอยู่รอดได้ ฉันไปที่เว็บไซต์ที่แนะนำและพบว่าหนึ่งในsurvivalแพคเกจ - survregฟังก์ชั่น เครือข่ายประสาทถูกแนะนำในความคิดเห็นนี้ : ... ข้อดีอย่างหนึ่งของวิธีการวิเคราะห์การอยู่รอดของโครงข่ายใยประสาทคือพวกมันไม่ได้ใช้สมมติฐานที่รองรับการวิเคราะห์ Cox ... อีกคนที่มีคำถามว่า " โมเดลเครือข่ายนิวรัลกับเวกเตอร์เป้าหมายเป็นผลลัพธ์ที่มีการทำนายการรอดชีวิต " เป็นวิธีที่ละเอียดถี่ถ้วนในการพิจารณาความอยู่รอดในเครือข่ายประสาทและ Cox PH รหัส R สำหรับการเอาตัวรอดจะเป็นดังนี้: mymodel …

4
การบรรจบกันของน้ำหนักเครือข่ายประสาท
ฉันมาถึงสถานการณ์ที่น้ำหนักของเครือข่ายประสาทของฉันไม่ได้มาบรรจบกันแม้หลังจากการวนซ้ำ 500 ครั้ง เครือข่ายประสาทของฉันมี 1 อินพุตเลเยอร์, ​​1 เลเยอร์ที่ซ่อนอยู่และ 1 เลเยอร์เอาท์พุท พวกมันมีอยู่ประมาณ 230 โหนดใน input layer, 9 nodes ใน hidden layer และ 1 output node ใน output layer ฉันอยากรู้ว่าถ้าฉันหยุดก่อนกำหนด (พูดว่าหยุดการฝึกอบรมเครือข่ายประสาทหลังจากทำซ้ำ 100 ครั้ง) จะมีผลกระทบอะไรกับโมเดลนี้? ยังต้องการที่จะรู้ว่ามาตรฐานอุตสาหกรรมของการทำงานคืออะไรถ้าน้ำหนักในเครือข่ายประสาทไม่ได้มาบรรจบกัน?

2
ค่าที่คาดหวังของตัวแปรสุ่มแบบเกาส์แปลงด้วยฟังก์ชันโลจิสติก
ทั้งฟังก์ชั่นโลจิสติกและส่วนเบี่ยงเบนมาตรฐานมักจะแสดง\ฉันจะใช้และสำหรับค่าเบี่ยงเบนมาตรฐานσσ\sigmaσ(x)=1/(1+exp(−x))σ(x)=1/(1+exp⁡(−x))\sigma(x) = 1/(1+\exp(-x))sss ฉันมีเซลล์ประสาทลอจิสติกพร้อมอินพุตสุ่มที่มีค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานฉันรู้ ฉันหวังว่าความแตกต่างจากค่าเฉลี่ยนั้นสามารถประมาณได้ดีจากเสียงเกาส์เซียนบางส่วน ดังนั้นที่มีการละเมิดเล็กน้อยของสัญกรณ์สมมติมันผลิต2)) ค่าที่คาดหวังของคืออะไร ค่าเบี่ยงเบนมาตรฐานอาจจะมีขนาดใหญ่หรือเล็กเมื่อเทียบกับหรือ1การประมาณรูปแบบปิดที่ดีสำหรับค่าที่คาดหวังจะเกือบดีเท่ากับโซลูชันแบบปิดμμ\musssσ(μ+N(0,s2))=σ(N(μ,s2))σ(μ+N(0,s2))=σ(N(μ,s2))\sigma(\mu + N(0,s^2))=\sigma(N(\mu,s^2))σ(N(μ,s2))σ(N(μ,s2))\sigma(N(\mu,s^2))sssμμ\mu111 ฉันไม่คิดว่ามีโซลูชันแบบปิดอยู่ สิ่งนี้สามารถถูกมองได้ว่าเป็นรูปแบบสังวัตนาและฟังก์ชันลักษณะเฉพาะสำหรับความหนาแน่นของโลจิสติกส์นั้นเป็นที่รู้จัก ( ) แต่ฉันไม่แน่ใจว่าจะช่วยได้มากแค่ไหน เครื่องคิดเลขสัญลักษณ์ผกผันก็ไม่สามารถที่จะยอมรับความหนาแน่นที่ของการบิดของความหนาแน่นของการกระจายโลจิสติกและการกระจายปกติมาตรฐานซึ่งแสดงให้เห็น แต่ไม่ได้พิสูจน์ว่าไม่มีหนึ่งประถมง่าย หลักฐานเพิ่มเติมจากสถานการณ์: ในเอกสารบางฉบับเกี่ยวกับการเพิ่มสัญญาณรบกวนแบบเกาส์ไปยังเครือข่ายประสาทด้วยเซลล์ประสาทลอจิสติกเอกสารไม่ได้ให้การแสดงออกในรูปแบบปิดเช่นกันπt csch πtπt csch πt\pi t ~\text{csch} ~\pi t000 คำถามนี้เกิดขึ้นในการพยายามทำความเข้าใจข้อผิดพลาดในการประมาณค่าเฉลี่ยฟิลด์ในเครื่อง Boltzman

2
จุดประสงค์ของสัญญาณรบกวนดีริชเลต์ในกระดาษ AlphaZero
ในเอกสาร AlphaGo ZeroและAlphaZeroของ DeepMind พวกเขาอธิบายการเพิ่มสัญญาณรบกวนDirichletให้กับความน่าจะเป็นก่อนหน้าของการกระทำจากโหนดรูท (สถานะกระดาน) ใน Monte Carlo Tree Search: การสำรวจเพิ่มเติมทำได้โดยการเพิ่มเสียง Dirichlet ให้กับความน่าจะเป็นก่อนหน้านี้ในรูทโหนดโดยเฉพาะโดยที่และ ; เสียงรบกวนนี้ทำให้มั่นใจได้ว่าการเคลื่อนไหวทั้งหมดอาจถูกลองใช้ แต่การค้นหาอาจยังคงเป็นการลบล้างการเคลื่อนไหวที่ไม่ดีs0s0s_0P( s , a ) = ( 1 - ε )พีa+ εηaP(s,a)=(1−ε)pa+εηaP(s, a) = (1−\varepsilon)p_a+ \varepsilon \eta_aη~ Dir ( 0.03 )η∼Dir(0.03)\eta \sim \text{Dir}(0.03)ε = 0.25ε=0.25\varepsilon = 0.25 (AlphaGo Zero) และ: เพิ่ม Dirichlet noiseในความน่าจะเป็นก่อนหน้านี้ในโหนดรูท นี่เป็นสัดส่วนในสัดส่วนผกผันกับจำนวนการเคลื่อนไหวทางกฎหมายโดยประมาณในตำแหน่งทั่วไปค่าของสำหรับหมากรุกโชกิและโกตามลำดับDir …

3
ไฮเปอร์เพลนจำแนกข้อมูลได้อย่างเหมาะสมที่สุดเมื่ออินพุตไม่ขึ้นกับเงื่อนไข - ทำไม?
ในกระดาษที่เรียกว่าการเรียนรู้อย่างลึกซึ้งและหลักการคอขวดข้อมูลผู้เขียนระบุไว้ในส่วน II A) ดังต่อไปนี้: เซลล์ประสาทเดี่ยวจัดประเภทอินพุตแบบแยกได้เชิงเส้นเท่านั้นเนื่องจากพวกมันสามารถนำไฮเปอร์เพลนมาใช้ในพื้นที่อินพุตเท่านั้น u = w h + bu=wh+bu = wh+b. ไฮเปอร์เพลนสามารถจำแนกข้อมูลได้อย่างเหมาะสมที่สุดเมื่ออินพุทถูกปล่อยให้เป็นอิสระ เพื่อแสดงสิ่งนี้พวกเขาได้รับสิ่งต่อไปนี้ ใช้ทฤษฎีบทของเบย์พวกเขาได้: p ( y| x)=11 + e x p ( - l o gp ( x | y)p ( x |Y')- l o gp ( y)p (Y'))p(y|x)=11+exp(−logp(x|y)p(x|y′)−logp(y)p(y′))p(y|x) = \frac{1}{1 + exp(-log\frac{p(x|y)}{p(x|y')} -log\frac{p(y)}{p(y')})} (1) ที่ไหน xxx …

2
WaveNet ไม่ใช่การโน้มน้าวใจจริง ๆ ใช่ไหม?
ในกระดาษWaveNetเมื่อเร็ว ๆ นี้ผู้เขียนอ้างถึงรูปแบบของพวกเขาว่ามีชั้นซ้อนทับของความเชื่อมั่นที่ขยาย พวกเขายังจัดทำแผนภูมิต่อไปนี้เพื่ออธิบายความแตกต่างระหว่างการโน้มน้าวแบบ 'ปกติ' และการโน้มน้าวแบบขยาย Convolutions ทั่วไปดูเหมือนว่า นี่คือ convolutions ที่มีขนาดฟิลเตอร์ที่ 2 และ stride ที่ 1 ซ้ำเป็น 4 เลเยอร์ จากนั้นพวกเขาแสดงสถาปัตยกรรมที่ใช้โดยแบบจำลองของพวกเขาซึ่งพวกเขาเรียกว่า convolutions ที่ขยาย ดูเหมือนว่านี้ พวกเขาบอกว่าแต่ละชั้นมีการเจือจางที่เพิ่มขึ้นของ (1, 2, 4, 8) แต่สำหรับฉันแล้วนี่ดูเหมือนการบิดปกติที่มีขนาดฟิลเตอร์ที่ 2 และ stride ที่ 2 ซ้ำเป็น 4 เลเยอร์ ตามที่ฉันเข้าใจแล้วการบิดแบบขยายที่มีขนาดตัวกรองเป็น 2 ก้าว 1 และเพิ่มการเจือจางที่ (1, 2, 4, 8) จะมีลักษณะเช่นนี้ ในไดอะแกรม WaveNet ไม่มีตัวกรองใด …

1
SVMs = การจับคู่เทมเพลตเป็นอย่างไร
ฉันอ่านเกี่ยวกับ SVM และเรียนรู้ว่าพวกเขากำลังแก้ไขปัญหาการปรับให้เหมาะสมและแนวคิดของกำไรขั้นต้นนั้นสมเหตุสมผลมาก ตอนนี้การใช้เมล็ดพวกเขาสามารถค้นหาขอบเขตการแยกแบบไม่เป็นเชิงเส้นได้ซึ่งยอดเยี่ยม จนถึงตอนนี้ฉันไม่รู้จริงๆเลยว่า SVM (เครื่องเคอร์เนลพิเศษ) และเครื่องเคอร์เนลเกี่ยวข้องกับเครือข่ายประสาทอย่างไร พิจารณาความคิดเห็นโดยYann Lecun => ที่นี่ : kernel methods were a form of glorified template matching และที่นี่ด้วย : ตัวอย่างเช่นบางคนตื่นตากับวิธีเคอร์เนลเพราะคณิตศาสตร์น่ารักที่เข้ากับมัน แต่อย่างที่ฉันเคยพูดไปแล้วในตอนท้ายในที่สุดเครื่องเคอร์เนลเป็นเครือข่ายที่ตื้น ไม่มีอะไรผิดปกติ (SVM เป็นวิธีที่ยอดเยี่ยม) แต่มีข้อ จำกัด ที่น่ากลัวซึ่งเราทุกคนควรทราบ ดังนั้นคำถามของฉันคือ: SVM เกี่ยวข้องกับเครือข่ายประสาทอย่างไร มันเป็นเครือข่ายตื้นอย่างไร SVM แก้ปัญหาการเพิ่มประสิทธิภาพด้วยฟังก์ชั่นวัตถุประสงค์ที่กำหนดไว้อย่างดีมันทำการจับคู่แม่แบบอย่างไร? เทมเพลตที่นี่ตรงกับข้อมูลใด ฉันเดาว่าความคิดเห็นเหล่านี้ต้องการความเข้าใจอย่างถ่องแท้เกี่ยวกับช่องว่างมิติสูงอวนประสาทและเครื่องเคอร์เนล แต่จนถึงตอนนี้ฉันได้ลองแล้วและไม่สามารถเข้าใจตรรกะที่อยู่เบื้องหลัง แต่ก็เป็นเรื่องที่น่าสนใจอย่างยิ่งที่จะต้องทราบความเชื่อมโยงระหว่างเทคนิค ml ที่แตกต่างกันสองอย่าง แก้ไข: ฉันคิดว่าการเข้าใจ SVM จากมุมมองของระบบประสาทจะดีมาก ฉันกำลังมองหาคำตอบที่ได้รับการสนับสนุนทางคณิตศาสตร์อย่างละเอียดสำหรับคำถามสองข้อข้างต้นเพื่อที่จะเข้าใจการเชื่อมโยงระหว่าง SVM …

1
RNN พร้อมการทำให้เป็นมาตรฐาน L2 หยุดเรียนรู้
ฉันใช้สองทิศทาง RNN เพื่อตรวจสอบเหตุการณ์ที่เกิดขึ้นไม่สมดุลกัน ชั้นบวกเป็น 100 ครั้งน้อยกว่าชั้นลบ ในขณะที่ไม่มีการใช้งานแบบปกติฉันสามารถได้รับความถูกต้อง 100% ในชุดรถไฟและ 30% สำหรับชุดการตรวจสอบ ฉันเปิดใช้งานการทำให้เป็นปกติ l2 และผลลัพธ์นั้นมีความแม่นยำเพียง 30% ในชุดรถไฟแทนการเรียนรู้ที่ยาวนานขึ้นและความแม่นยำ 100% ในชุดการตรวจสอบความถูกต้อง ฉันคิดว่าข้อมูลของฉันอาจเล็กเกินไปดังนั้นสำหรับการทดลองฉันรวมชุดรถไฟกับชุดทดสอบซึ่งฉันไม่เคยใช้มาก่อน สถานการณ์เหมือนกันกับฉันจะใช้การทำให้เป็นมาตรฐาน l2 ซึ่งฉันไม่ได้ตอนนี้ ฉันได้รับความแม่นยำ 30% สำหรับรถไฟ + การทดสอบและการตรวจสอบ ในการใช้หน่วยที่ถูกซ่อน 128 และ 80 เวลาในการทดลองที่กล่าวถึงเมื่อฉันเพิ่มจำนวนหน่วยที่ซ่อนอยู่เป็น 256 ฉันสามารถ overfit บนรถไฟ + ชุดทดสอบอีกครั้งเพื่อให้ได้ความถูกต้อง 100% แต่ยังคงมีเพียง 30% ในชุดการตรวจสอบ ฉันลองตัวเลือกมากมายสำหรับพารามิเตอร์และเกือบจะไม่มีผลลัพธ์ บางทีเอนโทรปีของการถ่วงน้ำหนักอาจทำให้เกิดปัญหาในการทดลองที่กำหนดน้ำหนักของชั้นบวกคือ 5 ในขณะที่การลองตุ้มน้ำหนักขนาดใหญ่ผลลัพธ์มักจะแย่ลงประมาณ 20% ของความแม่นยำ ฉันลองเซลล์ LSTM …

1
มีข้อมูลมากน้อยเพียงใดสำหรับการเรียนรู้เชิงลึก
ฉันกำลังเรียนรู้เกี่ยวกับการเรียนรู้เชิงลึก (โดยเฉพาะอย่างยิ่ง CNNs) และวิธีการที่ต้องใช้ข้อมูลจำนวนมากเพื่อป้องกันไม่ให้ข้อมูลมากเกินไป อย่างไรก็ตามฉันยังได้รับแจ้งว่ามีความจุสูงกว่า / พารามิเตอร์เพิ่มเติมที่แบบจำลองมีข้อมูลเพิ่มเติมจำเป็นต้องมีเพื่อป้องกันการ overfitting ดังนั้นคำถามของฉันคือ: ทำไมคุณไม่สามารถลดจำนวนเลเยอร์ / โหนดต่อเลเยอร์ในเครือข่ายนิวรัลลึกและทำให้มันทำงานกับข้อมูลจำนวนน้อยลงได้ มี "จำนวนพารามิเตอร์ขั้นต่ำ" ขั้นพื้นฐานหรือไม่ที่เครือข่ายประสาทต้องการจนกว่าจะถึง "kicks" ด้านล่างของเลเยอร์จำนวนหนึ่งดูเหมือนว่าเครือข่ายประสาทจะไม่ทำงานเช่นเดียวกับคุณสมบัติที่เขียนด้วยมือ

3
โครงสร้างของโครงข่ายประสาทเทียม (LSTM, GRU)
ฉันพยายามที่จะเข้าใจสถาปัตยกรรมของ RNNs ฉันพบบทช่วยสอนนี้ซึ่งมีประโยชน์มาก: http://colah.github.io/posts/2015-08-Understanding-LSTMs/ โดยเฉพาะภาพนี้: สิ่งนี้เหมาะสมกับเครือข่าย feed-forward หรือไม่? ภาพนี้เป็นเพียงโหนดอื่นในแต่ละเลเยอร์หรือไม่

3
วิธีการจำแนกชุดข้อมูลที่ไม่สมดุลโดย Convolutional Neural Networks (CNN)
ฉันมีชุดข้อมูลที่ไม่สมดุลในงานการจำแนกแบบไบนารีซึ่งจำนวนบวกกับจำนวนเชิงลบคือ 0.3% เทียบกับ 99.7% ช่องว่างระหว่างผลบวกและเชิงลบนั้นมีขนาดใหญ่มาก เมื่อฉันฝึก CNN ด้วยโครงสร้างที่ใช้ในปัญหา MNIST ผลการทดสอบจะแสดงอัตราลบติดลบสูง นอกจากนี้เส้นโค้งข้อผิดพลาดในการฝึกอบรมจะลดลงอย่างรวดเร็วในช่วงเวลาสองสามตอนที่เริ่มต้น แต่ยังคงเป็นค่าเดียวกันในยุคต่อไปนี้ คุณช่วยแนะนำวิธีแก้ไขปัญหานี้ให้ฉันได้ไหม? ขอบคุณ!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.