คำถามติดแท็ก neural-networks

โครงข่ายประสาทเทียม (ANNs) เป็นรูปแบบการคำนวณในวงกว้างโดยยึดตามเครือข่ายประสาทชีววิทยาอย่างเข้มงวด พวกเขารวม NNs ของ feedforward (รวมถึง NN ที่ "ลึก"), NNs convolutional, NNs ที่เกิดซ้ำเป็นต้น

1
รูปแบบเมทริกซ์ของการแพร่กระจายย้อนกลับพร้อมการทำให้เป็นมาตรฐาน
การทำให้เป็นมาตรฐานของแบทช์ได้รับเครดิตด้วยการปรับปรุงประสิทธิภาพอย่างมากในอวนตาข่ายประสาท วัสดุจำนวนมากบนอินเทอร์เน็ตแสดงวิธีใช้งานบนพื้นฐานการเปิดใช้งานโดยการเปิดใช้งาน ฉันใช้ backprop ไปแล้วโดยใช้พีชคณิตเมทริกซ์และเนื่องจากฉันทำงานในภาษาระดับสูง (ในขณะที่พึ่งพาRcpp(และในที่สุด GPU ของ) สำหรับการคูณเมทริกซ์หนาแน่น) การฉีกทุกอย่างออกไปและหันไปใช้forลูปของฉัน อย่างมีนัยสำคัญนอกเหนือไปจากความเจ็บปวดขนาดใหญ่ ฟังก์ชั่นการปรับสภาพแบทช์คือ โดยที่b(xp)=γ(xp−μxp)σ−1xp+βb(xp)=γ(xp−μxp)σxp−1+β b(x_p) = \gamma \left(x_p - \mu_{x_p}\right) \sigma^{-1}_{x_p} + \beta คือ Pโหนด, th ก่อนที่มันจะได้รับการเปิดใช้งานxpxpx_pppp และ βเป็นพารามิเตอร์สเกลาร์γγ\gammaββ\beta และ σ x พีมีค่าเฉลี่ยและ SD ของ xพี (โปรดสังเกตว่าปกติใช้สแควร์รูทของความแปรปรวนบวกกับฟัดจ์แฟคเตอร์ - สมมติว่าองค์ประกอบที่ไม่ใช่ศูนย์เพื่อความกะทัดรัด)μxpμxp\mu_{x_p}σxpσxp\sigma_{x_p}xpxpx_p ในรูปแบบเมทริกซ์ฟื้นฟูชุดสำหรับชั้นทั้งจะ ที่b(X)=(γ⊗1p)⊙(X−μX)⊙σ−1X+(β⊗1p)b(X)=(γ⊗1p)⊙(X−μX)⊙σX−1+(β⊗1p) b(\mathbf{X}) = \left(\gamma\otimes\mathbf{1}_p\right)\odot \left(\mathbf{X} - \mu_{\mathbf{X}}\right) \odot\sigma^{-1}_{\mathbf{X}} + \left(\beta\otimes\mathbf{1}_p\right) คือ …

3
สถาปัตยกรรมระบบประสาท: การออกแบบข้อมูลอัตโนมัติ
ความคืบหน้าล่าสุดในเครือข่ายนิวรัลถูกสรุปโดยลำดับของสถาปัตยกรรมใหม่ที่โดดเด่นด้วยความซับซ้อนของการออกแบบที่เพิ่มขึ้น ตั้งแต่ LeNet5 (1994) ถึง AlexNet (2012) ถึง Overfeat (2013) และ GoogleLeNet / Inception (2014) และอื่น ๆ ... มีความพยายามที่จะให้เครื่องตัดสินใจหรือออกแบบสถาปัตยกรรมใดที่จะใช้ขึ้นอยู่กับข้อมูลหรือไม่?

2
การดักจับรูปแบบเริ่มต้นเมื่อใช้การขยายส่วนแบ็คอัปที่ผ่านการตัดทอนผ่านเวลา (RNN / LSTM)
บอกว่าฉันใช้ RNN / LSTM เพื่อทำการวิเคราะห์ความเชื่อมั่นซึ่งเป็นวิธีการแบบตัวต่อตัว (ดูบล็อกนี้ ) เครือข่ายได้รับการฝึกฝนผ่านการ backpropagation ที่ถูกตัดทอนผ่านช่วงเวลา (BPTT) ซึ่งเครือข่ายไม่ได้ถูกควบคุมในขั้นตอนสุดท้ายเพียง 30 ขั้นตอนตามปกติ ในกรณีของฉันแต่ละส่วนข้อความของฉันที่ฉันต้องการจัดหมวดหมู่นั้นมีความยาวมากกว่า 30 ขั้นตอนที่ไม่ได้ถูกควบคุม (ประมาณ 100 คำ) จากความรู้ของฉัน BPTT ใช้เวลาเพียงครั้งเดียวสำหรับส่วนข้อความเดียวซึ่งก็คือเมื่อมันผ่านส่วนข้อความทั้งหมดและคำนวณเป้าหมายการจำแนกเลขฐานสองซึ่งเปรียบเทียบกับฟังก์ชันการสูญเสียเพื่อค้นหาข้อผิดพลาดyyy การไล่ระดับสีจะไม่ถูกคำนวณโดยคำนึงถึงคำแรกของแต่ละส่วนข้อความ RNN / LSTM จะยังสามารถปรับน้ำหนักเพื่อจับรูปแบบเฉพาะที่เกิดขึ้นภายในสองสามคำแรกเท่านั้นได้อย่างไร ตัวอย่างเช่นสมมติว่าประโยคทั้งหมดที่ทำเครื่องหมายว่าเริ่มต้นด้วย "ฉันรักสิ่งนี้" และประโยคทั้งหมดที่ทำเครื่องหมายว่าเริ่มต้นด้วย "ฉันเกลียดสิ่งนี้" RNN / LSTM จะจับได้อย่างไรว่าเมื่อมันถูกยกเลิกการลงทะเบียนสำหรับ 30 ขั้นตอนสุดท้ายเมื่อพบกับจุดสิ้นสุดของลำดับความยาว 100 ขั้นตอนpositivepositivepositivenegativenegativenegative

1
ทำไมคนไม่ใช้ RBF หรือ RBF ที่ลึกกว่าร่วมกับ MLP
ดังนั้นเมื่อดู Radial Basis Function Neural Networks ฉันสังเกตว่าผู้คนเคยแนะนำให้ใช้เลเยอร์ที่ซ่อนอยู่เพียง 1 เลเยอร์เท่านั้นในขณะที่เครือข่ายนิวรัลเพอร์เซปตรอนแบบหลายชั้นจะถือว่าดีกว่า ระบุว่าเครือข่าย RBF สามารถฝึกอบรมกับรุ่นของการเผยแพร่กลับมีเหตุผลใดที่เครือข่าย RBF ที่ลึกกว่าจะไม่ทำงานหรือว่าเลเยอร์ RBF ไม่สามารถใช้เป็นเลเยอร์สุดท้ายหรือเลเยอร์สุดท้ายในเครือข่าย MLP ลึก (ฉันคิดว่าเลเยอร์สุดท้ายเพื่อให้สามารถฝึกอบรมคุณลักษณะที่เรียนโดยเลเยอร์ MLP ก่อนหน้านี้)

2
ข้อดีของการใช้เครือข่ายประสาทแบบเบย์คืออะไร
เมื่อเร็ว ๆ นี้ฉันอ่านบทความเกี่ยวกับโครงข่ายประสาท Bayesian (BNN) [Neal, 1992] , [Neal, 2012]ซึ่งให้ความน่าจะเป็นความสัมพันธ์ระหว่างอินพุตและเอาต์พุตในเครือข่ายประสาท การฝึกอบรมเช่นโครงข่ายประสาทเทียมคือผ่าน MCMC ซึ่งแตกต่างจากอัลกอริธึมการขยายพันธุ์แบบเดิม คำถามของฉันคืออะไรประโยชน์ของการใช้เครือข่ายประสาทดังกล่าวคืออะไร? โดยเฉพาะคุณสามารถให้ตัวอย่างที่เหมาะสมกับ BNN มากกว่า NN หรือไม่?


5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
วิธีการใช้เครือข่ายประสาทเทียมกับปัญหาการจำแนกประเภทฉลากหลายป้าย?
รายละเอียด: ให้โดเมนปัญหาเป็นการจัดหมวดหมู่เอกสารที่มีชุดของเวกเตอร์คุณลักษณะแต่ละอันอยู่ใน 1 คลาสขึ้นไป ตัวอย่างเช่นเอกสารdoc_1อาจเป็นของSportsและEnglishหมวดหมู่ คำถาม: การใช้เครือข่ายประสาทเทียมสำหรับการจำแนกประเภทฉลากจะเป็นอย่างไรสำหรับเวกเตอร์คุณลักษณะ มันจะเป็นเวกเตอร์ที่ประกอบขึ้นเป็นคลาสทั้งหมดหรือไม่ซึ่งค่า 0 นั้นมอบให้กับคลาสที่ไม่เกี่ยวข้องและ 1 สำหรับคลาสที่เกี่ยวข้อง? ดังนั้นหากรายการป้ายกำกับของชั้นเรียนอยู่[Sports, News, Action, English, Japanese]สำหรับเอกสารdoc_1ป้ายกำกับจะเป็น[1, 0, 0, 1, 0]อย่างไร

2
การใช้การเรียนรู้ของเครื่องสำหรับการกรอง DDoS
ในหลักสูตรการเรียนรู้ของ Machine Stanford Andrew Ng กล่าวถึงการใช้ ML ใน IT บางเวลาต่อมาเมื่อฉันมีขนาดปานกลาง (ประมาณบอท 20k) DDoS บนเว็บไซต์ของเราฉันตัดสินใจที่จะต่อสู้กับมันโดยใช้ตัวจําแนกเครือข่ายประสาทอย่างง่าย ฉันได้เขียนสคริปต์ไพ ธ อนนี้ในเวลาประมาณ 30 นาที: https://github.com/SaveTheRbtz/junk/tree/master/neural_networks_vs_ddos มันใช้pyBrainและนำบันทึกnginx 3 อันมาเป็นข้อมูลป้อนเข้าสองไฟล์เพื่อฝึกอบรม Neural Network: ด้วยคำสั่งที่ดี กับคนเลว และหนึ่งบันทึกสำหรับการจำแนก จากการสอบถามที่ไม่ดี .. 0.0.0.0 - - [20/Dec/2011:20:00:08 +0400] "POST /forum/index.php HTTP/1.1" 503 107 "http://www.mozilla-europe.org/" "-" ...และดี... 0.0.0.0 - - [20/Dec/2011:15:00:03 +0400] "GET /forum/rss.php?topic=347425 …

2
ทำไมฟังก์ชั่นการสูญเสีย 0-1 จึงเป็นเรื่องยาก?
ในหนังสือการเรียนรู้ลึกของเอียนกู๊ดเฟลโลว์มันเขียนไว้ว่า บางครั้งฟังก์ชั่นการสูญเสียที่เราสนใจ (พูดว่าการจำแนกผิดพลาด) ไม่ใช่สิ่งที่สามารถเพิ่มประสิทธิภาพได้อย่างมีประสิทธิภาพ ตัวอย่างเช่นการลดการสูญเสียที่คาดไว้ 0-1 ให้น้อยที่สุดนั้นเป็นไปไม่ได้ ในสถานการณ์เช่นนี้มักจะปรับฟังก์ชันการสูญเสียตัวแทนให้เหมาะสมซึ่งทำหน้าที่เป็นพร็อกซี แต่มีข้อดี เหตุใดการสูญเสีย 0-1 จึงเป็นเรื่องยากหรืออธิบายได้อย่างไรในมิติข้อมูลเข้า

2
หนึ่งคน (ในทางทฤษฎี) สามารถฝึกโครงข่ายประสาทเทียมด้วยตัวอย่างการฝึกอบรมที่น้อยกว่าน้ำหนักได้หรือไม่?
ก่อนอื่น: ฉันรู้ว่าไม่มีขนาดตัวอย่างทั่วไปที่ต้องใช้ในการฝึกอบรมโครงข่ายประสาท ขึ้นอยู่กับปัจจัยหลายอย่างเช่นความซับซ้อนของงานเสียงในข้อมูลและอื่น ๆ ยิ่งฉันมีตัวอย่างการฝึกอบรมมากเท่าไหร่เครือข่ายของฉันก็ยิ่งดีขึ้นเท่านั้น แต่ฉันสงสัยว่า: เป็นไปได้ไหมในทางทฤษฎีที่จะฝึกโครงข่ายประสาทด้วยตัวอย่างการฝึกอบรมที่น้อยกว่าน้ำหนักถ้าฉันคิดว่างานของฉันจะ "ง่าย" เพียงพอหรือไม่ มีใครรู้บ้างไหมว่านี่เป็นตัวอย่างที่ดีหรือไม่? หรือเครือข่ายนี้จะทำงานได้ไม่ดีหรือไม่? ถ้าฉันพิจารณาตัวอย่างเช่นการถดถอยพหุนามฉันไม่สามารถพอดีกับพหุนามระดับ 4 (เช่นมี 5 พารามิเตอร์อิสระ) ในจุดข้อมูลเพียง 4 จุด มีกฎที่คล้ายกันสำหรับเครือข่ายประสาทเทียมหรือไม่โดยพิจารณาจากจำนวนน้ำหนักของฉันเป็นจำนวนพารามิเตอร์อิสระหรือไม่

3
การสร้างแรงจูงใจหน่วยเอาท์พุท sigmoid ในเครือข่ายประสาทเทียมเริ่มต้นด้วยความน่าจะเป็นของบันทึกที่ไม่เป็นเส้นตรงใน
แบ็คกราวน์:ฉันกำลังศึกษาบทที่ 6 ของ Deep Learning โดย Ian Goodfellow และ Yoshua Bengio และ Aaron Courville ในส่วน 6.2.2.2 (หน้า 182 จาก 183 ซึ่งสามารถดูได้ที่นี่ ) การใช้ sigmoid เพื่อส่งออกเป็นแรงจูงใจP( y= 1 | x )P(y=1|x)P(y=1|x) เพื่อสรุปเนื้อหาบางส่วนที่พวกเขาปล่อยให้เป็นเซลล์ประสาทเอาท์พุทก่อนที่จะมีการเปิดใช้งานโดยที่hคือผลลัพธ์ของเลเยอร์ที่ซ่อนอยู่ก่อนหน้านี้wคือเวกเตอร์ของน้ำหนักและbเป็นสเกลาร์สเกลา เวกเตอร์อินพุตถูกเขียนแทนx (ซึ่งhคือฟังก์ชันของ) และค่าเอาต์พุตจะแสดงเป็นy = ϕ ( z )โดยที่ϕคือฟังก์ชัน sigmoid หนังสือมีความประสงค์ที่จะแจกแจงความน่าจะเป็นเหนือyโดยใช้ค่าzZ= wTh + bz=wTh+bz = w^Th+bชั่วโมงhhWwwขbbxxxชั่วโมงhhY= ϕ ( z)y=ϕ(z)y=\phi(z)φϕ\phiYyyzzz. จากย่อหน้าที่สองของหน้า …

2
เชื้อสายการไล่ระดับสีของ minibatch จะปรับปรุงน้ำหนักสำหรับตัวอย่างในชุดได้อย่างไร
หากเราประมวลผลตัวอย่าง 10 ตัวอย่างในแบตช์ฉันเข้าใจว่าเราสามารถสรุปการสูญเสียสำหรับแต่ละตัวอย่าง แต่การ backpropagation ทำงานอย่างไรในการอัปเดตน้ำหนักสำหรับแต่ละตัวอย่าง ตัวอย่างเช่น: ตัวอย่างที่ 1 -> การสูญเสีย = 2 ตัวอย่างที่ 2 -> การสูญเสีย = -2 ซึ่งส่งผลให้สูญเสียเฉลี่ย 0 (E = 0) ดังนั้นสิ่งนี้จะปรับปรุงน้ำหนักและบรรจบกันได้อย่างไร มันเป็นเพียงการสุ่มของชุดที่เรา "หวังว่า" มาบรรจบกันไม่ช้าก็เร็ว? สิ่งนี้ไม่เพียงคำนวณการไล่ระดับสีสำหรับตุ้มน้ำหนักชุดแรกสำหรับตัวอย่างสุดท้ายที่ประมวลผลด้วยหรือไม่

4
ในซีเอ็นเอ็นมีการยกตัวอย่างและแปลงรูปแบบเดียวกันหรือไม่
ทั้งคำว่า "อัพแซมปลิง" และ "ทรานสคริซิชั่น" จะถูกใช้เมื่อคุณกำลังทำ "deconvolution" (<- ไม่ใช่คำศัพท์ที่ดี แต่ให้ฉันใช้ที่นี่) แต่เดิมฉันคิดว่าพวกเขาหมายถึงสิ่งเดียวกัน แต่ดูเหมือนว่าฉันจะแตกต่างกันหลังจากที่ฉันอ่านบทความเหล่านี้ ใครช่วยอธิบายหน่อยได้ไหม Transpose convolution : ดูเหมือนว่าเราสามารถใช้มันได้เมื่อเราเผยแพร่การสูญเสียผ่านเครือข่ายประสาทเทียม convolutonal http://andrew.gibiansky.com/blog/machine-learning/convolutional-neural-networks/#Backward-Propagation https://github.com/vdumoulin/conv_arithmetic https://arxiv.org/pdf/1312.6034v2.pdfส่วนที่ 4 "สำหรับเลเยอร์ convolutional ... " Upsampling : ดูเหมือนว่าเราจะใช้มันเมื่อเราต้องการสุ่มตัวอย่างจากอินพุตที่เล็กลงไปสู่อินพุตที่ใหญ่ขึ้นในโครงสร้าง convnet-decovnet https://www.youtube.com/watch?v=ByjaPdWXKJ4&feature=youtu.be&t=22m

1
บล็อกการเรียนรู้ที่เหลือคืออะไรในบริบทของเครือข่ายที่หลงเหลืออยู่ลึกในการเรียนรู้อย่างลึก
ฉันกำลังอ่านการเรียนรู้ส่วนที่เหลือลึกเพื่อการจดจำรูปภาพและฉันมีปัญหาในการทำความเข้าใจกับความมั่นใจ 100% สิ่งที่บล็อกส่วนเหลือตกค้างคำนวณ อ่านกระดาษของพวกเขาพวกเขามีรูปที่ 2: ซึ่งแสดงให้เห็นถึงสิ่งที่บล็อกส่วนที่เหลือควรจะเป็น การคำนวณของส่วนที่เหลือเป็นเพียงบล็อกเดียวกับ: y=σ(W2σ(W1x+b1)+b2+x)y=σ(W2σ(W1x+b1)+b2+x) \mathbf{y} = \sigma( W_2 \sigma( W_1 \mathbf{x} + b_1 ) + b_2 + \mathbf{x} ) หรือมันเป็นอย่างอื่น? ในคำอื่น ๆ อาจจะพยายามที่จะตรงกับสัญกรณ์ของกระดาษคือ: F(x)+x=[W2σ(W1x+b1)+b2]+xF(x)+x=[W2σ(W1x+b1)+b2]+x \mathcal F(x) + x = \left[ W_2 \sigma( W_1 \mathbf{x} + b_1 ) + b_2 \right] + \mathbf{x} มันเป็นเรื่องจริงเหรอ? โปรดสังเกตว่าหลังจากการรวมกลุ่มวงกลมคำว่า ReLU จะปรากฏบนกระดาษดังนั้นผลลัพธ์ของบล็อกส่วนที่เหลือ …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.