คำถามติดแท็ก neural-networks

โครงข่ายประสาทเทียม (ANNs) เป็นรูปแบบการคำนวณในวงกว้างโดยยึดตามเครือข่ายประสาทชีววิทยาอย่างเข้มงวด พวกเขารวม NNs ของ feedforward (รวมถึง NN ที่ "ลึก"), NNs convolutional, NNs ที่เกิดซ้ำเป็นต้น

2
เป็นวิธีปฏิบัติทั่วไปหรือไม่ที่จะลดความสูญเสียเฉลี่ยให้น้อยที่สุดแทนที่จะเป็นผลรวม?
Tensorflow มีตัวอย่างที่สอนเกี่ยวกับการจำแนกCIFAR-10 ในบทช่วยสอนการลดการสูญเสียเอนโทรปีโดยเฉลี่ยในชุดการสอนจะลดลง def loss(logits, labels): """Add L2Loss to all the trainable variables. Add summary for for "Loss" and "Loss/avg". Args: logits: Logits from inference(). labels: Labels from distorted_inputs or inputs(). 1-D tensor of shape [batch_size] Returns: Loss tensor of type float. """ # Calculate the average cross entropy loss …

1
เทนเซอร์ในวรรณกรรมเครือข่ายประสาท: คำจำกัดความที่ง่ายที่สุดคืออะไร?
ในวรรณคดีโครงข่ายประสาทเรามักจะพบคำว่า "เทนเซอร์" มันแตกต่างจากเวกเตอร์หรือไม่? และจากเมทริกซ์? คุณมีตัวอย่างเฉพาะที่ทำให้คำจำกัดความชัดเจนหรือไม่? ฉันสับสนเล็กน้อยเกี่ยวกับคำจำกัดความของมัน Wikipedia ไม่ได้ช่วยอะไรและบางครั้งฉันก็รู้สึกว่าคำจำกัดความของมันขึ้นอยู่กับสภาพแวดล้อมการเรียนรู้ของเครื่องเฉพาะที่ใช้ (TensorFlow, Caffee, Theano)

2
สุดยอดแห่งการเรียนรู้ทั่วไปจากข้อมูลใน '69
ฉันพยายามที่จะเข้าใจบริบทของ Minsky และ Papert book ชื่อ "Perceptrons" ที่มีชื่อเสียงตั้งแต่ปี 1969 ดังนั้นจึงมีความสำคัญต่อเครือข่ายประสาท เท่าที่ฉันรู้แล้วยังไม่มีอัลกอริทึมการเรียนรู้แบบมีผู้ควบคุมอื่นยกเว้นสำหรับ perceptron: ต้นไม้ตัดสินใจเริ่มมีประโยชน์จริง ๆ ในปลายปี 70s ป่าสุ่มและ SVM เป็น 90s ดูเหมือนว่าวิธี jackknife เป็นที่รู้จักกันอยู่แล้ว แต่ไม่ได้ตรวจสอบ k-cross (70s) หรือ bootstrap (1979?) Wikipedia กล่าวว่ากรอบสถิติแบบคลาสสิกของ Neyman-Pearson และ Fisher ยังคงไม่เห็นด้วยใน '50s แม้ว่าจะมีความพยายามครั้งแรกในการอธิบายทฤษฎีลูกผสมอยู่ใน' 40s ดังนั้นคำถามของฉัน: อะไรคือวิธีการที่ทันสมัยของการแก้ปัญหาทั่วไปของการทำนายจากข้อมูล?

3
tanh vs. sigmoid ในโครงข่ายประสาท
ฉันต้องขออภัยล่วงหน้าสำหรับความจริงที่ว่าฉันยังคงเร่งความเร็วในเรื่องนี้ ฉันพยายามเข้าใจข้อดีข้อเสียของการใช้ tanh (แผนที่ -1 ถึง 1) กับ sigmoid (แผนที่ 0 ถึง 1) สำหรับฟังก์ชั่นการเปิดใช้งานเซลล์ประสาทของฉัน จากการอ่านของฉันมันฟังดูเป็นเรื่องเล็กน้อยที่มีความแตกต่างเล็กน้อย ในทางปฏิบัติสำหรับปัญหาของฉันฉันพบว่า sigmoid ง่ายต่อการฝึกอบรมและแปลก sigmoid ปรากฏขึ้นเพื่อค้นหาวิธีแก้ปัญหาทั่วไปที่ดีกว่า จากนี้ฉันหมายถึงว่าเมื่อรุ่น sigmoid เสร็จสิ้นการฝึกอบรมก็ทำได้ดีในชุดข้อมูลอ้างอิง (ไม่ผ่านการฝึกอบรม) ซึ่งรุ่น tanh ดูเหมือนว่าจะได้รับคำตอบที่ถูกต้องเกี่ยวกับข้อมูลการฝึกอบรมในขณะที่ทำการอ้างอิงไม่ดี นี่เป็นสถาปัตยกรรมเครือข่ายเดียวกัน สัญชาตญาณหนึ่งที่ฉันมีคือด้วย sigmoid มันง่ายกว่าสำหรับเซลล์ประสาทที่จะปิดเกือบทั้งหมดดังนั้นจึงไม่มีการป้อนข้อมูลไปยังเลเยอร์ถัดไป tanh มีเวลายากขึ้นที่นี่เนื่องจากต้องการยกเลิกอินพุตที่สมบูรณ์แบบไม่เช่นนั้นจะให้ค่ากับเลเยอร์ถัดไปเสมอ บางทีสัญชาตญาณนี้ผิด โพสต์ยาว บรรทัดล่างคืออะไรค้าขายและควรสร้างความแตกต่างใหญ่

1
จำนวนแผนที่คุณลักษณะในเครือข่ายประสาทเทียม
เมื่อเรียนรู้โครงข่ายประสาทเทียมฉันมีคำถามเกี่ยวกับรูปต่อไปนี้ 1) C1 ในเลเยอร์ 1 มีแผนที่คุณลักษณะ 6 รูปแบบนั่นหมายความว่ามีเมล็ดหก convolutional หรือไม่? เคอร์เนล Convolutional แต่ละตัวใช้ในการสร้างแผนที่คุณลักษณะตามอินพุต 2) S1 ในเลเยอร์ 2 มี 6 แผนที่คุณลักษณะ, C2 มี 16 คุณสมบัติแผนที่ กระบวนการดูเหมือนจะได้รับแผนที่คุณลักษณะทั้ง 16 เหล่านี้จากแผนที่คุณลักษณะ 6 แห่งใน S1 หรือไม่

3
ขั้นตอนการบิดในเครือข่ายประสาทเทียมทำอะไร
ฉันกำลังศึกษาโครงข่ายประสาทเทียม (CNNs) เนื่องจากการใช้งานในคอมพิวเตอร์วิสัยทัศน์ ฉันคุ้นเคยกับเครือข่ายประสาทฟีดมาตรฐานแล้วฉันหวังว่าบางคนที่นี่สามารถช่วยฉันในการทำความเข้าใจกับ CNN นี่คือสิ่งที่ฉันคิดเกี่ยวกับซีเอ็นเอ็น: ใน feed-foward NNs แบบดั้งเดิมเรามีข้อมูลการฝึกอบรมที่แต่ละองค์ประกอบประกอบด้วยเวกเตอร์ฟีเจอร์ที่เราใส่เข้าไปใน NN ใน "เลเยอร์อินพุต" ดังนั้นด้วยการรับรู้ภาพเราสามารถมีแต่ละพิกเซลเป็นหนึ่งอินพุต นี่คือคุณสมบัติเวกเตอร์ของเรา หรืออีกวิธีหนึ่งเราสามารถสร้างเวกเตอร์คุณลักษณะอื่น ๆ ที่มีขนาดเล็กกว่าด้วยตนเอง ข้อดีของ CNN คือมันสามารถสร้างเวกเตอร์ฟีเจอร์ที่แข็งแกร่งกว่าซึ่งไม่แปรเปลี่ยนภาพและตำแหน่ง ตามภาพต่อไปนี้แสดงให้เห็นว่า (จากบทช่วยสอนนี้ ) ซีเอ็นเอ็นสร้างแผนที่คุณลักษณะที่ป้อนเข้าสู่เครือข่ายประสาทเทียมมาตรฐาน (จริงๆแล้วมันเป็นขั้นตอนก่อนประมวลผลขนาดใหญ่) วิธีที่เราได้คุณสมบัติเหล่านั้น "ดีกว่า" คือการสลับการแปลงตัวอย่างและการสุ่มตัวอย่าง ฉันเข้าใจว่าการสุ่มตัวอย่างย่อยทำงานอย่างไร สำหรับแผนที่คุณลักษณะแต่ละอันใช้เวลาเพียงเซตย่อยของพิกเซลหรือเราสามารถหาค่าเฉลี่ยของพิกเซล แต่สิ่งที่ฉันสับสนเป็นหลักคือวิธีการทำงานของขั้นตอนการโน้มน้าวใจ ฉันคุ้นเคยกับการโน้มน้าวใจจากทฤษฎีความน่าจะเป็น (ความหนาแน่นสำหรับผลรวมของตัวแปรสุ่มสองตัว) แต่พวกเขาทำงานใน CNN ได้อย่างไรและทำไมพวกเขาถึงมีประสิทธิภาพ คำถามของฉันคล้ายกับคำถามนี้แต่โดยเฉพาะอย่างยิ่งฉันไม่แน่ใจว่าทำไมขั้นตอนการแปลงข้อความแรกจึงใช้งานได้

2
อะไรคือทางเลือกของ VC-dimension สำหรับวัดความซับซ้อนของโครงข่ายประสาทเทียม?
ฉันได้พบวิธีการพื้นฐานบางอย่างในการวัดความซับซ้อนของเครือข่ายประสาท: ไร้เดียงสาและไม่เป็นทางการ: นับจำนวนเซลล์ประสาทเซลล์ที่ซ่อนอยู่เลเยอร์หรือเลเยอร์ที่ซ่อนอยู่ VC-dimension (Eduardo D. Sontag [1998] "มิติ VC ของเครือข่ายประสาท" [ pdf ]) เม็ดเล็กหลักสูตรและการ asymptotic วัดซับซ้อนในการคำนวณโดยเท่าเทียมกันที่จะTC0dTCd0TC^0_d d มีทางเลือกอื่นหรือไม่? เป็นที่ต้องการ: หากการวัดความซับซ้อนสามารถใช้ในการวัดโครงข่ายประสาทจากกระบวนทัศน์ต่าง ๆ (เพื่อวัด backprop, โครงข่ายประสาทเทียม, ความสัมพันธ์ของน้ำตก ฯลฯ ) ในระดับเดียวกัน ตัวอย่างเช่น VC-dimension สามารถใช้กับประเภทที่แตกต่างกันในเครือข่าย (หรือแม้แต่สิ่งอื่นที่ไม่ใช่เครือข่ายประสาท) ในขณะที่จำนวนของเซลล์ประสาทจะมีประโยชน์เฉพาะระหว่างรุ่นที่เฉพาะเจาะจงมากที่ฟังก์ชั่นการเปิดใช้งานสัญญาณ คุณสมบัติของเครือข่ายเหมือนกัน หากมีความสอดคล้องที่ดีกับการวัดมาตรฐานของความซับซ้อนของฟังก์ชั่นที่เรียนรู้ได้โดยเครือข่าย หากเป็นการง่ายในการคำนวณตัวชี้วัดในเครือข่ายเฉพาะ (อันสุดท้ายนี้ไม่จำเป็นต้องเป็น) หมายเหตุ คำถามนี้ขึ้นอยู่กับคำถามทั่วไปเพิ่มเติมเกี่ยวกับ CogSci.SE

2
เริ่มต้นกับเครือข่ายประสาทเทียมสำหรับการพยากรณ์
ฉันต้องการทรัพยากรบางอย่างเพื่อเริ่มต้นใช้งานโครงข่ายประสาทเทียมสำหรับการพยากรณ์อนุกรมเวลา ฉันระแวดระวังในการนำกระดาษมาใช้แล้วพบว่าพวกเขาได้ระบุถึงศักยภาพของวิธีการอย่างมาก ดังนั้นหากคุณมีประสบการณ์เกี่ยวกับวิธีการที่คุณแนะนำมันจะยอดเยี่ยมยิ่งขึ้น

3
Perceptron หลายชั้นเทียบกับโครงข่ายประสาทเทียมแบบลึก
นี่เป็นคำถามของคำศัพท์ บางครั้งฉันเห็นคนพูดถึงเครือข่ายประสาทลึกว่า "perceptrons หลายชั้น" ทำไมถึงเป็นเช่นนี้ ฉันได้รับการสอน perceptron เป็นตัวแยกประเภทเลเยอร์เดี่ยว (หรือ regressor) ที่มีเอาต์พุต threshold แบบไบนารีโดยใช้วิธีเฉพาะในการฝึกน้ำหนัก (ไม่ใช่ back-prop) หากผลลัพธ์ของ perceptron ไม่ตรงกับผลลัพธ์ที่เป็นเป้าหมายเราจะเพิ่มหรือลบเวกเตอร์อินพุตให้กับน้ำหนัก (ขึ้นอยู่กับว่า Perceptron ให้ผลบวกปลอมหรือลบเป็นลบ) มันเป็นอัลกอริทึมการเรียนรู้เครื่องดั้งเดิมค่อนข้าง ขั้นตอนการฝึกอบรมไม่ปรากฏว่าจะพูดถึงกรณีทั่วไปหลายชั้น (อย่างน้อยก็ไม่ใช่โดยไม่มีการดัดแปลง) โครงข่ายประสาทเทียมแบบลึกผ่านการฝึกอบรมผ่าน backprop ซึ่งใช้กฎลูกโซ่เพื่อเผยแพร่การไล่ระดับสีของฟังก์ชันต้นทุนย้อนกลับไปจนถึงน้ำหนักทั้งหมดของเครือข่าย ดังนั้นคำถามคือ "perceptron หลายชั้น" เป็นสิ่งเดียวกับ "เครือข่ายประสาทลึก" หรือไม่? ถ้าใช่ทำไมคำศัพท์นี้ใช้? ดูเหมือนจะสับสนโดยไม่จำเป็น นอกจากนี้สมมติว่าคำศัพท์นั้นใช้แทนกันได้ฉันเห็นเพียงคำศัพท์ "multi-layer perceptron" เมื่อกล่าวถึงเครือข่าย feed-forward ซึ่งประกอบด้วยเลเยอร์ที่เชื่อมต่ออย่างสมบูรณ์ (ไม่มีชั้น convolutional หรือการเชื่อมต่อซ้ำ) คำศัพท์นี้กว้างแค่ไหน? หนึ่งจะใช้คำว่า "หลายชั้น perceptron" เมื่อกล่าวถึงเช่น Inception …

1
อนุพันธ์ของฟังก์ชันการเปิดใช้งาน ReLU คืออะไร
อนุพันธ์ของฟังก์ชันการเปิดใช้งาน ReLU คืออะไร: ReLU(x)=max(0,x)ReLU(x)=max(0,x) \mathrm{ReLU}(x) = \mathrm{max}(0, x) แล้วกรณีพิเศษที่ฟังก์ชันมีความไม่ต่อเนื่องที่ไหร่?x=0x=0x=0

2
คำอธิบายของ Spikes ในการสูญเสียการฝึกอบรมเทียบกับการทำซ้ำกับ Adam Optimizer
ฉันกำลังฝึกอบรมโครงข่ายประสาทเทียมโดยใช้ i) SGD และ ii) เครื่องมือเพิ่มประสิทธิภาพอดัม เมื่อใช้งานปกติ SGD ฉันจะได้รับการสูญเสียการฝึกอบรมที่ราบรื่นเมื่อเทียบกับเส้นโค้งการวนซ้ำตามที่เห็นด้านล่าง อย่างไรก็ตามเมื่อฉันใช้ Adam Optimizer กราฟการสูญเสียการฝึกอบรมมีหนามแหลมบางอย่าง อะไรคือคำอธิบายของเดือยแหลมเหล่านี้? รายละเอียดรูปแบบ: 14 input nodes -> 2 layer ที่ซ่อนอยู่ (100 -> 40 units) -> 4 output units ฉันกำลังใช้พารามิเตอร์เริ่มต้นสำหรับอดัมbeta_1 = 0.9, beta_2 = 0.999, และepsilon = 1e-8batch_size = 32 i) กับ SGD ii) กับอดัม

3
ฉันสามารถใช้ชุดการตรวจสอบความถูกต้องจิ๋วได้ไหม?
ฉันเข้าใจเหตุผลที่อยู่เบื้องหลังการแยกข้อมูลออกเป็นชุดการทดสอบและชุดการตรวจสอบความถูกต้อง ฉันเข้าใจด้วยว่าขนาดของการแยกจะขึ้นอยู่กับสถานการณ์ แต่โดยทั่วไปจะแตกต่างกันจาก 50/50 ถึง 90/10 ฉันสร้าง RNN เพื่อแก้ไขการสะกดและเริ่มต้นด้วยชุดข้อมูลของประโยค ~ 5m ฉันโกนประโยคที่มีขนาด 500k แล้วฝึกด้วยประโยคที่เหลืออีกประมาณ 4.5m เมื่อการฝึกอบรมเสร็จสิ้นฉันจะใช้ชุดการตรวจสอบความถูกต้องและคำนวณความถูกต้อง สิ่งที่น่าสนใจคือหลังจากเพียง 4% ของชุดการตรวจสอบความถูกต้องของฉันฉันมีความแม่นยำ 69.4% และเปอร์เซ็นต์นี้ไม่เปลี่ยนแปลงมากกว่า 0.1% ในทิศทางใดทิศทางหนึ่ง ในที่สุดฉันเพิ่งตัดการตรวจสอบสั้นเพราะจำนวนติดอยู่ที่ 69.5% เหตุใดจึงต้องลดราคา 10% สำหรับการตรวจสอบความถูกต้องเมื่อฉันสามารถหนีไปได้ด้วย 1% มันสำคัญไหม

2
ความแม่นยำที่ดีแม้จะมีค่าการสูญเสียสูง
ในระหว่างการฝึกตัวจําแนกไบนารีเครือข่ายประสาทอย่างง่ายฉันได้รับการสูญเสียสูงโดยใช้การข้ามเอนโทรปี แม้จะมีสิ่งนี้ค่าความถูกต้องของชุดการตรวจสอบจะค่อนข้างดี มันมีความหมายไหม? ไม่มีความสัมพันธ์ที่เข้มงวดระหว่างการสูญเสียและความถูกต้อง? ฉันมีในการฝึกอบรมและการตรวจสอบค่าเหล่านี้: 0.4011 - ACC: 0.8224 - val_loss: 0.4577 - val_acc: 0.7826 นี่เป็นความพยายามครั้งแรกของฉันที่จะใช้ NN และฉันเพิ่งเข้าหาการเรียนรู้ของเครื่องดังนั้นฉันจึงไม่สามารถประเมินผลลัพธ์เหล่านี้ได้อย่างเหมาะสม

4
การเพิ่มความแม่นยำของเครื่องไล่ระดับสีจะลดลงเมื่อจำนวนการทำซ้ำเพิ่มขึ้น
ฉันกำลังทดลองกับอัลกอริทึมของเครื่องเร่งการไล่ระดับสีผ่านcaretแพ็คเกจใน R ใช้ชุดข้อมูลการรับสมัครวิทยาลัยขนาดเล็กฉันใช้รหัสต่อไปนี้: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. ### set.seed(123) fitControl <- trainControl(method = 'cv', number = 5, summaryFunction=defaultSummary) grid <- expand.grid(n.trees = seq(5000,1000000,5000), interaction.depth = 2, shrinkage …
15 machine-learning  caret  boosting  gbm  hypothesis-testing  t-test  panel-data  psychometrics  intraclass-correlation  generalized-linear-model  categorical-data  binomial  model  intercept  causality  cross-correlation  distributions  ranks  p-value  z-test  sign-test  time-series  references  terminology  cross-correlation  definition  probability  distributions  beta-distribution  inverse-gamma  missing-data  paired-comparisons  paired-data  clustered-standard-errors  cluster-sample  time-series  arima  logistic  binary-data  odds-ratio  medicine  hypothesis-testing  wilcoxon-mann-whitney  unsupervised-learning  hierarchical-clustering  neural-networks  train  clustering  k-means  regression  ordinal-data  change-scores  machine-learning  experiment-design  roc  precision-recall  auc  stata  multilevel-analysis  regression  fitting  nonlinear  jmp  r  data-visualization  gam  gamm4  r  lme4-nlme  many-categories  regression  causality  instrumental-variables  endogeneity  controlling-for-a-variable 

1
ความยาวของลำดับที่เป็นไปได้สำหรับ RNN ถึงรุ่นคืออะไร
ฉันกำลังมองหาการใช้ LSTM ( หน่วยความจำระยะสั้นระยะยาว ) ของเครือข่ายประสาทกำเริบ (RNN) สำหรับการสร้างแบบจำลองข้อมูลชุดเวลา เมื่อความยาวของข้อมูลเพิ่มขึ้นความซับซ้อนของเครือข่ายจะเพิ่มขึ้น ดังนั้นฉันจึงสงสัยว่าจะมีความยาวของลำดับอย่างไรกับโมเดลที่มีความแม่นยำดี ฉันต้องการใช้ LSTM รุ่นที่ค่อนข้างเรียบง่ายโดยไม่ยากที่จะใช้วิธีการที่ทันสมัย การสังเกตการณ์แต่ละครั้งใน Timeseries ของฉันมีตัวแปรตัวเลข 4 ตัวและจำนวนการสังเกตจะอยู่ที่ประมาณ 100,000 ถึง 1.000.000

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.