คำถามติดแท็ก convnet

สำหรับคำถามเกี่ยวกับ "เครือข่ายประสาทเทียม" (CNN)

2
จำนวนภาพต่อชั้นเรียนเพียงพอสำหรับการฝึกอบรม CNN
ฉันเริ่มต้นโครงการที่มีหน้าที่ระบุประเภทรองเท้าผ้าใบจากรูปภาพ ฉันกำลังอ่านเกี่ยวกับการใช้งานTensorFlowและTorch คำถามของฉันคือต้องมีกี่ภาพต่อชั้นเพื่อให้ได้ประสิทธิภาพการจำแนกประเภทที่เหมาะสม

1
ฉันควรใช้เซลล์ LSTM กี่เซลล์
มีกฎของหัวแม่มือ (หรือกฎจริง) ที่เกี่ยวข้องกับจำนวน LSTM ขั้นต่ำ, สูงสุดและ "สมเหตุสมผล" ที่ฉันควรใช้หรือไม่? โดยเฉพาะฉันเกี่ยวข้องกับBasicLSTMCellจาก TensorFlow และnum_unitsคุณสมบัติ โปรดสมมติว่าฉันมีปัญหาการจำแนกที่กำหนดโดย: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples ตัวอย่างจริงหรือไม่ที่จำนวนตัวอย่างการฝึกอบรมควรมากกว่า: 4*((n+1)*m + m*m)*c ที่cเป็นจำนวนของเซลล์? ฉันใช้สิ่งนี้: จะคำนวณจำนวนพารามิเตอร์ของเครือข่าย …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

3
มีรูปแบบภาษาที่ดีนอกกรอบสำหรับงูใหญ่หรือไม่?
ฉันกำลังสร้างต้นแบบแอปพลิเคชันและฉันต้องการโมเดลภาษาเพื่อคำนวณความงุนงงในประโยคที่สร้างขึ้น มีรูปแบบภาษาที่ผ่านการฝึกอบรมในภาษาไพ ธ อนที่ฉันสามารถใช้ได้หรือไม่? บางสิ่งที่เรียบง่ายเช่น model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 ฉันดูบางกรอบ แต่ไม่สามารถค้นหาสิ่งที่ฉันต้องการ ฉันรู้ว่าฉันสามารถใช้สิ่งที่ชอบ: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) สิ่งนี้ใช้การแจกแจงความน่าจะเป็นที่ดีใน Brown Corpus แต่ฉันกำลังมองหาโมเดลที่สร้างขึ้นอย่างดีในชุดข้อมูลขนาดใหญ่เช่นชุดข้อมูลคำ 1b สิ่งที่ฉันสามารถเชื่อถือได้จริง ๆ ผลลัพธ์สำหรับโดเมนทั่วไป (ไม่เพียงข่าว)
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

1
ใช้ลักษณนาม CNN ที่ผ่านการฝึกอบรมมาแล้วและนำไปใช้กับชุดข้อมูลภาพอื่น
คุณจะปรับการฝึกอบรม neural networkให้เหมาะสมเพื่อนำไปใช้กับปัญหาแยกกันอย่างไร คุณจะเพิ่มเลเยอร์เพิ่มเติมให้กับโมเดลที่ผ่านการฝึกอบรมมาแล้วและทดสอบในชุดข้อมูลของคุณหรือไม่ ตัวอย่างเช่นถ้างานนั้นใช้CNNเพื่อจัดกลุ่มวอลเปเปอร์ฉันแน่ใจว่ามันจะไม่ทำงานโดยตรงในการจำแนกเครือข่ายที่ผ่านการฝึกอบรมมาก่อนในการฝึกสอนเกี่ยวกับภาพแมวและสุนัขแม้ว่าทั้งสองจะเป็นตัวแยกรูปภาพ

2
อะไรคือความแตกต่างระหว่าง Dilated Convolution และ Deconvolution?
การปฏิบัติการสองอย่างนี้เป็นเรื่องธรรมดามากในการเรียนรู้อย่างลึกซึ้งในขณะนี้ ฉันอ่านเกี่ยวกับชั้น convolutional ที่ถูกทำให้พองในบทความนี้: WAVENET: รูปแบบทั่วไปสำหรับไฟล์เสียง RAW และ De-convolution อยู่ในบทความนี้: เครือข่าย Convolutional สำหรับการแบ่งส่วนแบบ Semantic ทั้งคู่ดูเหมือนจะยกตัวอย่างภาพ แต่ความแตกต่างคืออะไร?

2
การจำแนกเอกสารโดยใช้โครงข่ายประสาทเทียม
ฉันพยายามใช้ CNN (เครือข่ายประสาทเทียม) เพื่อจัดประเภทเอกสาร ซีเอ็นเอ็นสำหรับข้อความสั้น ๆ / ประโยคได้รับการศึกษาในเอกสารจำนวนมาก อย่างไรก็ตามดูเหมือนว่าไม่มีเอกสารใดที่ใช้ CNN สำหรับข้อความหรือเอกสารที่ยาว ปัญหาของฉันคือมีฟีเจอร์มากมายจากเอกสาร ในชุดข้อมูลของฉันเอกสารแต่ละฉบับมีโทเค็นมากกว่า 1,000 รายการ / คำ ในการป้อนตัวอย่างแต่ละตัวให้กับ CNN ฉันแปลงเอกสารแต่ละฉบับเป็นเมทริกซ์โดยใช้word2vecหรือถุงมือทำให้เกิดเมทริกซ์ขนาดใหญ่ สำหรับแต่ละเมทริกซ์ความสูงคือความยาวของเอกสารและความกว้างคือขนาดของคำที่ฝังเวกเตอร์ ชุดข้อมูลของฉันมีตัวอย่างมากกว่า 9000 ตัวอย่างและใช้เวลานานในการฝึกอบรมเครือข่าย (ทั้งสัปดาห์) ซึ่งทำให้ยากต่อการปรับแต่งพารามิเตอร์ วิธีการแยกคุณสมบัติอื่นคือการใช้เวกเตอร์หนึ่งคำสำหรับแต่ละคำศัพท์ แต่สิ่งนี้จะสร้างเมทริกซ์ที่กระจัดกระจายมาก และแน่นอนว่าวิธีนี้ใช้เวลาในการฝึกฝนมากกว่าวิธีก่อนหน้า ดังนั้นจะมีวิธีที่ดีกว่าสำหรับการแยกฟีเจอร์โดยไม่ต้องสร้างเมทริกซ์อินพุตขนาดใหญ่หรือไม่? แล้วเราจะจัดการกับความยาวของตัวแปรได้อย่างไร? ขณะนี้ฉันเพิ่มสตริงพิเศษเพื่อให้เอกสารมีความยาวเท่ากัน แต่ฉันไม่คิดว่ามันเป็นทางออกที่ดี

2
คำถามเกี่ยวกับอคติในเครือข่าย Convolutional
ฉันกำลังพยายามหาจำนวนและความเอนเอียงที่จำเป็นสำหรับซีเอ็นเอ็น บอกว่าฉันมี (3, 32, 32) - ภาพและต้องการใช้ (32, 5, 5) - ตัวกรอง สำหรับแต่ละคุณลักษณะแผนที่ฉันมีน้ำหนัก 5x5 ดังนั้นฉันควรมีพารามิเตอร์ 3 x (5x5) x 32 ตอนนี้ฉันต้องเพิ่มอคติ ฉันเชื่อว่าฉันมีพารามิเตอร์ (3 x (5x5) + 1) x 32 เท่านั้นอคติเหมือนกันในทุกสี (RGB) หรือไม่ ถูกต้องหรือไม่ ฉันจะรักษาความลำเอียงที่เหมือนกันของแต่ละภาพในเชิงลึก (ในกรณีนี้ 3) ในขณะที่ฉันใช้น้ำหนักที่แตกต่างกันหรือไม่ ทำไมถึงเป็นอย่างนั้น?

1
จำนวนและขนาดของเลเยอร์หนาแน่นใน CNN
เครือข่ายส่วนใหญ่ที่ฉันเคยเห็นมีชั้นหนาแน่นหนึ่งหรือสองชั้นก่อนหน้าชั้น softmax สุดท้าย มีวิธีใดในการเลือกจำนวนและขนาดของเลเยอร์หนาแน่น เลเยอร์หนาแน่นสองเลเยอร์เป็นตัวแทนมากกว่าหนึ่งสำหรับพารามิเตอร์จำนวนเดียวกันหรือไม่ ควรจะออกกลางคันก่อนแต่ละชั้นที่หนาแน่นหรือแค่ครั้งเดียว?
11 convnet 

3
โมเดล Recurrent (CNN) บนข้อมูล EEG
ฉันสงสัยว่าจะตีความสถาปัตยกรรมที่เกิดขึ้นซ้ำในบริบท EEG ได้อย่างไร โดยเฉพาะฉันคิดว่านี่เป็น CNN กำเริบ (ตรงข้ามกับสถาปัตยกรรมเช่น LSTM) แต่บางทีมันอาจใช้กับเครือข่ายกำเริบประเภทอื่นเช่นกัน เมื่อฉันอ่านเกี่ยวกับ R-CNNs พวกเขามักจะอธิบายในบริบทการจำแนกภาพ พวกเขามักจะอธิบายว่า "การเรียนรู้เมื่อเวลาผ่านไป" หรือ "รวมถึงผลกระทบของเวลา -1 ในอินพุตปัจจุบัน" การตีความ / คำอธิบายนี้ทำให้เกิดความสับสนเมื่อทำงานกับข้อมูล EEG ตัวอย่างของ R-CNN ที่ใช้กับข้อมูล EEG สามารถดูได้ที่นี่ ลองนึกภาพฉันมีตัวอย่างการฝึกอบรมแต่ละชุดประกอบด้วยอาร์เรย์ 1x512 อาร์เรย์นี้จับการอ่านค่าแรงดันไฟฟ้าสำหรับอิเล็กโทรด 1 ตัวที่จุดเวลาต่อเนื่องกัน 512 จุด ถ้าฉันใช้สิ่งนี้เป็นอินพุตไปยัง CNN ที่เกิดขึ้นอีก (โดยใช้การโน้มน้าวใจ 1D) ส่วนที่เกิดขึ้นอีกของโมเดลไม่ได้จับ "เวลา" จริงไหม (ตามที่ระบุไว้โดยนัยโดยคำอธิบาย / คำอธิบายที่กล่าวถึงก่อนหน้านี้) เพราะในบริบทนี้เวลาจะถูกจับโดยมิติที่สองของอาร์เรย์ ดังนั้นเมื่อมีการตั้งค่าเช่นนี้ส่วนที่เกิดขึ้นอีกของเครือข่ายจะอนุญาตให้เราสร้างแบบจำลองที่ซีเอ็นเอ็นปกติไม่สามารถทำได้ (ถ้าไม่ใช่เวลา) สำหรับฉันแล้วดูเหมือนว่าการกำเริบหมายถึงการทำข้อตกลงการเพิ่มผลลัพธ์ลงในอินพุตต้นฉบับและการโน้มน้าวอีกครั้ง สิ่งนี้ได้รับการทำซ้ำสำหรับ …

2
มันสมเหตุสมผลไหมที่จะฝึกให้ CNN เป็น autoencoder?
ฉันทำงานกับการวิเคราะห์ข้อมูล EEG ซึ่งในที่สุดจะต้องจัดประเภท อย่างไรก็ตามการได้รับป้ายกำกับสำหรับการบันทึกค่อนข้างแพงซึ่งทำให้ฉันต้องพิจารณาแนวทางที่ไม่ได้รับการดูแลเพื่อใช้ประโยชน์จากข้อมูลที่ไม่มีป้ายกำกับจำนวนมากของเรา สิ่งนี้นำไปสู่การพิจารณาตัวเข้ารหัสอัตโนมัติแบบเรียงซ้อนซึ่งอาจเป็นความคิดที่ดี อย่างไรก็ตามมันก็สมเหตุสมผลที่จะใช้โครงข่ายประสาทเทียมเนื่องจากการกรองบางประเภทนั้นเป็นวิธีที่มีประโยชน์มากต่อ EEG และมีแนวโน้มว่ายุคที่ควรพิจารณาจะวิเคราะห์เฉพาะที่และไม่ใช่ทั้งหมด มีวิธีที่ดีในการรวมสองวิธีนี้หรือไม่? ดูเหมือนว่าเมื่อผู้คนใช้ CNN พวกเขามักใช้การฝึกอบรมภายใต้การดูแลหรืออะไร ประโยชน์หลักสองประการของการสำรวจเครือข่ายประสาทเทียมสำหรับปัญหาของฉันดูเหมือนจะเป็นแง่มุมที่ไม่ได้รับการดูแลและการปรับแต่งอย่างละเอียด (มันน่าสนใจที่จะสร้างเครือข่ายข้อมูลประชากรแล้วปรับแต่งสำหรับแต่ละบุคคล) มีใครรู้บ้างไหมว่าฉันสามารถสั่งให้ CNN เป็นเหมือนตัวแปลงสัญญาณอัตโนมัติที่ "พิการ" หรือว่าจะไม่มีประโยชน์หรือไม่? ฉันควรจะพิจารณาสถาปัตยกรรมอื่น ๆ เช่นเครือข่ายความเชื่อที่ลึกซึ้งหรือไม่?

3
เหตุใดจึงต้องใช้ NN แบบ convolutional สำหรับงานตรวจสอบด้วยภาพผ่านการจับคู่แม่แบบ CV แบบคลาสสิก
ฉันมีการสนทนาที่น่าสนใจเกิดขึ้นจากโครงการที่เรากำลังทำอยู่: เหตุใดจึงต้องใช้ระบบตรวจสอบด้วยภาพของ CNN ผ่านอัลกอริทึมการจับคู่แม่แบบ พื้นหลัง: ฉันได้แสดงตัวอย่างของระบบการมองเห็นซีเอ็นเอ็นอย่างง่าย (เว็บแคม + แล็ปท็อป) ที่ตรวจพบว่าวัตถุชนิดใดชนิดหนึ่ง "แตก" / มีข้อบกพร่องหรือไม่ - ในกรณีนี้แผงวงจร PCB โมเดล CNN ของฉันแสดงตัวอย่างแผงวงจรที่เหมาะสมและชำรุด (ประมาณ 100 ภาพของแต่ละภาพ) บนพื้นหลังแบบคงที่ โมเดลของเราใช้เลเยอร์ Conv / maxpool สองสามตัวแรกของ VGG16 ที่ผ่านการฝึกอบรมล่วงหน้า (บน imagenet) และจากนั้นเราเพิ่มการฝึกอบรม / สระว่ายน้ำที่สามารถฝึกอบรมได้อีกสองสามอัน : (is_empty, has_good_product, has_defective_product) รูปแบบการฝึกอบรมได้อย่างง่ายดายและถึง 99% การตรวจสอบตามมาตรฐานไม่มีปัญหา; เรายังได้รับการฝึกฝนด้วยการเพิ่มข้อมูลต่าง ๆ เนื่องจากเรารู้ว่าชุดข้อมูลของเรามีขนาดเล็ก ในทางปฏิบัติมันใช้งานได้ประมาณ 9 ครั้งจาก 10 ครั้ง …

1
Convolutional ply แตกต่างจากเครือข่าย Convolutional ทั่วไปอย่างไร
ฉันกำลังทำงานเพื่อสร้างผลลัพธ์ของเอกสารนี้ใหม่ ในกระดาษพวกเขาอธิบายวิธีการใช้ CNN สำหรับการสกัดคุณลักษณะและมีรูปแบบอะคูสติกที่ Dnn-hmm และถูกฝึกโดยใช้ RBM ส่วนย่อย III ระบุสถานะที่แตกต่างกันในการแสดงข้อมูลอินพุต ฉันตัดสินใจที่จะสแต็คพล็อตสเปกตรัมของสแตติกเดลต้าและเดลต้าในแนวตั้ง ดังนั้นเช่น: กระดาษจะอธิบายว่าเครือข่ายควรเป็นอย่างไร พวกเขาระบุว่าพวกเขาใช้เครือข่าย convolutional แต่ไม่มีอะไรเกี่ยวกับโครงสร้างของเครือข่าย? ยิ่งไปกว่านั้นเครือข่ายอ้างถึงเสมอว่าเป็นคนเร่ขายของ? ซึ่งฉันแน่ใจว่าฉันเห็นความแตกต่างใด ๆ เมื่อเทียบกับเครือข่ายประสาทเทียมธรรมดาเครือข่าย (cnn) กระดาษระบุสิ่งนี้เกี่ยวกับความแตกต่าง: (จากส่วนย่อย III B) อย่างไรก็ตามการแปลงชั้นจะแตกต่างจากเลเยอร์มาตรฐานที่เชื่อมต่ออย่างสมบูรณ์ในสองส่วนที่สำคัญ ขั้นแรกหน่วย Convolutional แต่ละหน่วยจะรับอินพุตจากพื้นที่ท้องถิ่นของอินพุตเท่านั้น ซึ่งหมายความว่าแต่ละหน่วยแสดงถึงคุณสมบัติบางอย่างของภูมิภาคท้องถิ่นของอินพุต ประการที่สองหน่วยของการจัดเรียงสังวัตนาสามารถจัดเป็นแผนที่คุณลักษณะจำนวนหนึ่งซึ่งหน่วยทั้งหมดในแผนที่คุณลักษณะเดียวกันจะมีน้ำหนักเท่ากัน แต่รับข้อมูลจากสถานที่ต่าง ๆ ของชั้นล่าง อีกสิ่งหนึ่งที่ฉันสงสัยคือว่ากระดาษระบุจำนวนเอาต์พุตพารามิเตอร์ที่จำเป็นในการป้อนข้อมูลแบบจำลองอะคูสติก dnn-hmm หรือไม่ ฉันดูเหมือนจะไม่สามารถถอดรหัสจำนวนตัวกรองขนาดตัวกรอง .. ในรายละเอียดทั่วไปของเครือข่ายได้หรือไม่

2
มีการศึกษาใดที่ตรวจสอบการออกกลางคันเทียบกับการทำให้เป็นมาตรฐานอื่น ๆ ?
มีเอกสารใดที่ตีพิมพ์ซึ่งแสดงความแตกต่างของวิธีการทำให้เป็นมาตรฐานสำหรับเครือข่ายประสาทโดยเฉพาะอย่างยิ่งในโดเมนที่ต่างกัน (หรืออย่างน้อยชุดข้อมูลที่แตกต่างกัน) ฉันถามเพราะตอนนี้ฉันมีความรู้สึกว่าคนส่วนใหญ่ดูเหมือนจะใช้การออกกลางคันสำหรับการมองเห็นในคอมพิวเตอร์เป็นประจำ ฉันต้องการตรวจสอบว่ามีเหตุผล (ไม่) ที่จะใช้วิธีการทำให้เป็นมาตรฐานแบบต่างๆ

1
keras 'ModelCheckpoint ไม่ทำงาน
ฉันพยายามฝึกโมเดลใน keras และฉันใช้ModelCheckpointเพื่อบันทึกโมเดลที่ดีที่สุดตามการตรวจสอบความถูกต้องที่ตรวจสอบ (ในกรณีของฉันคือดัชนี Jaccard ) ในขณะที่ฉันสามารถเห็นรูปแบบการปรับปรุงในแผงเมตริกซ์เมื่อฉันพยายามที่จะโหลดน้ำหนักและประเมินรูปแบบมันไม่ทำงานเลย ยิ่งไปกว่านั้นด้วยการประทับเวลาของไฟล์ที่ควรเก็บตุ้มน้ำหนักฉันสามารถบอกได้ว่าไม่ได้ถูกบันทึกไว้เลย เวลาประทับสอดคล้องกับเวลาที่ฉันเริ่มการฝึกอบรม มีใครพบปัญหาดังกล่าวมาก่อนหรือไม่
8 keras  convnet 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.