คำถามติดแท็ก deep-learning

พื้นที่ใหม่ของการเรียนรู้ของการเรียนรู้ด้วยเครื่องจักรที่เกี่ยวข้องกับเทคโนโลยีที่ใช้สำหรับการเรียนรู้การเป็นตัวแทนของข้อมูลแบบลำดับชั้นส่วนใหญ่ทำด้วยเครือข่ายนิวรัลลึก (เช่นเครือข่ายที่มีเลเยอร์ที่ซ่อนสองชั้นหรือมากกว่า)

1
ทำไม ReLU ถึงดีกว่าฟังก์ชั่นการเปิดใช้งานอื่น ๆ
ที่นี่คำตอบหมายถึงการหายไปและการไล่ระดับสีแบบกระจายที่sigmoidฟังก์ชั่นการเปิดใช้งานเหมือนกัน แต่ฉันเดาว่าReluมีข้อเสียและเป็นค่าที่คาดหวัง ไม่มีข้อ จำกัด สำหรับเอาต์พุตของReluดังนั้นค่าที่คาดหวังจะไม่เป็นศูนย์ ผมจำได้ว่าช่วงเวลาก่อนที่ความนิยมของReluที่เป็นที่นิยมมากที่สุดในหมู่เครื่องผู้เชี่ยวชาญด้านการเรียนรู้มากกว่าtanh sigmoidเหตุผลก็คือค่าที่คาดหวังของtanhศูนย์เท่ากับและมันช่วยให้การเรียนรู้ในชั้นลึกจะเร็วขึ้นในโครงข่ายประสาท Reluไม่มีคุณสมบัตินี้ แต่ทำไมมันถึงทำงานได้ดีถ้าเราเอาความได้เปรียบเชิงอนุพันธ์มาใช้ ยิ่งกว่านั้นฉันคิดว่าอนุพันธ์อาจได้รับผลกระทบด้วย เพราะการเปิดใช้งาน (ผลลัพธ์ของRelu) มีส่วนร่วมในการคำนวณกฎการอัพเดท

3
การทำ Bagging vs Dropout ใน Deep Neural Networks
การบรรจุถุงเป็นการสร้างตัวทำนายหลายตัวที่ทำงานเป็นตัวทำนายอย่างเดียว การออกกลางคันเป็นเทคนิคที่สอนให้กับเครือข่ายประสาทเทียมโดยเฉลี่ยเครือข่ายย่อยที่เป็นไปได้ทั้งหมด การดูการแข่งขันที่สำคัญที่สุดของ Kaggle นั้นดูเหมือนว่าทั้งสองเทคนิคนี้ใช้กันบ่อยมาก ฉันไม่เห็นความแตกต่างทางทฤษฎีใด ๆ นอกเหนือจากการใช้งานจริง ใครสามารถอธิบายฉันได้ว่าทำไมเราควรใช้ทั้งคู่ในแอปพลิเคชันจริง ๆ และทำไมประสิทธิภาพจึงดีขึ้นเมื่อเราใช้ทั้งสองอย่าง

3
วิธีการคำนวณหน่วยความจำ mini-batch มีผลกระทบอย่างไรเมื่อฝึกอบรมโมเดลการเรียนรู้ลึก
ฉันพยายามคำนวณจำนวนหน่วยความจำที่ GPU ต้องการในการฝึกอบรมโมเดลของฉันโดยอ้างอิงจากบันทึกนี้จาก Andrej Karphaty: http://cs231n.github.io/convolutional-networks/#computational-considerations เครือข่ายของฉันมีการเปิดใช้งาน 532,752 รายการและพารามิเตอร์ 19,072,984 รายการ (น้ำหนักและอคติ) นี่คือค่าลอย 32 บิตดังนั้นแต่ละค่าใช้เวลา 4 ไบต์ในหน่วยความจำ ภาพอินพุตของฉันคือ 180x50x1 (กว้าง x สูง x ลึก) = 9,000ค่าลอย 32 ฉันไม่ได้ใช้การเพิ่มรูปภาพดังนั้นฉันคิดว่าหน่วยความจำเบ็ดเตล็ดจะเกี่ยวข้องกับขนาดมินิแบทช์เท่านั้น ฉันใช้มินิแบทช์ขนาด 128 ภาพ ตามคำแนะนำของ Andrej ฉันได้รับขนาดหน่วยความจำต่อไปนี้: การเปิดใช้งาน: 532,752 * 4 / (1024 ^ 2) = 2.03 MB พารามิเตอร์: 19,072,984 * 4 / …

5
ทำให้แผนที่ความร้อนของทะเลใหญ่ขึ้น
ฉันสร้างcorr()df จาก df ดั้งเดิม corr()DF ออก 70 X 70 มาและมันเป็นไปไม่ได้ที่จะเห็นภาพ heatmap ส sns.heatmap(df)... ถ้าฉันพยายามที่จะแสดงcorr = df.corr()ตารางที่ไม่พอดีกับหน้าจอและฉันสามารถดูความสัมพันธ์ทั้งหมด มันเป็นวิธีที่จะพิมพ์ทั้งdfโดยไม่คำนึงถึงขนาดของมันหรือเพื่อควบคุมขนาดของ heatmap หรือไม่?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

2
เราควรใช้การทำให้เป็นมาตรฐานเพื่อทดสอบข้อมูลด้วยหรือไม่
ฉันกำลังทำโครงการเกี่ยวกับปัญหาการระบุผู้แต่ง ฉันใช้การปรับมาตรฐาน tf-idf เพื่อฝึกอบรมข้อมูลแล้วฝึก svm กับข้อมูลนั้น ตอนนี้เมื่อใช้ตัวจําแนกฉันควรทำให้ข้อมูลทดสอบเป็นปกติ ฉันรู้สึกว่าเป้าหมายพื้นฐานของการทำให้เป็นมาตรฐานคือการทำให้การเรียนรู้เพิ่มน้ำหนักให้กับคุณสมบัติที่สำคัญกว่าขณะเรียนรู้ ดังนั้นเมื่อมีการฝึกอบรมแล้วจะรู้ว่าคุณสมบัติใดมีความสำคัญซึ่งไม่ได้ ดังนั้นจำเป็นที่จะต้องใช้การทำให้เป็นมาตรฐานเพื่อทดสอบข้อมูลด้วยหรือไม่? ฉันยังใหม่กับสาขานี้ ดังนั้นโปรดเพิกเฉยหากคำถามนั้นโง่?

5
โครงข่ายประสาทเทียมมากเกินไป การออกกลางคันไม่ได้ช่วยอะไร
ฉันกำลังเล่นกับ convnets เล็กน้อย โดยเฉพาะฉันใช้ชุดข้อมูล cats-vs-dogs kaggle ซึ่งประกอบไปด้วยรูปภาพ 25,000 ภาพที่มีป้ายกำกับว่าเป็น cat หรือ dog (12500 อัน) ฉันจัดการเพื่อให้บรรลุความถูกต้องจำแนก 85% ในชุดทดสอบของฉัน แต่ฉันกำหนดเป้าหมายของการบรรลุความแม่นยำ 90% ปัญหาหลักของฉันคือ overfitting อย่างใดก็มักจะเกิดขึ้นเสมอ (ปกติหลังจากยุค 8-10) สถาปัตยกรรมของเครือข่ายของฉันได้รับแรงบันดาลใจมาจาก VGG-16 โดยเฉพาะอย่างยิ่งภาพของฉันได้รับการปรับขนาดเป็น128x128x3128x128x3128x128x3จากนั้นฉันเรียกใช้: Convolution 1 128x128x32 (kernel size is 3, strides is 1) Convolution 2 128x128x32 (kernel size is 3, strides is 1) Max pool 1 …

3
น้ำหนักและอคติในการเรียนรู้อย่างลึกซึ้งคืออะไร?
ฉันเริ่มเรียนรู้การเรียนรู้ของเครื่องจากเว็บไซต์ Tensorflow ฉันได้พัฒนาความเข้าใจพื้นฐานของโปรแกรมการเรียนรู้ที่ลึกล้ำตามมา (วิธีนี้ทำให้ฉันเรียนรู้เร็วแทนที่จะอ่านหนังสือและบทความใหญ่) มีบางสิ่งที่สับสนที่ฉันได้เจอมี 2 สิ่ง: อคติ น้ำหนัก ในการสอน MNIST บนเว็บไซต์ของเทนเซอร์โฟลว์พวกเขาได้กล่าวว่าเราต้องการอคติและน้ำหนักเพื่อค้นหาหลักฐานการมีอยู่ของรูปแบบเฉพาะในภาพ สิ่งที่ฉันไม่เข้าใจคือการกำหนดค่าสำหรับอคติและน้ำหนักที่ใดและอย่างไร เราต้องให้ค่าเหล่านี้หรือไม่หรือห้องสมุด TensorFlow คำนวณค่าเหล่านี้โดยอัตโนมัติตามชุดข้อมูลการฝึกอบรมหรือไม่? นอกจากนี้หากคุณสามารถให้คำแนะนำเกี่ยวกับวิธีเร่งความเร็วของฉันในการเรียนรู้อย่างลึกซึ้งนั่นจะยอดเยี่ยมมาก! การสอน Tensorflow Beginners

3
วิธีรับการทำนายด้วย predict_generator จากข้อมูลการทดสอบการสตรีมใน Keras
ในบล็อก Keras เกี่ยวกับการฝึกอบรมทำให้มั่นใจตั้งแต่เริ่มต้นรหัสจะแสดงเฉพาะเครือข่ายที่ทำงานกับข้อมูลการฝึกอบรมและการตรวจสอบความถูกต้อง แล้วข้อมูลทดสอบล่ะ ข้อมูลการตรวจสอบเป็นเช่นเดียวกับข้อมูลทดสอบ (ฉันคิดว่าไม่) หากมีโฟลเดอร์ทดสอบแยกต่างหากในบรรทัดที่คล้ายกันเป็นโฟลเดอร์รถไฟและการตรวจสอบความถูกต้องเราจะได้รับเมทริกซ์ความสับสนสำหรับข้อมูลการทดสอบอย่างไร ฉันรู้ว่าเราต้องใช้ scikit learn หรือชุดอื่น ๆ เพื่อทำสิ่งนี้ แต่ฉันจะทำบางสิ่งให้สอดคล้องกับความน่าจะเป็นที่ชาญฉลาดของชั้นเรียนสำหรับข้อมูลการทดสอบ ฉันหวังว่าจะใช้สิ่งนี้กับเมทริกซ์ความสับสน


2
การถดถอยแบบปรับพารามิเตอร์ของมุมการหมุน
สมมติว่าฉันมีรูปลูกศรจากบนลงล่างและฉันต้องการทำนายมุมที่ลูกศรนี้สร้างขึ้น นี้จะอยู่ระหว่างและองศาหรือระหว่างและ2ปัญหาคือเป้าหมายนี้มีลักษณะเป็นวงกลมและองศาเหมือนกันทุกประการซึ่งเป็นค่าคงที่ที่ฉันต้องการรวมไว้ในเป้าหมายของฉันซึ่งจะช่วยให้การวางนัยทั่วไปเป็นนัยสำคัญ (นี่คือสมมุติฐานของฉัน) ปัญหาคือฉันไม่เห็นวิธีการแก้ปัญหานี้ที่สะอาดมีเอกสารใดบ้างที่พยายามแก้ไขปัญหานี้ (หรือสิ่งที่คล้ายกัน)? ฉันมีความคิดบางอย่างกับข้อเสียที่เป็นไปได้:0003603603600002 π2π2\pi000360360360 ใช้การเปิดใช้งาน sigmoid หรือ tanh ปรับขนาดเป็นช่วง (และรวมคุณสมบัติแบบวงกลมในฟังก์ชันการสูญเสีย ฉันคิดว่าสิ่งนี้จะล้มเหลวอย่างหนักเพราะถ้าอยู่บนเส้นขอบ (การคาดคะเนที่เลวร้ายที่สุด) เพียงเสียงเล็ก ๆ เท่านั้นที่จะผลักดันให้น้ำหนักไปทางใดทางหนึ่ง นอกจากนี้ค่าที่ใกล้กับชายแดนของและจะเข้าถึงได้ยากขึ้นเนื่องจากค่าการเปิดใช้งานแบบสัมบูรณ์จะต้องใกล้เคียงกับอนันต์0 , 2 π)0,2π)0, 2\pi)0002 π2π2\pi ถอยกลับไปที่ค่าสองค่า aและและคำนวณการสูญเสียตามมุมทั้งสองค่าทำ ฉันคิดว่าอันนี้มีศักยภาพมากกว่า แต่บรรทัดฐานของเวกเตอร์นี้ไม่มีขอบเขตซึ่งอาจนำไปสู่ความไม่แน่นอนของตัวเลขและอาจนำไปสู่การระเบิดหรือเป็น 0 ในระหว่างการฝึก สิ่งนี้สามารถแก้ไขได้โดยใช้ regularizer แปลก ๆ เพื่อป้องกันบรรทัดฐานนี้ไม่ให้อยู่ห่างจาก 1 มากเกินไปyxxxyyy ตัวเลือกอื่น ๆ กำลังทำอะไรบางอย่างกับฟังก์ชั่นไซน์และโคไซน์ แต่ฉันรู้สึกเหมือนความจริงที่ว่าแผนที่การเปิดใช้งานล่วงหน้าหลายรายการไปยังเอาต์พุตเดียวกันจะทำให้การเพิ่มประสิทธิภาพและการสรุปทั่วไปทำได้ยากมาก

3
วิธีเพิ่มหมวดหมู่ใหม่ในรูปแบบการเรียนรู้ลึก
สมมติว่าฉันถ่ายโอนการเรียนรู้บนเครือข่ายที่ผ่านการฝึกอบรมมาแล้วเพื่อรับรู้วัตถุ 10 รายการ เพิ่มรายการที่ 11 ที่เครือข่ายสามารถจำแนกได้อย่างไรโดยไม่สูญเสีย 10 หมวดหมู่ทั้งหมดที่ฉันได้รับการฝึกฝนแล้วหรือข้อมูลจากแบบจำลองที่ผ่านการฝึกอบรมมาก่อน เพื่อนบอกฉันว่างานวิจัยที่กำลังเกิดขึ้นในสาขานี้ แต่ฉันไม่สามารถหาเอกสารที่เกี่ยวข้องหรือชื่อที่จะค้นหา? ขอขอบคุณ.

1
PyTorch vs. Tensorflow กระตือรือร้น
เมื่อเร็ว ๆ นี้ Google รวมอยู่ในการสร้างโหมดEagerซึ่งเป็น API ที่จำเป็นสำหรับการเข้าถึงความสามารถในการคำนวณ tensorflow tensorflow กระตือรือร้นอย่างไรเปรียบเทียบกับ PyTorch บางแง่มุมที่อาจส่งผลต่อการเปรียบเทียบคือ: ข้อดีและข้อเสียของความกระตือรือร้นเนื่องจากกราฟแบบคงที่ (เช่นชื่อในโหนด) ข้อ จำกัด ที่แท้จริงของข้อใดข้อหนึ่งที่ไม่ได้มี พื้นที่ที่หนึ่งในนั้นต้องการการปรับปรุง (เช่นความสมบูรณ์ของคุณสมบัติการเพิ่มประสิทธิภาพการคำนวณ) ความแตกต่างของระบบนิเวศ (เช่นเมตริกซ์หรือไม่) หมายเหตุ 1: ยาโรสลาฟ Bulatov เขียนความคิดเห็นเกี่ยวกับคุณสมบัติที่ดีของความกระตือรือร้น Note2: ในคำถามก่อนหน้านี้ฉันขอเปรียบเทียบระหว่าง PyTorch และ Tensorflow Fold ในเวลานั้นฉันรู้สึกว่าพับอาจเผชิญ PyTorch ขอบคุณ Google สำรอง ฉันผิดอย่างมาก: ในที่สุด Google เองก็ละทิ้งการพับในความโปรดปรานของ Eager ฉันเข้าใจว่าสิ่งนี้เกิดจากข้อ จำกัด ที่แท้จริงใน tensorflow API ปกติที่ทำให้ Fold ไม่เป็นมิตรซึ่ง …

4
เราสามารถสร้างชุดข้อมูลขนาดใหญ่ได้ด้วย Generative Adversarial Networks
ฉันกำลังเผชิญกับปัญหาที่ฉันไม่สามารถหาชุดข้อมูล (รูปภาพ) เพียงพอที่จะป้อนเข้าสู่เครือข่ายประสาทเทียมลึกของฉันสำหรับการฝึกอบรม ฉันได้รับแรงบันดาลใจอย่างมากจากการสังเคราะห์ข้อความที่เป็นปฏิปักษ์กับการสร้างภาพกระดาษเผยแพร่โดย Scott Reed และคณะ บนเครือข่ายผู้ให้กำเนิดที่ไม่พึงประสงค์ ฉันอยากรู้ว่าฉันสามารถใช้ชุดข้อมูลขนาดเล็กที่มีอยู่เป็นอินพุทของแบบจำลอง GAN และสร้างชุดข้อมูลขนาดใหญ่ขึ้นเพื่อจัดการกับโมเดลเครือข่ายที่ลึกกว่านี้ได้หรือไม่ มันจะดีพอไหม

1
วิธีเพิ่มคุณสมบัติที่ไม่ใช่รูปภาพควบคู่กับรูปภาพด้านข้างเป็นอินพุตของ CNN
ฉันกำลังฝึกอบรมโครงข่ายประสาทเทียมเพื่อจำแนกภาพตามสภาพหมอก (3 คลาส) อย่างไรก็ตามสำหรับแต่ละภาพประมาณ 150.000 ภาพฉันยังมีตัวแปรอุตุนิยมวิทยาสี่ตัวที่มีอยู่ซึ่งอาจช่วยในการทำนายชั้นเรียนของภาพ ฉันสงสัยว่าฉันจะเพิ่มตัวแปรทางอุตุนิยมวิทยา (เช่นอุณหภูมิความเร็วลม) ไปยังโครงสร้าง CNN ที่มีอยู่เพื่อให้สามารถช่วยในการจำแนกประเภทได้อย่างไร วิธีหนึ่งที่ฉันสามารถนึกได้ก็คือการสร้างโครงข่ายประสาทประสาทขนาดเล็กอีกข้างหนึ่งไว้ข้างๆ CNN แล้วต่อผลลัพธ์ของชั้น CNN และชั้นที่ซ่อนอยู่ของโครงข่ายประสาทเทียมที่ไม่ใช่ภาพต่อกันที่ชั้นหนาแน่น วิธีที่สองที่ฉันนึกได้คือเพียงติดต่อคุณสมบัติเหล่านี้กับชั้นที่มีความหนาแน่นสูง อย่างไรก็ตามในกรณีนี้ตัวแปรที่ไม่ใช่รูปภาพจะ (ฉันคิดว่า) จะสามารถคาดการณ์เชิงเส้นได้เท่านั้น มีวิธีอื่นที่ดีกว่าที่จะรวมคุณสมบัติที่ไม่ใช่รูปภาพไว้ในโมเดลหรือไม่ และวิธีการที่แนะนำคืออะไรเมื่อพิจารณาปริมาณข้อมูลที่ฉันมี อีกคำถามที่ฉันมีคือฉันควรยกเลิกการตรึงเลเยอร์ convolutional หรือไม่ในขณะที่ฝึกฝนด้วยคุณสมบัติที่ไม่ใช่รูปภาพเหล่านี้ เลเยอร์ของ Resnet-18 เหล่านี้ (ซึ่งถูกกำหนดค่าเริ่มต้นว่าผ่านการฝึกอบรมล่วงหน้าบน ImageNet) ได้รับการปรับแต่งแล้วโดยใช้ภาพ ฉันเดาว่าฉันควรให้พวกมันแข็งตัวและทำให้ชั้นที่หนาทึบหลุดออกเท่านั้นเพราะมันเป็นเพียงที่นี่ที่คุณสมบัติที่ไม่ใช่รูปภาพเข้ามา 'ติดต่อ' กับคุณสมบัติของภาพ (ไม่ใช่ก่อนหน้านี้ใน CNN) ถ้าฉันผิดนี่โปรดพูดอย่างนั้น!

3
ImageNet มีคลาสบุคคลใน ImageNet หรือไม่? มีคลาสที่เกี่ยวข้องกับมนุษย์หรือไม่?
ถ้าฉันมองไปที่หนึ่งในหลายแหล่งเรียน Imagenet บนอินเทอร์เน็ตฉันไม่สามารถหาชั้นเดียวที่เกี่ยวข้องกับมนุษย์ (และไม่มีคนเกี่ยวข้าวเก็บเกี่ยวไม่ได้เป็นคนที่เก็บเกี่ยว แต่มันเป็นสิ่งที่ผมรู้ว่าเป็น Longlegs พ่อชนิดของ แมงมุม :-) เป็นไปได้อย่างไร? ผมจะมีที่คาดว่าอย่างน้อยpersonระดับและแม้กระทั่งสิ่งที่เฉพาะเจาะจงมากขึ้นเช่นman, woman, toddlerฯลฯ ไม่มีการจัดเรียง ทำไม? ไม่เฟยเฟยหลี่และทีมงานของเธอให้เป็นทางเลือกที่ใส่ใจไม่ให้มีภาพคนที่อยู่ในฐานข้อมูลหรือไม่ ฉันดูไฟล์ผิดหรือเปล่า? เพื่อประโยชน์ของคำถามเราสามารถพิจารณาImageNetรุ่นตั้งแต่ปี 2014 เป็นต้นไป

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.