วิทยาศาสตร์ข้อมูล neural-network

3

แนวทางการเลือกเครื่องมือเพิ่มประสิทธิภาพสำหรับการฝึกอบรมโครงข่ายประสาทเทียม

ฉันใช้โครงข่ายประสาทเทียมมาระยะหนึ่งแล้ว อย่างไรก็ตามสิ่งหนึ่งที่ฉันต่อสู้อย่างต่อเนื่องคือการเลือกเครื่องมือเพิ่มประสิทธิภาพสำหรับการฝึกอบรมเครือข่าย (โดยใช้ backprop) สิ่งที่ฉันมักจะทำคือเริ่มต้นด้วยหนึ่ง (เช่นมาตรฐาน SGD) จากนั้นลองคนอื่น ๆ แบบสุ่มมากทีเดียว ฉันสงสัยว่ามีวิธีที่ดีกว่า (และสุ่มน้อยกว่า) ในการค้นหาเครื่องมือเพิ่มประสิทธิภาพที่ดีเช่นจากรายการนี้: SGD (มีหรือไม่มีโมเมนตัม) AdaDelta AdaGrad RMSProp อาดัม โดยเฉพาะอย่างยิ่งฉันสนใจว่ามีเหตุผลทางทฤษฎีบางอย่างสำหรับการเลือกมากกว่าหนึ่งเนื่องจากข้อมูลการฝึกอบรมมีคุณสมบัติบางอย่างเช่นมันเบาบาง ฉันจะจินตนาการว่าเครื่องมือเพิ่มประสิทธิภาพบางอย่างทำงานได้ดีกว่าโดเมนอื่น ๆ เช่นเมื่อฝึกอบรมเครือข่าย convolutional เทียบกับเครือข่าย feed-forward หรือการจัดหมวดหมู่เทียบกับการถดถอย หากคุณคนใดพัฒนากลยุทธ์และ / หรือสัญชาตญาณว่าคุณจะเลือกเครื่องมือเพิ่มประสิทธิภาพได้อย่างไรฉันจะสนใจเป็นอย่างมาก นอกจากนี้หากมีงานที่ให้เหตุผลทางทฤษฎีในการเลือกงานหนึ่งงานนั่นจะดียิ่งขึ้น

18 neural-network optimization backpropagation

4

การค้นหาพารามิเตอร์หลายระดับสำหรับ LSTM-RNN โดยใช้ Keras (Python)

จากการสอนของ Keras RNN: "RNN นั้นยุ่งยากการเลือกขนาดแบตช์เป็นสิ่งสำคัญตัวเลือกการสูญเสียและออพติไมเซอร์เป็นสิ่งสำคัญ ฯลฯ การกำหนดค่าบางอย่างจะไม่มาบรรจบกัน" ดังนั้นนี่เป็นคำถามทั่วไปเกี่ยวกับการปรับพารามิเตอร์ไฮเปอร์พารามิเตอร์ของ LSTM-RNN บน Keras ฉันต้องการทราบวิธีการในการค้นหาพารามิเตอร์ที่ดีที่สุดสำหรับ RNN ของคุณ ผมเริ่มต้นด้วยตัวอย่างเช่นไอเอ็มบน Keras' Github โมเดลหลักมีลักษณะดังนี้: (X_train, y_train), (X_test, y_test) = imdb.load_data(nb_words=max_features, test_split=0.2) max_features = 20000 maxlen = 100 # cut texts after this number of words (among top max_features most common words) batch_size = 32 model = …

18 python neural-network deep-learning keras hyperparameter

4

อนุพันธ์บทบาทของฟังก์ชัน sigmoid ในโครงข่ายประสาทเทียม

ฉันพยายามเข้าใจบทบาทของอนุพันธ์ของฟังก์ชัน sigmoid ในโครงข่ายประสาท ครั้งแรกที่ฉันพล็อตฟังก์ชั่น sigmoid และอนุพันธ์ของคะแนนทั้งหมดจากการกำหนดโดยใช้หลาม บทบาทของอนุพันธ์นี้คืออะไร? import numpy as np import matplotlib.pyplot as plt def sigmoid(x): return 1 / (1 + np.exp(-x)) def derivative(x, step): return (sigmoid(x+step) - sigmoid(x)) / step x = np.linspace(-10, 10, 1000) y1 = sigmoid(x) y2 = derivative(x, 0.0000000000001) plt.plot(x, y1, label='sigmoid') plt.plot(x, y2, label='derivative') …

18 machine-learning neural-network

1

ทำไม ReLU ถึงดีกว่าฟังก์ชั่นการเปิดใช้งานอื่น ๆ

ที่นี่คำตอบหมายถึงการหายไปและการไล่ระดับสีแบบกระจายที่sigmoidฟังก์ชั่นการเปิดใช้งานเหมือนกัน แต่ฉันเดาว่าReluมีข้อเสียและเป็นค่าที่คาดหวัง ไม่มีข้อ จำกัด สำหรับเอาต์พุตของReluดังนั้นค่าที่คาดหวังจะไม่เป็นศูนย์ ผมจำได้ว่าช่วงเวลาก่อนที่ความนิยมของReluที่เป็นที่นิยมมากที่สุดในหมู่เครื่องผู้เชี่ยวชาญด้านการเรียนรู้มากกว่าtanh sigmoidเหตุผลก็คือค่าที่คาดหวังของtanhศูนย์เท่ากับและมันช่วยให้การเรียนรู้ในชั้นลึกจะเร็วขึ้นในโครงข่ายประสาท Reluไม่มีคุณสมบัตินี้ แต่ทำไมมันถึงทำงานได้ดีถ้าเราเอาความได้เปรียบเชิงอนุพันธ์มาใช้ ยิ่งกว่านั้นฉันคิดว่าอนุพันธ์อาจได้รับผลกระทบด้วย เพราะการเปิดใช้งาน (ผลลัพธ์ของRelu) มีส่วนร่วมในการคำนวณกฎการอัพเดท

17 machine-learning neural-network deep-learning gradient-descent activation-function

3

การทำ Bagging vs Dropout ใน Deep Neural Networks

การบรรจุถุงเป็นการสร้างตัวทำนายหลายตัวที่ทำงานเป็นตัวทำนายอย่างเดียว การออกกลางคันเป็นเทคนิคที่สอนให้กับเครือข่ายประสาทเทียมโดยเฉลี่ยเครือข่ายย่อยที่เป็นไปได้ทั้งหมด การดูการแข่งขันที่สำคัญที่สุดของ Kaggle นั้นดูเหมือนว่าทั้งสองเทคนิคนี้ใช้กันบ่อยมาก ฉันไม่เห็นความแตกต่างทางทฤษฎีใด ๆ นอกเหนือจากการใช้งานจริง ใครสามารถอธิบายฉันได้ว่าทำไมเราควรใช้ทั้งคู่ในแอปพลิเคชันจริง ๆ และทำไมประสิทธิภาพจึงดีขึ้นเมื่อเราใช้ทั้งสองอย่าง

17 machine-learning neural-network deep-learning

4

ชั้นเอาท์พุทพิเศษในเครือข่ายประสาทเทียม (ทศนิยมให้เป็นไบนารี)

ฉันทำงานผ่านคำถามจากหนังสือออนไลน์: http://neuralnetworksanddeeplearning.com/chap1.html ฉันสามารถเข้าใจได้ว่าถ้าเลเยอร์เอาต์พุตเพิ่มเติมเป็น 5 เซลล์ประสาทเอาท์พุทฉันอาจตั้งค่าไบอัสที่ 0.5 และน้ำหนัก 0.5 แต่ละเซลล์สำหรับเลเยอร์ก่อนหน้า แต่คำถามนี้ขอเลเยอร์ใหม่สี่เซลล์ประสาทส่งออก - ซึ่งเป็นมากกว่าเพียงพอที่จะเป็นตัวแทนของ 10 ผลที่เป็นไปได้ที่ 424242^{4} ใครช่วยแนะนำขั้นตอนในการทำความเข้าใจและการแก้ปัญหานี้ได้บ้าง คำถามการออกกำลังกาย: มีวิธีการพิจารณาการแสดงตัวเลข bitwise ของหลักโดยการเพิ่มเลเยอร์พิเศษให้กับเครือข่ายสามชั้นด้านบน เลเยอร์พิเศษจะแปลงเอาต์พุตจากเลเยอร์ก่อนหน้านี้เป็นการแทนแบบไบนารี่ดังแสดงในรูปด้านล่าง ค้นหาชุดของน้ำหนักและอคติสำหรับเลเยอร์เอาท์พุทใหม่ สมมติว่าเซลล์ประสาท 3 ชั้นแรกเป็นเช่นนั้นเอาต์พุตที่ถูกต้องในชั้นที่สาม (เช่นเลเยอร์เอาท์พุทเก่า) มีการเปิดใช้งานอย่างน้อย 0.99 และเอาต์พุตที่ไม่ถูกต้องมีการเปิดใช้งานน้อยกว่า 0.01

17 neural-network

2

เหตุใดจึงต้องใช้ทั้งชุดการตรวจสอบและชุดการทดสอบ

พิจารณาโครงข่ายประสาทเทียม: สำหรับชุดข้อมูลที่กำหนดเราแบ่งเป็นชุดฝึกอบรมตรวจสอบและทดสอบ สมมติว่าเราทำในอัตราส่วน 60:20:20 คลาสสิคจากนั้นเราป้องกันการ overfitting โดยตรวจสอบความถูกต้องของเครือข่ายโดยตรวจสอบในชุดการตรวจสอบความถูกต้อง ถ้าอย่างนั้นจำเป็นต้องทำการทดสอบอะไรในชุดทดสอบเพื่อตรวจสอบประสิทธิภาพ? ข้อผิดพลาดในชุดทดสอบจะค่อนข้างเหมือนกับชุดการตรวจสอบความถูกต้องสำหรับเครือข่ายเป็นข้อมูลที่มองไม่เห็นเหมือนกับชุดการตรวจสอบความถูกต้องและทั้งสองอย่างมีจำนวนเท่ากันหรือไม่ เราไม่สามารถเพิ่มชุดฝึกอบรมได้โดยรวมชุดทดสอบเข้าด้วยกันเพื่อให้เรามีข้อมูลการฝึกอบรมมากขึ้นและเครือข่ายฝึกอบรมได้ดีขึ้นจากนั้นใช้ชุดการตรวจสอบเพื่อป้องกันการ overfitting? ทำไมเราไม่ทำเช่นนี้?

17 machine-learning neural-network cross-validation

1

Deep Neural Network - Backpropogation ด้วย ReLU

ฉันมีปัญหาในการได้รับการเผยแพร่กลับด้วย ReLU และฉันทำงานบางอย่าง แต่ฉันไม่แน่ใจว่าฉันกำลังถูกทาง ฟังก์ชันต้นทุน:โดยที่คือค่าจริงและเป็นค่าที่คาดการณ์ไว้ นอกจากนี้สมมติว่า > 0 เสมอ12(y−y^)212(y−y^)2\frac{1}{2}(y-\hat y)^2yyyy^y^\hat yxxx 1 Layer ReLU โดยที่น้ำหนักที่ชั้นที่ 1 คือw1w1w_1 dCdw1=dCdRdRdw1dCdw1=dCdRdRdw1\frac{dC}{dw_1}=\frac{dC}{dR}\frac{dR}{dw_1} dCw1=(y−ReLU(w1x))(x)dCw1=(y−ReLU(w1x))(x)\frac{dC}{w_1}=(y-ReLU(w_1x))(x) 2 Layer ReLU โดยที่ตุ้มน้ำหนักที่ชั้นที่ 1 คือและชั้นที่สองคือและฉันต้องการอัปเดตชั้นที่ 1w2w2w_2w1w1w_1w2w2w_2 dCdw2=dCdRdRdw2dCdw2=dCdRdRdw2\frac{dC}{dw_2}=\frac{dC}{dR}\frac{dR}{dw_2} dCw2=(y−ReLU(w1∗ReLU(w2x))(w1x)dCw2=(y−ReLU(w1∗ReLU(w2x))(w1x)\frac{dC}{w_2}=(y-ReLU(w_1*ReLU(w_2x))(w_1x) ตั้งแต่ReLU(w1∗ReLU(w2x))=w1w2xReLU(w1∗ReLU(w2x))=w1w2xReLU(w_1*ReLU(w_2x))=w_1w_2x 3 Layer ReLU โดยที่ตุ้มน้ำหนักที่ชั้นที่ 1 คือ , 2nd layer w 2และ 3rd layer w 1w3w3w_3w2w2w_2w1w1w_1 dCdw3=dCdRdRdw3dCdw3=dCdRdRdw3\frac{dC}{dw_3}=\frac{dC}{dR}\frac{dR}{dw_3} dCw3=(y−ReLU(w1∗ReLU(w2(∗ReLU(w3)))(w1w2x)dCw3=(y−ReLU(w1∗ReLU(w2(∗ReLU(w3)))(w1w2x)\frac{dC}{w_3}=(y-ReLU(w_1*ReLU(w_2(*ReLU(w_3)))(w_1w_2x) ตั้งแต่ReLU(w1∗ReLU(w2(∗ReLU(w3))=w1w2w3xReLU(w1∗ReLU(w2(∗ReLU(w3))=w1w2w3xReLU(w_1*ReLU(w_2(*ReLU(w_3))=w_1w_2w_3x เนื่องจากกฎลูกโซ่ใช้เวลาเพียง 2 อนุพันธ์เมื่อเทียบกับ …

17 neural-network backpropagation

5

ทำให้แผนที่ความร้อนของทะเลใหญ่ขึ้น

ฉันสร้างcorr()df จาก df ดั้งเดิม corr()DF ออก 70 X 70 มาและมันเป็นไปไม่ได้ที่จะเห็นภาพ heatmap ส sns.heatmap(df)... ถ้าฉันพยายามที่จะแสดงcorr = df.corr()ตารางที่ไม่พอดีกับหน้าจอและฉันสามารถดูความสัมพันธ์ทั้งหมด มันเป็นวิธีที่จะพิมพ์ทั้งdfโดยไม่คำนึงถึงขนาดของมันหรือเพื่อควบคุมขนาดของ heatmap หรือไม่?

17 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

2

เราควรใช้การทำให้เป็นมาตรฐานเพื่อทดสอบข้อมูลด้วยหรือไม่

ฉันกำลังทำโครงการเกี่ยวกับปัญหาการระบุผู้แต่ง ฉันใช้การปรับมาตรฐาน tf-idf เพื่อฝึกอบรมข้อมูลแล้วฝึก svm กับข้อมูลนั้น ตอนนี้เมื่อใช้ตัวจําแนกฉันควรทำให้ข้อมูลทดสอบเป็นปกติ ฉันรู้สึกว่าเป้าหมายพื้นฐานของการทำให้เป็นมาตรฐานคือการทำให้การเรียนรู้เพิ่มน้ำหนักให้กับคุณสมบัติที่สำคัญกว่าขณะเรียนรู้ ดังนั้นเมื่อมีการฝึกอบรมแล้วจะรู้ว่าคุณสมบัติใดมีความสำคัญซึ่งไม่ได้ ดังนั้นจำเป็นที่จะต้องใช้การทำให้เป็นมาตรฐานเพื่อทดสอบข้อมูลด้วยหรือไม่? ฉันยังใหม่กับสาขานี้ ดังนั้นโปรดเพิกเฉยหากคำถามนั้นโง่?

17 machine-learning neural-network deep-learning

5

โครงข่ายประสาทเทียมมากเกินไป การออกกลางคันไม่ได้ช่วยอะไร

ฉันกำลังเล่นกับ convnets เล็กน้อย โดยเฉพาะฉันใช้ชุดข้อมูล cats-vs-dogs kaggle ซึ่งประกอบไปด้วยรูปภาพ 25,000 ภาพที่มีป้ายกำกับว่าเป็น cat หรือ dog (12500 อัน) ฉันจัดการเพื่อให้บรรลุความถูกต้องจำแนก 85% ในชุดทดสอบของฉัน แต่ฉันกำหนดเป้าหมายของการบรรลุความแม่นยำ 90% ปัญหาหลักของฉันคือ overfitting อย่างใดก็มักจะเกิดขึ้นเสมอ (ปกติหลังจากยุค 8-10) สถาปัตยกรรมของเครือข่ายของฉันได้รับแรงบันดาลใจมาจาก VGG-16 โดยเฉพาะอย่างยิ่งภาพของฉันได้รับการปรับขนาดเป็น128x128x3128x128x3128x128x3จากนั้นฉันเรียกใช้: Convolution 1 128x128x32 (kernel size is 3, strides is 1) Convolution 2 128x128x32 (kernel size is 3, strides is 1) Max pool 1 …

16 neural-network deep-learning convnet image-recognition dropout

2

วิธีการเลือกคุณสมบัติสำหรับเครือข่ายประสาทเทียม?

ฉันรู้ว่าไม่มีคำตอบที่ชัดเจนสำหรับคำถามนี้ แต่สมมติว่าฉันมีเครือข่ายประสาทขนาดใหญ่ที่มีข้อมูลจำนวนมากและฉันต้องการเพิ่มคุณสมบัติใหม่ในอินพุต วิธีที่ "ดีที่สุด" คือการทดสอบเครือข่ายด้วยคุณสมบัติใหม่และดูผลลัพธ์ แต่มีวิธีทดสอบว่าคุณลักษณะดังกล่าวไม่เป็นประโยชน์หรือไม่? เช่นเดียวกับมาตรการความสัมพันธ์ ( http://www3.nd.edu/~mclark19/learn/CorrelationComparison.pdf ) เป็นต้น?

16 machine-learning neural-network feature-selection feature-extraction

3

วิธีการรวมฟีเจอร์อินพุตและหมวดหมู่อย่างต่อเนื่องสำหรับการฝึกอบรมโครงข่ายประสาทเทียม

สมมติว่าเรามีคุณสมบัติอินพุตสองประเภทจัดหมวดหมู่และต่อเนื่อง ข้อมูลหมวดหมู่อาจถูกแทนด้วยรหัสร้อนแรง A ในขณะที่ข้อมูลต่อเนื่องเป็นเพียงเวกเตอร์ B ในพื้นที่มิติ N ดูเหมือนว่าการใช้ concat (A, B) ไม่ใช่ทางเลือกที่ดีเพราะ A, B เป็นข้อมูลที่แตกต่างกันโดยสิ้นเชิง ตัวอย่างเช่นแตกต่างจาก B ไม่มีลำดับตัวเลขใน A. ดังนั้นคำถามของฉันคือการรวมข้อมูลสองชนิดนี้หรือมีวิธีการทั่วไปในการจัดการพวกเขา อันที่จริงฉันเสนอโครงสร้างไร้เดียงสาตามที่แสดงในภาพ ดังที่คุณเห็นเลเยอร์แรก ๆ จะใช้ในการเปลี่ยนข้อมูล (หรือแผนที่) A เป็นเอาท์พุทกลางในพื้นที่ต่อเนื่องและจากนั้นจะถูกเชื่อมโยงกับ data B ซึ่งเป็นคุณลักษณะอินพุตใหม่ในพื้นที่ต่อเนื่องสำหรับเลเยอร์ในภายหลัง ฉันสงสัยว่ามันสมเหตุสมผลหรือเป็นแค่เกม "ลองผิดลองถูก" ขอบคุณ.

16 neural-network feature-selection categorical-data feature-construction

8

ฉันจะเรียนรู้เครือข่ายประสาทได้อย่างไร

ฉันเป็นนักศึกษาระดับปริญญาตรีครั้งแรก (พูดถึงเรื่องนี้ดังนั้นคุณอาจให้อภัยความไม่คุ้นเคยของฉัน) ที่กำลังทำวิจัยโดยใช้เครือข่ายประสาท ฉันเขียนรหัสเครือข่ายประสาทสามโหนด (ใช้งานได้) ตามคำแนะนำของอาจารย์ อย่างไรก็ตามฉันต้องการทำงานใน AI และ Data Science และฉันต้องการสอนตัวเองเกี่ยวกับสิ่งเหล่านี้อย่างละเอียด มีหนังสือหรือแหล่งข้อมูลใดบ้างที่จะสอนเพิ่มเติมเกี่ยวกับโครงสร้างเครือข่ายประสาทการเรียนรู้อย่างลึกล้ำและอื่น ๆ มีคำแนะนำหรือไม่? หมายเหตุ: ฉันมีความเชี่ยวชาญใน Java, Python, Bash, JavaScript, Matlab และรู้ C ++ เล็กน้อย

15 machine-learning neural-network

2

การถดถอยแบบปรับพารามิเตอร์ของมุมการหมุน

สมมติว่าฉันมีรูปลูกศรจากบนลงล่างและฉันต้องการทำนายมุมที่ลูกศรนี้สร้างขึ้น นี้จะอยู่ระหว่างและองศาหรือระหว่างและ2ปัญหาคือเป้าหมายนี้มีลักษณะเป็นวงกลมและองศาเหมือนกันทุกประการซึ่งเป็นค่าคงที่ที่ฉันต้องการรวมไว้ในเป้าหมายของฉันซึ่งจะช่วยให้การวางนัยทั่วไปเป็นนัยสำคัญ (นี่คือสมมุติฐานของฉัน) ปัญหาคือฉันไม่เห็นวิธีการแก้ปัญหานี้ที่สะอาดมีเอกสารใดบ้างที่พยายามแก้ไขปัญหานี้ (หรือสิ่งที่คล้ายกัน)? ฉันมีความคิดบางอย่างกับข้อเสียที่เป็นไปได้:0003603603600002 π2π2\pi000360360360 ใช้การเปิดใช้งาน sigmoid หรือ tanh ปรับขนาดเป็นช่วง (และรวมคุณสมบัติแบบวงกลมในฟังก์ชันการสูญเสีย ฉันคิดว่าสิ่งนี้จะล้มเหลวอย่างหนักเพราะถ้าอยู่บนเส้นขอบ (การคาดคะเนที่เลวร้ายที่สุด) เพียงเสียงเล็ก ๆ เท่านั้นที่จะผลักดันให้น้ำหนักไปทางใดทางหนึ่ง นอกจากนี้ค่าที่ใกล้กับชายแดนของและจะเข้าถึงได้ยากขึ้นเนื่องจากค่าการเปิดใช้งานแบบสัมบูรณ์จะต้องใกล้เคียงกับอนันต์0 , 2 π)0,2π)0, 2\pi)0002 π2π2\pi ถอยกลับไปที่ค่าสองค่า aและและคำนวณการสูญเสียตามมุมทั้งสองค่าทำ ฉันคิดว่าอันนี้มีศักยภาพมากกว่า แต่บรรทัดฐานของเวกเตอร์นี้ไม่มีขอบเขตซึ่งอาจนำไปสู่ความไม่แน่นอนของตัวเลขและอาจนำไปสู่การระเบิดหรือเป็น 0 ในระหว่างการฝึก สิ่งนี้สามารถแก้ไขได้โดยใช้ regularizer แปลก ๆ เพื่อป้องกันบรรทัดฐานนี้ไม่ให้อยู่ห่างจาก 1 มากเกินไปyxxxyyy ตัวเลือกอื่น ๆ กำลังทำอะไรบางอย่างกับฟังก์ชั่นไซน์และโคไซน์ แต่ฉันรู้สึกเหมือนความจริงที่ว่าแผนที่การเปิดใช้งานล่วงหน้าหลายรายการไปยังเอาต์พุตเดียวกันจะทำให้การเพิ่มประสิทธิภาพและการสรุปทั่วไปทำได้ยากมาก

15 neural-network deep-learning loss-function parameter-estimation

คำถามติดแท็ก neural-network