วิทยาศาสตร์ข้อมูล

ถามตอบสำหรับผู้เชี่ยวชาญด้านข้อมูลวิทยาศาสตร์ผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่องจักรและผู้ที่สนใจเรียนรู้เพิ่มเติมเกี่ยวกับสาขานี้

3
แนวทางการเลือกเครื่องมือเพิ่มประสิทธิภาพสำหรับการฝึกอบรมโครงข่ายประสาทเทียม
ฉันใช้โครงข่ายประสาทเทียมมาระยะหนึ่งแล้ว อย่างไรก็ตามสิ่งหนึ่งที่ฉันต่อสู้อย่างต่อเนื่องคือการเลือกเครื่องมือเพิ่มประสิทธิภาพสำหรับการฝึกอบรมเครือข่าย (โดยใช้ backprop) สิ่งที่ฉันมักจะทำคือเริ่มต้นด้วยหนึ่ง (เช่นมาตรฐาน SGD) จากนั้นลองคนอื่น ๆ แบบสุ่มมากทีเดียว ฉันสงสัยว่ามีวิธีที่ดีกว่า (และสุ่มน้อยกว่า) ในการค้นหาเครื่องมือเพิ่มประสิทธิภาพที่ดีเช่นจากรายการนี้: SGD (มีหรือไม่มีโมเมนตัม) AdaDelta AdaGrad RMSProp อาดัม โดยเฉพาะอย่างยิ่งฉันสนใจว่ามีเหตุผลทางทฤษฎีบางอย่างสำหรับการเลือกมากกว่าหนึ่งเนื่องจากข้อมูลการฝึกอบรมมีคุณสมบัติบางอย่างเช่นมันเบาบาง ฉันจะจินตนาการว่าเครื่องมือเพิ่มประสิทธิภาพบางอย่างทำงานได้ดีกว่าโดเมนอื่น ๆ เช่นเมื่อฝึกอบรมเครือข่าย convolutional เทียบกับเครือข่าย feed-forward หรือการจัดหมวดหมู่เทียบกับการถดถอย หากคุณคนใดพัฒนากลยุทธ์และ / หรือสัญชาตญาณว่าคุณจะเลือกเครื่องมือเพิ่มประสิทธิภาพได้อย่างไรฉันจะสนใจเป็นอย่างมาก นอกจากนี้หากมีงานที่ให้เหตุผลทางทฤษฎีในการเลือกงานหนึ่งงานนั่นจะดียิ่งขึ้น

2
อะไรคือ / เป็นตัวกรองเริ่มต้นที่ใช้โดย Keras Convolution2d ()
ฉันค่อนข้างใหม่สำหรับเครือข่ายประสาท แต่ฉันเข้าใจพีชคณิตเชิงเส้นและคณิตศาสตร์ของการโน้มน้าวค่อนข้างดี ฉันพยายามที่จะเข้าใจโค้ดตัวอย่างที่ฉันพบในที่ต่างๆบนอินเทอร์เน็ตเพื่อฝึกอบรม NN ของ Keras convolutional พร้อมข้อมูล MNIST เพื่อจดจำตัวเลข ความคาดหวังของฉันคือเมื่อฉันสร้างเลเยอร์ convolutional ฉันจะต้องระบุตัวกรองหรือชุดตัวกรองเพื่อใช้กับอินพุต แต่ตัวอย่างทั้งสามที่ฉันพบพบทั้งหมดสร้างเลเยอร์ convolutional เช่นนี้ model.add(Convolution2D(nb_filter = 32, nb_row = 3, nb_col = 3, border_mode='valid', input_shape=input_shape)) ดูเหมือนว่าจะมีการใช้ตัวกรองรวม 32 3x3 กับภาพที่ประมวลผลโดย CNN แต่ตัวกรองเหล่านั้นคืออะไร? ฉันจะอธิบายพวกเขาทางคณิตศาสตร์ได้อย่างไร เอกสาร keras ไม่ได้ช่วยอะไร ขอบคุณล่วงหน้า,
18 convnet  keras 

4
อะไรคือความแตกต่างระหว่าง Inception v2 และ Inception v3?
บทความที่ลึกซึ้งยิ่งขึ้นเกี่ยวกับการโน้มน้าวใจอธิบายถึง GoogleNet ซึ่งมีโมดูลการลงทะเบียนดั้งเดิม: การเปลี่ยนเป็นการเริ่มต้น v2 คือพวกเขาแทนที่การ convolutions 5x5 โดยการ convolutions 3x3 ที่ต่อเนื่องกันสองครั้งและใช้การรวมกำไร: อะไรคือความแตกต่างระหว่าง Inception v2 และ Inception v3?

3
มีเครื่องมือจัดเก็บข้อมูลสำหรับ python / pandas คล้ายกับเครื่องมือ R tidyr หรือไม่?
ฉันกำลังทำงานกับความท้าทาย Kaggle ที่มีตัวแปรบางตัวแสดงแทนแถวแทนที่จะเป็นคอลัมน์ (Telstra Network Disruption) ขณะนี้ฉันกำลังค้นหาเทียบเท่ากับรวบรวม () แยก () และสเปรด () ซึ่งสามารถพบได้ในเครื่องมือ R tidyr

4
การค้นหาพารามิเตอร์หลายระดับสำหรับ LSTM-RNN โดยใช้ Keras (Python)
จากการสอนของ Keras RNN: "RNN นั้นยุ่งยากการเลือกขนาดแบตช์เป็นสิ่งสำคัญตัวเลือกการสูญเสียและออพติไมเซอร์เป็นสิ่งสำคัญ ฯลฯ การกำหนดค่าบางอย่างจะไม่มาบรรจบกัน" ดังนั้นนี่เป็นคำถามทั่วไปเกี่ยวกับการปรับพารามิเตอร์ไฮเปอร์พารามิเตอร์ของ LSTM-RNN บน Keras ฉันต้องการทราบวิธีการในการค้นหาพารามิเตอร์ที่ดีที่สุดสำหรับ RNN ของคุณ ผมเริ่มต้นด้วยตัวอย่างเช่นไอเอ็มบน Keras' Github โมเดลหลักมีลักษณะดังนี้: (X_train, y_train), (X_test, y_test) = imdb.load_data(nb_words=max_features, test_split=0.2) max_features = 20000 maxlen = 100 # cut texts after this number of words (among top max_features most common words) batch_size = 32 model = …

3
การแยกคุณสมบัติของภาพใน Python
ในชั้นเรียนของฉันฉันต้องสร้างแอปพลิเคชั่นโดยใช้ตัวแยกประเภทสองตัวเพื่อตัดสินใจว่าวัตถุในภาพเป็นตัวอย่างของไฟลัมพอฟิรา (seasponge) หรือวัตถุอื่น ๆ อย่างไรก็ตามฉันหลงทางอย่างสิ้นเชิงเมื่อพูดถึงเทคนิคการแยกฟีเจอร์ในไพ ธ อน ที่ปรึกษาของฉันโน้มน้าวให้ฉันใช้รูปภาพที่ไม่ได้กล่าวถึงในชั้นเรียน ใครสามารถบอกฉันถึงเอกสารที่มีความหมายหรืออ่านหรือแนะนำวิธีการในการพิจารณา?

7
ฉันจะทำนายปริมาณการใช้ข้อมูลตามข้อมูลอนุกรมเวลาก่อนหน้าได้อย่างไร
หากฉันมีร้านค้าปลีกและมีวิธีการวัดจำนวนผู้ที่เข้ามาในร้านของฉันทุกนาทีและประทับเวลาข้อมูลนั้นฉันจะคาดการณ์ปริมาณการใช้ข้อมูลในอนาคตได้อย่างไร ฉันได้ตรวจสอบอัลกอริทึมการเรียนรู้ของเครื่อง แต่ฉันไม่แน่ใจว่าจะใช้อันไหน ในข้อมูลการทดสอบของฉันแนวโน้มปีต่อปีมีความแม่นยำมากขึ้นเมื่อเทียบกับสิ่งอื่น ๆ ที่ฉันได้ลองเช่น KNN (ด้วยสิ่งที่ฉันคิดว่าเป็นพารามิเตอร์ที่สมเหตุสมผลและฟังก์ชันระยะทาง) ดูเหมือนว่านี่จะคล้ายกับแบบจำลองทางการเงินที่คุณจัดการกับข้อมูลอนุกรมเวลา ความคิดใด ๆ

5
ขั้นตอนวิธีปฏิบัติที่ดีที่สุดสำหรับความคล้ายคลึงของประโยค
ฉันมีสองประโยคคือ S1 และ S2 ซึ่งทั้งคู่มีจำนวนคำ (ปกติ) ต่ำกว่า 15 อะไรคืออัลกอริทึมที่มีประโยชน์และประสบความสำเร็จมากที่สุด (การเรียนรู้ของเครื่อง) ซึ่งอาจง่ายต่อการติดตั้ง (เครือข่ายประสาทเทียมก็โอเคยกเว้นว่าสถาปัตยกรรมนั้นซับซ้อนพอ ๆ กับ Google Inception เป็นต้น) ฉันกำลังมองหาอัลกอริทึมที่จะทำงานได้ดีโดยไม่ต้องใช้เวลามากเกินไป มีอัลกอริทึมใดบ้างที่คุณประสบความสำเร็จและใช้งานง่าย? สิ่งนี้สามารถทำได้ แต่ไม่จำเป็นต้องอยู่ในหมวดหมู่ของการทำคลัสเตอร์ พื้นหลังของฉันมาจากการเรียนรู้ของเครื่องดังนั้นคำแนะนำใด ๆ ยินดีต้อนรับ :)

1
NLP - ทำไม "ไม่" เป็นคำหยุด
ฉันพยายามลบคำหยุดก่อนที่จะทำการสร้างแบบจำลองหัวข้อ ฉันสังเกตเห็นว่าบางคำที่ถูกปฏิเสธ (ไม่ใช่, ไม่, ไม่, ไม่เคยมี ฯลฯ ) ถือเป็นคำที่หยุด ตัวอย่างเช่น NLTK, spacy และ sklearn รวมถึง "not" ในรายการคำที่หยุด อย่างไรก็ตามหากเราลบ "ไม่" ออกจากประโยคด้านล่างพวกเขาจะสูญเสียความหมายที่สำคัญและนั่นจะไม่ถูกต้องสำหรับการสร้างแบบจำลองหัวข้อหรือการวิเคราะห์ความเชื่อมั่น 1). StackOverflow is helpful => StackOverflow helpful 2). StackOverflow is not helpful => StackOverflow helpful ใครช่วยอธิบายหน่อยได้ไหมว่าทำไมคำคัดค้านเหล่านี้จึงถูกพิจารณาว่าเป็นคำที่หยุด?

2
คะแนน minima เทียบกับท้องถิ่นในการเรียนรู้อย่างลึกซึ้ง
ฉันได้ยินแอนดรูว์งะ (ในวิดีโอฉันโชคร้ายที่ไม่สามารถหาได้อีกแล้ว) พูดคุยเกี่ยวกับวิธีการเข้าใจความเข้าใจในปัญหาการเรียนรู้ที่ลึกลงไปในความรู้สึกที่พวกเขาถูกมองว่าเป็นปัญหาน้อยกว่าเพราะในพื้นที่มิติสูง การเรียนรู้เชิงลึก) จุดวิกฤติมีแนวโน้มที่จะเป็นจุดอานม้าหรือที่ราบสูงมากกว่าจุดเยือกแข็งในท้องถิ่น ฉันเคยเห็นเอกสาร (เช่นนี้ ) ที่กล่าวถึงสมมติฐานภายใต้ "ขั้นต่ำในท้องถิ่นทุกรายการเป็นขั้นต่ำทั่วโลก" สมมติฐานเหล่านี้ล้วน แต่เป็นเรื่องทางเทคนิค แต่จากสิ่งที่ฉันเข้าใจว่าพวกเขามีแนวโน้มที่จะกำหนดโครงสร้างในโครงข่ายประสาทที่ทำให้มันค่อนข้างเป็นเส้นตรง มันเป็นข้ออ้างที่ถูกต้องหรือไม่ว่าในการเรียนรู้อย่างลึกซึ้ง (รวมถึงสถาปัตยกรรมที่ไม่ใช่เชิงเส้น) ที่ราบสูงมักจะมีขนาดเล็กกว่าท้องถิ่นหรือไม่? และถ้าเป็นเช่นนั้นมีปรีชาญาณ มีอะไรพิเศษเกี่ยวกับการเรียนรู้อย่างลึกซึ้งและจุดอานม้าหรือไม่?

4
ปรับปรุงความเร็วของการนำ t-sne ไปใช้ในไพ ธ อนสำหรับข้อมูลขนาดใหญ่
ฉันอยากจะลดมิติข้อมูลลงบนเวกเตอร์เกือบ 1 ล้านตัวที่มี 200 มิติ ( doc2vec) ฉันใช้TSNEการใช้งานจากsklearn.manifoldโมดูลสำหรับมันและปัญหาที่สำคัญคือความซับซ้อนของเวลา ถึงแม้จะมีmethod = barnes_hutความเร็วในการคำนวณยังต่ำ บางครั้งถึงแม้หน่วยความจำจะหมด ฉันใช้งานบนโปรเซสเซอร์ 48 คอร์ที่มี RAM 130G มีวิธีเรียกใช้แบบขนานหรือใช้ประโยชน์จากทรัพยากรที่มีอยู่มากมายเพื่อเร่งกระบวนการให้เร็วขึ้น

2
การเปิดใช้งาน GELU คืออะไร
ฉันกำลังอ่านกระดาษ BERTซึ่งใช้GELU (Gaussian Error Linear Unit)ซึ่งระบุสมการเป็น ซึ่งจะอยู่ที่ประมาณจีอีL U( x ) = x P( X≤ x ) = x Φ ( x )GELยู(x)=xP(X≤x)=xΦ(x). GELU(x) = xP(X ≤ x) = xΦ(x).0.5 x ( 1 + t a n ชม. [ 2 / π---√( x + 0.044715 x3) ] )0.5x(1+เสื้อanชั่วโมง[2/π(x+0.044715x3)])0.5x(1 + tanh[\sqrt{ 2/π}(x …

4
อนุพันธ์บทบาทของฟังก์ชัน sigmoid ในโครงข่ายประสาทเทียม
ฉันพยายามเข้าใจบทบาทของอนุพันธ์ของฟังก์ชัน sigmoid ในโครงข่ายประสาท ครั้งแรกที่ฉันพล็อตฟังก์ชั่น sigmoid และอนุพันธ์ของคะแนนทั้งหมดจากการกำหนดโดยใช้หลาม บทบาทของอนุพันธ์นี้คืออะไร? import numpy as np import matplotlib.pyplot as plt def sigmoid(x): return 1 / (1 + np.exp(-x)) def derivative(x, step): return (sigmoid(x+step) - sigmoid(x)) / step x = np.linspace(-10, 10, 1000) y1 = sigmoid(x) y2 = derivative(x, 0.0000000000001) plt.plot(x, y1, label='sigmoid') plt.plot(x, y2, label='derivative') …

2
อะไรคือข้อดีของการรักษาขนาดแบทช์ให้ได้ 2
ในขณะที่การฝึกอบรมรูปแบบในการเรียนรู้ของเครื่องทำไมบางครั้งมันจึงเป็นประโยชน์ในการรักษาขนาดของแบทช์ให้ได้ 2 ฉันคิดว่าเป็นการดีที่สุดที่จะใช้ขนาดที่เหมาะสมที่สุดในหน่วยความจำ GPU / RAM ของคุณ คำตอบนี้อ้างว่าสำหรับบางแพ็คเกจพลังของ 2 จะดีกว่าขนาดแบตช์ ใครสามารถให้คำอธิบายโดยละเอียด / ลิงค์ไปยังคำอธิบายโดยละเอียดสำหรับเรื่องนี้? สิ่งนี้เป็นจริงสำหรับอัลกอริธึมการปรับให้เหมาะสมทั้งหมดหรือไม่

1
ความแตกต่างระหว่าง Keras val_loss และการสูญเสียระหว่างการฝึก
ความแตกต่างระหว่างval_lossและlossระหว่างการฝึกอบรมใน Keras คืออะไร? เช่น Epoch 1/20 1000/1000 [==============================] - 1s - loss: 0.1760, val_loss: 0.2032 ในบางเว็บไซต์ฉันอ่านว่าเรื่องการตรวจสอบความถูกต้องการออกกลางคันไม่ทำงาน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.