คำถามติดแท็ก deep-learning

Deep Learning คือพื้นที่ของการเรียนรู้ของเครื่องที่มีเป้าหมายเพื่อเรียนรู้ฟังก์ชันที่ซับซ้อนโดยใช้สถาปัตยกรรมเครือข่ายประสาทแบบพิเศษที่ "ลึก" (ประกอบด้วยหลายเลเยอร์) ควรใช้แท็กนี้สำหรับคำถามเกี่ยวกับการนำสถาปัตยกรรมการเรียนรู้เชิงลึกไปใช้ คำถามทั่วไปเกี่ยวกับการเรียนรู้ของเครื่องควรติดแท็ก "แมชชีนเลิร์นนิง" การใส่แท็กสำหรับไลบรารีซอฟต์แวร์ที่เกี่ยวข้อง (เช่น "keras", "tensorflow", "pytorch", "fast.ai" และอื่น ๆ ) จะเป็นประโยชน์

2
ตัวอย่าง LSTM แบบหลายต่อหนึ่งและหลายตัวใน Keras
ฉันพยายามทำความเข้าใจ LSTM และวิธีสร้างด้วย Keras ฉันพบว่าโดยหลักแล้วมี 4 โหมดในการเรียกใช้ RNN (4 โหมดที่ถูกต้องในภาพ) แหล่งที่มาของภาพ: Andrej Karpathy ตอนนี้ฉันสงสัยว่าข้อมูลโค้ดแบบเรียบง่ายสำหรับแต่ละส่วนจะเป็นอย่างไรใน Keras ดังนั้นสิ่งที่ชอบ model = Sequential() model.add(LSTM(128, input_shape=(timesteps, data_dim))) model.add(Dense(1)) สำหรับแต่ละ 4 งานอาจมีคำอธิบายเล็กน้อย

4
สถาปัตยกรรม perceptron (MLP) หลายชั้น: เกณฑ์ในการเลือกจำนวนชั้นที่ซ่อนและขนาดของชั้นที่ซ่อนอยู่?
ถ้าเรามี eigenvectors 10 ตัวเราก็จะมี 10 โหนดประสาทในชั้นอินพุตได้ถ้าเรามีเอาต์พุต 5 คลาสเราจะมี 5 โหนดในเลเยอร์เอาต์พุต แต่เกณฑ์ในการเลือกจำนวนเลเยอร์ที่ซ่อนอยู่ใน MLP คืออะไรและมีกี่นิวรัล โหนดใน 1 ชั้นที่ซ่อนอยู่?

1
พารามิเตอร์ใดที่ควรใช้ในการหยุดก่อนกำหนด
ฉันกำลังฝึกโครงข่ายประสาทเทียมสำหรับโครงการของฉันโดยใช้ Keras Keras ได้จัดเตรียมฟังก์ชันสำหรับการหยุดก่อนกำหนด ฉันขอทราบได้ไหมว่าควรปฏิบัติตามพารามิเตอร์ใดเพื่อหลีกเลี่ยงไม่ให้เครือข่ายประสาทเทียมของฉันติดตั้งมากเกินไปโดยใช้การหยุดก่อน

7
วิธีการใช้ Gradient Clipping ใน TensorFlow
พิจารณาโค้ดตัวอย่าง ฉันต้องการทราบวิธีใช้การตัดแบบไล่ระดับกับเครือข่ายนี้บน RNN ซึ่งมีความเป็นไปได้ที่จะมีการไล่ระดับสีแบบระเบิด tf.clip_by_value(t, clip_value_min, clip_value_max, name=None) นี่เป็นตัวอย่างที่สามารถใช้ได้ แต่จะแนะนำได้ที่ไหน ใน def ของ RNN lstm_cell = rnn_cell.BasicLSTMCell(n_hidden, forget_bias=1.0) # Split data because rnn cell needs a list of inputs for the RNN inner loop _X = tf.split(0, n_steps, _X) # n_steps tf.clip_by_value(_X, -1, 1, name=None) แต่สิ่งนี้ไม่สมเหตุสมผลเนื่องจากเทนเซอร์ _X เป็นอินพุตไม่ใช่สิ่งที่จะถูกตัดจบ? ฉันต้องกำหนดเครื่องมือเพิ่มประสิทธิภาพของตัวเองสำหรับสิ่งนี้หรือมีตัวเลือกที่ง่ายกว่านี้ไหม

5
การใช้ verbose ใน Keras ขณะตรวจสอบโมเดลคืออะไร?
ฉันใช้งานรุ่น LSTM เป็นครั้งแรก นี่คือโมเดลของฉัน: opt = Adam(0.002) inp = Input(...) print(inp) x = Embedding(....)(inp) x = LSTM(...)(x) x = BatchNormalization()(x) pred = Dense(5,activation='softmax')(x) model = Model(inp,pred) model.compile(....) idx = np.random.permutation(X_train.shape[0]) model.fit(X_train[idx], y_train[idx], nb_epoch=1, batch_size=128, verbose=1) การใช้ verbose ขณะฝึกโมเดลคืออะไร?

6
การใช้การฝังคำที่ผ่านการฝึกอบรมมาแล้ว (word2vec หรือ Glove) ใน TensorFlow
เราได้ตรวจสอบการดำเนินงานเมื่อเร็ว ๆ นี้ที่น่าสนใจสำหรับการจัดหมวดหมู่ข้อความสับสน อย่างไรก็ตามโค้ด TensorFlow ทั้งหมดที่ฉันได้ตรวจสอบจะใช้การฝังเวกเตอร์แบบสุ่ม (ไม่ได้รับการฝึกฝนมาก่อน) ดังต่อไปนี้: with tf.device('/cpu:0'), tf.name_scope("embedding"): W = tf.Variable( tf.random_uniform([vocab_size, embedding_size], -1.0, 1.0), name="W") self.embedded_chars = tf.nn.embedding_lookup(W, self.input_x) self.embedded_chars_expanded = tf.expand_dims(self.embedded_chars, -1) มีใครรู้วิธีใช้ผลลัพธ์ของ Word2vec หรือการฝังคำที่ได้รับการฝึกฝนมาก่อนของ GloVe แทนที่จะเป็นการสุ่มหรือไม่?

10
จะเพิ่มการทำให้เป็นระเบียบใน TensorFlow ได้อย่างไร?
ฉันพบในรหัสเครือข่ายประสาทเทียมที่มีอยู่จำนวนมากที่ใช้งานโดยใช้ TensorFlow ว่าเงื่อนไขการทำให้เป็นมาตรฐานมักจะถูกนำมาใช้โดยการเพิ่มคำเพิ่มเติมด้วยตนเองเพื่อมูลค่าการสูญเสีย คำถามของฉันคือ: มีวิธีการทำให้เป็นมาตรฐานที่หรูหรากว่าหรือที่แนะนำมากกว่าการทำด้วยตนเองหรือไม่? ฉันยังพบว่ามีการโต้แย้งget_variable regularizerควรใช้อย่างไร? จากการสังเกตของฉันถ้าเราส่ง Regularizer ไปที่มัน (เช่นtf.contrib.layers.l2_regularizerเทนเซอร์ที่เป็นตัวแทนของคำศัพท์ปกติจะถูกคำนวณและเพิ่มลงในคอลเลกชันกราฟที่มีชื่อtf.GraphKeys.REGULARIZATOIN_LOSSESTensorFlow จะใช้คอลเล็กชันนั้นโดยอัตโนมัติหรือไม่ (เช่นใช้โดยเครื่องมือเพิ่มประสิทธิภาพเมื่อฝึก) หรือ คาดว่าฉันควรใช้คอลเลกชันนั้นด้วยตัวเองหรือไม่?

5
ทำไมเราถึง "แพ็ค" ลำดับใน pytorch?
ฉันพยายามทำซ้ำวิธีใช้การบรรจุสำหรับอินพุตลำดับความยาวผันแปรสำหรับ rnnแต่ฉันคิดว่าฉันต้องเข้าใจก่อนว่าทำไมเราต้อง "แพ็ค" ลำดับ ฉันเข้าใจว่าทำไมเราถึงต้อง "รอง" แต่ทำไม "การบรรจุ" (ผ่านpack_padded_sequence) จึงจำเป็น คำอธิบายระดับสูงใด ๆ จะได้รับการชื่นชม!

6
PyTorch - ติดกัน ()
ผมจะผ่านตัวอย่างของรูปแบบภาษา LSTM นี้บน GitHub (ลิงค์) สิ่งที่ทำโดยทั่วไปค่อนข้างชัดเจนสำหรับฉัน แต่ฉันยังคงดิ้นรนเพื่อทำความเข้าใจว่าการโทรcontiguous()ทำอะไรซึ่งเกิดขึ้นหลายครั้งในรหัส ตัวอย่างเช่นในบรรทัด 74/75 ของการป้อนรหัสและลำดับเป้าหมายของ LSTM จะถูกสร้างขึ้น ข้อมูล (เก็บไว้ในids) เป็น 2 มิติโดยที่มิติแรกคือขนาดแบทช์ for i in range(0, ids.size(1) - seq_length, seq_length): # Get batch inputs and targets inputs = Variable(ids[:, i:i+seq_length]) targets = Variable(ids[:, (i+1):(i+1)+seq_length].contiguous()) ตัวอย่างง่ายๆเมื่อใช้ขนาดแบทช์ 1 และseq_length10 inputsและtargetsมีลักษณะดังนี้: inputs Variable containing: 0 1 2 3 …

2
วิธีการจัดรูปแบบข้อมูลภาพสำหรับการฝึกอบรม / การทำนายเมื่อภาพมีขนาดต่างกัน
ฉันกำลังพยายามฝึกโมเดลของฉันที่จำแนกรูปภาพ ปัญหาที่ฉันมีคือมีขนาดต่างกัน ฉันควรจัดรูปแบบภาพ / หรือสถาปัตยกรรมแบบจำลองของฉันอย่างไร

4
global_step หมายถึงอะไรใน Tensorflow
นี่คือรหัสการสอนจากเว็บไซต์ TensorFlow ใครช่วยอธิบายความglobal_stepหมายได้บ้าง ฉันพบในเว็บไซต์ Tensorflow ที่เขียนว่าglobal step นั้นใช้ขั้นตอนการฝึกนับแต่ฉันไม่ค่อยเข้าใจว่ามันหมายถึงอะไร นอกจากนี้ตัวเลข 0 หมายความว่าอย่างไรเมื่อตั้งค่าglobal_step? def training(loss,learning_rate): tf.summary.scalar('loss',loss) optimizer = tf.train.GradientDescentOptimizer(learning_rate) # Why 0 as the first parameter of the global_step tf.Variable? global_step = tf.Variable(0, name='global_step',trainable=False) train_op = optimizer.minimize(loss, global_step=global_step) return train_op ตาม Tensorflow doc global_step: เพิ่มขึ้นโดยหนึ่งหลังจากตัวแปรได้รับการปรับปรุง หมายความว่าหลังจากการอัปเดตหนึ่งครั้งglobal_stepกลายเป็น 1 หรือไม่?

6
Keras ฉันจะคาดเดาได้อย่างไรหลังจากที่ฉันฝึกโมเดล
ฉันกำลังเล่นกับชุดข้อมูลตัวอย่างของรอยเตอร์และทำงานได้ดี (โมเดลของฉันได้รับการฝึกฝน) ฉันอ่านเกี่ยวกับวิธีบันทึกโมเดลดังนั้นฉันจึงสามารถโหลดได้ในภายหลังเพื่อใช้อีกครั้ง แต่ฉันจะใช้แบบจำลองที่บันทึกไว้นี้เพื่อคาดเดาข้อความใหม่ได้อย่างไร ฉันใช้models.predict()? ฉันต้องเตรียมข้อความนี้ด้วยวิธีพิเศษหรือไม่? ฉันลองใช้กับ import keras.preprocessing.text text = np.array(['this is just some random, stupid text']) print(text.shape) tk = keras.preprocessing.text.Tokenizer( nb_words=2000, filters=keras.preprocessing.text.base_filter(), lower=True, split=" ") tk.fit_on_texts(text) pred = tk.texts_to_sequences(text) print(pred) model.predict(pred) แต่ฉันมักจะได้รับ (1L,) [[2, 4, 1, 6, 5, 7, 3]] --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) <ipython-input-83-42d744d811fb> …

5
สาเหตุทั่วไปของ nans ในระหว่างการฝึกอบรม
ฉันพบว่าเกิดขึ้นบ่อยในช่วงการฝึกอบรมNANs ได้รับการแนะนำ บ่อยครั้งที่น้ำหนักในผลิตภัณฑ์ด้านใน / ชั้นที่เชื่อมต่อเต็มหรือ Convolution ถูกนำมาใช้ สิ่งนี้เกิดขึ้นเนื่องจากการคำนวณการไล่ระดับสีกำลังระเบิดหรือไม่? หรือเป็นเพราะน้ำหนักเริ่มต้น (ถ้าเป็นเช่นนั้นทำไมการเริ่มต้นน้ำหนักจึงมีผลเช่นนี้) หรือน่าจะเกิดจากลักษณะของข้อมูลเข้าหรือไม่ คำถามที่สรุปคือ: อะไรคือสาเหตุส่วนใหญ่ที่ทำให้ NAN เกิดขึ้นในระหว่างการฝึกอบรม? และประการที่สองมีวิธีใดบ้างในการต่อสู้กับสิ่งนี้ (และทำไมถึงได้ผล)?

2
เครื่องมือเพิ่มประสิทธิภาพ TensorFlow Keras แบบกำหนดเอง
สมมติว่าฉันต้องการเขียนคลาสของเครื่องมือเพิ่มประสิทธิภาพแบบกำหนดเองที่สอดคล้องกับtf.kerasAPI (โดยใช้รุ่น TensorFlow> = 2.0) ฉันสับสนเกี่ยวกับวิธีการทำเอกสารกับสิ่งที่ทำในการนำไปใช้งาน เอกสารประกอบสำหรับtf.keras.optimizers.Optimizer รัฐ , ### Write a customized optimizer. If you intend to create your own optimization algorithm, simply inherit from this class and override the following methods: - resource_apply_dense (update variable given gradient tensor is dense) - resource_apply_sparse (update variable given gradient tensor is …

1
ทำความเข้าใจเกี่ยวกับนโยบายการไล่ระดับสี
ฉันพยายามที่จะสร้างตัวอย่างง่ายๆนโยบายการไล่โทนสีจากมันทรัพยากรกำเนิดAndrej Karpathy บล็อก ในบทความนั้นคุณจะพบตัวอย่างกับ CartPole และ Policy Gradient พร้อมรายการน้ำหนักและการเปิดใช้งาน Softmax นี่คือตัวอย่างการสร้างและง่ายมากของฉัน CartPole ลาดนโยบายซึ่งทำงานที่สมบูรณ์แบบ import gym import numpy as np import matplotlib.pyplot as plt from sklearn.preprocessing import PolynomialFeatures import copy NUM_EPISODES = 4000 LEARNING_RATE = 0.000025 GAMMA = 0.99 # noinspection PyMethodMayBeStatic class Agent: def __init__(self): self.poly = PolynomialFeatures(1) self.w = …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.