สถิติและข้อมูลขนาดใหญ่ tensorflow

5

เครื่องมือเพิ่มประสิทธิภาพของอดัมพร้อมการสลายตัวแบบทวีคูณ

ในรหัส Tensorflow ส่วนใหญ่ฉันเห็น Adam Optimizer ใช้กับอัตราการเรียนรู้คงที่1e-4(เช่น 0.0001) รหัสมักจะมีลักษณะดังต่อไปนี้: ...build the model... # Add the optimizer train_op = tf.train.AdamOptimizer(1e-4).minimize(cross_entropy) # Add the ops to initialize variables. These will include # the optimizer slots added by AdamOptimizer(). init_op = tf.initialize_all_variables() # launch the graph in a session sess = tf.Session() # Actually …

53 neural-networks deep-learning gradient-descent tensorflow adam

1

softmax_cross_entropy_with_logits แตกต่างจาก softmax_cross_entropy_with_logits_v2 อย่างไร

โดยเฉพาะฉันคิดว่าฉันสงสัยเกี่ยวกับคำสั่งนี้: เวอร์ชันหลักของ TensorFlow ในอนาคตจะอนุญาตให้การไล่ระดับสีไหลไปยังอินพุตของฉลากบน backprop ตามค่าเริ่มต้น tf.nn.softmax_cross_entropy_with_logitsซึ่งจะแสดงเมื่อฉันใช้ tf.nn.softmax_cross_entropy_with_logits_v2ในข้อความเดียวกันก็เรียกร้องให้ผมที่จะมีลักษณะที่ ฉันดูเอกสาร แต่ระบุว่าtf.nn.softmax_cross_entropy_with_logits_v2: Backpropagation จะเกิดขึ้นในทั้งการบันทึกและป้ายกำกับ หากต้องการไม่อนุญาตให้ backpagation ลงในฉลากให้ส่งเทนเซอร์ของฉลากผ่าน stop_gradients ก่อนส่งไปยังฟังก์ชันนี้ เมื่อเทียบกับtf.nn.softmax_cross_entropy_with_logits: การแพร่กระจายย้อนหลังจะเกิดขึ้นในบันทึกเท่านั้น เป็นเรื่องใหม่มากกับเรื่อง (ฉันกำลังพยายามหาทางผ่านบทเรียนพื้นฐานบางอย่าง) ข้อความเหล่านี้ไม่ชัดเจน ฉันมีความเข้าใจตื้น ๆ เกี่ยวกับ backpropagation แต่จริงๆแล้วข้อความก่อนหน้านี้หมายถึงอะไร? backpropagation และฉลากเชื่อมต่อกันอย่างไร? และสิ่งนี้จะเปลี่ยนแปลงวิธีที่ฉันทำงานด้วยtf.nn.softmax_cross_entropy_with_logits_v2เมื่อเทียบกับต้นฉบับได้อย่างไร

41 machine-learning supervised-learning tensorflow backpropagation

3

การเรียนรู้ของเครื่อง: ฉันควรใช้เอนโทรปีของการแยกประเภทเอนโทรปีหรือการสูญเสียเอนโทรปีในการทำนายแบบไบนารี

ก่อนอื่นฉันรู้ว่าฉันต้องทำการคาดคะเนไบนารีฉันต้องสร้างคลาสอย่างน้อยสองคลาสผ่านการเข้ารหัสหนึ่งครั้ง ถูกต้องหรือไม่ อย่างไรก็ตามเอนโทรปีของไบนารีไขว้สำหรับการทำนายด้วยคลาสเดียวเท่านั้น? หากฉันต้องใช้การสูญเสียเอนโทรปีของการจำแนกอย่างเป็นหมวดหมู่ซึ่งมักพบในห้องสมุดส่วนใหญ่ (เช่น TensorFlow) จะมีความแตกต่างที่สำคัญหรือไม่ ในความเป็นจริงอะไรคือความแตกต่างที่แน่นอนระหว่างเอนโทรปีของการแบ่งประเภทและการข้ามแบบไบนารี? ฉันไม่เคยเห็นการใช้งานของเอนโทรปีของการข้ามเลขฐานสองใน TensorFlow ดังนั้นฉันคิดว่าบางทีหมวดหมู่อาจใช้ได้ดี

35 machine-learning neural-networks loss-functions tensorflow cross-entropy

5

ทำความเข้าใจกับหน่วย LSTM เทียบกับเซลล์

ฉันเรียน LSTM มาระยะหนึ่งแล้ว ฉันเข้าใจในระดับสูงว่าทุกอย่างทำงานอย่างไร อย่างไรก็ตามจะใช้พวกเขาโดยใช้ Tensorflow ฉันสังเกตเห็นว่าBasicLSTMCellต้องการพารามิเตอร์จำนวนหน่วย (เช่นnum_units) จากนี้คำอธิบายอย่างละเอียดมาก LSTMs ผมได้รวบรวมที่เดียวหน่วย LSTMเป็นหนึ่งดังต่อไปนี้ ซึ่งเป็นหน่วย GRU ฉันสันนิษฐานว่าพารามิเตอร์num_unitsของการBasicLSTMCellอ้างอิงถึงจำนวนเหล่านี้เราต้องการเชื่อมต่อซึ่งกันและกันในชั้น ที่ทิ้งคำถาม - "เซลล์" ในบริบทนี้คืออะไร? "เซลล์" เทียบเท่ากับเลเยอร์ในเครือข่ายประสาทส่งต่อปกติหรือไม่

32 neural-networks terminology lstm rnn tensorflow

1

สถาปัตยกรรมของซีเอ็นเอ็นเพื่อการถดถอย?

ฉันกำลังทำงานกับปัญหาการถดถอยที่อินพุตเป็นภาพและฉลากเป็นค่าต่อเนื่องระหว่าง 80 และ 350 ภาพเป็นสารเคมีบางอย่างหลังจากปฏิกิริยาเกิดขึ้น สีที่ปรากฎออกมาบ่งบอกถึงความเข้มข้นของสารเคมีอื่นที่เหลืออยู่และนั่นคือสิ่งที่แบบจำลองนั้นต้องการออก - ความเข้มข้นของสารเคมีนั้น ภาพสามารถหมุนพลิกสะท้อนและออกที่คาดหวังควรจะยังคงเหมือนเดิม การวิเคราะห์แบบนี้ทำในห้องปฏิบัติการจริง (เครื่องจักรพิเศษมากให้ความเข้มข้นของสารเคมีโดยใช้การวิเคราะห์สีเช่นเดียวกับที่ฉันกำลังฝึกรุ่นนี้ให้ทำ) จนถึงตอนนี้ฉันได้ทดลองกับแบบจำลองโดยอ้างอิงจาก VGG (หลายลำดับของบล็อก Conv-conv-conv-conv-pool) ก่อนที่จะทำการทดลองกับสถาปัตยกรรมที่ใหม่กว่านี้ (Inception, ResNets ฯลฯ ) ฉันคิดว่าฉันจะทำการวิจัยถ้ามีสถาปัตยกรรมอื่น ๆ ที่ใช้กันโดยทั่วไปสำหรับการถดถอยโดยใช้รูปภาพ ชุดข้อมูลมีลักษณะดังนี้: ชุดข้อมูลมีตัวอย่างประมาณ 5,000 250x250 ตัวอย่างซึ่งฉันได้ปรับขนาดเป็น 64x64 เพื่อให้การฝึกอบรมง่ายขึ้น เมื่อฉันพบสถาปัตยกรรมที่มีแนวโน้มฉันจะทดลองกับภาพความละเอียดที่ใหญ่ขึ้น จนถึงตอนนี้โมเดลที่ดีที่สุดของฉันมีข้อผิดพลาดกำลังสองเฉลี่ยทั้งชุดการฝึกอบรมและการตรวจสอบความถูกต้องประมาณ 0.3 ซึ่งอยู่ไกลจากที่ยอมรับได้ในกรณีใช้งานของฉัน รุ่นที่ดีที่สุดของฉันมีลักษณะเช่นนี้: // pseudo code x = conv2d(x, filters=32, kernel=[3,3])->batch_norm()->relu() x = conv2d(x, filters=32, kernel=[3,3])->batch_norm()->relu() x = …

32 regression machine-learning neural-networks conv-neural-network tensorflow

3

สร้างตัวเข้ารหัสอัตโนมัติใน Tensorflow เพื่อให้เกิน PCA

Hinton และ Salakhutdinov ในการลดมิติข้อมูลด้วย Neural Networks, Science 2006เสนอ PCA แบบไม่เชิงเส้นผ่านการใช้ autoencoder แบบลึก ฉันพยายามสร้างและฝึกอบรมโปรแกรมสร้างรหัสอัตโนมัติ PCA ด้วย Tensorflow หลายครั้ง แต่ฉันไม่เคยได้รับผลลัพธ์ที่ดีกว่า linear PCA ฉันจะฝึกอบรมตัวเข้ารหัสอัตโนมัติได้อย่างมีประสิทธิภาพได้อย่างไร (แก้ไขในภายหลังโดย @amoeba: เวอร์ชันเดิมของคำถามนี้มีรหัส Python Tensorflow ที่ทำงานไม่ถูกต้องสามารถพบได้ในประวัติการแก้ไข)

31 pca python deep-learning tensorflow autoencoders

1

ตัวอย่างทีละขั้นตอนของการสร้างความแตกต่างโดยอัตโนมัติในโหมดย้อนกลับ

ไม่แน่ใจว่าคำถามนี้อยู่ที่นี่หรือไม่ แต่เป็นเรื่องที่เกี่ยวข้องกับวิธีการไล่ระดับสีในการปรับให้เหมาะสมซึ่งดูเหมือนจะอยู่ในหัวข้อที่นี่ อย่างไรก็ตามคุณสามารถโยกย้ายได้ถ้าคุณคิดว่าชุมชนอื่นมีความเชี่ยวชาญในหัวข้อนี้มากกว่า ในระยะสั้นฉันกำลังมองหาตัวอย่างขั้นตอนโดยขั้นตอนของโหมดกลับแตกต่างอัตโนมัติ มีวรรณกรรมไม่มากในหัวข้อที่มีและการใช้งานที่มีอยู่ (เช่นใน TensorFlow ) ยากที่จะเข้าใจโดยไม่ทราบทฤษฎีที่อยู่เบื้องหลัง ดังนั้นฉันจะขอบคุณมากถ้ามีคนสามารถแสดงรายละเอียดสิ่งที่เราส่งผ่านวิธีที่เราดำเนินการและสิ่งที่เรานำออกจากกราฟการคำนวณ สองคำถามที่ฉันมีปัญหากับ: เมล็ด - ทำไมเราต้องการพวกเขาทั้งหมด ย้อนกลับกฎความแตกต่าง - ฉันรู้วิธีสร้างความแตกต่างไปข้างหน้า แต่เราจะย้อนกลับได้อย่างไร เช่นในตัวอย่างจากส่วนนี้อย่างไรเรารู้ว่าw2¯=w3¯w1w2¯=w3¯w1\bar{w_2}=\bar{w_3}w_1 ? เราจะทำงานกับสัญลักษณ์เท่านั้นหรือส่งผ่านค่าจริงหรือไม่ เช่นในตัวอย่างเดียวกันเป็นwiwiw_iและwi¯wi¯\bar{w_i}สัญลักษณ์หรือค่า?

27 optimization derivative tensorflow automatic-differentiation

2

วิธีลดน้ำหนัก KLD เทียบกับการสูญเสียการสร้างใหม่ในโปรแกรมเปลี่ยนเกียร์อัตโนมัติแบบแปรผัน

ในตัวอย่างโค้ดเกือบทั้งหมดที่ฉันเคยเห็น VAE ฟังก์ชั่นการสูญเสียมีการกำหนดไว้ดังนี้ (นี่คือรหัส tenorflow แต่ฉันเคยเห็นคล้ายกับ theano ไฟฉาย ฯลฯ มันสำหรับ convnet แต่ก็ไม่เกี่ยวข้องกันเกินไป เพียงแค่ส่งผลกระทบต่อแกนที่ต้องใช้เงินก้อน): # latent space loss. KL divergence between latent space distribution and unit gaussian, for each batch. # first half of eq 10. in https://arxiv.org/abs/1312.6114 kl_loss = -0.5 * tf.reduce_sum(1 + log_sigma_sq - tf.square(mu) - tf.exp(log_sigma_sq), axis=1) # …

26 machine-learning deep-learning tensorflow autoencoders variational-bayes

1

หนึ่งตีความฮิสโตแกรมที่ TensorFlow มอบให้ใน TensorBoard ได้อย่างไร

เมื่อเร็ว ๆ นี้ฉันกำลังวิ่งและเรียนรู้การไหลของเทนเซอร์และมีฮิสโตแกรมสองสามอย่างที่ฉันไม่รู้ว่าจะตีความอย่างไร ฉันมักจะคิดว่าความสูงของแท่งเป็นความถี่ (หรือความถี่ / นับญาติ) อย่างไรก็ตามความจริงที่ว่าไม่มีแถบอยู่ในฮิสโตแกรมตามปกติและความจริงที่ว่าสิ่งต่าง ๆ จะทำให้ฉันสับสน ดูเหมือนว่าจะมีหลายบรรทัด / สูงในครั้งเดียว? มีคนรู้วิธีตีความกราฟต่อไปนี้หรือไม่และอาจให้คำแนะนำที่ดีซึ่งสามารถช่วยในการอ่านฮิสโตแกรมในเทนเซอร์โฟลว์โดยทั่วไป) บางทีสิ่งอื่น ๆ ที่น่าสนใจที่จะพูดถึงคือถ้าตัวแปรดั้งเดิมเป็นเวกเตอร์หรือเมทริกซ์หรือเทนเซอร์ดังนั้นเทนเซอร์โฟลว์ที่แสดงในความเป็นจริงคืออะไรเช่นฮิสโตแกรมของแต่ละพิกัด นอกจากนี้บางทีการอ้างอิงถึงวิธีรับข้อมูลนี้เพื่อให้ผู้คนมีความพอเพียงจะดีเพราะฉันเคยพบสิ่งที่มีประโยชน์ในเอกสารตอนนี้ บางทีแบบฝึกหัดตัวอย่างเป็นต้น บางทีคำแนะนำในการจัดการกับพวกเขาอาจจะดีเช่นกัน เป็นข้อมูลอ้างอิงที่นี่เป็นส่วนหนึ่งของรหัสที่ให้สิ่งนี้: (X_train, Y_train, X_cv, Y_cv, X_test, Y_test) = data_lib.get_data_from_file(file_name='./f_1d_cos_no_noise_data.npz') (N_train,D) = X_train.shape D1 = 24 (N_test,D_out) = Y_test.shape W1 = tf.Variable( tf.truncated_normal([D,D1], mean=0.0, stddev=std), name='W1') # (D x D1) S1 …

23 machine-learning neural-networks conv-neural-network tensorflow

3

Relu vs Sigmoid vs Softmax เป็นเซลล์ประสาทชั้นที่ซ่อนอยู่

ฉันกำลังเล่นกับ Neural Network ที่มีเลเยอร์ที่ซ่อนเพียงหนึ่งเดียวโดย Tensorflow และจากนั้นฉันลองเปิดใช้งานที่แตกต่างกันสำหรับเลเยอร์ที่ซ่อนอยู่: Relu sigmoid Softmax (ดีมักจะใช้ softmax ในเลเยอร์สุดท้าย .. ) Relu ให้ความแม่นยำและการตรวจสอบความถูกต้องของรถไฟที่ดีที่สุด ฉันไม่แน่ใจว่าจะอธิบายเรื่องนี้อย่างไร เรารู้ว่า Relu มีคุณสมบัติที่ดีเช่น sparsity เช่น no-gradient-vanishing เป็นต้น แต่ ถาม: เซลล์ประสาท Relu โดยทั่วไปนั้นดีกว่าเซลล์ประสาท sigmoid / softmax หรือไม่? เราควรใช้เซลล์ประสาท Relu ใน NN (หรือแม้แต่ CNN) เกือบทุกครั้งหรือไม่? ฉันคิดว่าเซลล์ประสาทที่ซับซ้อนมากขึ้นจะแนะนำผลลัพธ์ที่ดีกว่าอย่างน้อยก็ฝึกความแม่นยำถ้าเรากังวลเกี่ยวกับการมีน้ำหนักเกิน ขอบคุณ PS: โค้ดนั้นมาจาก "Udacity-Machine learning -assignment2" ซึ่งเป็นการรับรู้ของ notMNIST โดยใช้ …

22 machine-learning neural-networks conv-neural-network tensorflow sigmoid-curve

1

ฟังก์ชั่นการสูญเสียสำหรับระบบเข้ารหัสอัตโนมัติ

ฉันกำลังทดลองตัวเข้ารหัสอัตโนมัติเล็กน้อยและด้วย tenorflow ฉันได้สร้างแบบจำลองที่พยายามสร้างชุดข้อมูล MNIST ขึ้นมาใหม่ เครือข่ายของฉันง่ายมาก: X, e1, e2, d1, Y โดยที่ e1 และ e2 กำลังเข้ารหัสเลเยอร์, d2 และ Y เป็นชั้นถอดรหัส (และ Y เป็นเอาต์พุตที่สร้างขึ้นใหม่) X มี 784 หน่วย, e1 มี 100, e2 มี 50, d1 มี 100 อีกครั้งและ Y 784 อีกครั้ง ฉันใช้ sigmoids เป็นฟังก์ชั่นการเปิดใช้งานสำหรับเลเยอร์ e1, e2, d1 และ Y อินพุตอยู่ใน [0,1] …

21 mse autoencoders tensorflow cross-entropy

2

ความแตกต่างระหว่าง initializer scaling initializer และ xavier initializer คืออะไร

ในการใช้งานResNetของ Tensorflow ฉันพบว่าพวกเขาใช้ initializer scaling initializer ฉันยังพบว่า xavier initializer นั้นเป็นที่นิยม ฉันไม่มีประสบการณ์มากเกินไปเกี่ยวกับเรื่องนี้

20 machine-learning neural-networks deep-learning conv-neural-network tensorflow

5

การเรียนรู้อย่างลึกซึ้ง: ฉันจะรู้ได้อย่างไรว่าตัวแปรใดมีความสำคัญ

ในแง่ของศัพท์แสงเครือข่ายประสาท (y = Weight * x + bias) ฉันจะรู้ได้อย่างไรว่าตัวแปรใดสำคัญกว่าตัวอื่น? ฉันมีเครือข่ายนิวรัลที่มี 10 อินพุต, 1 เลเยอร์ที่ซ่อนอยู่กับ 20 โหนดและ 1 เลเยอร์เอาท์พุทซึ่งมี 1 โหนด ฉันไม่แน่ใจว่าจะรู้ได้อย่างไรว่าตัวแปรอินพุตใดบ้างที่มีอิทธิพลมากกว่าตัวแปรอื่น ๆ สิ่งที่ฉันคิดคือถ้าอินพุตมีความสำคัญก็จะมีการเชื่อมต่อกับชั้นแรกที่มีน้ำหนักสูง แต่น้ำหนักอาจจะเป็นบวกหรือลบ ดังนั้นสิ่งที่ฉันอาจทำคือใช้ค่าสัมบูรณ์ของน้ำหนักของอินพุทและรวมเข้าด้วยกัน ปัจจัยการผลิตที่สำคัญกว่าจะมีจำนวนเงินที่สูงขึ้น ตัวอย่างเช่นถ้าความยาวของผมเป็นหนึ่งในอินพุตดังนั้นมันควรมีการเชื่อมต่อ 1 จุดกับแต่ละโหนดในเลเยอร์ถัดไปดังนั้นการเชื่อมต่อ 20 ครั้ง (ดังนั้นจึงมีน้ำหนัก 20) ฉันสามารถนำค่าสัมบูรณ์ของน้ำหนักแต่ละอย่างมารวมเข้าด้วยกันได้หรือไม่?

20 machine-learning neural-networks bias tensorflow theano

3

ความแตกต่างระหว่างตัวอย่างขั้นตอนเวลาและคุณสมบัติต่าง ๆ ในโครงข่ายประสาทเทียม

ฉันจะผ่านบล็อกต่อไปนี้ในเครือข่ายประสาท LSTM: http://machinelearningmastery.com/understanding-stateful-lstm-recurrent-neural-networks-python-keras/machinelearningmastery.com/ ผู้เขียน reshapes เวกเตอร์อินพุต X เป็น [ตัวอย่างขั้นตอนเวลาคุณสมบัติ] สำหรับการกำหนดค่า LSTM ที่แตกต่างกัน ผู้เขียนเขียน อันที่จริงลำดับของตัวอักษรเป็นขั้นตอนเวลาของคุณลักษณะหนึ่งมากกว่าหนึ่งขั้นตอนของคุณสมบัติแยกต่างหาก เราได้ให้บริบทกับเครือข่ายมากขึ้น แต่ไม่ได้เรียงตามที่คาดไว้ สิ่งนี้หมายความว่า?

17 neural-networks lstm rnn tensorflow tensor

2

เป็นวิธีปฏิบัติทั่วไปหรือไม่ที่จะลดความสูญเสียเฉลี่ยให้น้อยที่สุดแทนที่จะเป็นผลรวม?

Tensorflow มีตัวอย่างที่สอนเกี่ยวกับการจำแนกCIFAR-10 ในบทช่วยสอนการลดการสูญเสียเอนโทรปีโดยเฉลี่ยในชุดการสอนจะลดลง def loss(logits, labels): """Add L2Loss to all the trainable variables. Add summary for for "Loss" and "Loss/avg". Args: logits: Logits from inference(). labels: Labels from distorted_inputs or inputs(). 1-D tensor of shape [batch_size] Returns: Loss tensor of type float. """ # Calculate the average cross entropy loss …

17 neural-networks loss-functions tensorflow

คำถามติดแท็ก tensorflow