ฉันควรใช้เซลล์ LSTM กี่เซลล์


12

มีกฎของหัวแม่มือ (หรือกฎจริง) ที่เกี่ยวข้องกับจำนวน LSTM ขั้นต่ำ, สูงสุดและ "สมเหตุสมผล" ที่ฉันควรใช้หรือไม่? โดยเฉพาะฉันเกี่ยวข้องกับBasicLSTMCellจาก TensorFlow และnum_unitsคุณสมบัติ

โปรดสมมติว่าฉันมีปัญหาการจำแนกที่กำหนดโดย:

t - number of time steps
n - length of input vector in each time step
m - length of output vector (number of classes)
i - number of training examples

ตัวอย่างจริงหรือไม่ที่จำนวนตัวอย่างการฝึกอบรมควรมากกว่า:

4*((n+1)*m + m*m)*c

ที่cเป็นจำนวนของเซลล์? ฉันใช้สิ่งนี้: จะคำนวณจำนวนพารามิเตอร์ของเครือข่าย LSTM ได้อย่างไร ดังที่ฉันเข้าใจแล้วสิ่งนี้ควรให้พารามิเตอร์ทั้งหมดซึ่งควรน้อยกว่าจำนวนตัวอย่างการฝึกอบรม

rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

1
ฉันจะตรวจสอบบทความนี้อย่างชัดเจนที่อยู่หัวข้อของการเปรียบเทียบรูปแบบการเรียนรู้ลึกต่อเนื่องเช่นเดียวกับการปรับจูนพารามิเตอร์ : arxiv.org/pdf/1503.04069.pdf โดยสรุปพวกเขาแนะนำชัดเจนว่าการเพิ่มจำนวนบล็อก LSTM ต่อการซ่อน เลเยอร์ปรับปรุงประสิทธิภาพ แต่ลดผลตอบแทนและเพิ่มเวลาฝึกอบรม
CubeBot88

คำตอบ:


4

จำนวนตัวอย่างขั้นต่ำของการฝึกอบรมคือสิ่งที่คุณมี:

4(nม.+n2)

สำหรับข้อมูลเพิ่มเติมอ้างถึงบทความนี้: อ้างอิงถึงลิงค์นี้หากคุณต้องการความช่วยเหลือด้านภาพ: จำนวนพารามิเตอร์ในโมเดล LSTM

จำนวนหน่วยในแต่ละชั้นของสแต็กอาจแตกต่างกันไป ตัวอย่างเช่นใน translate.py จาก Tensorflow สามารถกำหนดค่าเป็น 1024, 512 หรือตัวเลขใด ๆ ก็ได้ ช่วงที่ดีที่สุดสามารถพบได้ผ่านการตรวจสอบข้าม แต่ฉันได้เห็นทั้ง 1,000 และ 500 หน่วยในแต่ละชั้นของสแต็ก ฉันเองได้ทดสอบด้วยตัวเลขที่น้อยลงเช่นกัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.