คำถามติดแท็ก rnn

เครือข่ายประสาทเทียมที่เกิดซ้ำ (RNN) เป็นชั้นหนึ่งของเครือข่ายประสาทเทียมที่การเชื่อมต่อระหว่างหน่วยต่างๆเป็นวงจรกำกับ

5
การทำนายอนุกรมเวลาโดยใช้ ARIMA กับ LSTM
ปัญหาที่ฉันจัดการคือการทำนายค่าอนุกรมเวลา ฉันกำลังดูซีรีส์ครั้งเดียวในแต่ละครั้งและตามตัวอย่างเช่น 15% ของข้อมูลอินพุตฉันต้องการทำนายค่าในอนาคต จนถึงตอนนี้ฉันเจอสองรุ่น: LSTM (หน่วยความจำระยะสั้นระยะยาวคลาสของเครือข่ายประสาทที่เกิดขึ้นอีก) ARIMA ฉันลองทั้งสองและอ่านบทความเกี่ยวกับพวกเขา ตอนนี้ฉันพยายามทำความเข้าใจให้ดีขึ้นเกี่ยวกับวิธีเปรียบเทียบทั้งสอง สิ่งที่ฉันได้พบจนถึง: LSTM ทำงานได้ดีขึ้นหากเราจัดการกับข้อมูลจำนวนมากและมีข้อมูลการฝึกอบรมเพียงพอในขณะที่ ARIMA จะดีกว่าสำหรับชุดข้อมูลขนาดเล็ก (ถูกต้องหรือไม่) ARIMA ต้องการชุดพารามิเตอร์(p,q,d)ที่ต้องคำนวณตามข้อมูลในขณะที่ LSTM ไม่ต้องการตั้งค่าพารามิเตอร์ดังกล่าว อย่างไรก็ตามมีพารามิเตอร์หลายอย่างที่เราต้องปรับแต่งสำหรับ LSTM แก้ไข:หนึ่งความแตกต่างที่สำคัญระหว่างสองที่ฉันสังเกตเห็นในขณะที่อ่านบทความที่ดีที่นี่คือ ARIMA สามารถทำงานได้ดีในซีรีส์เวลานิ่ง (ที่ไม่มีฤดูกาลแนวโน้มและอื่น ๆ ) และคุณต้องดูแลว่าถ้า ต้องการใช้ ARIMA นอกเหนือจากคุณสมบัติที่กล่าวถึงข้างต้นฉันไม่สามารถหาจุดหรือข้อเท็จจริงอื่นใดที่สามารถช่วยฉันเลือกรูปแบบที่ดีที่สุดได้ ฉันจะขอบคุณจริง ๆ ถ้ามีคนช่วยฉันค้นหาบทความเอกสารหรือสิ่งอื่น ๆ (ไม่มีโชคจนถึงตอนนี้มีเพียงความคิดเห็นทั่วไปบางส่วนที่นี่และที่นั่นและไม่มีอะไรจากการทดลอง) ฉันต้องพูดถึงว่าตอนแรกฉันกำลังจัดการกับข้อมูลสตรีมมิ่ง แต่ตอนนี้ฉันกำลังใช้ชุดข้อมูล NABซึ่งรวมถึง 50 ชุดข้อมูลที่มีขนาดสูงสุด 20k จุดข้อมูล

2
ฝึกอบรม RNN ด้วยตัวอย่างความยาวต่างกันใน Keras
ฉันพยายามเริ่มเรียนรู้เกี่ยวกับ RNNs และฉันใช้ Keras ฉันเข้าใจหลักฐานพื้นฐานของเลเยอร์วานิลลา RNN และ LSTM แต่ฉันมีปัญหาในการเข้าใจประเด็นทางเทคนิคบางประการสำหรับการฝึกอบรม ในเอกสาร kerasมันบอกว่าการป้อนข้อมูลไปยังชั้น RNN (batch_size, timesteps, input_dim)ต้องมีรูปร่าง นี่แสดงให้เห็นว่าตัวอย่างการฝึกอบรมทั้งหมดมีความยาวตามลำดับที่timestepsแน่นอน แต่นี่ไม่ใช่เรื่องปกติโดยเฉพาะใช่ไหม? ฉันอาจต้องการให้ RNN ทำงานกับประโยคที่มีความยาวต่างกัน เมื่อฉันฝึกมันในคลังข้อมูลบางอย่างฉันจะให้อาหารมันเป็นชุดของประโยคความยาวที่แตกต่างกันทั้งหมด ฉันคิดว่าสิ่งที่ชัดเจนที่ต้องทำคือค้นหาความยาวสูงสุดของลำดับใด ๆ ในชุดฝึกอบรมและ zero pad มัน แต่นั่นหมายความว่าฉันไม่สามารถคาดการณ์เวลาทดสอบที่มีความยาวอินพุทมากกว่านั้นได้หรือไม่? นี่เป็นคำถามเกี่ยวกับการใช้งานของ Keras โดยเฉพาะฉันคิดว่า แต่ฉันก็ถามว่าคนทั่วไปจะทำอย่างไรเมื่อต้องเผชิญกับปัญหาแบบนี้
60 python  keras  rnn  training 

3
จำนวนพารามิเตอร์ในโมเดล LSTM
LSTM แบบซ้อนเดียวมีพารามิเตอร์กี่พารามิเตอร์ จำนวนพารามิเตอร์กำหนดขอบเขตล่างตามจำนวนตัวอย่างการฝึกอบรมที่จำเป็นและยังมีผลต่อเวลาการฝึกอบรม ดังนั้นการทราบจำนวนพารามิเตอร์จึงมีประโยชน์สำหรับรูปแบบการฝึกอบรมที่ใช้ LSTM

1
Paper: อะไรคือความแตกต่างระหว่างการปรับสภาพเลเยอร์, ​​การทำซ้ำเป็นชุดงานประจำ (2016), และการวางเป็นบรรทัดฐานปกติ RNN (2015)?
ดังนั้นเมื่อเร็ว ๆ นี้มีกระดาษมาตรฐานการทำให้เป็นปกติ นอกจากนี้ยังมีการนำไปใช้กับ Keras แต่ฉันจำได้ว่ามีเอกสารชื่อRecurrent Batch Normalization (Cooijmans, 2016) และBatch Normalized Recurrent Neural Networks (Laurent, 2015) ความแตกต่างระหว่างสามสิ่งนี้คืออะไร? มีส่วนงานที่เกี่ยวข้องนี้ฉันไม่เข้าใจ: การทำให้เป็นมาตรฐานของกลุ่มได้ถูกขยายไปยังเครือข่ายประสาทที่เกิดขึ้นอีกครั้ง [Laurent et al., 2015, Amodei et al., 2015, Cooijmans et al., 2016] งานก่อนหน้านี้ [Cooijmans et al., 2016] แสดงให้เห็นถึงประสิทธิภาพที่ดีที่สุดของการทำให้เป็นมาตรฐานการเกิดซ้ำที่เกิดขึ้นจากการรักษาสถิติการทำให้ปกติเป็นอิสระสำหรับแต่ละขั้นตอน ผู้เขียนแสดงให้เห็นว่าการกำหนดค่าเริ่มต้นของพารามิเตอร์ gain ในเลเยอร์การทำให้เป็นปกติของแบตช์กลับเป็น 0.1 ทำให้เกิดความแตกต่างอย่างมีนัยสำคัญในประสิทธิภาพสุดท้ายของตัวแบบ งานของเรายังเกี่ยวข้องกับการทำให้น้ำหนักปกติ [Salimans and Kingma, 2016] ในการทำให้น้ำหนักเป็นมาตรฐานแทนที่จะเป็นความแปรปรวนค่า L2 …

4
ความหมายของ“ จำนวนหน่วยในเซลล์ LSTM” คืออะไร?
จากรหัสTensorflow : Tensorflow RnnCell num_units: int, The number of units in the LSTM cell. ไม่สามารถแยกแยะและหมายความว่าอะไร หน่วยของเซลล์ LSTM คืออะไร อินพุตเอาต์พุตและลืมประตู? นี่หมายถึง "จำนวนหน่วยในเลเยอร์การฉายซ้ำสำหรับ Deep LSTM" หรือไม่ แล้วเหตุใดจึงเรียกว่า "จำนวนหน่วยในเซลล์ LSTM" เซลล์ LSTM คืออะไรและอะไรคือความแตกต่างกับ VS LSTM block อะไรคือหน่วย LSTM ขั้นต่ำถ้าไม่ใช่เซลล์

5
ทำให้แผนที่ความร้อนของทะเลใหญ่ขึ้น
ฉันสร้างcorr()df จาก df ดั้งเดิม corr()DF ออก 70 X 70 มาและมันเป็นไปไม่ได้ที่จะเห็นภาพ heatmap ส sns.heatmap(df)... ถ้าฉันพยายามที่จะแสดงcorr = df.corr()ตารางที่ไม่พอดีกับหน้าจอและฉันสามารถดูความสัมพันธ์ทั้งหมด มันเป็นวิธีที่จะพิมพ์ทั้งdfโดยไม่คำนึงถึงขนาดของมันหรือเพื่อควบคุมขนาดของ heatmap หรือไม่?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

3
ความแตกต่างระหว่าง RNNs การสร้างข้อความที่อิงกับคำและการเขียนคืออะไร?
ในขณะที่อ่านเกี่ยวกับการสร้างข้อความด้วยเครือข่ายประสาทที่เกิดขึ้นอีกฉันสังเกตเห็นว่ามีตัวอย่างบางส่วนที่ถูกนำไปใช้เพื่อสร้างคำแบบข้อความต่อคำและตัวละครอื่น ๆ เป็นตัวละครโดยไม่ได้ระบุว่าทำไม ดังนั้นสิ่งที่เป็นความแตกต่างระหว่างรุ่น RNN ที่คาดการณ์ข้อความต่อคำพื้นฐานและคนที่คาดการณ์ข้อความต่อถ่านพื้นฐาน? การใช้ RNN แบบคำต้องใช้ขนาดคลังใหญ่กว่าหรือไม่? RNN ที่ใช้ถ่านเป็นแบบอย่างที่ดีกว่าหรือไม่? บางทีความแตกต่างเพียงอย่างเดียวคือการป้อนข้อมูล (การเข้ารหัสแบบร้อนแรงหรือการใส่คำศัพท์) รายการใดที่จะเลือกสำหรับการสร้างข้อความ

1
RNN ใช้ซีรี่ส์อนุกรมหลายเวลา
ฉันกำลังพยายามสร้างโครงข่ายประสาทเทียมโดยใช้อนุกรมเวลาเป็นอินพุทเพื่อฝึกอบรมตามประเภทของแต่ละซีรีส์ ฉันอ่านว่าการใช้ RNNs คุณสามารถแบ่งอินพุตเป็นแบทช์และใช้ทุกจุดของอนุกรมเวลาเป็นเซลล์ประสาทส่วนบุคคลและในที่สุดก็ฝึกฝนเครือข่าย สิ่งที่ฉันพยายามทำคือใช้หลายครั้งเป็นอินพุต ตัวอย่างเช่นคุณอาจได้รับอินพุตจากเซ็นเซอร์สองตัว (ดังนั้นอนุกรมสองเวลา) แต่ฉันต้องการใช้ทั้งสองอย่างเพื่อให้ได้ผลลัพธ์สุดท้าย นอกจากนี้ฉันไม่ได้พยายามทำนายค่าในอนาคตของอนุกรมเวลาฉันพยายามจำแนกตามค่าทั้งหมด ฉันจะแก้ไขปัญหานี้ได้อย่างไร มีวิธีใช้อนุกรมเวลาหลายชุดเป็นอินพุตไปยัง RNN หรือไม่? ฉันควรจะลองรวมอนุกรมเวลาเข้าด้วยกันหรือไม่? หรือฉันควรใช้สองเครือข่ายประสาทที่แตกต่างกัน? และหากวิธีการสุดท้ายนี้ถูกต้องหากจำนวนชุดเวลาเพิ่มขึ้นนั่นจะไม่ทำให้คอมพิวเตอร์เข้มข้นเกินไปใช่ไหม
14 time-series  rnn 

1
ลืมเลเยอร์ในเครือข่ายประสาทกำเริบ (RNN) -
ฉันกำลังพยายามหามิติของตัวแปรแต่ละตัวใน RNN ในเลเยอร์ลืมอย่างไรก็ตามฉันไม่แน่ใจว่าฉันกำลังติดตามถูกหรือไม่ รูปภาพและสมการถัดไปมาจากบล็อกของ Colah "การทำความเข้าใจกับเครือข่าย LSTM" : ที่อยู่: xtxtx_tคืออินพุตของขนาดเวกเตอร์m∗1m∗1m*1 ht−1ht−1h_{t-1}เป็นสถานะที่ซ่อนขนาดเวกเตอร์n∗1n∗1n*1 [xt,ht−1][xt,ht−1][x_t, h_{t-1}]คือการต่อข้อมูล (ตัวอย่างเช่นถ้าจากนั้น )xt=[1,2,3],ht−1=[4,5,6]xt=[1,2,3],ht−1=[4,5,6]x_t=[1, 2, 3], h_{t-1}=[4, 5, 6][xt,ht−1]=[1,2,3,4,5,6][xt,ht−1]=[1,2,3,4,5,6][x_t, h_{t-1}]=[1, 2, 3, 4, 5, 6] wfwfw_fคือน้ำหนักของขนาดเมทริกซ์โดยที่คือจำนวนของสถานะเซลล์ (ถ้าและในตัวอย่างด้านบนและถ้าเรามี 3 สถานะของเซลล์จากนั้นเมทริกซ์)k∗(m+n)k∗(m+n)k*(m+n)kkkm=3m=3m=3n=3n=3n=3wf=3∗3wf=3∗3w_f=3*3 bfbfb_fเป็นอคติของขนาดเวกเตอร์โดยที่คือจำนวนของสถานะเซลล์ (เนื่องจากเป็นตัวอย่างด้านบนแล้วเป็น เวกเตอร์ )k∗1k∗1k*1kkkk=3k=3k=3bfbfb_f3∗13∗13*1 หากเราตั้งค่าเป็น: wfwfw_f⎡⎣⎢1532643754865976108⎤⎦⎥[1234565678910345678]\begin{bmatrix} 1 & 2 & 3 & 4 & 5 & 6 \\ 5 & …

2
วิธีการใช้การทำนายลำดับแบบ "หนึ่งต่อหลายคน" และ "หลายต่อหลายคน" ใน Keras อย่างไร
ฉันพยายามตีความความแตกต่างของการเข้ารหัสของ Keras สำหรับการเรียงลำดับแบบหนึ่งต่อหลายคน (เช่นการจัดประเภทของภาพเดี่ยว) และการติดฉลากแบบลำดับต่อเนื่อง (เช่นการจำแนกประเภทของลำดับภาพ) ฉันเห็นรหัสที่แตกต่างกันสองประเภท: ประเภท 1 คือที่ที่ไม่มีการเผยแพร่ TimeDistributed ดังนี้ model=Sequential() model.add(Convolution2D(nb_filters, kernel_size[0], kernel_size[1], border_mode="valid", input_shape=[1, 56,14])) model.add(Activation("relu")) model.add(Convolution2D(nb_filters, kernel_size[0], kernel_size[1])) model.add(Activation("relu")) model.add(MaxPooling2D(pool_size=pool_size)) model.add(Reshape((56*14,))) model.add(Dropout(0.25)) model.add(LSTM(5)) model.add(Dense(50)) model.add(Dense(nb_classes)) model.add(Activation("softmax")) ประเภทที่ 2 คือที่ TimeDistributed ถูกนำไปใช้เช่นนี้ model = Sequential() model.add(InputLayer(input_shape=(5, 224, 224, 3))) model.add(TimeDistributed(Convolution2D(64, (3, 3)))) model.add(TimeDistributed(MaxPooling2D((2,2), strides=(2,2)))) model.add(LSTM(10)) model.add(Dense(3)) …
13 keras  rnn  lstm  sequence 

1
การคาดการณ์ชุดเวลาหลายมิติและหลายตัวแปร (RNN / LSTM) Keras
ฉันได้รับการพยายามที่จะเข้าใจวิธีการที่จะเป็นตัวแทนของข้อมูลและรูปร่างที่จะทำให้Multidimentionalและหลายตัวแปรเวลาคาดการณ์โดยใช้ Keras (หรือ TensorFlow) ชุด แต่ผมยังไม่ชัดเจนมากหลังจากอ่านบล็อกโพสต์หลาย tutorials / / เอกสารเกี่ยวกับวิธีการที่จะนำเสนอข้อมูลใน รูปร่างที่ถูกต้อง (ตัวอย่างส่วนใหญ่มีค่าน้อยกว่าเล็กน้อย ชุดข้อมูลของฉัน: หลายเมือง ที่ฉันมีข้อมูลเกี่ยวกับพูดอุณหภูมิการจราจรรถยนต์ความชื้น สำหรับพูด 2 ปีที่ผ่านมา (บันทึกหนึ่งรายการในแต่ละวัน) สิ่งที่ฉันต้องการจะทำ: ฉันต้องการที่จะคาดการณ์สำหรับแต่ละเมืองอุณหภูมิที่ฉันคาดหวังสำหรับปีถัดไปโดยใช้รุ่นที่อาจล่าช้า, การจราจรรถยนต์และความชื้น (แน่นอนว่าจะมีคุณสมบัติอื่น ๆ อีกมากมาย แต่นี่เป็นเพียง ตัวอย่างความคิด) สิ่งที่ฉันสับสนเกี่ยวกับ: หากฉันมี 2 เมืองซึ่งฉันบันทึกคุณสมบัติ 3 แห่งไว้สำหรับ 365 วัน ฉันจะกำหนดรูปแบบการป้อนข้อมูลของฉันอย่างไรเพื่อให้แบบจำลองสามารถส่งออกการพยากรณ์เป็นเวลา 365 วันสำหรับเมืองทั้งสองนี้ (เช่นชุดข้อมูลอุณหภูมิ 2 ชุดเป็นเวลา 365 วัน) รูปทรงเทนเซอร์นั้นเป็นไปอย่างง่ายดาย(?, 365, 3)สำหรับ 365 วันและ 3 คุณสมบัติ …
12 python  keras  rnn  lstm 

1
ฉันควรใช้เซลล์ LSTM กี่เซลล์
มีกฎของหัวแม่มือ (หรือกฎจริง) ที่เกี่ยวข้องกับจำนวน LSTM ขั้นต่ำ, สูงสุดและ "สมเหตุสมผล" ที่ฉันควรใช้หรือไม่? โดยเฉพาะฉันเกี่ยวข้องกับBasicLSTMCellจาก TensorFlow และnum_unitsคุณสมบัติ โปรดสมมติว่าฉันมีปัญหาการจำแนกที่กำหนดโดย: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples ตัวอย่างจริงหรือไม่ที่จำนวนตัวอย่างการฝึกอบรมควรมากกว่า: 4*((n+1)*m + m*m)*c ที่cเป็นจำนวนของเซลล์? ฉันใช้สิ่งนี้: จะคำนวณจำนวนพารามิเตอร์ของเครือข่าย …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

3
มีรูปแบบภาษาที่ดีนอกกรอบสำหรับงูใหญ่หรือไม่?
ฉันกำลังสร้างต้นแบบแอปพลิเคชันและฉันต้องการโมเดลภาษาเพื่อคำนวณความงุนงงในประโยคที่สร้างขึ้น มีรูปแบบภาษาที่ผ่านการฝึกอบรมในภาษาไพ ธ อนที่ฉันสามารถใช้ได้หรือไม่? บางสิ่งที่เรียบง่ายเช่น model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 ฉันดูบางกรอบ แต่ไม่สามารถค้นหาสิ่งที่ฉันต้องการ ฉันรู้ว่าฉันสามารถใช้สิ่งที่ชอบ: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) สิ่งนี้ใช้การแจกแจงความน่าจะเป็นที่ดีใน Brown Corpus แต่ฉันกำลังมองหาโมเดลที่สร้างขึ้นอย่างดีในชุดข้อมูลขนาดใหญ่เช่นชุดข้อมูลคำ 1b สิ่งที่ฉันสามารถเชื่อถือได้จริง ๆ ผลลัพธ์สำหรับโดเมนทั่วไป (ไม่เพียงข่าว)
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

2
การออกกลางคันของ LSTM ชั้นใด
ควรใช้หลายชั้นLSTMพร้อมกับดรอปเอาท์หรือไม่แนะนำให้วางออกกลางคันบนเลเยอร์ที่ซ่อนอยู่ทั้งหมดรวมถึงเอาท์พุทเลเยอร์หนาแน่น ในกระดาษของฮินตัน (ซึ่งเสนอให้ออกกลางคัน) เขาแค่วางกลางคันลงบนชั้นที่หนาแน่นเท่านั้น แต่นั่นเป็นเพราะชั้นในที่ซ่อนอยู่นั้นเป็นรูปธรรม เห็นได้ชัดว่าฉันสามารถทดสอบรูปแบบเฉพาะของฉัน แต่ฉันสงสัยว่ามีฉันทามติเกี่ยวกับเรื่องนี้หรือไม่?

3
LSTM, BiLSTM คืออะไรและใช้เมื่อใด?
ฉันยังใหม่ต่อการเรียนรู้เชิงลึกและฉันสนใจที่จะรู้ว่า LSTM และ BiLSTM คืออะไรและควรใช้เมื่อใด (พื้นที่ใช้งานหลัก) เหตุใด LSTM และ BILSTM จึงได้รับความนิยมมากกว่า RNN เราสามารถใช้สถาปัตยกรรมการเรียนรู้ลึกเหล่านี้ในปัญหาที่ไม่มีผู้ดูแลได้หรือไม่?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.