คำถามติดแท็ก rnn

เครือข่ายประสาทเทียมที่เกิดซ้ำ (RNN) เป็นชั้นหนึ่งของเครือข่ายประสาทเทียมที่การเชื่อมต่อระหว่างหน่วยเป็นวงจรกำกับ

3
อะไรคือความแตกต่างระหว่างเครือข่ายฟีดไปข้างหน้าและเกิดขึ้นอีก?
อะไรคือความแตกต่างระหว่างเครือข่ายการส่งต่อและการเกิดซ้ำของเส้นประสาท? ทำไมคุณถึงใช้อันอื่น? ทอพอโลยีเครือข่ายอื่นมีอยู่จริงหรือไม่?

5
ทำความเข้าใจกับหน่วย LSTM เทียบกับเซลล์
ฉันเรียน LSTM มาระยะหนึ่งแล้ว ฉันเข้าใจในระดับสูงว่าทุกอย่างทำงานอย่างไร อย่างไรก็ตามจะใช้พวกเขาโดยใช้ Tensorflow ฉันสังเกตเห็นว่าBasicLSTMCellต้องการพารามิเตอร์จำนวนหน่วย (เช่นnum_units) จากนี้คำอธิบายอย่างละเอียดมาก LSTMs ผมได้รวบรวมที่เดียวหน่วย LSTMเป็นหนึ่งดังต่อไปนี้ ซึ่งเป็นหน่วย GRU ฉันสันนิษฐานว่าพารามิเตอร์num_unitsของการBasicLSTMCellอ้างอิงถึงจำนวนเหล่านี้เราต้องการเชื่อมต่อซึ่งกันและกันในชั้น ที่ทิ้งคำถาม - "เซลล์" ในบริบทนี้คืออะไร? "เซลล์" เทียบเท่ากับเลเยอร์ในเครือข่ายประสาทส่งต่อปกติหรือไม่

2
ความหมาย (และหลักฐาน) ของ“ RNN สามารถประมาณอัลกอริทึมใด ๆ ”
เมื่อเร็ว ๆ นี้ฉันอ่านว่าเครือข่ายประสาทที่เกิดขึ้นซ้ำสามารถประมาณอัลกอริทึมใด ๆ ดังนั้นคำถามของฉันคือ: สิ่งนี้หมายความว่าอะไรและคุณสามารถให้ฉันอ้างอิงที่นี่พิสูจน์แล้ว?
28 references  rnn 

3
อะไรคือข้อดีของการซ้อน LSTM หลาย ๆ ชุด?
อะไรคือข้อดีทำไมหนึ่งจะใช้ LSTM หลายซ้อนในเครือข่ายลึกด้านละด้าน ฉันใช้ LSTM เพื่อแสดงลำดับของอินพุตเป็นอินพุตเดียว ดังนั้นเมื่อฉันมีตัวแทนเดียว - ทำไมฉันจะผ่านมันอีกครั้ง ฉันถามสิ่งนี้เพราะฉันเห็นสิ่งนี้ในโปรแกรมสร้างภาษาที่เป็นธรรมชาติ

1
กลไกความสนใจคืออะไรกันแน่?
มีการใช้กลไกการเรียนรู้ในเอกสารการเรียนรู้ลึกต่างๆในช่วงไม่กี่ปีที่ผ่านมา Ilya Sutskever หัวหน้าฝ่ายวิจัยของ Open AI ได้ชื่นชมพวกเขาอย่างกระตือรือร้น: https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 Eugenio Culurciello ที่ Purdue University ได้อ้างว่า RNNs และ LSTMs ควรถูกทอดทิ้งเนื่องจากเป็นเครือข่ายประสาทที่เน้นความสนใจอย่างหมดจด: https://towardsdatascience.com/the-fall-of-rnn-lstm-2d1594c74ce0 ดูเหมือนว่าจะเป็นการพูดเกินจริง แต่ก็ปฏิเสธไม่ได้ว่าแบบจำลองความสนใจล้วนๆทำหน้าที่ในการสร้างแบบจำลองได้ค่อนข้างดี: เราทุกคนรู้เกี่ยวกับกระดาษที่มีชื่อเหมาะสมจาก Google ความสนใจคือสิ่งที่คุณต้องการ แต่สิ่งที่ว่ามีรูปแบบความสนใจตาม? ฉันยังไม่พบคำอธิบายที่ชัดเจนของโมเดลดังกล่าว สมมติว่าฉันต้องการคาดการณ์ค่าใหม่ของอนุกรมเวลาหลายตัวแปรตามค่าที่ผ่านมา มันค่อนข้างชัดเจนว่าจะทำอย่างไรกับ RNN ที่มีเซลล์ LSTM ฉันจะทำเช่นเดียวกันกับแบบจำลองตามความสนใจได้อย่างไร

3
การสูญเสียการฝึกอบรมเพิ่มขึ้นตามเวลา [ซ้ำ]
คำถามนี้มีคำตอบอยู่ที่นี่แล้ว : ฟังก์ชั่นการเปลี่ยนแปลงค่าใช้จ่ายสามารถเป็นบวกได้อย่างไร? (1 คำตอบ) ฉันควรทำอย่างไรเมื่อเครือข่ายประสาทไม่ได้เรียนรู้ (5 คำตอบ) ปิดเมื่อเดือนที่แล้ว ฉันกำลังฝึกอบรมนางแบบ (Recurrent Neural Network) เพื่อจำแนกลำดับของ 4 ประเภท ขณะที่ฉันทำการฝึกฉันเห็นการสูญเสียการฝึกอบรมลดลงจนถึงจุดที่ฉันจัดประเภทตัวอย่างในชุดการฝึกได้มากกว่า 90% อย่างไรก็ตามอีกไม่กี่ยุคต่อมาฉันสังเกตเห็นว่าการสูญเสียการฝึกอบรมเพิ่มขึ้นและความแม่นยำลดลง ดูเหมือนว่าจะแปลกสำหรับฉันเพราะฉันคาดหวังว่าในชุดฝึกอบรมประสิทธิภาพจะดีขึ้นเมื่อเวลาไม่ลดลง ฉันกำลังใช้การสูญเสียเอนโทรปีและอัตราการเรียนรู้ของฉันคือ 0.0002 อัปเดต:ปรากฎว่าอัตราการเรียนรู้สูงเกินไป ด้วยอัตราการเรียนรู้ที่ต่ำพอที่ต่ำฉันไม่สังเกตพฤติกรรมนี้ อย่างไรก็ตามฉันยังพบสิ่งแปลกประหลาดนี้ คำอธิบายที่ดียินดีต้อนรับว่าทำไมสิ่งนี้ถึงเกิดขึ้น

4
ความแตกต่างระหว่างข้อเสนอแนะ RNN และ LSTM / GRU
ฉันกำลังพยายามที่จะเข้าใจโครงสร้างเครือข่ายนิวรัล (RNN) ที่แตกต่างกันเพื่อนำไปใช้กับข้อมูลอนุกรมเวลาและฉันสับสนเล็กน้อยกับชื่อต่าง ๆ ที่ใช้บ่อยเมื่ออธิบาย RNN โครงสร้างของหน่วยความจำระยะสั้นระยะยาว (LSTM) และ Gated Recurrent Unit (GRU) นั้นเป็น RNN ที่มีลูปข้อเสนอแนะหรือไม่?

3
ทำไมน้ำหนักของเครือข่าย RNN / LSTM จึงถูกแชร์ข้ามเวลา
เมื่อไม่นานมานี้ฉันสนใจ LSTM และฉันรู้สึกประหลาดใจเมื่อรู้ว่าน้ำหนักจะถูกแบ่งปันข้ามเวลา ฉันรู้ว่าถ้าคุณแบ่งปันน้ำหนักข้ามช่วงเวลาลำดับการป้อนข้อมูลของคุณอาจเป็นความยาวผันแปรได้ ด้วยน้ำหนักที่ใช้ร่วมกันคุณจะมีพารามิเตอร์น้อยลงในการฝึกอบรม จากความเข้าใจของฉันเหตุผลที่จะกลายเป็น LSTM กับวิธีการเรียนรู้อื่น ๆ ก็เพราะคุณเชื่อว่ามีโครงสร้าง / ลำดับ / การพึ่งพาชั่วคราวในข้อมูลของคุณที่คุณต้องการเรียนรู้ หากคุณเสียสละความยาว 'หรูหรา' และยอมรับเวลาคำนวณนาน RNN / LSTM จะไม่มีน้ำหนักที่ใช้ร่วมกัน (เช่นสำหรับทุกขั้นตอนที่คุณมีน้ำหนักแตกต่างกัน) ทำงานได้ดีขึ้นหรือมีบางสิ่งที่ขาดหายไป?

2
เครือข่ายประสาทกำเริบสามารถนำมาใช้สำหรับการจำแนกลำดับได้อย่างไร
RNN สามารถใช้สำหรับการทำนายหรือลำดับการแมปลำดับ แต่จะใช้ RNN ในการจำแนกได้อย่างไร? ฉันหมายถึงเราให้ลำดับทั้งหมดหนึ่งป้ายกำกับ

3
ความแตกต่างระหว่างตัวอย่างขั้นตอนเวลาและคุณสมบัติต่าง ๆ ในโครงข่ายประสาทเทียม
ฉันจะผ่านบล็อกต่อไปนี้ในเครือข่ายประสาท LSTM: http://machinelearningmastery.com/understanding-stateful-lstm-recurrent-neural-networks-python-keras/machinelearningmastery.com/ ผู้เขียน reshapes เวกเตอร์อินพุต X เป็น [ตัวอย่างขั้นตอนเวลาคุณสมบัติ] สำหรับการกำหนดค่า LSTM ที่แตกต่างกัน ผู้เขียนเขียน อันที่จริงลำดับของตัวอักษรเป็นขั้นตอนเวลาของคุณลักษณะหนึ่งมากกว่าหนึ่งขั้นตอนของคุณสมบัติแยกต่างหาก เราได้ให้บริบทกับเครือข่ายมากขึ้น แต่ไม่ได้เรียงตามที่คาดไว้ สิ่งนี้หมายความว่า?

1
Connectionist Temporal Classification (CTC) คืออะไร
ฉันต้องการทำโครงการรู้จำอักขระด้วยแสง (OCR) หลังจากทำวิจัยแล้วฉันเจอสถาปัตยกรรมที่น่าสนใจ: CNN + RNN + CTC ฉันคุ้นเคยกับเครือข่ายประสาทที่ซับซ้อน (CNN) และเครือข่ายประสาทที่เกิดขึ้นอีก (RNN) แต่ Connectionist Temporal Classification (CTC) คืออะไร ฉันต้องการคำอธิบายในแง่ของคนธรรมดา

1
RNNs: เมื่อใดที่จะใช้ BPTT และ / หรืออัปเดตน้ำหนัก
ฉันพยายามที่จะเข้าใจการใช้ RNN ระดับสูงในการติดฉลากตามลำดับผ่านทางกระดาษ (ในหมู่อื่น ๆ ) บทความ 2005 ของ Graves ในการจำแนกฟอนิม ในการสรุปปัญหา: เรามีชุดฝึกอบรมขนาดใหญ่ซึ่งประกอบด้วยไฟล์เสียง (อินพุต) ของประโยคเดียวและ (เอาต์พุต) เวลาเริ่มต้นที่มีป้ายกำกับจากผู้เชี่ยวชาญเวลาหยุดและป้ายกำกับสำหรับหน่วยเสียงส่วนบุคคล (รวมถึงหน่วยเสียงพิเศษบางอย่างเช่นเงียบ เช่นว่าแต่ละตัวอย่างในไฟล์เสียงแต่ละไฟล์มีป้ายกำกับด้วยสัญรูปฟอนิม) แรงขับของกระดาษคือการใช้ RNN กับเซลล์หน่วยความจำ LSTM ในเลเยอร์ที่ซ่อนอยู่กับปัญหานี้ (เขาใช้หลายตัวแปรและเทคนิคอื่น ๆ เพื่อเปรียบเทียบฉันใช้เวลาเพียงสนใจ LSTM ทิศทางเดียวเพื่อให้สิ่งต่าง ๆ ง่ายขึ้น) ฉันเชื่อว่าฉันเข้าใจสถาปัตยกรรมของเครือข่าย: เลเยอร์อินพุตที่สอดคล้องกับ windows 10 ms ของไฟล์เสียงได้รับการประมวลผลล่วงหน้าในรูปแบบมาตรฐานสำหรับการทำงานของเสียง เลเยอร์ที่ซ่อนอยู่ของเซลล์ LSTM และเลเยอร์เอาท์พุทที่มีการเข้ารหัสสัญลักษณ์ 61 หมายเลขโทรศัพท์ที่เป็นไปได้ทั้งหมด ฉันเชื่อว่าฉันเข้าใจสมการ (ที่ซับซ้อน แต่ตรงไปตรงมา) ของ pass pass และ backward …
15 lstm  rnn 

3
ทำไมกลับเผยแพร่ผ่านเวลาใน RNN
ในเครือข่ายประสาทที่เกิดขึ้นอีกคุณมักจะส่งต่อการแพร่กระจายผ่านหลายขั้นตอน "ปลด" เครือข่ายและจากนั้นกลับแพร่กระจายไปตามลำดับของอินพุต ทำไมคุณไม่เพียงแค่อัปเดตน้ำหนักหลังจากแต่ละขั้นตอนตามลำดับ (เทียบเท่ากับการใช้ความยาวของการตัดทอนที่ 1 ดังนั้นจึงไม่มีสิ่งใดที่จะคลี่คลาย) สิ่งนี้ขจัดปัญหาการไล่ระดับสีที่หายไปอย่างสมบูรณ์ลดความซับซ้อนของอัลกอริทึมอย่างมากอาจจะลดโอกาสที่จะติดอยู่ในท้องถิ่น . ฉันฝึกรูปแบบด้วยวิธีนี้เพื่อสร้างข้อความและผลลัพธ์ที่ได้นั้นเทียบได้กับผลลัพธ์ที่ฉันเห็นจากแบบจำลองที่ผ่านการฝึกอบรมของ BPTT ฉันสับสนเพียงแค่นี้เพราะทุกบทช่วยสอนเกี่ยวกับ RNN ฉันเห็นว่าใช้ BPTT เกือบราวกับว่าจำเป็นสำหรับการเรียนรู้ที่เหมาะสมซึ่งไม่ใช่กรณี อัปเดต: ฉันเพิ่มคำตอบ

2
ทำไม RNNs กับหน่วย LSTM ยังทนทุกข์ทรมานจาก“ การไล่ระดับสีแบบระเบิด”
ฉันมีความรู้พื้นฐานเกี่ยวกับการทำงานของ RNNs (และโดยเฉพาะอย่างยิ่งกับหน่วย LSTMs) ฉันมีภาพความคิดเกี่ยวกับสถาปัตยกรรมของหน่วย LSTM นั่นคือเซลล์และประตูสองสามบานซึ่งควบคุมการไหลของค่า อย่างไรก็ตามเห็นได้ชัดว่าฉันไม่ได้เข้าใจอย่างสมบูรณ์ว่า LSTM แก้ปัญหา "การหายตัวไปและการกระจายตัวของการไล่ระดับสี" ซึ่งเกิดขึ้นในขณะที่การฝึกอบรมโดยใช้การเผยแพร่กลับไปตามกาลเวลา RNN ทั่วไป ฉันไม่ได้มีโอกาสอ่านเอกสารเพื่อเข้าใจคณิตศาสตร์อย่างเต็มที่ คำตอบนี้ให้คำอธิบายโดยย่อเกี่ยวกับวิธีที่ RNNs กับหน่วย LSTM แก้ปัญหา "การไล่ระดับสีหายไป" ในทางคณิตศาสตร์เหตุผลที่ดูเหมือนจะไม่มีอยู่ของอนุพันธ์ที่ไม่หายไปคือไม่มีแนวโน้มที่จะเป็นศูนย์ ดังนั้นผู้เขียนกล่าวว่า "มีอย่างน้อยหนึ่งเส้นทางที่การไล่ระดับสีไม่หายไป" IMHO คำอธิบายนี้ค่อนข้างคลุมเครือ ในขณะเดียวกันฉันกำลังอ่านกระดาษลำดับการเรียนรู้ต่อเนื่องกับโครงข่ายประสาท (โดย Ilya Sutskever, Oriol Vinyals, Quoc V. Le) และในบทความนั้นส่วน "3.4 รายละเอียดการฝึกอบรม" มีการระบุไว้ แม้ว่า LSTMs มักจะไม่ประสบปัญหาการไล่ระดับสีที่หายไปพวกเขาสามารถระเบิดการไล่ระดับสี ฉันคิดเสมอว่า RNNs กับหน่วย LSTM แก้ปัญหา "หายไป" และ "ระเบิดการไล่ระดับสี" …

3
โมเดลมาร์คอฟที่ซ่อนอยู่เทียบกับเครือข่ายประสาทเทียม
ปัญหาการป้อนข้อมูลตามลำดับใดที่เหมาะสมที่สุดสำหรับแต่ละปัญหา มิติข้อมูลเข้ากำหนดว่าการจับคู่แบบใดดีกว่า ปัญหาที่ต้องใช้ "หน่วยความจำที่ยาวนานกว่า" เหมาะกว่าสำหรับ LSTM RNN หรือไม่ขณะที่ปัญหาเกี่ยวกับรูปแบบอินพุตที่เป็นวงจร (ตลาดหุ้น, สภาพอากาศ) จะแก้ไขได้ง่ายขึ้นโดย HMM ดูเหมือนว่ามีการทับซ้อนกันมากมาย ฉันอยากรู้ว่าความแตกต่างที่ลึกซึ้งนั้นมีอยู่ระหว่างสองสิ่งนี้อย่างไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.