สถิติและข้อมูลขนาดใหญ่ rnn

2

สัญชาตญาณที่อยู่เบื้องหลังเครือข่ายประสาทแบบ Long Long Term Memory (LSTM) กำเริบคืออะไร?

แนวคิดที่อยู่เบื้องหลัง Recurrent Neural Network (RNN) ชัดเจนสำหรับฉัน ฉันเข้าใจในวิธีต่อไปนี้: เรามีลำดับของการสังเกต ( ) (หรือกล่าวอีกนัยหนึ่งคืออนุกรมเวลาหลายตัวแปร) การสังเกตแต่ละครั้งเป็นเวกเตอร์ตัวเลข -dimensional ภายในโมเดล RNN เราถือว่าการสังเกตต่อไปเป็นหน้าที่ของการสังเกตการณ์ก่อนหน้านี้เช่นเดียวกับ "สถานะที่ซ่อน" ก่อนหน้านี้ซึ่งสถานะที่ซ่อนอยู่จะถูกแสดงด้วยตัวเลข เวกเตอร์ (ขนาดของสถานะที่ถูกตรวจสอบและสถานะที่ซ่อนอยู่อาจแตกต่างกัน) รัฐที่ซ่อนตัวเองก็สันนิษฐานว่าขึ้นอยู่กับการสังเกตก่อนหน้านี้และสถานะที่ซ่อนอยู่:โอ⃗ 1, o⃗ 2, … , o⃗ no→1,o→2,…,o→n\vec o_1, \vec o_2, \dots, \vec o_nโอ⃗ ผมo→i\vec o_iยังไม่มีข้อความNNโอ⃗ ฉัน+ 1o→i+1\vec o_{i+1}โอ⃗ ผมo→i\vec o_{i}ชั่วโมง⃗ ผมh→i\vec h_i โอ⃗ ผม, ชั่วโมง⃗ ผม= F( o⃗ ฉัน- …

11 time-series neural-networks predictive-models intuition rnn

1

ฉันควรใช้ฟังก์ชันการสูญเสียใดเพื่อให้คะแนนโมเดล seq2seq RNN

ฉันกำลังทำงานผ่านกระดาษCho 2014ซึ่งนำเสนอสถาปัตยกรรมตัวเข้ารหัส - ถอดรหัสสำหรับการสร้างแบบจำลอง seq2seq ในกระดาษพวกเขาดูเหมือนจะใช้ความน่าจะเป็นของผลลัพธ์ที่ได้รับอินพุต (หรือเป็นลบบันทึกการเกิดโอกาส) เป็นฟังก์ชั่นการสูญเสียสำหรับอินพุตของความยาวMและเอาท์พุทyของความยาวN :xxxMMMyyyNNN P(y1,…,yN|x1,…,xM)=P(y1|x1,…,xm)P(y2|y1,x1,…,xm)…P(yN|y1,…,yN−1,x1,…,xm)P(y1,…,yN|x1,…,xM)=P(y1|x1,…,xm)P(y2|y1,x1,…,xm)…P(yN|y1,…,yN−1,x1,…,xm)P(y_1, …, y_N | x_1, …, x_M) = P(y_1 | x_1, …, x_m) P(y_2 | y_1, x_1, …, x_m) \dots P(y_N | y_1, …, y_N-1, x_1, …, x_m) อย่างไรก็ตามฉันคิดว่าฉันพบปัญหาหลายประการกับการใช้ฟังก์ชันนี้เป็นฟังก์ชันการสูญเสีย: ดูเหมือนว่าจะถือว่าครูบังคับให้ใช้ในระหว่างการฝึกอบรม (เช่นแทนที่จะใช้ตัวถอดรหัสสำหรับตำแหน่งในการป้อนข้อมูลในการทำซ้ำครั้งถัดไปจะใช้โทเค็นที่รู้จัก มันจะไม่ลงโทษลำดับยาว ๆ เนื่องจากความน่าจะเป็นคือจากถึงNของเอาต์พุตหากตัวถอดรหัสสร้างลำดับที่ยาวกว่าทุกอย่างหลังจากNแรกจะไม่รวมการสูญเสีย111NNNNNN หากโมเดลทำนายโทเค็น End-of-String ก่อนหน้านี้ฟังก์ชั่นการสูญเสียยังต้องการขั้นตอน - ซึ่งหมายความว่าเรากำลังสร้างเอาต์พุตตาม "นานา" ที่ไม่ได้รับการฝึกฝนของโมเดล …

10 deep-learning loss-functions rnn

1

RNN พร้อมการทำให้เป็นมาตรฐาน L2 หยุดเรียนรู้

ฉันใช้สองทิศทาง RNN เพื่อตรวจสอบเหตุการณ์ที่เกิดขึ้นไม่สมดุลกัน ชั้นบวกเป็น 100 ครั้งน้อยกว่าชั้นลบ ในขณะที่ไม่มีการใช้งานแบบปกติฉันสามารถได้รับความถูกต้อง 100% ในชุดรถไฟและ 30% สำหรับชุดการตรวจสอบ ฉันเปิดใช้งานการทำให้เป็นปกติ l2 และผลลัพธ์นั้นมีความแม่นยำเพียง 30% ในชุดรถไฟแทนการเรียนรู้ที่ยาวนานขึ้นและความแม่นยำ 100% ในชุดการตรวจสอบความถูกต้อง ฉันคิดว่าข้อมูลของฉันอาจเล็กเกินไปดังนั้นสำหรับการทดลองฉันรวมชุดรถไฟกับชุดทดสอบซึ่งฉันไม่เคยใช้มาก่อน สถานการณ์เหมือนกันกับฉันจะใช้การทำให้เป็นมาตรฐาน l2 ซึ่งฉันไม่ได้ตอนนี้ ฉันได้รับความแม่นยำ 30% สำหรับรถไฟ + การทดสอบและการตรวจสอบ ในการใช้หน่วยที่ถูกซ่อน 128 และ 80 เวลาในการทดลองที่กล่าวถึงเมื่อฉันเพิ่มจำนวนหน่วยที่ซ่อนอยู่เป็น 256 ฉันสามารถ overfit บนรถไฟ + ชุดทดสอบอีกครั้งเพื่อให้ได้ความถูกต้อง 100% แต่ยังคงมีเพียง 30% ในชุดการตรวจสอบ ฉันลองตัวเลือกมากมายสำหรับพารามิเตอร์และเกือบจะไม่มีผลลัพธ์ บางทีเอนโทรปีของการถ่วงน้ำหนักอาจทำให้เกิดปัญหาในการทดลองที่กำหนดน้ำหนักของชั้นบวกคือ 5 ในขณะที่การลองตุ้มน้ำหนักขนาดใหญ่ผลลัพธ์มักจะแย่ลงประมาณ 20% ของความแม่นยำ ฉันลองเซลล์ LSTM …

10 neural-networks deep-learning regularization rnn

1

ทำความเข้าใจกับโทโพโลยีของ LSTM

อย่างที่หลายคนมีฉันพบแหล่งข้อมูลที่นี่และที่นี่เพื่อเป็นประโยชน์อย่างมากสำหรับการทำความเข้าใจเซลล์ LSTM ฉันมั่นใจว่าฉันเข้าใจว่าการไหลของค่าและการปรับปรุงและฉันมั่นใจมากพอที่จะเพิ่ม "การเชื่อมต่อช่องมอง" ฯลฯ ในตัวอย่างของฉันฉันมีที่ในแต่ละครั้งขั้นตอนการป้อนข้อมูลเวกเตอร์ของความยาวiและเวกเตอร์การส่งออกของระยะเวลาที่oo < i สิ่งที่ไม่ได้กล่าวถึงในหน้านี้คือวิธีการจัดเรียงและฝึกอบรม ฉันมีคำถาม 2 ข้อ: ในข้อมูลการฝึกอบรมของฉันฉันมีเวกเตอร์อินพุต / เอาต์พุตจำนวนมากที่สอดคล้องกับหน่วยเวลาจำนวนมาก สมมติว่าฉันฝึก LSTM ด้วยข้อมูลทั้งหมด จากนั้นฉันจะเรียกใช้อินพุตที่กำหนดเองแบบยาว ๆ สิ่งที่ฉันหมายถึงคือถ้าฉันมีข้อมูลการฝึกอบรมสำหรับพูดทั้งหมดของปี 2558 และ 2559 ฉันจะสามารถเรียกใช้ข้อมูลผ่านเครือข่ายในปี 2560 ได้หรือไม่? หรืออาจ 2017 ถึง 2020 ตามที่ฉันได้อ่านมันรู้สึกเหมือนฉันมีเซลล์ LSTM หนึ่งเซลล์ต่อหน่วยเวลาดังนั้นถ้าฉันมีหน่วยเวลาหลายครั้งฉันก็มีเซลล์ LSTM ที่ถูกล่ามโซ่ไว้มากมาย เนื่องจากความยาวของสายโซ่นั้นขึ้นอยู่กับความยาวของข้อมูลที่ฉันต้องการเรียกใช้ผ่านเครือข่ายและนั่นเป็นเรื่องที่คาดเดาได้ยากฉันไม่สามารถเห็นได้ว่าฉันจะฝึกอบรมเรื่องนี้อย่างไรเว้นแต่ฉันจะฝึกเซลล์ LSTM เพียงเซลล์เดียว ครั้ง ดังนั้นดูเหมือนว่าฉันจะฝึกเซลล์ LSTM หนึ่งเซลล์จากนั้นnโยงมันเข้าด้วยกันเพื่อหารายการเวกเตอร์ความยาวที่กำหนดn? แม้ว่าเซลล์ LSTM หนึ่งเซลล์จะมีองค์ประกอบและฟังก์ชั่นจำนวนหนึ่ง แต่รู้สึกว่ามันไม่เพียงพอที่จะรวบรวมข้อมูลมากมายในบางสิ่งที่เล็กมาก? ขอบคุณ มีทรัพยากรอื่น ๆ …

9 machine-learning neural-networks lstm rnn

คำถามติดแท็ก rnn