ฉันพยายามที่จะเข้าใจการใช้ RNN ระดับสูงในการติดฉลากตามลำดับผ่านทางกระดาษ (ในหมู่อื่น ๆ ) บทความ 2005 ของ Graves ในการจำแนกฟอนิม
ในการสรุปปัญหา: เรามีชุดฝึกอบรมขนาดใหญ่ซึ่งประกอบด้วยไฟล์เสียง (อินพุต) ของประโยคเดียวและ (เอาต์พุต) เวลาเริ่มต้นที่มีป้ายกำกับจากผู้เชี่ยวชาญเวลาหยุดและป้ายกำกับสำหรับหน่วยเสียงส่วนบุคคล (รวมถึงหน่วยเสียงพิเศษบางอย่างเช่นเงียบ เช่นว่าแต่ละตัวอย่างในไฟล์เสียงแต่ละไฟล์มีป้ายกำกับด้วยสัญรูปฟอนิม)
แรงขับของกระดาษคือการใช้ RNN กับเซลล์หน่วยความจำ LSTM ในเลเยอร์ที่ซ่อนอยู่กับปัญหานี้ (เขาใช้หลายตัวแปรและเทคนิคอื่น ๆ เพื่อเปรียบเทียบฉันใช้เวลาเพียงสนใจ LSTM ทิศทางเดียวเพื่อให้สิ่งต่าง ๆ ง่ายขึ้น)
ฉันเชื่อว่าฉันเข้าใจสถาปัตยกรรมของเครือข่าย: เลเยอร์อินพุตที่สอดคล้องกับ windows 10 ms ของไฟล์เสียงได้รับการประมวลผลล่วงหน้าในรูปแบบมาตรฐานสำหรับการทำงานของเสียง เลเยอร์ที่ซ่อนอยู่ของเซลล์ LSTM และเลเยอร์เอาท์พุทที่มีการเข้ารหัสสัญลักษณ์ 61 หมายเลขโทรศัพท์ที่เป็นไปได้ทั้งหมด
ฉันเชื่อว่าฉันเข้าใจสมการ (ที่ซับซ้อน แต่ตรงไปตรงมา) ของ pass pass และ backward pass ผ่านหน่วย LSTM พวกเขาเป็นเพียงแคลคูลัสและกฎลูกโซ่
สิ่งที่ฉันไม่เข้าใจหลังจากอ่านบทความนี้และที่คล้ายกันหลายครั้งหลายครั้งคือเมื่อใช้อัลกอริทึม backpropagation ตรงและเมื่อต้องปรับปรุงน้ำหนักต่าง ๆ ในเซลล์ประสาท
มีสองวิธีที่เชื่อถือได้:
1) backprop เฟรมที่ชาญฉลาดและการปรับปรุง
Load a sentence.
Divide into frames/timesteps.
For each frame:
- Apply forward step
- Determine error function
- Apply backpropagation to this frame's error
- Update weights accordingly
At end of sentence, reset memory
load another sentence and continue.
หรือ,
2) backprop ที่เป็นประโยคและชาญฉลาด:
Load a sentence.
Divide into frames/timesteps.
For each frame:
- Apply forward step
- Determine error function
At end of sentence:
- Apply backprop to average of sentence error function
- Update weights accordingly
- Reset memory
Load another sentence and continue.
โปรดทราบว่านี่เป็นคำถามทั่วไปเกี่ยวกับการฝึกอบรม RNNโดยใช้กระดาษ Graves เป็นตัวอย่างที่แหลม (และมีความเกี่ยวข้องเป็นการส่วนตัว): เมื่อฝึกอบรม RNNs ตามลำดับจะมีการใช้ backprop ทุกเวลาหรือไม่ มีการปรับน้ำหนักทุกเวลาหรือไม่ หรือในการเปรียบเทียบแบบหลวม ๆ กับการฝึกอบรมแบทช์เกี่ยวกับสถาปัตยกรรมการส่งต่ออย่างเคร่งครัดจะมีการสะสมข้อผิดพลาดและค่าเฉลี่ยตามลำดับเฉพาะก่อนที่จะมีการปรับปรุง backprop และน้ำหนัก
หรือฉันสับสนมากกว่าที่คิด