ฉันอ่านมากเกี่ยวกับเครือข่ายประสาทการสนทนาและสงสัยว่าพวกเขาจะหลีกเลี่ยงปัญหาการไล่ระดับสีที่หายไปได้อย่างไร ฉันรู้ว่าเครือข่ายที่มีความเชื่อลึกนั้นมีกองเข้ารหัสอัตโนมัติระดับเดียวหรือเครือข่ายตื้น ๆ ที่ผ่านการฝึกอบรมล่วงหน้าและสามารถหลีกเลี่ยงปัญหานี้ได้ แต่ฉันไม่รู้ว่ามันจะหลีกเลี่ยงได้อย่างไรใน CNNs
ตามที่Wikipedia :
แม้จะมีปัญหาการไล่ระดับสีที่หายไป แต่พลังการประมวลผลที่เหนือกว่าของ GPU ทำให้การเผยแพร่กลับเป็นไปได้อย่างง่ายดายสำหรับเครือข่ายประสาทที่มีการป้อนลึกแบบหลายชั้น
ฉันไม่เข้าใจว่าทำไมการประมวลผล GPU จะลบปัญหานี้หรือไม่
GPU's are fast correlated with vanishing gradients
, I can understand the fast logic with large memory bandwidth to process multiple matrix multiplications! but could you please explain what it has to do with the derivatives? The vanishing gradient issue seems to do more with weight initialization, isn't it!