2
การเปิดใช้งาน GELU คืออะไร
ฉันกำลังอ่านกระดาษ BERTซึ่งใช้GELU (Gaussian Error Linear Unit)ซึ่งระบุสมการเป็น ซึ่งจะอยู่ที่ประมาณจีอีL U( x ) = x P( X≤ x ) = x Φ ( x )GELยู(x)=xP(X≤x)=xΦ(x). GELU(x) = xP(X ≤ x) = xΦ(x).0.5 x ( 1 + t a n ชม. [ 2 / π---√( x + 0.044715 x3) ] )0.5x(1+เสื้อanชั่วโมง[2/π(x+0.044715x3)])0.5x(1 + tanh[\sqrt{ 2/π}(x …