สมมุติว่าเรามีนิพจน์z=x1x2+sin(x1)และต้องการหาอนุพันธ์dzdx1และdzdx2 2 โฆษณาโหมดย้อนกลับแบ่งงานนี้ออกเป็น 2 ส่วนคือส่งต่อและย้อนกลับ
ส่งต่อ
อันดับแรกเราแยกการแสดงออกที่ซับซ้อนของเราออกเป็นชุดของการเขียนแบบดั้งเดิมเช่นการแสดงออกที่ประกอบด้วยการเรียกใช้ฟังก์ชันเดียว โปรดทราบว่าฉันยังเปลี่ยนชื่อตัวแปรอินพุตและเอาต์พุตเพื่อความสอดคล้องแม้ว่ามันไม่จำเป็น:
w1=x1
w2=x2
w3=w1w2
w4=sin(w1)
w5=w3+w4
z=w5
ข้อได้เปรียบของการเป็นตัวแทนนี้ก็คือการรู้จักกฎการสร้างความแตกต่างสำหรับแต่ละนิพจน์แยกกันอยู่แล้ว ตัวอย่างเช่นเรารู้ว่าที่มาของsinคือcosและอื่น ๆdw4dw1=cos(w1)) เราจะใช้ข้อเท็จจริงนี้ในการส่งผ่านย้อนกลับด้านล่าง
โดยพื้นฐานแล้วฟอร์เวิร์ดพาสประกอบด้วยการประเมินแต่ละนิพจน์และบันทึกผลลัพธ์ กล่าวว่าปัจจัยการผลิตของเรา: x1=2และx2=3 3 จากนั้นเรามี:
w1=x1=2
w2=x2=3
w3=w1w2=6
w4=sin(w1) =0.9
w5=w3+w4=6.9
z=w5=6.9
ย้อนกลับ
นี่คือการเริ่มต้นเป็นความมหัศจรรย์และมันเริ่มต้นด้วยกฎลูกโซ่ ในรูปแบบพื้นฐานกฎลูกโซ่ระบุว่าหากคุณมีตัวแปรt(u(v))ซึ่งขึ้นอยู่กับuซึ่งในทางกลับกันขึ้นอยู่กับvดังนั้น:
dtdv=dtdududv
หรือถ้าtขึ้นอยู่กับvผ่านหลายเส้นทาง / ตัวแปรuiเช่น:
u1=f(v)
u2=g(v)
t=h(u1,u2)
จากนั้น (ดูข้อพิสูจน์ที่นี่ ):
dtdv=∑idtduiduidv
ในแง่ของกราฟนิพจน์หากเรามีโหนดสุดท้ายzและโหนดอินพุตwiและพา ธ จากzถึงwiผ่านโหนดกลางwp (เช่นz=g(wp)โดยที่wp=f(wi) ) เราสามารถหาอนุพันธ์dzdwiเป็น
dzdwi=∑p∈parents(i)dzdwpdwpdwi
ในคำอื่น ๆ ในการคำนวณอนุพันธ์ของตัวแปรเอาท์พุทz WRT ตัวแปรกลางหรือป้อนข้อมูลใด ๆwiเราจำเป็นต้องรู้อนุพันธ์ของพ่อแม่และสูตรการคำนวณที่มาของการแสดงออกดั้งเดิมwp=f(wi) )
Reverse pass เริ่มที่จุดสิ้นสุด (เช่นdzdz) and propagates backward to all dependencies. Here we have (expression for "seed"):
dzdz=1
That may be read as "change in z results in exactly the same change in z", which is quite obvious.
Then we know that z=w5 and so:
dzdw5=1
w5 linearly depends on w3 and w4, so dw5dw3=1 and dw5dw4=1. Using the chain rule we find:
dzdw3=dzdw5dw5dw3=1×1=1
dzdw4=dzdw5dw5dw4=1×1=1
From definition w3=w1w2 and rules of partial derivatives, we find that dw3dw2=w1. Thus:
dzdw2=dzdw3dw3dw2=1×w1=w1
Which, as we already know from forward pass, is:
dzdw2=w1=2
Finally, w1 contributes to z via w3 and w4. Once again, from the rules of partial derivatives we know that dw3dw1=w2 and dw4dw1=cos(w1). Thus:
dzdw1=dzdw3dw3dw1+dzdw4dw4dw1=w2+cos(w1)
And again, given known inputs, we can calculate it:
dzdw1=w2+cos(w1)=3+cos(2) =2.58
Since w1 and w2 are just aliases for x1 and x2, we get our answer:
dzdx1=2.58
dzdx2=2
And that's it!
This description concerns only scalar inputs, i.e. numbers, but in fact it can also be applied to multidimensional arrays such as vectors and matrices. Two things that one should keep in mind when differentiating expressions with such objects:
- Derivatives may have much higher dimensionality than inputs or output, e.g. derivative of vector w.r.t. vector is a matrix and derivative of matrix w.r.t. matrix is a 4-dimensional array (sometimes referred to as a tensor). In many cases such derivatives are very sparse.
- Each component in output array is an independent function of 1 or more components of input array(s). E.g. if y=f(x) and both x and y are vectors, yi never depends on yj, but only on subset of xk. In particular, this means that finding derivative dyidxj boils down to tracking how yi depends on xj.
The power of automatic differentiation is that it can deal with complicated structures from programming languages like conditions and loops. However, if all you need is algebraic expressions and you have good enough framework to work with symbolic representations, it's possible to construct fully symbolic expressions. In fact, in this example we could produce expression dzdw1=w2+cos(w1)=x2+cos(x1) and calculate this derivative for whatever inputs we want.