สถิติและข้อมูลขนาดใหญ่ derivative

6

Backpropagation ด้วย Softmax / Cross Entropy

ฉันพยายามที่จะเข้าใจวิธีการทำงานของ backpropagation สำหรับเลเยอร์เอาต์พุต softmax / cross-entropy ฟังก์ชันข้อผิดพลาดข้ามเอนโทรปีคือ E(t,o)=−∑jtjlogojE(t,o)=−∑jtjlog⁡ojE(t,o)=-\sum_j t_j \log o_j ด้วยและเป็นเป้าหมายและเอาต์พุตที่เซลล์ประสาทตามลำดับ ผลรวมอยู่เหนือเซลล์ประสาทแต่ละเซลล์ในชั้นเอาต์พุต นั้นเป็นผลมาจากฟังก์ชั่น softmax:tttooojjjojojo_j oj=softmax(zj)=ezj∑jezjoj=softmax(zj)=ezj∑jezjo_j=softmax(z_j)=\frac{e^{z_j}}{\sum_j e^{z_j}} อีกครั้งผลรวมจะอยู่เหนือแต่ละเซลล์ประสาทในเลเยอร์เอาต์พุตและคืออินพุตไปยังเซลล์ประสาท :zjzjz_jjjj zj=∑iwijoi+bzj=∑iwijoi+bz_j=\sum_i w_{ij}o_i+b นั่นคือผลรวมกว่าเซลล์ทั้งหมดในชั้นก่อนหน้านี้กับการส่งออกของพวกเขาที่สอดคล้องกันและน้ำหนักต่อเซลล์ประสาทบวกอคติขoioio_iwijwijw_{ij}jjjbbb ตอนนี้เพื่ออัปเดตน้ำหนักที่เชื่อมต่อเซลล์ประสาทในชั้นเลเยอร์เอาท์พุทกับเซลล์ประสาทในชั้นก่อนหน้าฉันต้องคำนวณอนุพันธ์บางส่วนของฟังก์ชันข้อผิดพลาดโดยใช้กฎลูกโซ่:wijwijw_{ij}jjjiii ∂E∂wij=∂E∂oj∂oj∂zj∂zj∂wij∂E∂wij=∂E∂oj∂oj∂zj∂zj∂wij\frac{\partial E} {\partial w_{ij}}=\frac{\partial E} {\partial o_j} \frac{\partial o_j} {\partial z_{j}} \frac{\partial z_j} {\partial w_{ij}} กับเป็น input เพื่อเซลล์ประสาทญzjzjz_jjjj เทอมสุดท้ายค่อนข้างเรียบง่าย เนื่องจากมีน้ำหนักเพียงหนึ่งเดียวระหว่างและอนุพันธ์คือ:iiijjj ∂zj∂wij=oi∂zj∂wij=oi\frac{\partial z_j} {\partial w_{ij}}=o_i เทอมแรกคือการสืบทอดของฟังก์ชันข้อผิดพลาดเกี่ยวกับเอาต์พุต :ojojo_j ∂E∂oj=−tjoj∂E∂oj=−tjoj\frac{\partial …

40 backpropagation derivative softmax cross-entropy

4

ฟังก์ชั่นค่าใช้จ่ายเป็นอย่างไรจาก Logistic Regression

ฉันกำลังเรียนหลักสูตร Machine Learning Stanford ใน Coursera ในบทที่เกี่ยวกับการถดถอยโลจิสติกฟังก์ชันต้นทุนคือ: จากนั้นมันจะอยู่ที่นี่: ฉันพยายามหาอนุพันธ์ของฟังก์ชันต้นทุน แต่ฉันได้บางอย่างที่แตกต่างออกไปอย่างสิ้นเชิง อนุพันธ์ได้มาอย่างไร ขั้นตอนตัวกลางคืออะไร

29 regression logistic gradient-descent derivative

1

ตัวอย่างทีละขั้นตอนของการสร้างความแตกต่างโดยอัตโนมัติในโหมดย้อนกลับ

ไม่แน่ใจว่าคำถามนี้อยู่ที่นี่หรือไม่ แต่เป็นเรื่องที่เกี่ยวข้องกับวิธีการไล่ระดับสีในการปรับให้เหมาะสมซึ่งดูเหมือนจะอยู่ในหัวข้อที่นี่ อย่างไรก็ตามคุณสามารถโยกย้ายได้ถ้าคุณคิดว่าชุมชนอื่นมีความเชี่ยวชาญในหัวข้อนี้มากกว่า ในระยะสั้นฉันกำลังมองหาตัวอย่างขั้นตอนโดยขั้นตอนของโหมดกลับแตกต่างอัตโนมัติ มีวรรณกรรมไม่มากในหัวข้อที่มีและการใช้งานที่มีอยู่ (เช่นใน TensorFlow ) ยากที่จะเข้าใจโดยไม่ทราบทฤษฎีที่อยู่เบื้องหลัง ดังนั้นฉันจะขอบคุณมากถ้ามีคนสามารถแสดงรายละเอียดสิ่งที่เราส่งผ่านวิธีที่เราดำเนินการและสิ่งที่เรานำออกจากกราฟการคำนวณ สองคำถามที่ฉันมีปัญหากับ: เมล็ด - ทำไมเราต้องการพวกเขาทั้งหมด ย้อนกลับกฎความแตกต่าง - ฉันรู้วิธีสร้างความแตกต่างไปข้างหน้า แต่เราจะย้อนกลับได้อย่างไร เช่นในตัวอย่างจากส่วนนี้อย่างไรเรารู้ว่าw2¯=w3¯w1w2¯=w3¯w1\bar{w_2}=\bar{w_3}w_1 ? เราจะทำงานกับสัญลักษณ์เท่านั้นหรือส่งผ่านค่าจริงหรือไม่ เช่นในตัวอย่างเดียวกันเป็นwiwiw_iและwi¯wi¯\bar{w_i}สัญลักษณ์หรือค่า?

27 optimization derivative tensorflow automatic-differentiation

1

การได้มาของการเปลี่ยนแปลงตัวแปรของฟังก์ชันความหนาแน่นของความน่าจะเป็น

ในการจดจำรูปแบบหนังสือและการเรียนรู้ของเครื่อง (สูตร 1.27) มันให้ พีY( y) = px( x ) ∣||dxdY|||= px( กรัม( y) ) | ก.'( y) |พีY(Y)=พีx(x)|dxdY|=พีx(ก.(Y))|ก.'(Y)|p_y(y)=p_x(x) \left | \frac{d x}{d y} \right |=p_x(g(y)) | g'(y) | โดยที่ ,เป็น PDF ที่สอดคล้องกับตามการเปลี่ยนแปลงของตัวแปรp x ( x ) p y ( y )x = g( y)x=ก.(Y)x=g(y)พีx( x )พีx(x)p_x(x)พีY( y)พีY(Y)p_y(y) หนังสือบอกว่ามันเป็นเพราะสังเกตว่าตกอยู่ในช่วงจะค่าเล็ก ๆ …

16 machine-learning probability self-study derivative jacobian

3

ฉันจะใส่ข้อมูลที่มีค่าและอนุพันธ์อันดับที่ 1/2 ได้อย่างไร

ฉันมีชุดข้อมูลที่ประกอบด้วยกล่าวคือการวัดตำแหน่งความเร็วและความเร่ง ทั้งหมดมาจาก "การทำงาน" ที่เหมือนกัน ฉันสามารถสร้างระบบเชิงเส้นและพอดีกับพหุนามกับการวัดทั้งหมด แต่ฉันสามารถทำเช่นเดียวกันกับเส้นโค้ง? วิธี 'R' ในการทำเช่นนี้คืออะไร? นี่คือข้อมูลจำลองที่ฉันต้องการให้มี: f <- function(x) 2+x-0.5*x^2+rnorm(length(x), mean=0, sd=0.1) df <- function(x) 1-x+rnorm(length(x), mean=0, sd=0.3) ddf <- function(x) -1+rnorm(length(x), mean=0, sd=0.6) x_f <- runif(5, 0, 5) x_df <- runif(8, 3, 8) x_ddf <- runif(10, 4, 9) data <- data.frame(type=rep('f'), x=x_f, y=f(x_f)) data <- …

14 r model fitting splines derivative

2

อนุพันธ์ของกระบวนการแบบเกาส์เซียน

ฉันเชื่อว่าอนุพันธ์ของกระบวนการเกาส์เซียน (GP) เป็นอีก GP และฉันอยากรู้ว่ามีสมการแบบปิดสำหรับสมการทำนายของอนุพันธ์ของ GP หรือไม่? โดยเฉพาะอย่างยิ่งฉันใช้กำลังสองชี้แจง (หรือที่เรียกว่า Gaussian) ความแปรปรวนร่วมและต้องการทราบเกี่ยวกับการทำนายเกี่ยวกับอนุพันธ์ของกระบวนการแบบเกาส์

12 stochastic-processes gaussian-process derivative

1

ประมาณอันดับที่สองของฟังก์ชั่นการสูญเสีย (หนังสือการเรียนรู้ลึก, 7.33)

ในหนังสือ Goodfellow (ปี 2559) เกี่ยวกับการเรียนรู้อย่างลึกซึ้งเขาได้พูดคุยเกี่ยวกับความเท่าเทียมกันของการหยุดการเข้าสู่ช่วงปกติของ L2 ( https://www.deeplearningbook.org/contents/regularization.htmlหน้า 247) การประมาณกำลังสองของฟังก์ชันต้นทุนถูกกำหนดโดย:jjj J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) โดยที่คือเมทริกซ์ของ Hessian (Eq. 7.33) สิ่งนี้หายไปในระยะกลางหรือไม่ การขยายตัวของเทย์เลอร์ควรเป็น: HHHf(w+ϵ)=f(w)+f′(w)⋅ϵ+12f′′(w)⋅ϵ2f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f″(w)⋅ϵ2f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2

11 neural-networks deep-learning loss-functions derivative

1

การตีความอนุพันธ์ Radon-Nikodym ระหว่างความน่าจะเป็นเป็นอย่างไร

ฉันเคยเห็นบางจุดการใช้เรดอน - นิโคดีมาของการวัดความน่าจะเป็นหนึ่งโดยเทียบกับอีกประการหนึ่งที่โดดเด่นที่สุดใน Kullback-Leibler divergence ซึ่งเป็นอนุพันธ์ของการวัดความน่าจะเป็นของแบบจำลองสำหรับพารามิเตอร์โดยพลการเกี่ยวกับพารามิเตอร์จริง :θ 0θθ\thetaθ0θ0\theta_0 dPθdPθ0dPθdPθ0\frac {dP_\theta}{dP_{\theta_0}} ที่ไหนเหล่านี้มีทั้งที่เป็นมาตรการในพื้นที่ของ datapoints เงื่อนไขเกี่ยวกับค่าพารามิเตอร์:theta)Pθ(D)=P(D|θ)Pθ(D)=P(D|θ)P_\theta(D)=P(D|\theta) การตีความของอนุพันธ์ Radon-Nikodym เช่นนี้ในการเบี่ยงเบน Kullback-Leibler คืออะไรหรือโดยทั่วไประหว่างความน่าจะเป็นสองมาตรการ?

11 mathematical-statistics kullback-leibler derivative measure-theory

3

เครือข่ายประสาทสามารถเรียนรู้การทำงานและการทำงานของมันได้หรือไม่

ฉันเข้าใจว่าเครือข่ายนิวรัล (NNs) สามารถพิจารณาได้ว่าเป็นผู้ประมาณสากลสำหรับฟังก์ชั่นและอนุพันธ์ภายใต้สมมติฐานบางประการ (ทั้งเครือข่ายและฟังก์ชั่นโดยประมาณ) ในความเป็นจริงฉันได้ทำการทดสอบจำนวนมากเกี่ยวกับฟังก์ชั่นที่เรียบง่าย แต่ไม่สำคัญ (เช่นพหุนาม) และดูเหมือนว่าฉันสามารถประมาณพวกเขาและอนุพันธ์อันดับแรกได้เป็นอย่างดี (ตัวอย่างแสดงไว้ด้านล่าง) อย่างไรก็ตามสิ่งที่ไม่ชัดเจนสำหรับฉันคือว่าทฤษฎีบทที่นำไปสู่การขยาย (หรืออาจจะขยาย) ไปยัง functionals และอนุพันธ์การทำงานของพวกเขา ลองพิจารณาตัวอย่างเช่นการใช้งาน: F[f(x)]=∫badx f(x)g(x)F[f(x)]=∫abdx f(x)g(x)\begin{equation} F[f(x)] = \int_a^b dx ~ f(x) g(x) \end{equation} ด้วยการใช้งานอนุพันธ์: δF[f(x)]δf(x)=g(x)δF[f(x)]δf(x)=g(x)\begin{equation} \frac{\delta F[f(x)]}{\delta f(x)} = g(x) \end{equation} ที่f(x)f(x)f(x)ขึ้นอยู่ทั้งหมดและไม่ใช่นิดบนg(x)g(x)g(x)) NN สามารถเรียนรู้การทำแผนที่ด้านบนและอนุพันธ์ของหน้าที่ได้หรือไม่ โดยเฉพาะอย่างยิ่งหากมีใครแยกโดเมนxxxมากกว่า[a,b][a,b][a,b]และให้f(x)f(x)f(x)(ที่จุดที่ไม่น่าสนใจ) เป็นอินพุตและF[f(x)]F[f(x)]F[f(x)]ในฐานะที่เป็นเอาท์พุท NN สามารถเรียนรู้การทำแผนที่นี้อย่างถูกต้อง (อย่างน้อยในทางทฤษฎี)? ถ้าเป็นเช่นนั้นมันสามารถเรียนรู้อนุพันธ์ของการทำแผนที่ได้หรือไม่ ฉันได้ทำการทดสอบหลายครั้งและดูเหมือนว่า NN อาจเรียนรู้การแมปF[f(x)]F[f(x)]F[f(x)]ได้ในระดับหนึ่ง อย่างไรก็ตามในขณะที่ความถูกต้องของการทำแผนที่นี้ก็โอเค แต่ก็ไม่ได้ยอดเยี่ยม และที่น่าเป็นห่วงก็คืออนุพันธ์ของฟังก์ชันที่คำนวณได้นั้นเป็นขยะที่สมบูรณ์ (ทั้งสองอย่างนี้อาจเกี่ยวข้องกับปัญหาในการฝึกอบรมและอื่น …

11 machine-learning neural-networks function derivative

1

การคำนวณอนุพันธ์ของฟังก์ชันเมทริกซ์นี้คืออะไร

ในหลักสูตรการเรียนรู้ด้วยเครื่องของ Andrew Ng เขาใช้สูตรนี้: ∇Atr(ABATC)=CAB+CTABT∇Atr(ABATC)=CAB+CTABT\nabla_A tr(ABA^TC) = CAB + C^TAB^T และเขาพิสูจน์อย่างรวดเร็วซึ่งแสดงด้านล่าง: ∇Atr(ABATC)=∇Atr(f(A)ATC)=∇∘tr(f(∘)ATC)+∇∘tr(f(A)∘TC)=(ATC)Tf′(∘)+(∇∘Ttr(f(A)∘TC)T=CTABT+(∇∘Ttr(∘T)Cf(A))T=CTABT+((Cf(A))T)T=CTABT+CAB∇Atr(ABATC)=∇Atr(f(A)ATC)=∇∘tr(f(∘)ATC)+∇∘tr(f(A)∘TC)=(ATC)Tf′(∘)+(∇∘Ttr(f(A)∘TC)T=CTABT+(∇∘Ttr(∘T)Cf(A))T=CTABT+((Cf(A))T)T=CTABT+CAB\nabla_A tr(ABA^TC) \\ = \nabla_A tr(f(A)A^TC) \\ = \nabla_{\circ} tr(f(\circ)A^TC) + \nabla_{\circ}tr(f(A)\circ^T C)\\ =(A^TC)^Tf'(\circ) + (\nabla_{\circ^T}tr(f(A)\circ^T C)^T \\ = C^TAB^T + (\nabla_{\circ^T}tr(\circ^T)Cf(A))^T \\ =C^TAB^T + ((Cf(A))^T)^T \\ = C^TAB^T + CAB หลักฐานดูเหมือนหนาแน่นมากโดยไม่มีความคิดเห็นใด ๆ และฉันมีปัญหาในการทำความเข้าใจ เกิดอะไรขึ้นจากความเสมอภาคที่สองถึงสาม

10 machine-learning matrix derivative

คำถามติดแท็ก derivative