3
การไล่ระดับสีแบบแบทช์กับการไล่ระดับสีแบบสุ่ม
สมมติว่าเรามีชุดการฝึกอบรมสำหรับม. นอกจากนี้สมมติว่าเราใช้อัลกอริทึมการเรียนรู้แบบมีผู้สอนในชุดฝึกอบรม สมมติฐานจะแสดงเป็นn} เราต้องการที่จะหาพารามิเตอร์ที่ลด "ระยะทาง" ระหว่างและ{(i)}) ให้(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,mi = 1, \dots, mhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nh_{\theta}(x_{(i)}) = \theta_0+\theta_{1}x_{(i)1} + \cdots +\theta_{n}x_{(i)n}θθ\mathbf{\theta}y(i)y(i)y_{(i)}hθ(x(i))hθ(x(i))h_{\theta}(x_{(i)})J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(\theta) = \frac{1}{2} \sum_{i=1}^{m} (y_{(i)}-h_{\theta}(x_{(i)})^{2} จากนั้นเราก็ต้องการที่จะหาที่ช่วยลดtheta) ในการไล่ระดับสีเราทำการเตรียมพารามิเตอร์แต่ละตัวและทำการอัพเดทต่อไปนี้:θθ\thetaJ(θ)J(θ)J(\theta)θj:=θj−α∂∂θjJ(θ)θj:=θj−α∂∂θjJ(θ)\theta_j := \theta_j-\alpha \frac{\partial}{\partial \theta_{j}} J(\theta) อะไรคือความแตกต่างที่สำคัญระหว่างการไล่ระดับสีแบบแบทช์และการไล่ระดับสีแบบสุ่มแบบสุ่ม ทั้งคู่ใช้กฎการอัพเดทข้างต้น แต่สิ่งหนึ่งดีกว่าอันอื่นหรือไม่