ชี้แจงเกี่ยวกับกฎ Perceptron เทียบกับการไล่สีไล่ระดับและการไล่สีแบบไล่ระดับ Stochastic

ฉันทดลองใช้งาน Perceptron ต่างกันเล็กน้อยและต้องการตรวจสอบให้แน่ใจว่าฉันเข้าใจ "การทำซ้ำ" อย่างถูกต้องหรือไม่

กฎ perceptron ดั้งเดิมของ Rosenblatt

เท่าที่ฉันเข้าใจในอัลกอริทึม Perceptron แบบคลาสสิกของ Rosenblatt น้ำหนักถูกปรับปรุงพร้อมกันหลังจากทุกตัวอย่างการฝึกอบรมผ่าน

$\Delta{w}^{(t+1)} = \Delta{w}^{(t)} + \eta(target - actual)x_i$

ที่ $eta$ คือกฎการเรียนรู้ที่นี่ และเป้าหมายและที่เกิดขึ้นจริงมีทั้งเกณฑ์ (-1 หรือ 1) ฉันใช้มันเป็น 1 ซ้ำ = 1 ผ่านตัวอย่างการฝึกอบรม แต่เวกเตอร์น้ำหนักถูกปรับปรุงหลังจากแต่ละตัวอย่างการฝึกอบรม

และฉันคำนวณค่า "จริง" เป็น

$sign ({\pmb{w}^T\pmb{x}}) = sign( w_0 + w_1 x_1 + ... + w_d x_d)$

โคตรลาดลง

$\Delta{w}^{(t+1)} = \Delta{w}^{(t)} + \eta(target - actual)x_i$

อย่างไรก็ตามเช่นเดียวกับกฎ perceptron targetและactualไม่ได้ถูกกำหนดค่า แต่เป็นค่าจริง นอกจากนี้ฉันนับ "ซ้ำ" เป็นเส้นทางเหนือตัวอย่างการฝึกอบรม

ทั้ง SGD และกฎ perceptron แบบคลาสสิกมาบรรจบกันในกรณีที่แยกกันไม่ได้เป็นเส้นตรงนี้อย่างไรก็ตามฉันกำลังมีปัญหากับการใช้การไล่ลงของการไล่ระดับสี

โคตรลาด

ที่นี่ฉันไปดูตัวอย่างการฝึกอบรมและสรุปการเปลี่ยนแปลงน้ำหนักสำหรับการผ่าน 1 ตัวอย่างการฝึกอบรมและอัปเดตน้ำหนักหลังจากนั้นเช่น

สำหรับแต่ละตัวอย่างการฝึกอบรม:

$\Delta{w_{new}} \mathrel{{+}{=}} \Delta{w}^{(t)} + \eta(target - actual)x_i$

...

หลังจาก 1 ผ่านชุดฝึกอบรม:

$\Delta{w} \mathrel{{+}{=}} \Delta{w_{new}}$

ฉันสงสัยว่าถ้าสมมติฐานนี้ถูกต้องหรือหากฉันขาดอะไร ฉันลองอัตราการเรียนรู้ที่หลากหลาย (มากถึงเล็กมาก) แต่ก็ไม่สามารถทำให้มันแสดงสัญญาณการลู่เข้าได้ ดังนั้นฉันสงสัยว่าฉันเข้าใจผิด sth ที่นี่

ขอบคุณเซบาสเตียน

optimization gradient-descent perceptron

$\Delta$

Perceptron:

$\pmb{w}^{(t+1)} = \pmb{w}^{(t)} + \eta_t (y^{(i)} - \hat{y}^{(i)}) \pmb{x}^{(i)}$

$\hat{y}^{(i)} = \text{sign} ({\pmb{w}^\top\pmb{x}^{(i)}})$ $i^{th}$

สิ่งนี้สามารถดูได้เป็นวิธีการสืบเชื้อสาย subochient subgradient ในฟังก์ชั่น "perceptron loss" ต่อไปนี้:

การสูญเสีย Perceptron:

$L_{\pmb{w}}(y^{(i)}) = \max(0, -y^{(i)} \pmb{w}^\top\pmb{x}^{(i)})$

$\partial L_{\pmb{w}}(y^{(i)}) = \begin{array}{rl} \{ 0 \}, & \text{ if } y^{(i)} \pmb{w}^\top\pmb{x}^{(i)} > 0 \\ \{ -y^{(i)} \pmb{x}^{(i)} \}, & \text{ if } y^{(i)} \pmb{w}^\top\pmb{x}^{(i)} < 0 \\ [-1, 0] \times y^{(i)} \pmb{x}^{(i)}, & \text{ if } \pmb{w}^\top\pmb{x}^{(i)} = 0 \\ \end{array}$

เนื่องจาก perceptron เป็นรูปแบบของ SGD แล้วฉันไม่แน่ใจว่าทำไมการอัปเดต SGD ควรแตกต่างจากการปรับปรุง perceptron วิธีที่คุณเขียนขั้นตอนที่ SGD ด้วยค่าที่ไม่ได้เป็นเกณฑ์คุณจะสูญเสียถ้าคุณทำนายคำตอบที่ถูกต้องเกินไป เลวร้าย.

ขั้นตอนการไล่ระดับแบตช์ของคุณไม่ถูกต้องเนื่องจากคุณใช้ "+ =" เมื่อคุณควรใช้ "=" น้ำหนักปัจจุบันมีการเพิ่มเช่นการฝึกอบรมแต่ละ กล่าวอีกนัยหนึ่งวิธีที่คุณเขียน

$\pmb{w}^{(t+1)} = \pmb{w}^{(t)} + \sum_{i=1}^n \{\pmb{w}^{(t)} - \eta_t \partial L_{\pmb{w}^{(t)}}(y^{(i)}) \}$

สิ่งที่ควรเป็นคือ:

$\pmb{w}^{(t+1)} = \pmb{w}^{(t)} - \eta_t \sum_{i=1}^n {\partial L_{\pmb{w}^{(t)}}(y^{(i)}) }$

$\eta_t = \frac{\eta_0}{\sqrt{t}}$

$\pmb{w}^\top\pmb{x}^{(i)} = 0$ $\partial L= [-1, 0] \times y^{(i)} \pmb{x}^{(i)}$ $\pmb{0} \in \partial L$ $\pmb{w} = \pmb{0}$ $-y^{(i)} \pmb{x}^{(i)} \in \partial L$

ดังนั้นพวกเขาจึงไม่เหมือนกัน แต่ถ้าคุณทำงานจากสมมติฐานที่ว่าอัลกอริธึม perceptron คือ SGD สำหรับฟังก์ชั่นการสูญเสียบางส่วนและทำวิศวกรรมย้อนกลับฟังก์ชั่นการสูญเสียการสูญเสียเพอร์เซปตรอน

— แซมทอมสัน
แหล่งที่มา

ขอบคุณแซมและฉันขอโทษสำหรับคำถามยุ่ง ๆ ของฉัน ฉันไม่รู้ว่า delta มาจากไหน แต่ "+ =" เป็นสิ่งที่ผิดพลาด ฉันมองข้ามส่วนนั้นไปโดยสิ้นเชิง ขอบคุณสำหรับคำตอบอย่างละเอียด!