รายการฟังก์ชั่นการเปิดใช้งานที่ครอบคลุมในโครงข่ายประสาทเทียมด้วยข้อดี / ข้อเสีย

มีเอกสารอ้างอิงใดบ้างที่ให้รายการฟังก์ชั่นการเปิดใช้งานที่ครอบคลุมในโครงข่ายประสาทเทียมพร้อมกับข้อดี / ข้อเสียของพวกเขา

neural-networks references

ฉันไม่รู้เกี่ยวกับ ANN เพียงพอ แต่ถ้าฟังก์ชั่นการเปิดใช้งานแตกต่างกันอย่างมากในรูปแบบมันจะยากมากที่จะบอกพวกเขานอกเหนือ สำหรับการอภิปรายของสถานการณ์ที่คล้ายคลึงคุณจะได้เห็นคำตอบของฉันที่นี่: ความแตกต่างระหว่าง logit และ probit รุ่น

— gung

ไม่มันสร้างความแตกต่างอย่างใหญ่หลวง

— Viliami

en.wikipedia.org/wiki/Activati on_functionเป็นทรัพยากรที่ดี คุณสามารถใช้อื่น ๆ อีกมากมายรวมทั้งsin(x)ดูopenreview.net/pdf?id=Sks3zF9eg

— Piotr Migdal

สำหรับวิดีโอการสอนเกี่ยวกับฟังก์ชั่นการเปิดใช้งานให้ไปที่: quickkt.com/tutorials/artificial-intelligence/deep-learning/ ......

— vinay kumar

คำตอบ:

143

ฉันจะเริ่มทำรายการที่นี่ของสิ่งที่ฉันได้เรียนรู้จนถึงตอนนี้ ตามที่ @marcodena กล่าวว่าข้อดีและข้อเสียนั้นยากกว่าเพราะส่วนใหญ่เป็นเพียงฮิวริสติกที่เรียนรู้จากการลองทำสิ่งเหล่านี้ แต่อย่างน้อยฉันก็นึกถึงรายการของสิ่งที่พวกเขาไม่สามารถทำร้ายได้

ก่อนอื่นฉันจะนิยามคำอธิบายอย่างชัดเจนดังนั้นจึงไม่มีความสับสน:

เอกสาร

สัญกรณ์นี้เป็นจากหนังสือ Neilsen ของ

เครือข่าย Feedforward Neural เป็นเซลล์ประสาทหลายชั้นเชื่อมต่อกัน ใช้ในอินพุตจากนั้นอินพุต "เล็ดลอด" ผ่านเครือข่ายและเครือข่ายประสาทส่งกลับเอาต์พุตเวกเตอร์

อีกอย่างเป็นทางการโทรเปิดใช้งาน (aka เอาท์พุท) ของเซลล์ประสาทในชั้นที่เป็นองค์ประกอบในการป้อนข้อมูลเวกเตอร์ $a^i_j$ $j^{th}$ $i^{th}$ $a^1_j$ $j^{th}$

จากนั้นเราสามารถเชื่อมโยงอินพุตของเลเยอร์ถัดไปกับก่อนหน้านี้ผ่านความสัมพันธ์ต่อไปนี้:

a_{j}^{i} = σ (\sum_{k} (w_{j k}^{i} \cdot a_{k}^{i - 1}) + b_{j}^{i})

$a^i_j = \sigma\bigg(\sum\limits_k (w^i_{jk} \cdot a^{i-1}_k) + b^i_j\bigg)$

ที่ไหน

เป็นฟังก์ชั่นการเปิดใช้งาน $\sigma$
มีน้ำหนักจากที่เซลล์ประสาทในชั้นกับเซลล์ประสาทในชั้น $w^i_{jk}$ $k^{th}$ $(i-1)^{th}$ $j^{th}$ $i^{th}$
อคติของเซลล์ประสาทในชั้นและ $b^i_j$ $j^{th}$ $i^{th}$
แทนค่าการเปิดใช้งานของเซลล์ประสาทในชั้น $a^i_j$ $j^{th}$ $i^{th}$

บางครั้งที่เราเขียนที่จะเป็นตัวแทนในคำอื่น ๆ ค่ากระตุ้นการทำงานของเซลล์ประสาทก่อนที่จะใช้ฟังก์ชั่นการเปิดใช้งาน $z^i_j$ $\sum\limits_k (w^i_{jk} \cdot a^{i-1}_k) + b^i_j$

ป้อนคำอธิบายรูปภาพที่นี่

สำหรับโน้ตที่กระชับยิ่งขึ้นเราสามารถเขียนได้

a^{ผม} = σ (W^{ผม} \times a^{ผม - 1} + ข^{ผม})

$a^i = \sigma(w^i \times a^{i-1} + b^i)$

การใช้สูตรนี้ในการคำนวณการส่งออกของเครือข่าย feedforward ที่สำหรับการป้อนข้อมูลบางอย่างตั้งแล้วคำนวณที่เป็นจำนวนชั้น $I \in \mathbb{R}^n$ $a^1 = I$ $a^2, a^3, \ldots, a^m$ $m$

ฟังก์ชั่นการเปิดใช้งาน

(ในต่อไปนี้เราจะเขียนแทนเพื่อให้อ่านได้) $\exp(x)$ $e^x$

เอกลักษณ์

เรียกอีกอย่างว่าฟังก์ชั่นการเปิดใช้งานเชิงเส้น

a_{j}^{i} = σ (z_{j}^{i}) = z_{j}^{i}

$a^i_j = \sigma(z^i_j) = z^i_j$

เอกลักษณ์

ขั้นตอน

a_{J}^{ผม} = σ (Z_{J}^{ผม}) = {\begin{cases} 0 & ถ้า Z_{J}^{ผม} < 0 \\ 1 & ถ้า Z_{J}^{ผม} > 0 \end{cases}

$a^i_j = \sigma(z^i_j) = \begin{cases} 0 & \text{if } z^i_j < 0 \\ 1 & \text{if } z^i_j > 0 \end{cases}$

ขั้นตอน

เชิงเส้น

เลือกและซึ่งเป็น "ช่วง" ของเรา ทุกอย่างที่น้อยกว่าช่วงนี้จะเป็น 0 และทุกอย่างที่มากกว่าช่วงนี้จะเป็น 1 สิ่งอื่นใดที่ถูกประมาณเชิงเส้นตรงระหว่างกัน อย่างเป็นทางการ: $x_{\min}$ $x_{\max}$

a_{J}^{ผม} = σ (Z_{J}^{ผม}) = {\begin{cases} 0 & ถ้า Z_{J}^{ผม} < x_{นาที} \\ ม. Z_{J}^{ผม} + ข & ถ้า x_{นาที} \leq Z_{J}^{ผม} \leq x_{สูงสุด} \\ 1 & ถ้า Z_{J}^{ผม} > x_{สูงสุด} \end{cases}

$a^i_j = \sigma(z^i_j) = \begin{cases} 0 & \text{if } z^i_j < x_{\min} \\ m z^i_j+b & \text{if } x_{\min} \leq z^i_j \leq x_{\max} \\ 1 & \text{if } z^i_j > x_{\max} \end{cases}$

ที่ไหน

ม. = \frac{1}{x_{สูงสุด} - x_{นาที}}

$m = \frac{1}{x_{\max}-x_{\min}}$

และ

ข = - ม. x_{นาที} = 1 - ม. x_{สูงสุด}

$b = -m x_{\min} = 1 - m x_{\max}$

เชิงเส้น

sigmoid

a_{J}^{ผม} = σ (Z_{J}^{ผม}) = \frac{1}{1 + ประสบการณ์ (- Z_{J}^{ผม})}

$a^i_j = \sigma(z^i_j) = \frac{1}{1+\exp(-z^i_j)}$

sigmoid

บันทึกประกอบที่สมบูรณ์

a_{J}^{ผม} = σ (Z_{J}^{ผม}) = 1 - ประสบการณ์ (- ประสบการณ์ (Z_{J}^{ผม}))

$a^i_j = \sigma(z^i_j) = 1 − \exp\!\big(−\exp(z^i_j)\big)$

บันทึกประกอบที่สมบูรณ์

มีสองขั้ว

a_{J}^{ผม} = σ (Z_{J}^{ผม}) = {\begin{cases} - 1 & ถ้า Z_{J}^{ผม} < 0 \\ 1 & ถ้า Z_{J}^{ผม} > 0 \end{cases}

$a^i_j = \sigma(z^i_j) = \begin{cases} -1 & \text{if } z^i_j < 0 \\ \ \ \ 1 & \text{if } z^i_j > 0 \end{cases}$

มีสองขั้ว

Sigmoid สองขั้ว

a_{J}^{ผม} = σ (Z_{J}^{ผม}) = \frac{1 - ประสบการณ์ (- Z_{J}^{ผม})}{1 + ประสบการณ์ (- Z_{J}^{ผม})}

$a^i_j = \sigma(z^i_j) = \frac{1-\exp(-z^i_j)}{1+\exp(-z^i_j)}$ Sigmoid สองขั้ว

Tanh

a_{J}^{ผม} = σ (Z_{J}^{ผม}) = \tanh (Z_{J}^{ผม})

$a^i_j = \sigma(z^i_j) = \tanh(z^i_j)$

Tanh

Tanh ของ LeCun

ดูประสิทธิภาพ Backprop

a_{J}^{ผม} = σ (Z_{J}^{ผม}) = 1.7159 \tanh (\frac{2}{3} Z_{J}^{ผม})

$a^i_j = \sigma(z^i_j) = 1.7159 \tanh\!\left( \frac{2}{3} z^i_j\right)$

Tanh ของ LeCun

ลดขนาด:

Tanh Scaled ของ LeCun

Hard Tanh

a_{J}^{ผม} = σ (Z_{J}^{ผม}) = สูงสุด (- 1, นาที (1, Z_{J}^{ผม}))

$a^i_j = \sigma(z^i_j) = \max\!\big(-1, \min(1, z^i_j)\big)$

Hard Tanh

แน่นอน

a_{J}^{ผม} = σ (Z_{J}^{ผม}) = | Z_{J}^{ผม} |

$a^i_j = \sigma(z^i_j) = \mid z^i_j \mid$

แน่นอน

เครื่องปรับ

ยังเป็นที่รู้จัก Rectified เชิงเส้น Unit (Relu), แม็กซ์หรือฟังก์ชั่นทางลาด

a_{J}^{ผม} = σ (Z_{J}^{ผม}) = สูงสุด (0, Z_{J}^{ผม})

$a^i_j = \sigma(z^i_j) = \max(0, z^i_j)$

เครื่องปรับ

การดัดแปลงของ ReLU

นี่เป็นฟังก์ชั่นการเปิดใช้งานที่ฉันเล่นด้วยซึ่งดูเหมือนว่าจะมีประสิทธิภาพที่ดีมากสำหรับ MNIST ด้วยเหตุผลลึกลับ

a_{J}^{ผม} = σ (Z_{J}^{ผม}) = สูงสุด (0, Z_{J}^{ผม}) + \cos (Z_{J}^{ผม})

$a^i_j = \sigma(z^i_j) = \max(0, z^i_j)+\cos(z^i_j)$

ลดขนาด:

a_{J}^{ผม} = σ (Z_{J}^{ผม}) = สูงสุด (0, Z_{J}^{ผม}) + บาป (Z_{J}^{ผม})

$a^i_j = \sigma(z^i_j) = \max(0, z^i_j)+\sin(z^i_j)$

ลดขนาด:

วงจรเรียงกระแสเรียบ

หรือที่เรียกว่า Smooth Rectified Linear Unit, Smooth Max หรือ Soft plus

a_{J}^{ผม} = σ (Z_{J}^{ผม}) = เข้าสู่ระบบ (1 + ประสบการณ์ (Z_{J}^{ผม}))

$a^i_j = \sigma(z^i_j) = \log\!\big(1+\exp(z^i_j)\big)$

วงจรเรียงกระแสเรียบ

logit

a_{J}^{ผม} = σ (Z_{J}^{ผม}) = เข้าสู่ระบบ (\frac{Z_{J}^{ผม}}{(1 - Z_{J}^{ผม})})

$a^i_j = \sigma(z^i_j) = \log\!\bigg(\frac{z^i_j}{(1 − z^i_j)}\bigg)$

logit

ลดขนาด:

ปรับขนาด Logit

probit

a_{J}^{ผม} = σ (Z_{J}^{ผม}) = \sqrt{2} {ERF}^{- 1} (2 Z_{J}^{ผม} - 1)

$a^i_j = \sigma(z^i_j) = \sqrt{2}\,\text{erf}^{-1}(2z^i_j-1)$

$\text{erf}$

หรือสามารถแสดงเป็น

a_{J}^{ผม} = σ (Z_{J}^{ผม}) = φ (Z_{J}^{ผม})

$a^i_j = \sigma(z^i_j) = \phi(z^i_j)$

$\phi$

probit

ลดขนาด:

Probit Scaled

โคไซน์

ดูsinks ครัวสุ่ม

a_{J}^{ผม} = σ (Z_{J}^{ผม}) = \cos (Z_{J}^{ผม})

$a^i_j = \sigma(z^i_j) = \cos(z^i_j)$

โคไซน์

Softmax

a_{J}^{ผม} = \frac{ประสบการณ์ (Z_{J}^{ผม})}{\underset{k}{Σ} ประสบการณ์ (Z_{k}^{ผม})}

$a^i_j = \frac{\exp(z^i_j)}{\sum\limits_k \exp(z^i_k)}$

$z^i_j$ $\exp(z^i_j)$ $z^i_j$ $0$

$\log(a^i_j)$

เข้าสู่ระบบ (a_{J}^{ผม}) = เข้าสู่ระบบ (\frac{ประสบการณ์ (Z_{J}^{ผม})}{\underset{k}{Σ} ประสบการณ์ (Z_{k}^{ผม})})

$\log(a^i_j) = \log\left(\frac{\exp(z^i_j)}{\sum\limits_k \exp(z^i_k)}\right)$

เข้าสู่ระบบ (a_{J}^{ผม}) = Z_{J}^{ผม} - เข้าสู่ระบบ (\underset{k}{Σ} ประสบการณ์ (Z_{k}^{ผม}))

$\log(a^i_j) = z^i_j - \log(\sum\limits_k \exp(z^i_k))$

ที่นี่เราจำเป็นต้องใช้เคล็ดลับบันทึกผลรวม :

สมมติว่าเรากำลังคำนวณ:

เข้าสู่ระบบ ({อี}^{2} + {อี}^{9} + {อี}^{11} + {อี}^{- 7} + {อี}^{- 2} + {อี}^{5})

$\log(e^2 + e^9 + e^{11} + e^{-7} + e^{-2} + e^5)$

อันดับแรกเราจะจัดเรียงเอ็กซ์โปเนนเชียลของเราตามขนาดเพื่อความสะดวก:

เข้าสู่ระบบ ({อี}^{11} + {อี}^{9} + {อี}^{5} + {อี}^{2} + {อี}^{- 2} + {อี}^{- 7})

$\log(e^{11} + e^9 + e^5 + e^2 + e^{-2} + e^{-7})$

$e^{11}$ $\frac{e^{-11}}{e^{-11}}$

เข้าสู่ระบบ (\frac{{อี}^{- 11}}{{อี}^{- 11}} ({อี}^{11} + {อี}^{9} + {อี}^{5} + {อี}^{2} + {อี}^{- 2} + {อี}^{- 7}))

$\log(\frac{e^{-11}}{e^{-11}}(e^{11} + e^9 + e^5 + e^2 + e^{-2} + e^{-7}))$

เข้าสู่ระบบ (\frac{1}{{อี}^{- 11}} ({อี}^{0} + {อี}^{- 2} + {อี}^{- 6} + {อี}^{- 9} + {อี}^{- 13} + {อี}^{- 18}))

$\log(\frac{1}{e^{-11}}(e^{0} + e^{-2} + e^{-6} + e^{-9} + e^{-13} + e^{-18}))$

เข้าสู่ระบบ ({อี}^{11} ({อี}^{0} + {อี}^{- 2} + {อี}^{- 6} + {อี}^{- 9} + {อี}^{- 13} + {อี}^{- 18}))

$\log(e^{11}(e^{0} + e^{-2} + e^{-6} + e^{-9} + e^{-13} + e^{-18}))$

เข้าสู่ระบบ ({อี}^{11}) + เข้าสู่ระบบ ({อี}^{0} + {อี}^{- 2} + {อี}^{- 6} + {อี}^{- 9} + {อี}^{- 13} + {อี}^{- 18})

$\log(e^{11}) + \log(e^{0} + e^{-2} + e^{-6} + e^{-9} + e^{-13} + e^{-18})$

11 + เข้าสู่ระบบ ({อี}^{0} + {อี}^{- 2} + {อี}^{- 6} + {อี}^{- 9} + {อี}^{- 13} + {อี}^{- 18})

$11 + \log(e^{0} + e^{-2} + e^{-6} + e^{-9} + e^{-13} + e^{-18})$

$\log(e^{11})$ $e^{-11}$ $\leq 0$

$m=\max(z^i_1, z^i_2, z^i_3, ...)$

เข้าสู่ระบบ (\underset{k}{Σ} ประสบการณ์ (Z_{k}^{ผม})) = ม. + เข้าสู่ระบบ (\underset{k}{Σ} ประสบการณ์ (Z_{k}^{ผม} - ม.))

$\log\!(\sum\limits_k \exp(z^i_k)) = m + \log(\sum\limits_k \exp(z^i_k - m))$

จากนั้นฟังก์ชั่น softmax ของเราจะกลายเป็น:

a_{J}^{ผม} = ประสบการณ์ (เข้าสู่ระบบ (a_{J}^{ผม})) = ประสบการณ์ (Z_{J}^{ผม} - ม. - เข้าสู่ระบบ (\underset{k}{Σ} ประสบการณ์ (Z_{k}^{ผม} - ม.)))

$a^i_j = \exp(\log(a^i_j))=\exp\!\left( z^i_j - m - \log(\sum\limits_k \exp(z^i_k - m))\right)$

เช่นเดียวกันกับ sidenote อนุพันธ์ของฟังก์ชัน softmax คือ:

\frac{d σ (Z_{J}^{ผม})}{d Z_{J}^{ผม}} = σ^{'} (Z_{J}^{ผม}) = σ (Z_{J}^{ผม}) (1 - σ (Z_{J}^{ผม}))

$\frac{d \sigma(z^i_j)}{d z^i_j}=\sigma^{\prime}(z^i_j)= \sigma(z^i_j)(1 - \sigma(z^i_j))$

maxout

$z$ $a^i_j$

$n$

a_{J}^{ผม} = \underset{k \in [1, n]}{สูงสุด} s_{J k}^{ผม}

$a^i_j = \max\limits_{k \in [1,n]} s^i_{jk}$

ที่ไหน

s_{J k}^{ผม} = a^{ผม - 1} ∙ W_{J k}^{ผม} + ข_{J k}^{ผม}

$s^i_{jk} = a^{i-1} \bullet w^i_{jk} + b^i_{jk}$

$\bullet$

เพื่อช่วยให้เราคิดเกี่ยวกับเรื่องนี้พิจารณาเมทริกซ์น้ำหนัก $W^i$ $i^{\text{th}}$ $W^i$ $W^i_j$ $j$ $i-1$

$W^i$ $W^i_j$ $j$ $W^i_{jk}$ $k$ $j$ $i-1$

$b^i$ $b^i_j$ $j$ $i$

$b^i$ $i$ $b^i_j$ $b^i_{jk}$ $k$ $j^{\text{th}}$

$w^i_j$ $b^i_j$ $w^i_{jk}$ $a^{i-1}$ $i-1$ $b^i_{jk}$

เครือข่ายฟังก์ชัน Radial Basis

Radial Basis Function Networks เป็นการปรับเปลี่ยนเครือข่าย Feedforward Neural โดยที่ไม่ต้องใช้

a_{J}^{ผม} = σ (\underset{k}{Σ} (W_{J k}^{ผม} \cdot a_{k}^{ผม - 1}) + ข_{J}^{ผม})

$a^i_j=\sigma\bigg(\sum\limits_k (w^i_{jk} \cdot a^{i-1}_k) + b^i_j\bigg)$

$w^i_{jk}$ $k$ $\mu^i_{jk}$ $\sigma^i_{jk}$

$\rho$ $\sigma^i_{jk}$ $a^i_j$ $z^i_{jk}$

Z_{J k}^{ผม} = \sqrt{‖ (a^{ผม - 1} - μ_{J k}^{ผม} ‖} = \sqrt{\underset{ℓ}{Σ} (a_{ℓ}^{ผม - 1} - μ_{J k ℓ}^{ผม})^{2}}

$z^i_{jk}=\sqrt{\Vert(a^{i-1}-\mu^i_{jk}\Vert}=\sqrt{\sum\limits_\ell (a^{i-1}_\ell - \mu^i_{jk\ell})^2}$

$\mu^i_{jk\ell}$ $\ell^\text{th}$ $\mu^i_{jk}$ $\sigma^i_{jk}$

Z_{J k}^{ผม} = \sqrt{(a^{ผม - 1} - μ_{J k}^{ผม})^{T} Σ_{J k}^{ผม} (a^{ผม - 1} - μ_{J k}^{ผม})}

$z^i_{jk}=\sqrt{(a^{i-1}-\mu^i_{jk})^T \Sigma^i_{jk} (a^{i-1}-\mu^i_{jk})}$

$\Sigma^i_{jk}$

Σ_{J k}^{ผม} = วินิจฉัย (σ_{J k}^{ผม})

$\Sigma^i_{jk} = \text{diag}(\sigma^i_{jk})$

$\Sigma^i_{jk}$ $\sigma^i_{jk}$ $a^{i-1}$ $\mu^i_{jk}$

นี่เป็นเพียงการบอกว่าระยะทาง Mahalanobis ถูกกำหนดเป็น

Z_{J k}^{ผม} = \sqrt{\underset{ℓ}{Σ} \frac{(a_{ℓ}^{ผม - 1} - μ_{J k ℓ}^{ผม})^{2}}{σ_{J k ℓ}^{ผม}}}

$z^i_{jk}=\sqrt{\sum\limits_\ell \frac{(a^{i-1}_{\ell} - \mu^i_{jk\ell})^2}{\sigma^i_{jk\ell}}}$

$\sigma^i_{jk\ell}$ $\ell^\text{th}$ $\sigma^i_{jk}$ $\sigma^i_{jk\ell}$

$\Sigma^i_{jk}$ $\Sigma^i_{jk} = \text{diag}(\sigma^i_{jk})$

$a^i_j$

a_{J}^{ผม} = \underset{k}{Σ} W_{J k}^{ผม} ρ (Z_{J k}^{ผม})

$a^i_j=\sum\limits_k w^i_{jk}\rho(z^i_{jk})$

ในเครือข่ายเหล่านี้พวกเขาเลือกที่จะคูณด้วยน้ำหนักหลังจากใช้ฟังก์ชั่นการเปิดใช้งานด้วยเหตุผล

$\mu^i_{jk}$ $\sigma^i_{jk}$ $a^i_j$

ดูที่นี่ด้วย

ฟังก์ชัน Radial Basis Function การเปิดใช้งานเครือข่าย

เสียน

ρ (Z_{J k}^{ผม}) = ประสบการณ์ (- \frac{1}{2} (Z_{J k}^{ผม})^{2})

$\rho(z^i_{jk}) = \exp\!\big(-\frac{1}{2} (z^i_{jk})^2\big)$

เสียน

Multiquadratic

$(x, y)$ $(z^i_j, 0)$ $(x, y)$ :

ρ (Z_{J k}^{ผม}) = \sqrt{(Z_{J k}^{ผม} - x)^{2} + Y^{2}}

$\rho(z^i_{jk}) = \sqrt{(z^i_{jk}-x)^2 + y^2}$

นี้เป็นจากวิกิพีเดีย มันไม่ได้มีขอบเขตและสามารถเป็นค่าบวกได้แม้ว่าฉันจะสงสัยว่ามีวิธีการทำให้เป็นมาตรฐานหรือไม่

เมื่อ $y=0$ นี่เทียบเท่ากับสัมบูรณ์ (พร้อมเลื่อนแนวนอน $x$ )

Multiquadratic

ผกผันหลายหลาก

เช่นเดียวกับกำลังสองยกเว้นพลิก:

ρ (Z_{J k}^{ผม}) = \frac{1}{\sqrt{(Z_{J k}^{ผม} - x)^{2} + Y^{2}}}

$\rho(z^i_{jk}) = \frac{1}{\sqrt{(z^i_{jk}-x)^2 + y^2}}$

ผกผันหลายหลาก

* กราฟิกจาก intmath ของกราฟโดยใช้ SVG

— Phylliida
แหล่งที่มา

ยินดีต้อนรับสู่ประวัติย่อ +6 นี่คือข้อมูลที่ไม่น่าเชื่อ ฉันหวังว่าเราจะเห็นมันมากกว่านี้ในอนาคต

— gung

นอกจากนี้ยังมีฟังก์ชั่นเชิงเส้นที่แก้ไขอย่างราบรื่นของฟอร์ม

\log (1 + \exp (x))

$\log(1+\exp(x))$ และ probit

— Memming

โอเคฉันคิดว่าฉันเพิ่ม Logit, Probit และบันทึกการใช้งานเสริม แต่ฉันไม่มีความเข้าใจอย่างลึกซึ้งในหัวข้อเหล่านี้ดังนั้นฉันอาจเข้าใจผิดรูปแบบการเขียนของพวกเขา ถูกต้องหรือไม่

— Phylliida

นี่จะเป็นกระดาษที่น่าสนใจที่มีรายการอ้างอิงที่ดี ยกตัวอย่างเช่นarxiv.org/abs/1505.03654 อย่าลังเลที่จะติดต่อฉันหากคุณตัดสินใจที่จะเขียนบทความและต้องการอ้างอิงอื่น ๆ

— Hunaphu

บางคนควรอัปเดตสิ่งนี้ด้วย Elu, Leaky ReLU, PReLU และ RReLU

— Viliami

หนึ่งในรายการดังกล่าว แต่ไม่ละเอียดมาก: http://cs231n.github.io/neural-networks-1/

ฟังก์ชั่นการเปิดใช้งานที่ใช้กันทั่วไป

ทุกฟังก์ชั่นการเปิดใช้งาน (หรือไม่ใช่เชิงเส้น ) รับหมายเลขเดียวและทำการดำเนินการทางคณิตศาสตร์คงที่บางอย่างกับมัน มีฟังก์ชั่นการเปิดใช้งานหลายอย่างที่คุณอาจพบในทางปฏิบัติ:

ซ้าย: Sigmoid ไม่ใช่เส้นตรงลบล้างจำนวนจริงในช่วงระหว่าง [0,1] ขวา: tanh ไม่ใช่เส้นตรงลบล้างตัวเลขจริงถึงช่วงระหว่าง [-1,1]
sigmoid sigmoid ไม่ใช่เชิงเส้นมีรูปแบบทางคณิตศาสตร์ $\sigma(x) = 1 / (1 + e^{-x})$ และจะแสดงในภาพด้านบนทางซ้าย ตามที่กล่าวถึงในส่วนก่อนหน้ามันต้องใช้จำนวนจริงและ "สควอช" ในช่วงระหว่าง 0 และ 1 โดยเฉพาะอย่างยิ่งตัวเลขลบขนาดใหญ่กลายเป็น 0 และตัวเลขบวกขนาดใหญ่กลายเป็น 1 ฟังก์ชั่น sigmoid เนื่องจากมีการตีความที่ดีว่าอัตราการยิงของเซลล์ประสาท: จากการไม่ยิงเลย (0) ไปจนถึงการเผาที่อิ่มตัวอย่างเต็มที่ด้วยความถี่สูงสุดที่สันนิษฐาน (1) ในทางปฏิบัติ sigmoid non-linearity เพิ่งหลุดพ้นจากความโปรดปรานและไม่ค่อยมีใครเคยใช้ มันมีสองข้อเสีย:

Sigmoids เปียกโชกและฆ่าไล่ระดับสี คุณสมบัติที่ไม่พึงประสงค์ของ sigmoid neuron คือเมื่อการกระตุ้นของเซลล์ประสาทอิ่มตัวที่ 0 หรือ 1 ทั้งสองการไล่ระดับสีในบริเวณนี้เกือบเป็นศูนย์ โปรดจำไว้ว่าในช่วง backpropagation การไล่ระดับสี (ในพื้นที่) นี้จะถูกคูณกับการไล่ระดับสีของเอาต์พุตของเกตนี้สำหรับวัตถุประสงค์ทั้งหมด ดังนั้นหากการไล่ระดับสีในพื้นที่มีขนาดเล็กมากมันจะ "ฆ่า" การไล่ระดับสีอย่างมีประสิทธิภาพและแทบไม่มีสัญญาณใดที่จะไหลผ่านเซลล์ประสาทไปยังน้ำหนักของมันและเรียกซ้ำไปยังข้อมูลของมัน นอกจากนี้เราต้องใช้ความระมัดระวังเป็นพิเศษเมื่อเริ่มต้นน้ำหนักของเซลล์ประสาท sigmoid เพื่อป้องกันความอิ่มตัว ตัวอย่างเช่นถ้าน้ำหนักเริ่มต้นมีขนาดใหญ่เกินไปเซลล์ประสาทส่วนใหญ่ก็จะอิ่มตัวและเครือข่ายก็แทบจะไม่ได้เรียนรู้

เอาท์พุท sigmoid จะไม่เป็นศูนย์เป็นศูนย์กลาง สิ่งนี้ไม่เป็นที่พึงปรารถนาเนื่องจากเซลล์ประสาทในชั้นถัดไปของการประมวลผลในเครือข่ายประสาท (เพิ่มเติมในเร็ว ๆ นี้) จะได้รับข้อมูลที่ไม่เป็นศูนย์ เรื่องนี้มีผลกระทบต่อการเปลี่ยนแปลงในระหว่างการสืบเชื้อสายการไล่ระดับสีเพราะถ้าข้อมูลที่เข้ามาในเซลล์ประสาทเป็นบวกเสมอ (เช่น $x > 0$ องค์ประกอบตามมา $f = w^Tx + b$ )) จากนั้นก็ไล่ระดับน้ำหนัก $w$ จะเกิดขึ้นในช่วง backpropagation เป็นทั้งบวกหรือลบทั้งหมด (ขึ้นอยู่กับการไล่ระดับสีของการแสดงออกทั้งหมด $f$ ) สิ่งนี้สามารถแนะนำพลวัตซิกซิกซิกที่ไม่พึงประสงค์ในการปรับปรุงการไล่ระดับสีสำหรับตุ้มน้ำหนัก อย่างไรก็ตามโปรดสังเกตว่าเมื่อมีการเพิ่มการไล่ระดับสีเหล่านี้ข้ามชุดข้อมูลการปรับปรุงขั้นสุดท้ายสำหรับตุ้มน้ำหนักอาจมีสัญญาณตัวแปรซึ่งจะช่วยบรรเทาปัญหานี้ได้บ้าง ดังนั้นนี่เป็นความไม่สะดวก แต่มีผลกระทบรุนแรงน้อยกว่าเมื่อเทียบกับปัญหาการเปิดใช้งานอิ่มตัวด้านบน

Tanh tanh ไม่ใช่เชิงเส้นจะปรากฏในภาพด้านบนด้านขวา มันจะกระจายจำนวนจริงที่มีค่าไปยังช่วง [-1, 1] เช่นเดียวกับ sigmoid neuron, การกระตุ้นของมันจะอิ่มตัว แต่ต่างจาก sigmoid neuron ที่มันมีศูนย์เป็นศูนย์ ดังนั้นในทางปฏิบัติtanh non-linearity จึงเป็นที่ต้องการของ sigmoid nonlinearity โปรดทราบด้วยว่า tanh neuron นั้นเป็น sigmoid neuron scaled โดยเฉพาะอย่างยิ่งสิ่งต่อไปนี้: $\tanh(x) = 2 \sigma(2x) -1$ .

ซ้าย:ฟังก์ชั่นการเปิดใช้งานฟังก์ชั่น Linear หน่วย (ReLU) ซึ่งเป็นศูนย์เมื่อ x <0 แล้วเชิงเส้นที่มีความชัน 1 เมื่อ x> 0 ขวา:พล็อตจาก Krizhevsky et al (pdf) กระดาษที่ระบุการปรับปรุงการบรรจบกันของ 6x กับหน่วย ReLU เทียบกับหน่วย tanh
Relu หน่วยเชิงเส้นที่แก้ไขแล้วได้รับความนิยมอย่างมากในช่วงไม่กี่ปีที่ผ่านมา มันคำนวณฟังก์ชั่น $f(x) = \max(0, x)$ . กล่าวอีกนัยหนึ่งการเปิดใช้งานจะถูก จำกัด ที่ศูนย์ (ดูรูปด้านบนทางซ้าย) มีข้อดีและข้อเสียหลายประการในการใช้ ReLUs:

(+) พบว่ามีการเร่งความเร็วอย่างมาก (เช่นปัจจัยที่ 6 ในKrizhevsky et al. ) การลู่เข้าของการไล่ระดับสีแบบสุ่มน้อยเมื่อเทียบกับฟังก์ชัน sigmoid / tanh มันเป็นที่ถกเถียงกันอยู่ว่านี่เป็นเพราะเส้นตรงไม่ใช่ - แบบฟอร์ม

(+) เมื่อเปรียบเทียบกับเซลล์ประสาท tanh / sigmoid ที่เกี่ยวข้องกับการดำเนินการที่มีราคาแพง (exponentials ฯลฯ ), ReLU สามารถดำเนินการได้โดยเพียงแค่นวดเมทริกซ์ของการเปิดใช้งานเป็นศูนย์

(-) น่าเสียดายที่หน่วย ReLU อาจบอบบางในระหว่างการฝึกและสามารถ "ตาย" ได้ ตัวอย่างเช่นการไล่ระดับสีขนาดใหญ่ที่ไหลผ่านเซลล์ประสาท ReLU อาจทำให้น้ำหนักนั้นอัปเดตในลักษณะที่เซลล์ประสาทจะไม่เปิดใช้งานบนดาต้าพอยน์ใด ๆ อีก หากเกิดเหตุการณ์นี้การไล่ระดับสีที่ไหลผ่านหน่วยจะเป็นศูนย์ตลอดจากจุดนั้น นั่นคือหน่วย ReLU สามารถตายได้ในระหว่างการฝึกซ้อมอย่างไม่สามารถย้อนกลับได้เพราะพวกเขาสามารถทำให้ข้อมูลหลุดออกไปได้ ตัวอย่างเช่นคุณอาจพบว่ามากถึง 40% ของเครือข่ายของคุณสามารถ "ตาย" (เช่นเซลล์ประสาทที่ไม่เคยเปิดใช้งานในชุดข้อมูลการฝึกอบรมทั้งหมด) หากตั้งค่าอัตราการเรียนรู้สูงเกินไป ด้วยการตั้งค่าอัตราการเรียนรู้ที่เหมาะสมจึงไม่เกิดปัญหาบ่อยนัก

ReLU ที่รั่วไหล ReLU ที่ไม่มั่นคงเป็นความพยายามหนึ่งในการแก้ไขปัญหา "reLU ที่กำลังจะตาย" แทนที่จะทำหน้าที่เป็นศูนย์เมื่อ x <0 ReLU ที่รั่วจะแทนความชันเชิงลบขนาดเล็ก (0.01 หรือมากกว่านั้น) นั่นคือฟังก์ชั่นการคำนวณ $f(x) = \mathbb{1}(x < 0) (\alpha x) + \mathbb{1}(x>=0) (x)$ ที่ไหน $\alpha$ เป็นค่าคงที่ขนาดเล็ก บางคนรายงานความสำเร็จด้วยฟังก์ชั่นการเปิดใช้งานรูปแบบนี้ แต่ผลลัพธ์ไม่สอดคล้องกันเสมอไป ความลาดชันในภูมิภาคเชิงลบยังสามารถสร้างเป็นพารามิเตอร์ของแต่ละเซลล์ประสาทตามที่เห็นในเซลล์ประสาท PReLU ซึ่งได้รับการแนะนำในDelving Deep เป็นวงจรเรียงกระแสโดย Kaiming He et al., 2015 อย่างไรก็ตามความสม่ำเสมอของผลประโยชน์ในการทำงานในปัจจุบัน กำกวม

maxout มีการเสนอหน่วยประเภทอื่นที่ไม่มีแบบฟอร์มการทำงาน $f(w^Tx + b)$ ที่ไม่เป็นเชิงเส้นถูกนำไปใช้กับผลิตภัณฑ์จุดระหว่างน้ำหนักและข้อมูล ทางเลือกที่ได้รับความนิยมอย่างหนึ่งคือ Maxout neuron (เพิ่งเปิดตัวโดย Goodfellow et al. ) ที่ทำให้โครงร่างของ ReLU และเวอร์ชั่นรั่วไหล เซลล์ประสาท Maxout คำนวณฟังก์ชัน $\max(w_1^Tx+b_1, w_2^Tx + b_2)$ . โปรดสังเกตว่าทั้ง ReLU และ LeLL ReLU เป็นกรณีพิเศษของแบบฟอร์มนี้ (ตัวอย่างเช่นสำหรับ ReLU เรามี $w_1, b_1 = 0$ ) เซลล์ประสาท Maxout จึงได้รับประโยชน์ทั้งหมดจากหน่วย ReLU (ระบอบการทำงานเชิงเส้นไม่มีความอิ่มตัว) และไม่มีข้อเสีย (ตาย ReLU) อย่างไรก็ตามแตกต่างจากเซลล์ประสาท ReLU มันเป็นสองเท่าของจำนวนพารามิเตอร์สำหรับเซลล์ประสาททุกเดียวนำไปสู่จำนวนพารามิเตอร์สูง

นี่เป็นการสรุปการอภิปรายของเราเกี่ยวกับชนิดของเซลล์ประสาทที่พบมากที่สุดและฟังก์ชั่นการกระตุ้น เป็นความคิดเห็นล่าสุดมันเป็นเรื่องยากมากที่จะผสมและจับคู่เซลล์ประสาทประเภทต่าง ๆ ในเครือข่ายเดียวกันแม้ว่าจะไม่มีปัญหาพื้นฐานในการทำเช่นนั้น

TLDR : " ฉันควรใช้เซลล์ประสาทชนิดใด " ใช้ ReLU แบบไม่เชิงเส้นระวังอัตราการเรียนรู้ของคุณและอาจตรวจสอบเศษส่วนของยูนิต "ตาย" ในเครือข่าย หากสิ่งนี้เกี่ยวข้องกับคุณให้ลอง ReLU ที่มีการรั่วไหลหรือ Maxout อย่าใช้ sigmoid ลอง tanh แต่คาดว่ามันจะทำงานได้แย่กว่า ReLU / Maxout

ใบอนุญาต: ใบอนุญาต

MIT (MIT)

ลิขสิทธิ์ (c) 2015 Andrej Karpathy

อนุญาตให้ผู้ใดก็ตามที่ได้รับสำเนาของซอฟต์แวร์นี้และไฟล์เอกสารที่เกี่ยวข้อง ("ซอฟต์แวร์") ได้รับอนุญาตโดยไม่คิดค่าใช้จ่ายในการจัดการซอฟต์แวร์โดยไม่มีข้อ จำกัด รวมถึง แต่ไม่ จำกัด เพียงสิทธิ์ในการใช้คัดลอกแก้ไขรวม เผยแพร่เผยแพร่แจกจ่ายใบอนุญาตและ / หรือขายสำเนาของซอฟต์แวร์และเพื่ออนุญาตให้บุคคลที่ซอฟต์แวร์ได้รับการตกแต่งให้ทำภายใต้เงื่อนไขดังต่อไปนี้:

ประกาศเกี่ยวกับลิขสิทธิ์ข้างต้นและประกาศการอนุญาตนี้จะรวมอยู่ในสำเนาทั้งหมดหรือบางส่วนที่สำคัญของซอฟต์แวร์

ซอฟต์แวร์นี้จัดหาให้ "ตามสภาพ" โดยไม่มีการรับประกันใด ๆ ไม่ว่าโดยชัดแจ้งหรือโดยนัยรวมถึง แต่ไม่ จำกัด เพียงการรับประกันของการค้าขายความเหมาะสมสำหรับวัตถุประสงค์เฉพาะและการไม่ละเมิด ไม่ว่าในกรณีใดผู้ทำสัญญาหรือผู้ถือลิขสิทธิ์จะต้องรับผิดต่อการเรียกร้องค่าเสียหายหรือความรับผิดอื่นใดไม่ว่าในกรณีใด ๆ ในการทำสัญญาการปลอมแปลงหรือการละเมิดใด ๆ ที่เกิดขึ้น ซอฟต์แวร์.*

ลิงค์อื่น ๆ :

ฟังก์ชันเปิดใช้งาน tanh เทียบกับฟังก์ชันเปิดใช้งาน sigmoid

— Franck Dernoncourt
แหล่งที่มา

ฉันไม่คิดว่ามีรายการที่มีข้อดีข้อเสียอยู่ ฟังก์ชั่นการเปิดใช้งานแอพลิเคชันเป็นอย่างมากขึ้นและพวกเขายังขึ้นอยู่กับสถาปัตยกรรมของเครือข่ายประสาทของคุณ ( ที่นี่เช่นคุณดูโปรแกรมของทั้งสองฟังก์ชั่น softmax ที่มีความคล้ายคลึงกับ sigmoid หนึ่ง)

คุณสามารถค้นหาการศึกษาบางอย่างเกี่ยวกับพฤติกรรมทั่วไปของฟังก์ชั่น แต่ฉันคิดว่าคุณจะไม่มีรายการที่ชัดเจนและชัดเจน (สิ่งที่คุณถาม ... )

ฉันยังเป็นนักเรียนอยู่ดังนั้นฉันจึงชี้ให้เห็นสิ่งที่ฉันรู้:

ที่นี่คุณจะพบความคิดบางอย่างเกี่ยวกับพฤติกรรมของ tanh และ sigmoids ที่มีการแพร่กระจายกลับ Tanh เป็นสามัญมากกว่า แต่ sigmoids ... (จะมี "แต่" เสมอ)
ในDeep Sparse Rectifier Networks โครงข่ายประสาทของ Glorot Xavier และคณะพวกเขากล่าวว่าหน่วย Rectifier นั้นมีความน่าเชื่อถือทางชีวภาพมากกว่าและพวกมันทำงานได้ดีกว่าตัวอื่น ๆ (sigmoid / tanh)

— marcodena
แหล่งที่มา

นี่คือคำตอบ "ถูกต้อง" หนึ่งสามารถสร้างรายการ แต่ข้อดีและข้อเสียขึ้นอยู่กับข้อมูลอย่างสมบูรณ์ ในความเป็นจริงฟังก์ชั่นการเปิดใช้งานการเรียนรู้นั้นสมเหตุสมผลในทางทฤษฎี เหตุผลที่มีงานวิจัยไม่เน้นมากนักเพราะ sigmoid "เพิ่งได้ผล" ในที่สุดการได้รับเพียงอย่างเดียวของคุณคือความเร็วในการคอนเวอร์เจนซ์ซึ่งมักไม่สำคัญ

— runDOSrun

เพียงเพื่อประโยชน์ของความสมบูรณ์ในคำตอบที่ดีของแดเนียลที่มีกรอบความคิดอื่น ๆ ที่หนึ่งสุ่ม 'หมุนล้อ' ในน้ำหนักและ / หรือประเภทของการเปิดใช้งานนี้เครื่องสถานะของเหลว , เครื่องเรียนรู้มากและเครือข่ายรัฐก้อง

วิธีหนึ่งในการคิดเกี่ยวกับสถาปัตยกรรมเหล่านี้: อ่างเก็บน้ำเป็นเคอร์เนลประเภทหนึ่งใน SVM หรือเลเยอร์ขนาดใหญ่ที่ซ่อนอยู่ใน FFNN แบบเรียบง่ายที่มีการคาดการณ์ข้อมูลไว้ที่ไฮเปอร์สเปซบางส่วน ไม่มีการเรียนรู้ที่แท้จริงอ่างเก็บน้ำจะถูกสร้างขึ้นใหม่จนกว่าจะถึงทางออกที่น่าพอใจ

ดูคำตอบที่ดีเช่นนี้

— ซูริเคน x สีน้ำเงิน
แหล่งที่มา

บทความที่ทบทวนฟังก์ชั่นการเปิดใช้งานล่าสุดสามารถพบได้ใน

" ฟังก์ชั่นการเปิดใช้งาน: การเปรียบเทียบแนวโน้มในการปฏิบัติและการวิจัยเพื่อการเรียนรู้ลึก " โดย Chigozie Enyinna Nwankpa, Winifred Ijomah, Anthony Gachagan และ Stephen Marshall

เครือข่ายนิวรัลที่ลึกได้ถูกนำมาใช้อย่างประสบความสำเร็จในโดเมนเกิดใหม่ที่หลากหลายเพื่อแก้ปัญหาที่ซับซ้อนในโลกแห่งความเป็นจริงด้วยสถาปัตยกรรมการเรียนรู้ลึก (DL) ที่อาจได้รับการพัฒนาจนถึงปัจจุบัน เพื่อให้บรรลุการแสดงที่ล้ำสมัยเหล่านี้สถาปัตยกรรม DL ใช้ฟังก์ชั่นการเปิดใช้งาน (AFs) เพื่อทำการคำนวณที่หลากหลายระหว่างเลเยอร์ที่ซ่อนอยู่และเลเยอร์เอาท์พุทของสถาปัตยกรรม DL ที่กำหนด บทความนี้นำเสนอการสำรวจ AF ที่มีอยู่ซึ่งใช้ในแอปพลิเคชันการเรียนรู้เชิงลึกและไฮไลท์แนวโน้มล่าสุดในการใช้ฟังก์ชั่นการเปิดใช้งานสำหรับแอปพลิเคชันการเรียนรู้ลึก ความแปลกใหม่ของบทความนี้คือการรวบรวม AFs ส่วนใหญ่ที่ใช้ใน DL และสรุปแนวโน้มปัจจุบันของแอพพลิเคชั่นและการใช้งานฟังก์ชั่นเหล่านี้ในการปรับใช้การเรียนรู้เชิงลึกกับภาคปฏิบัติกับผลการวิจัยที่ล้ำสมัย การรวบรวมนี้จะช่วยในการตัดสินใจที่มีประสิทธิภาพในการเลือกฟังก์ชั่นการเปิดใช้งานที่เหมาะสมและเหมาะสมที่สุดสำหรับแอปพลิเคชันที่กำหนดพร้อมสำหรับการปรับใช้ บทความนี้เป็นเวลาที่เหมาะสมเพราะงานวิจัยส่วนใหญ่เกี่ยวกับ AF เน้นงานและผลลัพธ์ที่คล้ายกันในขณะที่บทความนี้จะเป็นครั้งแรกเพื่อรวบรวมแนวโน้มในการใช้งาน AF ในทางปฏิบัติกับผลการวิจัยจากวรรณกรรมที่พบในการวิจัยเชิงลึกจนถึงปัจจุบัน

— Sycorax
แหล่งที่มา