Multinomial Logistic Loss vs (Cross Entropy vs Square Error)

ฉันสังเกตเห็นว่า Caffe (กรอบการเรียนรู้ลึก) ใช้Softmax Loss Layer SoftmaxWithLossเป็นเลเยอร์การส่งออกสำหรับตัวอย่างส่วนใหญ่

เท่าที่ผมรู้ว่าชั้น Softmax การสูญเสียคือการรวมกันของพหุโลจิสติกชั้นสูญเสียและSoftmax ชั้น

จาก Caffe พวกเขาบอกว่า

การคำนวณการไล่ระดับสี Softmax Loss Layer นั้นมีความเสถียรทางตัวเลข

แต่คำอธิบายนี้ไม่ได้คำตอบที่ฉันต้องการคำอธิบายเป็นเพียงการเปรียบเทียบการรวมกันของพหุโลจิสติกชั้นสูญเสียและชั้นสูญเสีย Softmaxแทนชั้นโดยชั้น แต่ไม่เปรียบเทียบกับฟังก์ชันการสูญเสียชนิดอื่น

อย่างไรก็ตามฉันต้องการทราบเพิ่มเติมว่าข้อแตกต่าง / ข้อดี / ข้อเสียของฟังก์ชันข้อผิดพลาด 3 ข้อคืออะไรคือMultinomial Logistic Loss , Cross Entropy (CE) และSquare Error (SE) ในมุมมองการเรียนรู้แบบมีผู้ดูแล? มีบทความสนับสนุนอะไรบ้าง?

— karfai
แหล่งที่มา

เป็นเพียงคำใบ้: ฉันเดาว่าคุณจะได้รับคำตอบที่เร็วขึ้นหากคุณเพิ่มแท็ก "caffe" ในคำถามของคุณ การโพสต์ลงบน stackoverflow แทน stackexchange อาจให้ความสนใจมากขึ้น)

— mcExchange

y-tการรวมกันทำให้การไล่ระดับสีง่ายต่อการคำนวณเพียง willamette.edu/~gorr/classes/cs449/classify.html

— Jingpeng Wu

คำตอบ:

ในความคิดของฉันฟังก์ชั่นการสูญเสียเป็นฟังก์ชั่นวัตถุประสงค์ที่เราต้องการให้โครงข่ายใยประสาทเทียมของเราเพิ่มน้ำหนักของมันตามนั้น ดังนั้นจึงเป็นงานเฉพาะและยังประจักษ์อย่างใด เพียงเพื่อให้ชัดเจนการสูญเสียโลจิสติก Multinomialและการสูญเสียข้ามเอนโทรปีเหมือนกัน (โปรดดูที่http://ufldl.stanford.edu/wiki/index.php/Softmax_Regression ) ฟังก์ชันต้นทุนของการสูญเสียลอจิสติก Multinomialเป็นเช่นนี้ $J(\theta) = -\frac{1}{m} \left[ \sum_{i=1}^m y^{(i)} \log h_\theta(x^{(i)}) + (1-y^{(i)}) \log (1-h_\theta(x^{(i)})) \right].$

มันมักจะใช้สำหรับปัญหาการจำแนก The Square Errorมีสมการเช่น $\frac 1 {2N} \sum_{i=1}^N \| x^1_i - x^2_i \|_2^2.$

ดังนั้นจึงมักจะใช้เพื่อลดการใช้ข้อผิดพลาดในการก่อสร้าง

แก้ไข: @MartinThoma สูตรด้านบนของการสูญเสียจิสติกส์หลายมิติสำหรับกรณีไบนารีสำหรับกรณีทั่วไปควรเป็นโดยที่ K คือจำนวนหมวดหมู่ $J(\theta) = -\left[ \sum_{i=1}^{m} \sum_{k=1}^{K} 1\left\{y^{(i)} = k\right\} \log P(y^{(i)} = k | x^{(i)} ; \theta) \right]$

— beahacker
แหล่งที่มา

ใน Caffe MultinomialLogisticLossคือแล้วใครล่ะที่ผิด?

\frac{- 1}{N} \sum_{n = 1}^{N} \log (p_{n, l_{n}})

$\frac{-1}{N}\sum_{n=1}^{N}\log(p_{n,l_n})$

— moi

ไม่ผิดเป็นตัวแปรไบนารี่ในที่สุดก็สามารถลดลงในสูตรของคุณ

y^{i}

$y^i$

— beahacker

ฉันคิดว่าการสูญเสียโลจิสติกของ Multinomail นั้นไม่มีการเรียกที่สองดังนั้น

J (θ) = - \frac{1}{m} [\sum_{i = 1}^{m} y^{(i)} \log h_{θ} (x^{(i)})]

$J(\theta) = - \frac{1}{m} [\sum_{i=1}^m y^{(i)} \log h_\theta(x^{(i)})]$

— Martin Thoma

@MartinThoma สูตรของฉันมีไว้สำหรับตัวพิมพ์ใหญ่และตัวพิมพ์ใหญ่โดยทั่วไปควรเป็น

J (θ) = - [\sum_{i = 1}^{m} \sum_{k = 1}^{K} 1 {y^{(i)} = k} \log P (y^{(i)} = k | x^{(i)}; θ)]

$J(\theta) = -\left[ \sum_{i=1}^{m} \sum_{k=1}^{K} 1\left\{y^{(i)} = k\right\} \log P(y^{(i)} = k | x^{(i)} ; \theta) \right]$

— beahacker

@ beahacker คุณช่วยบอกฉันหน่อยได้ไหมว่าทำไมการสรุปครั้งที่สองไม่รวมอยู่ในกรณี multinominal ตามที่ระบุโดย Martin Thoma ฉันพยายามที่จะเข้าใจว่าทำไมมันถึงทำแบบนั้น อย่างน้อยคุณก็สามารถชี้ให้ฉันดูทรัพยากรบางอย่างได้

— Nandeesh

ฉันต้องการทราบเพิ่มเติมความแตกต่าง / ข้อดี / ข้อเสียของฟังก์ชันข้อผิดพลาด 3 ข้อนี้คือ Multinomial Logistic Loss, Cross Entropy (CE) และ Square Error (SE) ในมุมมองการเรียนรู้แบบมีผู้ดูแลอย่างไร

การสูญเสียโลจิสติก multinomial เป็น acturally เช่นเดียวกับเอนโทรปีของการข้าม ดูฟังก์ชันนี้ (ฟังก์ชันต้นทุนในsoftmax ): โดยที่ m คือหมายเลขตัวอย่าง K คือหมายเลขคลาส

J (θ) = - \sum_{i = 1}^{m} \sum_{k = 1}^{K} 1 {y^{(i)} = k} \log p (y^{(i)} = k ∣ x^{(i)}; θ)

$J( \theta ) = - \sum^m_{i=1} \sum^K_{k=1} 1 \{ y^{(i)} = k \} \log p(y^{(i)} = k \mid x^{(i)} ; \theta)$

ฟังก์ชั่นตัวบ่งชี้ ( ) กำหนดว่าตะโกนเป็น 0 หรือ 1 ในคำนิยามของเอนโทรปีของการไขว้ซึ่งถูกระบุว่าเป็นหนึ่งร้อนในข้อมูลการฝึกอบรมและคือความเป็นไปได้ตามเงื่อนไขของ softmax (q (x) ดังที่แสดงด้านล่าง) $1 \{ y^{(i)} = k \}$ $p(x)$ $p(y^{(i)} = k \mid x^{(i)} ; \theta)$

- \sum_{x} p (x) \log q (x)

$-\sum_x p(x) \log q(x)$

และ MSE ส่วนใหญ่สำหรับสถานการณ์ที่ฟังก์ชันลิงก์เป็นฟังก์ชันเอกภาพ (การแจกแจงการตอบสนองตามการแจกแจงปกติ), การถดถอยเชิงเส้นมาตรฐานในขณะที่เอนโทรปีข้ามเป็นปกติสำหรับที่ฟังก์ชันลิงก์เป็นฟังก์ชัน logit นี่คือการเปรียบเทียบที่ยอดเยี่ยมที่คุณสามารถอ้างอิงได้

มีบทความสนับสนุนอะไรบ้าง?

ยกเว้นที่อยู่ในลิงก์แนะนำให้คุณอธิบายสิ่งนี้: https://github.com/rasbt/python-machine-learning-book/blob/master/faq/softmax_regression.md

— เลิร์นเนอจาง
แหล่งที่มา

MSE ที่ใช้กับตัวจําแนก (ไบนารี) เรียกว่าคะแนน Brier

— เดฟ

คำตอบสั้น ๆ ตามคำตอบอื่น ๆ การสูญเสียโลจิสติก Multinomial และการสูญเสียข้ามเอนโทรปีเหมือนกัน

Cross Entropy Loss เป็นฟังก์ชั่นค่าใช้จ่ายทางเลือกสำหรับ NN พร้อมฟังก์ชั่นการเปิดใช้งาน sigmoids ที่นำมาใช้เพื่อกำจัดการพึ่งพาในสมการการปรับปรุง บางครั้งเทอมนี้จะทำให้กระบวนการเรียนรู้ช้าลง วิธีการอื่นเป็นฟังก์ชั่นค่าใช้จ่ายปกติ $\sigma'$

ในเครือข่ายประเภทนี้อาจต้องการความน่าจะเป็นเป็นผลลัพธ์ แต่สิ่งนี้ไม่ได้เกิดขึ้นกับ sigmoids ในเครือข่าย multinomial ฟังก์ชั่น softmax normalizes เอาท์พุทและบังคับให้พวกเขาในช่วง[0,1]สิ่งนี้มีประโยชน์เช่นในการจำแนกประเภทของ MNIST $[0,1]$

คำตอบที่ยาวพร้อมกับข้อมูลเชิงลึกบางอย่าง

คำตอบนั้นค่อนข้างยาว แต่ฉันจะพยายามสรุป

เซลล์ประสาทเทียมที่ทันสมัยแห่งแรกที่ถูกใช้คือ sigmoids ซึ่งมีหน้าที่คือ:

σ (x) = \frac{1}{1 + e^{- x}}

$\sigma(x) = \frac{1}{1+e^{-x}}$ ซึ่งมีรูปร่างดังต่อไปนี้:

เส้นโค้งเป็นสิ่งที่ดีเพราะมันรับประกันการส่งออกอยู่ในช่วง[0,1] $[0,1]$

เกี่ยวกับทางเลือกของฟังก์ชั่นค่าใช้จ่ายตัวเลือกโดยธรรมชาติคือฟังก์ชันค่าใช้จ่ายกำลังสองซึ่งรับประกันว่าจะมีอนุพันธ์อยู่และเรารู้ว่ามันมีค่าน้อยที่สุด

ทีนี้ลองพิจารณา NN ด้วย sigmoids ที่ฝึกด้วยฟังก์ชั่นค่าใช้จ่ายกำลังสองกับเลเยอร์ $L$

เรากำหนดฟังก์ชันต้นทุนเป็นผลรวมของข้อผิดพลาดกำลังสองในเลเยอร์ผลลัพธ์สำหรับชุดของอินพุต : $X$

C = \frac{1}{2 N} \sum_{x}^{N} \sum_{j = 1}^{K} (y_{j} (x) - a_{j}^{L} (x))^{2}

$C = \frac{1}{2N}\sum_x^N\sum_{j=1}^K (y_j(x) - a_j^L(x))^2$

โดยเป็นเซลล์ประสาท j-th ในเลเยอร์เอาต์พุต ,เอาต์พุตที่ต้องการและคือจำนวนตัวอย่างการฝึกอบรม $a_j^L$ $L$ $y_j$ $N$

เพื่อความง่ายลองพิจารณาข้อผิดพลาดสำหรับอินพุตเดี่ยว:

C = \sum_{j = 1}^{K} (y_{j} (x) - a_{j}^{L} (x))^{2}

$C = \sum_{j=1}^K (y_j(x) - a_j^L(x))^2$

ตอนนี้เอาต์พุตการเปิดใช้งานของสำหรับเซลล์ประสาทในชั้น ,คือ: $j$ $\ell$ $a_j^\ell$

a_{j}^{ℓ} = \sum_{k} w_{j k}^{ℓ} \cdot a_{j}^{ℓ - 1} + b_{j}^{ℓ} = w_{j}^{ℓ} \cdot a_{j}^{ℓ - 1} + b_{j}^{ℓ}

$a_j^\ell = \sum_k w_{jk}^\ell \cdot a_j^{\ell-1}+b_j^\ell = \mathbf{w}_{j}^\ell \cdot \mathbf{a}_j^{\ell-1}+b_j^\ell$

เวลาส่วนใหญ่ (ถ้าไม่เสมอไป) NN ได้รับการฝึกฝนด้วยเทคนิคการไล่ระดับสีแบบหนึ่งซึ่งโดยทั่วไปประกอบด้วยการปรับปรุงน้ำหนักและอคติโดยการก้าวเล็ก ๆ ไปสู่ทิศทางของการย่อเล็กสุด เป้าหมายคือการใช้การเปลี่ยนแปลงเล็กน้อยในน้ำหนักและอคติต่อทิศทางที่ลดฟังก์ชั่นค่าใช้จ่าย $w$ $b$

สำหรับขั้นตอนเล็ก ๆ การเก็บต่อไปนี้:

Δ C \approx \frac{\partial C}{\partial v_{i}} Δ v_{i}

$\Delta C \approx \frac{\partial C}{\partial v_i}\Delta v_i$

ของเราคือน้ำหนักและอคติ เป็นฟังก์ชั่นมันมีค่าใช้จ่ายที่เราต้องการที่จะลดคือหาค่าที่เหมาะสมv_i สมมติว่าเราเลือกแล้ว: $v_i$ $\Delta v_i$

Δ v_{i} = - η \frac{\partial C}{\partial v_{i}}

$\Delta v_i = -\eta \frac{\partial C}{\partial v_i}$

Δ C \approx - η (\frac{\partial C}{\partial v_{i}})

$\Delta C \approx -\eta \left(\frac{\partial C}{\partial v_i}\right)$

ซึ่งหมายถึงการเปลี่ยนแปลงในพารามิเตอร์ลดลงฟังก์ชั่นค่าใช้จ่ายโดยC $\Delta v_i$ $\Delta C$

พิจารณาเซลล์ประสาทเอาท์พุท -th: $j$

C = \frac{1}{2} (y (x) - a_{j}^{L} (x)^{2}

$C = \frac{1}{2}(y(x)-a_j^L(x)^2$

a_{j}^{L} = σ = \frac{1}{1 + e^{- (w_{j}^{ℓ} \cdot a_{j}^{ℓ - 1} + b_{j}^{ℓ})}}

$a_j^L =\sigma = \frac{1}{ 1+e^{ -(\mathbf{w}_j^\ell \cdot \mathbf{a}_j^{\ell-1}+b_j^\ell)}}$

สมมติว่าเราต้องการอัปเดตน้ำหนักซึ่งเป็นน้ำหนักจากเซลล์ประสาทในชั้นเป็นเซลล์ประสาท -th ในชั้น \ ell จากนั้นเรามี: $w_{jk}^\ell$ $k$ $\ell-1$ $j$

w_{j k}^{ℓ} \Rightarrow w_{j k}^{ℓ} - η \frac{\partial C}{\partial w_{j k}^{ℓ}}

$w_{jk}^\ell \Rightarrow w_{jk}^\ell -\eta \frac{\partial C}{\partial w_{jk}^\ell}$

b_{j}^{ℓ} \Rightarrow b_{j}^{ℓ} - η \frac{\partial C}{\partial b_{j}^{ℓ}}

$b_{j}^\ell \Rightarrow b_{j}^\ell -\eta \frac{\partial C}{\partial b_{j}^\ell}$

การใช้อนุพันธ์โดยใช้กฎลูกโซ่:

\frac{\partial C}{\partial w_{j k}^{ℓ}} = (a_{j}^{L} (x) - y (x)) σ^{'} a_{k}^{ℓ - 1}

$\frac{\partial C}{\partial w_{jk}^\ell} = \left(a_j^L(x)-y(x)\right) \sigma' a_k^{\ell-1}$

\frac{\partial C}{\partial b_{j}^{ℓ}} = (a_{j}^{L} (x) - y (x)) σ^{'}

$\frac{\partial C}{\partial b_{j}^\ell} = \left(a_j^L(x)-y(x)\right) \sigma'$

คุณจะเห็นการพึ่งพาอนุพันธ์ของ sigmoid ที่ (ในแรก wrtในครั้งที่สอง WRTจริง แต่มันไม่ได้เปลี่ยนแปลงมากตั้งแต่ทั้งสองเป็นเลขยกกำลัง) $w$ $b$

ตอนนี้อนุพันธ์สำหรับตัวแปรเดี่ยวทั่วไป sigmoidคือ: $z$

\frac{d σ (z)}{d z} = σ (z) (1 - σ (z))

$\frac{d \sigma(z)}{d z} = \sigma(z)(1-\sigma(z))$

ทีนี้ลองพิจารณาเอาท์พุทนิวรอนออกมาและสมมติว่านิวรอนควรเอาท์พุทแทนมันจะให้ค่าใกล้เคียงกับ : คุณจะเห็นทั้งสองจากกราฟที่ซิกกอยด์สำหรับค่าใกล้เคียงคือแบนนั่นคืออนุพันธ์ของมันใกล้คือการปรับปรุงของพารามิเตอร์ช้ามาก (ตั้งแต่สมการปรับปรุงขึ้นอยู่กับซิก' $0$ $1$ $1$ $0$ $\sigma'$

แรงจูงใจของฟังก์ชั่นข้ามเอนโทรปี

หากต้องการดูว่าการข้ามเอนโทรปีได้รับมาอย่างไรสมมติว่ามีใครเพิ่งค้นพบว่าคำว่ากำลังทำให้กระบวนการเรียนรู้ช้าลง เราอาจสงสัยว่าเป็นไปได้หรือไม่ที่จะเลือกฟังก์ชั่นต้นทุนเพื่อทำให้คำว่า หายไป โดยทั่วไปอาจต้องการ: $\sigma'$ $\sigma'$

\begin{aligned} \frac{\partial C}{\partial w} & = x (a - y) \\ \frac{\partial C}{\partial b} = (a - y) \end{aligned}

$\begin{equation} \begin{aligned} \frac{\partial C}{\partial w} & =x \left( a - y\right)\\ \frac{\partial C}{\partial b} =\left( a - y\right) \end{aligned} \end{equation}$ จาก chain-rule เรามี: เปรียบเทียบสมการที่ต้องการกับหนึ่งในกฎลูกโซ่หนึ่งได้รับ ใช้วิธีการปกปิด:

\frac{\partial C}{\partial b} = \frac{\partial C}{\partial a} \frac{\partial a}{\partial b} = \frac{\partial C}{\partial a} σ^{'} (z) = \frac{\partial C}{\partial a} σ (1 - σ)

$\begin{equation} \frac{\partial C}{\partial b} =\frac{\partial C}{\partial a} \frac{\partial a}{\partial b } =\frac{\partial C}{\partial a}\sigma'(z) = \frac{\partial C}{\partial a} \sigma(1-\sigma) \end{equation}$

\frac{\partial C}{\partial a} = \frac{a - y}{a (1 - a)}

$\begin{equation} \frac{\partial C}{\partial a} = \frac{a-y}{a(1-a)} \end{equation}$

\frac{\partial C}{\partial a} = - [y \ln a + (1 - y) \ln (1 - a)] + c o n s t

$\begin{equation} \frac{\partial C}{\partial a} = -\left[ y\ln a + (1-y)\ln(1-a)\right]+const \end{equation}$ เพื่อให้ได้ฟังก์ชั่นราคาเต็มเราจะต้องเฉลี่ยตัวอย่างการฝึกอบรม โดยที่ค่าคงที่นี่คือค่าเฉลี่ยของค่าคงที่แต่ละค่าสำหรับแต่ละตัวอย่างการฝึกอบรม

\frac{\partial C}{\partial a} = - \frac{1}{n} \sum_{x} [y \ln a + (1 - y) \ln (1 - a)] + c o n s t

$\begin{equation} \frac{\partial C}{\partial a} = -\frac{1}{n}\sum_x\left[y\ln a + (1-y)\ln(1-a)\right]+const \end{equation}$

มีวิธีมาตรฐานในการตีความเอนโทรปีที่มาจากสาขาทฤษฎีข้อมูล โดยคร่าวๆความคิดก็คือการข้ามเอนโทรปีเป็นสิ่งที่น่าประหลาดใจ เราได้รับความประหลาดใจต่ำถ้าผลลัพธ์คือสิ่งที่เราคาดหวัง ( ) และความประหลาดใจสูงถ้าผลลัพธ์ไม่คาดคิด $a$ $y$

Softmax

สำหรับการจำแนกเลขฐานสองข้ามเอนโทรปีมีลักษณะคล้ายกับนิยามในทฤษฎีข้อมูลและค่ายังสามารถตีความได้ว่าเป็นความน่าจะเป็น

ด้วยการจำแนกพหุนามนี้ไม่ถือเป็นจริงอีกต่อไป: เอาท์พุททำผลรวมทราบถึง1 $1$

หากคุณต้องการให้พวกเขาที่จะสรุปถึงคุณใช้ฟังก์ชัน softmax ซึ่งปกติเอาท์พุทเพื่อให้รวมเป็น1 $1$ $1$

นอกจากนี้หากเลเยอร์เอาท์พุทประกอบด้วยฟังก์ชั่น softmax คำที่ชะลอตัวลงจะไม่ปรากฏ หากคุณใช้ฟังก์ชั่นบันทึกค่าความน่าจะเป็นกับชั้นเอาต์พุต softmax ผลลัพธ์ที่คุณจะได้รับรูปแบบของอนุพันธ์บางส่วนและจากสมการการปรับปรุงคล้ายกับที่พบสำหรับฟังก์ชั่นข้ามเอนโทรปีกับเซลล์ประสาท sigmoid

อย่างไรก็ตาม

— Francesco Boi
แหล่งที่มา