ฟังก์ชั่นค่าใช้จ่ายเป็นอย่างไรจาก Logistic Regression

29

ฉันกำลังเรียนหลักสูตร Machine Learning Stanford ใน Coursera

ในบทที่เกี่ยวกับการถดถอยโลจิสติกฟังก์ชันต้นทุนคือ:

จากนั้นมันจะอยู่ที่นี่:

ฉันพยายามหาอนุพันธ์ของฟังก์ชันต้นทุน แต่ฉันได้บางอย่างที่แตกต่างออกไปอย่างสิ้นเชิง

อนุพันธ์ได้มาอย่างไร

ขั้นตอนตัวกลางคืออะไร

— ออกุสตุ
แหล่งที่มา

+1 ตรวจสอบคำตอบของ @ AdamO ในคำถามของฉันที่นี่ stats.stackexchange.com/questions/229014/…

— Haitao Du

"แตกต่างไปจากเดิมอย่างสิ้นเชิง" นั้นไม่เพียงพอที่จะตอบคำถามของคุณได้นอกเหนือจากการบอกสิ่งที่คุณรู้แล้ว มันจะมีประโยชน์มากขึ้นถ้าคุณให้สิ่งที่คุณคำนวณกับเราแล้วเราสามารถช่วยให้คุณเข้าใจผิดได้

— Matthew Drury

@MatthewDrury ขออภัยแมทฉันได้จัดคำตอบก่อนที่ความคิดเห็นของคุณจะเข้ามา Octavian คุณทำตามขั้นตอนทั้งหมดแล้วหรือยัง? ผมจะแก้ไขให้มันเพิ่มมูลค่าต่อมา ...

— อันโต Parellada

2

เมื่อคุณพูดว่า "derivate" หมายความว่า "แตกต่าง" หรือ "ได้รับ"

— Glen_b -Reinstate Monica

41

ที่ดัดแปลงมาจากบันทึกในหลักสูตรซึ่งผมไม่เห็นใช้ได้ (รวมทั้งที่มานี้) นอกบันทึกการสนับสนุนโดยนักเรียนที่อยู่ในหน้าของหลักสูตรการเรียนรู้ Coursera เครื่องแอนดรูอึ้งของ

ในสิ่งต่อไปนี้ตัวยกหมายถึงการวัดหรือการฝึกอบรมแต่ละ "ตัวอย่าง" $(i)$

$\small \frac{\partial J(\theta)}{\partial \theta_j} = \frac{\partial}{\partial \theta_j} \,\frac{-1}{m}\sum_{i=1}^m \left[ y^{(i)}\log\left(h_\theta \left(x^{(i)}\right)\right) + (1 -y^{(i)})\log\left(1-h_\theta \left(x^{(i)}\right)\right)\right] \\[2ex]\small\underset{\text{linearity}}= \,\frac{-1}{m}\,\sum_{i=1}^m \left[ y^{(i)}\frac{\partial}{\partial \theta_j}\log\left(h_\theta \left(x^{(i)}\right)\right) + (1 -y^{(i)})\frac{\partial}{\partial \theta_j}\log\left(1-h_\theta \left(x^{(i)}\right)\right) \right] \\[2ex]\Tiny\underset{\text{chain rule}}= \,\frac{-1}{m}\,\sum_{i=1}^m \left[ y^{(i)}\frac{\frac{\partial}{\partial \theta_j}h_\theta \left(x^{(i)}\right)}{h_\theta\left(x^{(i)}\right)} + (1 -y^{(i)})\frac{\frac{\partial}{\partial \theta_j}\left(1-h_\theta \left(x^{(i)}\right)\right)}{1-h_\theta\left(x^{(i)}\right)} \right] \\[2ex]\small\underset{h_\theta(x)=\sigma\left(\theta^\top x\right)}=\,\frac{-1}{m}\,\sum_{i=1}^m \left[ y^{(i)}\frac{\frac{\partial}{\partial \theta_j}\sigma\left(\theta^\top x^{(i)}\right)}{h_\theta\left(x^{(i)}\right)} + (1 -y^{(i)})\frac{\frac{\partial}{\partial \theta_j}\left(1-\sigma\left(\theta^\top x^{(i)}\right)\right)}{1-h_\theta\left(x^{(i)}\right)} \right] \\[2ex]\Tiny\underset{\sigma'}=\frac{-1}{m}\,\sum_{i=1}^m \left[ y^{(i)}\, \frac{\sigma\left(\theta^\top x^{(i)}\right)\left(1-\sigma\left(\theta^\top x^{(i)}\right)\right)\frac{\partial}{\partial \theta_j}\left(\theta^\top x^{(i)}\right)}{h_\theta\left(x^{(i)}\right)} - (1 -y^{(i)})\,\frac{\sigma\left(\theta^\top x^{(i)}\right)\left(1-\sigma\left(\theta^\top x^{(i)}\right)\right)\frac{\partial}{\partial \theta_j}\left(\theta^\top x^{(i)}\right)}{1-h_\theta\left(x^{(i)}\right)} \right] \\[2ex]\small\underset{\sigma\left(\theta^\top x\right)=h_\theta(x)}= \,\frac{-1}{m}\,\sum_{i=1}^m \left[ y^{(i)}\frac{h_\theta\left( x^{(i)}\right)\left(1-h_\theta\left( x^{(i)}\right)\right)\frac{\partial}{\partial \theta_j}\left(\theta^\top x^{(i)}\right)}{h_\theta\left(x^{(i)}\right)} - (1 -y^{(i)})\frac{h_\theta\left( x^{(i)}\right)\left(1-h_\theta\left(x^{(i)}\right)\right)\frac{\partial}{\partial \theta_j}\left( \theta^\top x^{(i)}\right)}{1-h_\theta\left(x^{(i)}\right)} \right] \\[2ex]\small\underset{\frac{\partial}{\partial \theta_j}\left(\theta^\top x^{(i)}\right)=x_j^{(i)}}=\,\frac{-1}{m}\,\sum_{i=1}^m \left[y^{(i)}\left(1-h_\theta\left(x^{(i)}\right)\right)x_j^{(i)}- \left(1-y^{i}\right)\,h_\theta\left(x^{(i)}\right)x_j^{(i)} \right] \\[2ex]\small\underset{\text{distribute}}=\,\frac{-1}{m}\,\sum_{i=1}^m \left[y^{i}-y^{i}h_\theta\left(x^{(i)}\right)- h_\theta\left(x^{(i)}\right)+y^{(i)}h_\theta\left(x^{(i)}\right) \right]\,x_j^{(i)} \\[2ex]\small\underset{\text{cancel}}=\,\frac{-1}{m}\,\sum_{i=1}^m \left[y^{(i)}-h_\theta\left(x^{(i)}\right)\right]\,x_j^{(i)} \\[2ex]\small=\frac{1}{m}\sum_{i=1}^m\left[h_\theta\left(x^{(i)}\right)-y^{(i)}\right]\,x_j^{(i)}$

อนุพันธ์ของฟังก์ชัน sigmoid คือ

$\Tiny\begin{align}\frac{d}{dx}\sigma(x)&=\frac{d}{dx}\left(\frac{1}{1+e^{-x}}\right)\\[2ex] &=\frac{-(1+e^{-x})'}{(1+e^{-x})^2}\\[2ex] &=\frac{e^{-x}}{(1+e^{-x})^2}\\[2ex] &=\left(\frac{1}{1+e^{-x}}\right)\left(\frac{e^{-x}}{1+e^{-x}}\right)\\[2ex] &=\left(\frac{1}{1+e^{-x}}\right)\,\left(\frac{1+e^{-x}}{1+e^{-x}}-\frac{1}{1+e^{-x}}\right)\\[2ex] &=\sigma(x)\,\left(\frac{1+e^{-x}}{1+e^{-x}}-\sigma(x)\right)\\[2ex] &=\sigma(x)\,(1-\sigma(x)) \end{align}$

— Antoni Parellada
แหล่งที่มา

1

+1 สำหรับความพยายามทั้งหมด! อาจใช้สัญกรณ์เมทริกซ์อาจจะง่ายขึ้น?

— Haitao Du

ฉันจะบอกว่าในการถดถอยเชิงเส้นวัตถุประสงค์คือและอนุพันธ์คือโดยที่ในการถดถอยโลจิสติกมันคล้ายกันอนุพันธ์คือโดยที่และ ?

‖ A x - b ‖^{2}

$\|Ax-b\|^2$

2 A^{T} e

$2A^Te$

e = A x - b

$e=Ax-b$

A^{T} e

$A^Te$

e = p - b

$e=p-b$

p = sigmoid (A x)

$p=\text{sigmoid}~(Ax)$

— Haitao Du

2

นั่นคือเหตุผลที่ฉันชื่นชมความพยายามของคุณ คุณใช้เวลากับพวกเราภาษาของ OP !!

— Haitao Du

1

ความเข้าใจของฉันคือว่ามีปัญหานูนออกมาซึ่งทำให้การลดข้อผิดพลาดกำลังสองน้อยที่สุดเป็นสิ่งที่ไม่พึงประสงค์สำหรับฟังก์ชั่นการเปิดใช้งานที่ไม่เป็นเชิงเส้น ในสัญกรณ์เมทริกซ์มันจะเป็นขวา)

\frac{\partial J (θ)}{\partial θ} = \frac{1}{m} X^{⊤} (σ (X θ) - y)

$\frac{\partial J(\theta)}{\partial \theta}=\frac{1}{m}X^\top\left( \sigma(X\theta)-\mathbf y\right)$

— Antoni Parellada

1

@ MohammedNoureldin ฉันเพิ่งเอาอนุพันธ์บางส่วนในตัวเศษในบรรทัดก่อนหน้าโดยใช้กฎลูกโซ่

— Antoni Parellada

8

เพื่อหลีกเลี่ยงความประทับใจในความซับซ้อนที่มากเกินไปของเรื่องให้เราเห็นโครงสร้างของการแก้ปัญหา

ด้วยความเรียบง่ายและการใช้สัญกรณ์อย่างไม่เหมาะสมทำให้เป็นคำศัพท์ที่เป็นผลรวมของและเป็นฟังก์ชันของ : $G(\theta)$ $J(\theta)$ $h = 1/(1+e^{-z})$ $z(\theta)= x \theta$

G = y \cdot \log (h) + (1 - y) \cdot \log (1 - h)

$G = y \cdot \log(h)+(1-y)\cdot \log(1-h)$

เราอาจใช้กฎลูกโซ่: และแก้ปัญหาโดย หนึ่ง (และเป็นค่าคงที่) $\frac{d G}{d \theta}=\frac{d G}{d h}\frac{d h}{d z}\frac{d z}{d \theta}$ $x$ $y$

\frac{d G}{\partial h} = \frac{y}{h} - \frac{1 - y}{1 - h} = \frac{y - h}{h (1 - h)}

$\frac{d G}{\partial h} = \frac{y} {h} - \frac{1-y}{1-h} = \frac{y - h}{h(1-h)}$ สำหรับ sigmoidถือซึ่งเป็นเพียงตัวหารของคำสั่งก่อนหน้า

\frac{d h}{d z} = h (1 - h)

$\frac{d h}{d z} = h (1-h)$

สุดท้ายx $\frac{d z}{d \theta} = x$

การรวมผลลัพธ์ทั้งหมดเข้าด้วยกันจะให้นิพจน์ที่ต้องการ: หวังที่ช่วย

\frac{d G}{d θ} = (y - h) x

$\frac{d G}{d \theta} = (y-h)x$

— garej
แหล่งที่มา

0

เครดิตสำหรับคำตอบนี้ไปที่ Antoni Parellada จากความคิดเห็นซึ่งฉันคิดว่าสมควรได้รับสถานที่ที่โดดเด่นมากขึ้นในหน้านี้ (เพราะมันช่วยฉันออกเมื่อไม่มีคำตอบอื่น ๆ อีกมากมาย) นอกจากนี้ไม่ได้เป็นที่มาเต็ม แต่มากขึ้นของคำสั่งที่ชัดเจนของtheta} (สำหรับที่มาแบบเต็มดูคำตอบอื่น ๆ ) $\frac{\partial J(\theta)}{\partial \theta}$

\frac{\partial J (θ)}{\partial θ} = \frac{1}{m} \cdot X^{T} (σ (X θ) - y)

$\frac{\partial J(\theta)}{\partial \theta} = \frac{1}{m} \cdot X^T\big(\sigma(X\theta)-y\big)$

ที่ไหน

\begin{aligned} X \in R^{m \times n} & = Training example matrix \\ σ (z) & = \frac{1}{1 + e^{- z}} = sigmoid function = logistic function \\ θ \in R^{n} & = weight row vector \\ y & = class/category/label corresponding to rows in X \end{aligned}

$\begin{equation} \begin{aligned} X \in \mathbb{R}^{m\times n} &= \text{Training example matrix} \\ \sigma(z) &= \frac{1}{1+e^{-z}} = \text{sigmoid function} = \text{logistic function} \\ \theta \in \mathbb{R}^{n} &= \text{weight row vector} \\ y &= \text{class/category/label corresponding to rows in X} \end{aligned} \end{equation}$

นอกจากนี้การดำเนินงานที่งูใหญ่สำหรับผู้ที่ต้องการการคำนวณการไล่ระดับสีของด้วยความเคารพ\ $J$ $\theta$

import numpy
def sig(z):
return 1/(1+np.e**-(z))


def compute_grad(X, y, w):
    """
    Compute gradient of cross entropy function with sigmoidal probabilities

    Args: 
        X (numpy.ndarray): examples. Individuals in rows, features in columns
        y (numpy.ndarray): labels. Vector corresponding to rows in X
        w (numpy.ndarray): weight vector

    Returns: 
        numpy.ndarray 

    """
    m = X.shape[0]
    Z = w.dot(X.T)
    A = sig(Z)
    return  (-1/ m) * (X.T * (A - y)).sum(axis=1)

— CiaranWelsh
แหล่งที่มา

0

สำหรับพวกเราที่ไม่แข็งแกร่งมากที่แคลคูลัส แต่ต้องการที่จะเล่นกับการปรับฟังก์ชั่นค่าใช้จ่ายและต้องการหาวิธีในการคำนวณอนุพันธ์ ... ทางลัดเพื่อเรียนรู้แคลคูลัสอีกครั้งเป็นเครื่องมือออนไลน์ที่ให้โดยอัตโนมัติ ความเป็นมาพร้อมคำอธิบายทีละขั้นตอนของกฎ

https://www.derivative-calculator.net

— Yaoshiang
แหล่งที่มา