ที่นี่ฉันได้รับคุณสมบัติและตัวตนที่จำเป็นทั้งหมดสำหรับการแก้ปัญหาในตัวเอง แต่นอกเหนือจากที่มานี้สะอาดและง่าย ให้เราทำสัญลักษณ์ของเราให้เป็นระเบียบและเขียนฟังก์ชันการสูญเสียให้แน่นขึ้นอีกหน่อย พิจารณาmตัวอย่าง{xi,yi}เช่นว่าxi∈Rdและyi∈R R จำได้ว่าในการถดถอยโลจิสติกไบนารีเรามักจะมีฟังก์ชั่นสมมติฐานhθเป็นฟังก์ชั่นโลจิสติก เป็นทางการ
hθ(xi)=σ(ωTxi)=σ(zi)=11+e−zi,
ที่ω∈Rdและzi=ωTxiฉัน ฟังก์ชั่นการสูญเสีย (ซึ่งฉันเชื่อว่า OP ไม่มีเครื่องหมายลบ) จะถูกกำหนดเป็น:
l(ω)=∑i=1m−(yilogσ(zi)+(1−yi)log(1−σ(zi)))
มีคุณสมบัติที่สำคัญสองประการของฟังก์ชันลอจิสติกซึ่งฉันได้รับมาที่นี่เพื่อใช้อ้างอิงในอนาคต ครั้งแรกที่ทราบว่า1−σ(z)=1−1/(1+e−z)=e−z/(1+e−z)=1/(1+ez)=σ(−z) )
ยังทราบด้วยว่า
∂∂zσ(z)=∂∂z(1+e−z)−1=e−z(1+e−z)−2=11+e−ze−z1+e−z=σ(z)(1−σ(z))
แทนที่จะใช้อนุพันธ์ที่เกี่ยวกับส่วนประกอบตรงนี้เราจะทำงานกับเวกเตอร์โดยตรง (คุณสามารถตรวจสอบอนุพันธ์กับเวกเตอร์ได้ที่นี่ ) แคว้นเฮ็ซของฟังก์ชั่นการสูญเสียl(ω)จะได้รับโดย∇⃗ 2l(ω)แต่การเรียกคืนแรกที่∂z∂ω=xTω∂ω=xTและ∂z∂ωT=∂ωTx∂ωT=xx
Let li(ω)=−yilogσ(zi)−(1−yi)log(1−σ(zi)). Using the properties we derived above and the chain rule
∂logσ(zi)∂ωT∂log(1−σ(zi))∂ωT=1σ(zi)∂σ(zi)∂ωT=1σ(zi)∂σ(zi)∂zi∂zi∂ωT=(1−σ(zi))xi=11−σ(zi)∂(1−σ(zi))∂ωT=−σ(zi)xi
It's now trivial to show that
∇⃗ li(ω)=∂li(ω)∂ωT=−yixi(1−σ(zi))+(1−yi)xiσ(zi)=xi(σ(zi)−yi)
whew!
Our last step is to compute the Hessian
∇⃗ 2li(ω)=∂li(ω)∂ω∂ωT=xixTiσ(zi)(1−σ(zi))
For m samples we have ∇⃗ 2l(ω)=∑mi=1xixTiσ(zi)(1−σ(zi)). This is equivalent to concatenating column vectors xi∈Rd into a matrix X of size d×m such that ∑mi=1xixTi=XXT. The scalar terms are combined in a diagonal matrix D such that Dii=σ(zi)(1−σ(zi)). Finally, we conclude that
H⃗ (ω)=∇⃗ 2l(ω)=XDXT
A faster approach can be derived by considering all samples at once from the beginning and instead work with matrix derivatives. As an extra note, with this formulation it's trivial to show that l(ω) is convex. Let δ be any vector such that δ∈Rd. Then
δTH⃗ (ω)δ=δT∇⃗ 2l(ω)δ=δTXDXTδ=δTXD(δTX)T=∥δTDX∥2≥0
since D>0 and ∥δTX∥≥0. This implies H is positive-semidefinite and therefore l is convex (but not strongly convex).