OP ผิดพลาดเชื่อว่าความสัมพันธ์ระหว่างสองฟังก์ชั่นนี้เกิดจากจำนวนตัวอย่าง (เช่นเดียวกับทั้งหมด) อย่างไรก็ตามความแตกต่างที่เกิดขึ้นจริงเป็นเพียงวิธีที่เราเลือกฉลากการฝึกอบรมของเรา
ในกรณีของการจำแนกไบนารีเราอาจกำหนดฉลากหรือการ yy=±1y=0,1
ตามที่ได้มีการระบุไว้แล้วฟังก์ชันลอจิสติกเป็นตัวเลือกที่ดีเนื่องจากมีรูปแบบของความน่าจะเป็นคือและเป็น\ หากเราเลือกฉลากเราอาจมอบหมาย σ(z)σ(−z)=1−σ(z)σ(z)∈(0,1)z→±∞y=0,1
P(y=1|z)P(y=0|z)=σ(z)=11+e−z=1−σ(z)=11+ez
ซึ่งสามารถเขียนได้มากขึ้นดานเป็น{1-y}P(y|z)=σ(z)y(1−σ(z))1−y
มันง่ายกว่าที่จะเพิ่มความน่าจะเป็นบันทึก การเพิ่มโอกาสในการบันทึกให้มากที่สุดนั้นเหมือนกับการลดความน่าจะเป็นในการลบบันทึก สำหรับตัวอย่างหลังจากทำการลอการิทึมธรรมชาติและการทำให้เข้าใจง่ายเราจะพบว่า:m{xi,yi}
l(z)=−log(∏imP(yi|zi))=−∑imlog(P(yi|zi))=∑im−yizi+log(1+ezi)
แหล่งที่มาเต็มรูปแบบและข้อมูลเพิ่มเติมสามารถพบได้ในสมุดบันทึก jupyterนี้ ในทางกลับกันเราอาจใช้ป้ายกำกับแทน มันค่อนข้างชัดเจนแล้วว่าเราสามารถมอบหมายy=±1
P(y|z)=σ(yz).
นอกจากนี้ยังเป็นที่ชัดเจนว่า(-z) ทำตามขั้นตอนเดียวกับก่อนที่เราจะย่อขนาดในกรณีนี้ฟังก์ชั่นการสูญเสียP(y=0|z)=P(y=−1|z)=σ(−z)
L(z)=−log(∏jmP(yj|zj))=−∑jmlog(P(yj|zj))=∑jmlog(1+e−yzj)
ในกรณีที่ขั้นตอนสุดท้ายตามมาหลังจากเราใช้ส่วนกลับซึ่งถูกเหนี่ยวนำโดยเครื่องหมายลบ ในขณะที่เราไม่ควรถือเอาสองรูปแบบนี้เนื่องจากในแต่ละรูปแบบมีค่าแตกต่างกัน แต่ทั้งสองแบบนี้เทียบเท่ากัน:y
−yizi+log(1+ezi)≡log(1+e−yzj)
กรณีเป็นเรื่องเล็กน้อยที่จะแสดง หากดังนั้นทางด้านซ้ายมือและทางด้านขวามือyi=1yi≠1yi=0yi=−1
ในขณะที่อาจมีเหตุผลพื้นฐานว่าทำไมเรามีสองรูปแบบที่แตกต่างกัน (ดูทำไมมีสองสูตร / การสูญเสียลอจิสติกที่แตกต่างกัน? ) เหตุผลหนึ่งที่จะเลือกอดีตคือการพิจารณาในทางปฏิบัติ ในอดีตเราสามารถใช้คุณสมบัติเพื่อคำนวณและเล็กน้อยซึ่งทั้งสองอย่างนี้มีความจำเป็นสำหรับการวิเคราะห์คอนเวอร์เจนซ์ (เช่นเพื่อกำหนดความนูนของฟังก์ชันการสูญเสียโดยการคำนวณ Hessian )∂σ(z)/∂z=σ(z)(1−σ(z))∇l(z)∇2l(z)