ใช่การทำให้เป็นมาตรฐานสามารถใช้ในวิธีการเชิงเส้นทั้งหมดรวมถึงการถดถอยและการจำแนกประเภท ฉันต้องการแสดงให้คุณเห็นว่าการถดถอยและการจำแนกไม่แตกต่างกันมากเกินไป: ความแตกต่างเพียงอย่างเดียวคือฟังก์ชันการสูญเสีย
โดยเฉพาะมีสามองค์ประกอบที่สำคัญของวิธีการเชิงเส้นฟังก์ชั่นการสูญเสีย regularization, อัลกอริทึม ในกรณีที่ฟังก์ชั่นการสูญเสียและการทำให้เป็นปกติเป็นฟังก์ชันวัตถุประสงค์ในปัญหาในรูปแบบการเพิ่มประสิทธิภาพและอัลกอริทึมเป็นวิธีการแก้ปัญหา (ฟังก์ชั่นวัตถุประสงค์คือนูนเราจะไม่พูดถึงในบทความนี้)
ในการตั้งค่าฟังก์ชั่นการสูญเสียเราสามารถมีการสูญเสียที่แตกต่างกันทั้งในกรณีการถดถอยและการจำแนกประเภท ตัวอย่างเช่นกำลังสองน้อยที่สุดและการสูญเสียความเบี่ยงเบนสัมบูรณ์สามารถนำมาใช้สำหรับการถดถอย และการแทนทางคณิตศาสตร์ของพวกเขาคือและ. (ฟังก์ชั่นถูกกำหนดไว้ที่สองสเกลาร์,คือค่าความจริงภาคพื้นดินและเป็นค่าที่คาดการณ์ไว้)L(y^,y)=(y^−y)2L(y^,y)=|y^−y|L(⋅)yy^
ในทางกลับกันการสูญเสียโลจิสติกและการสูญเสียบานพับสามารถใช้สำหรับการจำแนกประเภท การแสดงคณิตศาสตร์ของพวกเขาที่มีและ + (ที่นี่คือป้ายความจริงภาคพื้นดินในและถูกคาดการณ์ไว้ว่า "คะแนน" คำจำกัดความของนั้นผิดปกติเล็กน้อยโปรดดูส่วนความคิดเห็น)L(y^,y)=log(1+exp(−y^y))L(y^,y)=(1−y^y)+y{−1,1}y^y^
ในการตั้งค่าการทำให้เป็นมาตรฐานคุณพูดถึงเกี่ยวกับการทำให้เป็นมาตรฐาน L1 และ L2 นอกจากนี้ยังมีรูปแบบอื่น ๆ ซึ่งจะไม่กล่าวถึงในโพสต์นี้
ดังนั้นในระดับสูงวิธีการเชิงเส้นคือ
minimizew ∑x,yL(w⊤x,y)+λh(w)
หากคุณแทนที่ฟังก์ชั่นการสูญเสียจากการตั้งค่าการถดถอยเป็นการสูญเสียโลจิสติกคุณจะได้รับการถดถอยโลจิสติกด้วยการทำให้เป็นปกติ
ตัวอย่างเช่นในการถดถอยริดจ์ปัญหาการปรับให้เหมาะสมคือ
minimizew ∑x,y(w⊤x−y)2+λw⊤w
หากคุณเปลี่ยนฟังก์ชั่นการสูญเสียด้วยการสูญเสียโลจิสติกปัญหาจะกลายเป็น
minimizew ∑x,ylog(1+exp(−w⊤x⋅y))+λw⊤w
ที่นี่คุณมีการถดถอยโลจิสติกด้วยการทำให้เป็นมาตรฐาน L2
นี่คือลักษณะที่ปรากฏในของเล่นชุดข้อมูลไบนารีสังเคราะห์ รูปด้านซ้ายคือข้อมูลที่มีตัวแบบเชิงเส้น (ขอบเขตการตัดสินใจ) รูปที่ถูกต้องคือรูปร่างของฟังก์ชันวัตถุประสงค์ (แกน x และ y แทนค่าสำหรับพารามิเตอร์ 2 ตัว) ชุดข้อมูลถูกสร้างขึ้นจาก Gaussian สองชุดและเราพอดีกับโมเดลการถดถอยแบบโลจิสติกโดยไม่ตัดดังนั้นจึงมีเพียงสองพารามิเตอร์เท่านั้นที่เราสามารถเห็นภาพในรูปย่อยขวา
เส้นสีน้ำเงินคือการถดถอยโลจิสติกโดยไม่มีการทำให้เป็นมาตรฐานและเส้นสีดำเป็นการถดถอยโลจิสติกด้วยการทำให้เป็นมาตรฐาน L2 จุดสีน้ำเงินและสีดำในรูปที่ถูกต้องเป็นพารามิเตอร์ที่ดีที่สุดสำหรับการทำงานตามวัตถุประสงค์
ในการทดลองนี้เราตั้งที่มีขนาดใหญ่เพื่อให้คุณสามารถเห็นสองสัมประสิทธิ์ใกล้เคียงกับ0นอกจากนี้จากรูปร่างที่เราสามารถสังเกตได้ว่าการทำให้เป็นระเบียบมีความสำคัญและฟังก์ชั่นทั้งหมดเป็นเหมือนชามกำลังสองλ0
นี่คืออีกตัวอย่างหนึ่งที่มีการทำให้เป็นมาตรฐาน L1
โปรดทราบว่าจุดประสงค์ของการทดลองนี้พยายามแสดงให้เห็นว่าการทำให้เป็นมาตรฐานทำงานอย่างไรในการถดถอยโลจิสติก แต่ไม่เถียงแบบจำลองที่ทำให้เป็นมาตรฐานนั้นดีกว่า
นี่คือภาพเคลื่อนไหวบางส่วนเกี่ยวกับการทำให้เป็นมาตรฐาน L1 และ L2 และมีผลต่อวัตถุประสงค์การสูญเสียโลจิสติก ในแต่ละเฟรมหัวเรื่องจะแสดงชนิดของการทำให้เป็นมาตรฐานและโครงเรื่องคือฟังก์ชันวัตถุประสงค์ เราเพิ่มพารามิเตอร์การทำให้เป็นมาตรฐานในแต่ละเฟรมและทางออกที่ดีที่สุดจะลดลงเป็นเฟรมต่อเฟรมλλ0
บางความคิดเห็นสัญกรณ์ และคือเวกเตอร์คอลัมน์,คือสเกลาร์ ดังนั้นรูปแบบเชิงเส้นx หากเราต้องการรวมคำดักจับเราสามารถผนวกเป็นคอลัมน์ลงในข้อมูลwxyy^=f(x)=w⊤x1
ในการตั้งค่าการถดถอยเป็นจำนวนจริงและในการจำแนกการตั้งค่า\}yy∈{−1,1}
โปรดสังเกตว่ามันแปลกเล็กน้อยสำหรับคำจำกัดความของในการตั้งค่าการจัดหมวดหมู่ เนื่องจากคนส่วนใหญ่ใช้เพื่อเป็นตัวแทนของมูลค่าที่คาดการณ์ของปีในกรณีของเราเป็นจำนวนจริง แต่ไม่ได้อยู่ใน\} เราใช้คำนิยามนี้ของเพราะเราสามารถทำให้สัญกรณ์ขาดทุนโลจิสติกและการสูญเสียบานพับได้ง่ายขึ้นy^=w⊤xy^yy^=w⊤x{−1,1}y^
โปรดสังเกตว่าในระบบสัญกรณ์อื่น ๆรูปแบบของฟังก์ชั่นการสูญเสียโลจิสติกจะแตกต่างกันy∈{0,1}
รหัสสามารถพบได้ในคำตอบอื่น ๆ ของฉันที่นี่
มีคำอธิบายที่เข้าใจได้ง่ายหรือไม่ว่าเหตุใดการถดถอยโลจิสติกจึงไม่สามารถใช้กับกรณีแยกที่สมบูรณ์ และทำไมการเพิ่มการทำให้เป็นมาตรฐานจะแก้ไขได้?