รุ่นสั้น ๆ
รุ่นยาว
สิ่งที่ดีเกี่ยวกับการสร้างแบบจำลองทางคณิตศาสตร์คือมันมีความยืดหยุ่น ฟังก์ชั่นการสูญเสียเหล่านี้เทียบเท่ากันจริง ๆ แต่มันมาจากแบบจำลองพื้นฐานที่แตกต่างกันมากของข้อมูล
สูตร 1
ครั้งแรกบุคลากรสัญกรณ์จากรูปแบบความน่าจะเป็น Bernoulliสำหรับซึ่งถูกกำหนดตามอัตภาพใน{ 0 , 1 } ในรุ่นนี้ผล / ฉลาก / ระดับ / ทำนายเป็นตัวแทนจากตัวแปรสุ่มYที่ตามB E R n o ยูลิตรลิตรฉัน ( P )การจัดจำหน่าย ดังนั้นความน่าจะเป็นคือ:
y{0,1}YBernoulli(p)
P(Y=y | p)=L(p;y)=py (1−p)1−y={1−ppy=0y=1
สำหรับ1] การใช้ 0 และ 1 เป็นค่าตัวบ่งชี้ให้เราลดฟังก์ชั่นทีละส่วนทางด้านขวาสุดไปเป็นนิพจน์ที่กระชับp∈[0,1]
ในขณะที่คุณได้ชี้ให้เห็นแล้วคุณสามารถเชื่อมโยงเมทริกซ์ของการป้อนข้อมูลโดยให้x จากที่นี่การจัดการพีชคณิตแบบตรงไปตรงมาแสดงให้เห็นว่าเหมือนกับในคำถามของคุณ (hint: ) ดังนั้นการลดการสูญเสียบันทึกให้น้อยที่สุดจึงเท่ากับการประเมินความเป็นไปได้สูงสุดของแบบจำลอง BernoulliYxlogitp=βTxlogL(p;y)L(y,βTx)(y−1)=−(1−y){0,1}
สูตรนี้ยังเป็นกรณีพิเศษของโมเดลเชิงเส้นแบบวางนัยทั่วไปซึ่งถูกกำหนดเป็นสำหรับฟังก์ชัน invertible, differentiableและการแจกแจงในครอบครัวชี้แจงY∼D(θ), g(Y)=βTxgD
สูตร 2
y{−1,1}
max({0,1−yβTx})+λ∥β∥2.
นี่เป็นรูปแบบของลากรองจ์ปัญหาการปรับให้เหมาะสมแบบ จำกัด นอกจากนี้ยังเป็นตัวอย่างของปัญหาการปรับให้เป็นมาตรฐานด้วยฟังก์ชั่นวัตถุประสงค์
สำหรับฟังก์ชั่นการสูญเสียและพารามิเตอร์สเกลาร์หลายมิติที่ควบคุมปริมาณของการทำให้เป็นมาตรฐาน (ที่เรียกว่า "หดตัว") นำไปใช้กับ\การสูญเสียบานพับเป็นเพียงหนึ่งในความเป็นไปได้แบบเลื่อนลงสำหรับซึ่งรวมถึงในคำถามของคุณ
ℓ(y,β)+λ∥β∥2
ℓλβℓL(y,βTx)