เหตุใดจึงมีการกำหนด / การสูญเสียข้อมูลสองรายการที่แตกต่างกันในโลจิสติกส์


23

ฉันได้เห็นสูตรการสูญเสียโลจิสติกสองประเภท เราสามารถแสดงให้พวกเขามีความเหมือนที่แตกต่างเพียงอย่างเดียวคือความหมายของฉลากYy

สูตร / สัญกรณ์ 1, :y{0,+1}

L(y,βTx)=ylog(p)(1y)log(1p)

โดยที่โดยที่ฟังก์ชันโลจิสติกแมปจำนวนจริงเป็น 0,1 ช่วงเวลาp=11+exp(βTx)βTx

สูตร / สัญกรณ์ 2, :y{1,+1}

L(y,βTx)=log(1+exp(yβTx))

การเลือกสัญกรณ์ก็เหมือนกับการเลือกภาษามีข้อดีข้อเสียที่จะใช้อย่างใดอย่างหนึ่ง ข้อดีและข้อเสียของเครื่องหมายทั้งสองนี้คืออะไร


ความพยายามของฉันที่จะตอบคำถามนี้คือดูเหมือนว่าชุมชนสถิติชอบสัญกรณ์แรกและชุมชนวิทยาศาสตร์คอมพิวเตอร์ชอบสัญกรณ์ที่สอง

  • สัญกรณ์แรกสามารถอธิบายได้ด้วยคำว่า "ความน่าจะเป็น" เนื่องจากฟังก์ชันโลจิสติกจะแปลงจำนวนจริงเป็นช่วงเวลา 0,1βTx
  • และสัญกรณ์ที่สองนั้นรัดกุมกว่าและง่ายกว่าที่จะเปรียบเทียบกับการสูญเสียบานพับหรือการสูญเสีย 0-1

ฉันถูกไหม? ข้อมูลเชิงลึกอื่น ๆ


4
ฉันแน่ใจว่าสิ่งนี้จะต้องถูกถามหลายครั้งแล้ว เช่นstats.stackexchange.com/q/145147/5739
StasK

1
ทำไมคุณถึงพูดว่าสัญลักษณ์ที่สองนั้นง่ายกว่าเมื่อเทียบกับการสูญเสียบานพับ เพียงเพราะมันกำหนดไว้ในแทนที่จะเป็น{ 0 , 1 }หรืออย่างอื่น? {1,1}{0,1}
shadowtalker

1
ฉันชอบความสมมาตรของรูปแบบแรก แต่ส่วนที่เป็นเส้นตรงฝังลึกมากดังนั้นจึงยากที่จะทำงานด้วย
Matthew Drury

@ssdecontrol โปรดตรวจสอบรูปนี้cs.cmu.edu/~yandongl/loss.htmlที่แกน x เป็นและแกน y ที่คุ้มค่าการสูญเสีย คำนิยามดังกล่าวสะดวกในการเปรียบเทียบกับการสูญเสีย 01 การสูญเสียบานพับ ฯลฯyβTx
Haitao Du

คำตอบ:


12

รุ่นสั้น ๆ

  • ใช่
  • ใช่

รุ่นยาว

สิ่งที่ดีเกี่ยวกับการสร้างแบบจำลองทางคณิตศาสตร์คือมันมีความยืดหยุ่น ฟังก์ชั่นการสูญเสียเหล่านี้เทียบเท่ากันจริง ๆ แต่มันมาจากแบบจำลองพื้นฐานที่แตกต่างกันมากของข้อมูล

สูตร 1

ครั้งแรกบุคลากรสัญกรณ์จากรูปแบบความน่าจะเป็น Bernoulliสำหรับซึ่งถูกกำหนดตามอัตภาพใน{ 0 , 1 } ในรุ่นนี้ผล / ฉลาก / ระดับ / ทำนายเป็นตัวแทนจากตัวแปรสุ่มYที่ตามB E R n o ยูลิตรลิตรฉัน ( P )การจัดจำหน่าย ดังนั้นความน่าจะเป็นคือ: y{0,1}YBernoulli(p)

P(Y=y | p)=L(p;y)=py (1p)1y={1py=0py=1

สำหรับ1] การใช้ 0 และ 1 เป็นค่าตัวบ่งชี้ให้เราลดฟังก์ชั่นทีละส่วนทางด้านขวาสุดไปเป็นนิพจน์ที่กระชับp[0,1]

ในขณะที่คุณได้ชี้ให้เห็นแล้วคุณสามารถเชื่อมโยงเมทริกซ์ของการป้อนข้อมูลโดยให้x จากที่นี่การจัดการพีชคณิตแบบตรงไปตรงมาแสดงให้เห็นว่าเหมือนกับในคำถามของคุณ (hint: ) ดังนั้นการลดการสูญเสียบันทึกให้น้อยที่สุดจึงเท่ากับการประเมินความเป็นไปได้สูงสุดของแบบจำลอง BernoulliYxlogitp=βTxlogL(p;y)L(y,βTx)(y1)=(1y){0,1}

สูตรนี้ยังเป็นกรณีพิเศษของโมเดลเชิงเส้นแบบวางนัยทั่วไปซึ่งถูกกำหนดเป็นสำหรับฟังก์ชัน invertible, differentiableและการแจกแจงในครอบครัวชี้แจงYD(θ), g(Y)=βTxgD

สูตร 2

y{1,1}

max({0,1yβTx})+λβ2.

นี่เป็นรูปแบบของลากรองจ์ปัญหาการปรับให้เหมาะสมแบบ จำกัด นอกจากนี้ยังเป็นตัวอย่างของปัญหาการปรับให้เป็นมาตรฐานด้วยฟังก์ชั่นวัตถุประสงค์ สำหรับฟังก์ชั่นการสูญเสียและพารามิเตอร์สเกลาร์หลายมิติที่ควบคุมปริมาณของการทำให้เป็นมาตรฐาน (ที่เรียกว่า "หดตัว") นำไปใช้กับ\การสูญเสียบานพับเป็นเพียงหนึ่งในความเป็นไปได้แบบเลื่อนลงสำหรับซึ่งรวมถึงในคำถามของคุณ

(y,β)+λβ2
λβL(y,βTx)

ในสูตร 1 ไม่ควรเป็น:
py(1p)1y1y
glebm

7

ฉันคิดว่า @ssdecontrol มีคำตอบที่ดีมาก ฉันต้องการเพิ่มความคิดเห็นสำหรับสูตร 2 สำหรับคำถามของฉันเอง

L(y,y^)=log(1+exp(yy^))

เหตุผลที่คนชอบสูตรนี้คือมันกระชับและเอา "รายละเอียดการตีความความน่าจะเป็น" ออก

สัญกรณ์ที่ยุ่งยากคือ , note,เป็นตัวแปรไบนารี แต่ที่นี่เป็นจำนวนจริง เมื่อเทียบกับสูตร 1 เราต้องการสองขั้นตอนเพิ่มเติมเพื่อให้เป็นฉลากแบบแยกส่วนขั้นตอนที่ 1 ฟังก์ชั่น sigmod ขั้นตอนที่ 2 ใช้ 0.5 เกณฑ์y^yy^

แต่หากไม่มีรายละเอียดเหล่านี้จะดีในแง่ของเราสามารถเปรียบเทียบกับการสูญเสียการจัดประเภทอื่น ๆ เช่น 01 การสูญเสียหรือการสูญเสียบานพับ

L01(y,y^)=I[yy^>0]Lhinge(y,y^)=(1yy^)+Llogistic(y,y^)=log(1+exp(yy^))

ป้อนคำอธิบายรูปภาพที่นี่

ที่นี่เราพล็อตสามฟังก์ชั่นการสูญเสียแกน x คือและแกน y คือค่าการสูญเสีย หมายเหตุในสูตรทั้งหมดเป็นจำนวนจริงและตัวเลขนี้อาจมาจากรูปแบบเชิงเส้นหรือรูปแบบอื่น ๆ สัญลักษณ์ดังกล่าวซ่อนรายละเอียดความน่าจะเป็นyy^y^βTx


ฉันเห็นสิ่งที่คุณหมายถึงเกี่ยวกับการเปรียบเทียบง่าย
shadowtalker
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.