การถดถอยโลจิสติกสำหรับมัลติคลาส


10

ฉันได้แบบจำลองสำหรับการถดถอยโลจิสติกสำหรับมัลติคลาสที่กำหนดโดย

P(Y=J|X(ผม))=ประสบการณ์(θJTX(ผม))1+Σม.=1kประสบการณ์(θม.TX(ผม))

โดยที่ k คือจำนวนคลาส theta คือพารามิเตอร์ที่จะประมาณ j คือคลาส jth Xi คือข้อมูลการฝึกอบรม

ดีสิ่งหนึ่งที่ฉันไม่ได้เป็นวิธีการที่ได้มาเป็นส่วนหนึ่งหาร ปกติรูปแบบ ฉันหมายความว่ามันทำให้ความน่าจะเป็นอยู่ระหว่าง 0 ถึง 1

1+Σม.=1kประสบการณ์(θม.TX(ผม))

ฉันหมายถึงฉันเคยชินกับการถดถอยโลจิสติก

P(Y=1|X(ผม))=1/(1+ประสบการณ์(-θTX(ผม)))

ที่จริงฉันสับสนกับสิ่งที่มีการเสนอชื่อ ในกรณีนี้เนื่องจากมันเป็นฟังก์ชั่น sigmoid มันไม่ยอมให้ค่าน้อยกว่า 0 หรือมากกว่า 1 แต่ผมสับสนในหลายกรณี ทำไมถึงเป็นเช่นนั้น?

นี่คือการอ้างอิงของฉันhttps://list.scms.waikato.ac.nz/pipermail/wekalist/2005-February/029738.html ฉันคิดว่ามันควรจะเป็น normalizing

P(Y=J|X(ผม))=ประสบการณ์(θJTX(ผม))Σม.=1kประสบการณ์(θม.TX(ผม))

2
คำแนะนำ: ในการถดถอยโลจิสติกมีปริยายสองน่าจะเป็นที่จะจัดการกับความน่าจะเป็นและความน่าจะเป็นY = 0 ความน่าจะเป็นผู้ที่จะต้องสรุปผลการ1 Y=1Y=01
whuber

1
จากการโพสต์อื่น ๆ ของคุณคุณรู้วิธีการทำเครื่องหมายสมการ สมการข้อความที่นี่อ่านยากและ (subscripts?) สับสนคุณสามารถทำเครื่องหมายด้วยL ได้ไหม ? LATEX
มาโคร

2
เนื่องจากคุณโพสต์คำถามมากมายที่นี่โปรดหยุดและอ่านคำถามที่พบบ่อยของเราเกี่ยวกับวิธีถามคำถามที่ดี อ่านวิธีใช้สำหรับมาร์กอัป Xเพื่อให้คุณสามารถอ่านสมการของคุณได้ TEX
whuber

ฉันได้แก้ไขสมการแล้ว @ whuber จริงๆแล้วฉันสับสนกับการถดถอยโลจิสติกหลายคลาสไม่ใช่ไบนารีตัวเดียว ฉันกังวลว่าทำไมเมื่อฉันเพิ่มองค์ประกอบทั้งหมดใน donominator ทำให้ความน่าจะเป็นปกติ
user34790

@ user34790 เมื่อคุณแบ่งแต่ละระยะโดยรวมของแต่ละบุคคลแล้วน่าจะเป็นผลรวมระดับ 1 คืออะไรโดยวิธีการ? X(ผม)
แมโคร

คำตอบ:


13

Your formula is wrong (the upper limit of the sum). In logistic regression with K classes (K>2) you basically create K-1 binary logistic regression models where you choose one class as reference or pivot. Usually, the last class K is selected as the reference. Thus, the probability of the reference class can be calculated by รูปแบบทั่วไปของความน่าจะเป็นคือ P ( y i = k | x i ) = exp ( θ T i x i )

P(Yผม=K|xผม)=1-Σk=1K-1P(Yผม=k|xผม).
เนื่องจากคลาสK-th เป็นข้อมูลอ้างอิงของคุณθK=(0,,0)Tและดังนั้นK i=1exp(θ T i xi)=exp(0)+ K - 1 i=1exp(
P(Yผม=k|xผม)=ประสบการณ์(θผมTxผม)Σผม=1Kประสบการณ์(θผมTxผม).
KθK=(0,...,0)Tในท้ายที่สุดคุณจะได้รับสูตรต่อไปนี้สำหรับ k < K : P ( y i = k | x i ) = exp ( θ T i x i )
Σผม=1Kประสบการณ์(θผมTxผม)=ประสบการณ์(0)+Σผม=1K-1ประสบการณ์(θผมTxผม)=1+Σผม=1K-1ประสบการณ์(θผมTxผม).
k<K
P(Yผม=k|xผม)=ประสบการณ์(θผมTxผม)1+Σผม=1K-1ประสบการณ์(θผมTxผม)

4
โปรดทราบว่าตัวเลือกของคลาสอ้างอิงไม่สำคัญถ้าคุณกำลังทำโอกาสสูงสุด แต่ถ้าคุณทำสิ่งที่น่าจะเป็นโทษสูงสุดหรือการอนุมานแบบเบย์ก็มักจะมีประโยชน์มากกว่าที่จะปล่อยให้ความน่าจะเป็นแบบมีพารามิเตอร์มากกว่าและให้การลงโทษเลือกวิธีการจัดการกับพารามิเตอร์มากเกินไป นี่เป็นเพราะส่วนใหญ่ฟังก์ชั่นการลงโทษ / นักบวชไม่คงที่ด้วยความเคารพในการเลือกระดับอ้างอิง
ความน่าจะเป็นทาง

ผมผมk

4

kk-1ประสบการณ์(0)kθ=0

θ1X=

ประสบการณ์()ประสบการณ์(0)+ประสบการณ์()=ประสบการณ์(0)ประสบการณ์(0)+ประสบการณ์(-)=11+ประสบการณ์(-)
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.