สัญลักษณ์เมทริกซ์สำหรับการถดถอยโลจิสติก


15

ในการถดถอยเชิงเส้น (การสูญเสียกำลังสอง) การใช้เมทริกซ์เรามีสัญกรณ์ที่รัดกุมมากสำหรับวัตถุประสงค์

minimize  Axb2

โดยที่Aคือเมทริกซ์ข้อมูลxคือสัมประสิทธิ์และbคือการตอบสนอง

มีสัญกรณ์เมทริกซ์ที่คล้ายกันสำหรับวัตถุประสงค์การถดถอยโลจิสติก? สัญลักษณ์ทั้งหมดที่ฉันเห็นไม่สามารถกำจัดผลรวมเหนือจุดข้อมูลทั้งหมดได้ (เช่นdataLlogistic(y,βTx) )


แก้ไข: ขอบคุณสำหรับ joceratops และคำตอบที่ยอดเยี่ยมของ AdamO คำตอบของพวกเขาช่วยให้ผมตระหนักดีว่าเหตุผลถดถอยเชิงเส้นอื่นมีสัญกรณ์รัดกุมมากขึ้นเป็นเพราะความหมายของบรรทัดฐานซึ่งแค็ปซูตารางและผลรวมหรือบนอี แต่ในการสูญเสียโลจิสติกไม่มีคำจำกัดความดังกล่าวซึ่งทำให้สัญกรณ์ซับซ้อนขึ้นเล็กน้อยee

คำตอบ:


18

ในการถดถอยเชิงเส้นโซลูชันการประมาณค่าความน่าจะเป็นสูงสุด (MLE) สำหรับการประมาณค่าxมีวิธีแก้ปัญหาแบบปิดดังต่อไปนี้ (สมมติว่า A เป็นเมทริกซ์ที่มีอันดับคอลัมน์เต็ม):

x^lin=argminxAx-22=(ATA)-1AT

นี่คืออ่านว่า "ค้นหาxที่ย่อขนาดฟังก์ชันวัตถุประสงค์Ax-22 " สิ่งที่ดีเกี่ยวกับการเป็นตัวแทนของการถดถอยเชิงเส้นฟังก์ชันวัตถุประสงค์ในลักษณะนี้คือการที่เราสามารถเก็บทุกอย่างในสัญกรณ์เมทริกซ์และแก้ปัญหาสำหรับx linด้วยมือ ตามที่ Alex R. กล่าวถึงในทางปฏิบัติเรามักจะไม่พิจารณา( A T A ) - 1โดยตรงเนื่องจากไม่มีประสิทธิภาพในการคำนวณและAมักจะไม่ตรงตามเกณฑ์อันดับเต็ม แต่เรากลับไปที่pseudoinverse Moore-Penrosex^lin(ATA)-1A. รายละเอียดของการแก้การคำนวณสำหรับหลอก - ผกผันสามารถเกี่ยวข้องกับการสลายตัว Cholesky หรือการสลายตัวมูลค่าเอกพจน์

อีกวิธีหนึ่งโซลูชัน MLE สำหรับประมาณค่าสัมประสิทธิ์ในการถดถอยโลจิสติกคือ:

x^log=argminxi=1Ny(i)log(1+exTa(i))+(1y(i))log(1+exTa(i))

โดยที่ (สมมติว่าแต่ละตัวอย่างของข้อมูลถูกเก็บไว้ในแถวฉลาด):

xคือเวกเตอร์แทนค่าสัมประสิทธิ์การถดถอย

a(i)เป็นเวกเตอร์หมายถึงithตัวอย่าง / แถวใน Data MatrixA

y(i)เป็นสเกลาใน{0,1}และithฉลากที่สอดคล้องกับithตัวอย่าง

Nคือจำนวนของตัวอย่างข้อมูล / จำนวนแถวในข้อมูลเมทริกซ์A

อีกครั้งนี้จะถูกอ่านเป็น "ค้นหาxที่ย่อขนาดฟังก์ชันวัตถุประสงค์"

หากคุณต้องการคุณอาจจะใช้ขั้นตอนต่อไปและเป็นตัวแทนxบันทึกในสัญกรณ์เมทริกซ์ดังต่อไปนี้:x^log

x^log=argminx[1(1y(1))1(1y(N))][log(1+exTa(1))...log(1+exTa(N))log(1+exTa(1))...log(1+exTa(N))]

แต่คุณจะไม่ได้อะไรจากการทำเช่นนี้ การถดถอยแบบลอจิสติกไม่มีโซลูชันแบบปิดและไม่ได้รับประโยชน์เช่นเดียวกับการถดถอยเชิงเส้นโดยแสดงในรูปของเมทริกซ์ เพื่อแก้ปัญหาสำหรับxบันทึกเทคนิคการประมาณการเช่นโคตรลาดและวิธีการ Newton-Raphson ถูกนำมาใช้ ผ่านการใช้บางส่วนของเทคนิคเหล่านี้ (เช่น Newton-Raphson) xบันทึกอยู่ในห้วงและเป็นตัวแทนในสัญกรณ์เมทริกซ์ ( จะเห็นลิงค์ให้โดยอเล็กซ์อาร์ )x^logx^log


ยิ่งใหญ่ ขอบคุณ ฉันคิดว่าเหตุผลที่เราไม่มีอะไรที่เหมือนกับการแก้ปัญหาคือเหตุผลที่เราไม่ได้ทำขั้นตอนนั้นมากขึ้นเพื่อสร้างสัญลักษณ์เมทริกซ์และหลีกเลี่ยงสัญลักษณ์ผลรวม AAx=Ab
Haitao Du

เรามีข้อได้เปรียบในการก้าวไปอีกขั้นหนึ่งทำให้การคูณเมทริกซ์จะทำให้โค้ดง่ายขึ้นและในหลาย ๆ แพลตฟอร์มเช่น matlab สำหรับการวนซ้ำกับผลรวมของข้อมูลทั้งหมดจะช้ากว่าการทำงานของเมทริกซ์มาก
Haitao Du

5
@ hxd1011: เพียงแค่ความคิดเห็นเล็ก ๆ : การลดสมการเมทริกซ์ไม่ได้ฉลาดเสมอไป ในกรณีของคุณไม่ควรลองมองหาเมทริกซ์ผกผันA T Aแต่ควรทำบางอย่างเช่นการสลายตัวของ Cholesky ซึ่งจะเร็วกว่าและเสถียรกว่า สำหรับการถดถอยโลจิสติกมีหลายรูปแบบการทำซ้ำที่ใช้การคำนวณเมทริกซ์ สำหรับความเห็นที่ยอดเยี่ยมดูได้ที่นี่: research.microsoft.com/en-us/um/people/minka/papers/logreg/ …ATAx=ATbATA
อเล็กซ์อาร์

1
@AlexR ขอบคุณมาก. ฉันเรียนรู้ว่าการใช้สมการปกติจะทำให้เมทริกซ์จำนวนตามเงื่อนไขยกกำลังสอง และ QR หรือ Cholesky จะดีกว่ามาก ลิงค์ของคุณดีมากการตรวจสอบด้วยวิธีตัวเลขนั้นเป็นสิ่งที่ฉันต้องการเสมอ
Haitao Du

15

@joceratops คำตอบมุ่งเน้นไปที่ปัญหาการเพิ่มประสิทธิภาพของโอกาสสูงสุดสำหรับการประเมิน นี่เป็นวิธีการที่ยืดหยุ่นซึ่งสามารถแก้ไขปัญหาได้หลายประเภท สำหรับการประเมินแบบจำลองส่วนใหญ่รวมถึงแบบจำลองการถดถอยเชิงเส้นและแบบลอจิสติกมีวิธีการทั่วไปอีกวิธีหนึ่งซึ่งยึดตามวิธีการประมาณช่วงเวลา

ตัวประมาณถดถอยเชิงเส้นยังสามารถกำหนดเป็นรากของสมการการประมาณได้:

0=XT(YXβ)

β

0=i=1nSi(α,β)=βlogL(β,α,X,Y)=XT(Yg(Xβ))

Where Yi has expected value g(Xiβ). In GLM estimation, g is said to be the inverse of a link function. In normal likelihood equations, g1 is the identity function, and in logistic regression g1 is the logit function. A more general approach would be to require 0=i=1nYg(Xiβ) which allows for model misspecification.

Additionally, it is interesting to note that for regular exponential families, g(Xβ)β=V(g(Xβ)) which is called a mean-variance relationship. Indeed for logistic regression, the mean variance relationship is such that the mean p=g(Xβ) is related to the variance by var(Yi)=pi(1pi). This suggests an interpretation of a model misspecified GLM as being one which gives a 0 average Pearson residual. This further suggests a generalization to allow non-proportional functional mean derivatives and mean-variance relationships.

A generalized estimating equation approach would specify linear models in the following way:

0=g(Xβ)βV1(Yg(Xβ))

With V a matrix of variances based on the fitted value (mean) given by g(Xβ). This approach to estimation allows one to pick a link function and mean variance relationship as with GLMs.

In logistic regression g would be the inverse logit, and Vii would be given by g(Xiβ)(1g(Xβ)). The solutions to this estimating equation, obtained by Newton-Raphson, will yield the β obtained from logistic regression. However a somewhat broader class of models is estimable under a similar framework. For instance, the link function can be taken to be the log of the linear predictor so that the regression coefficients are relative risks and not odds ratios. Which--given the well documented pitfalls of interpreting ORs as RRs--behooves me to ask why anyone fits logistic regression models at all anymore.


1
+1 great answer. formulate it as a root finding on derivative is really new for me. and the second equation is really concise.
Haitao Du
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.