เหตุใดการใช้วิธีการของนิวตันในการเพิ่มประสิทธิภาพการถดถอยโลจิสติกจึงเรียกว่าซ้ำกำลังสองน้อยที่สุด?


19

เหตุใดการใช้วิธีการของนิวตันในการเพิ่มประสิทธิภาพการถดถอยโลจิสติกจึงเรียกว่าซ้ำกำลังสองน้อยที่สุด?

ดูเหมือนจะไม่ชัดเจนสำหรับฉันเพราะการสูญเสียด้านการขนส่งและการสูญเสียกำลังสองน้อยที่สุดนั้นต่างกันอย่างสิ้นเชิง


3
ฉันไม่คิดว่าพวกเขาจะเหมือนกัน IRLS คือ Newton-Raphson ที่มี Hessian ที่คาดหวังมากกว่า Hessian ที่สังเกต
Dimitriy V. Masterov

@ DimitriyV.Masterov ขอบคุณคุณช่วยบอกฉันเพิ่มเติมเกี่ยวกับ Hessian vs Observed ได้ไหม? นอกจากนี้คุณคิดอย่างไรเกี่ยวกับคำอธิบายนี้
Haitao Du

คำตอบ:


25

สรุป: GLM มีความเหมาะสมผ่านเกณฑ์การให้คะแนนของฟิชเชอร์ซึ่งเป็น Dimitriy V. Masterov notes คือ Newton-Raphson พร้อม Hessian ที่คาดหวังแทน (เช่นเราใช้การประเมินข้อมูล Fisher แทนข้อมูลที่สังเกต) หากเราใช้ฟังก์ชั่นการเชื่อมโยงแบบบัญญัติมันปรากฎว่า Hessian ที่สังเกตได้นั้นเท่ากับ Hessian ที่คาดไว้ดังนั้นการให้คะแนน NR และ Fisher เหมือนกันในกรณีนั้น เราจะเห็นว่าการให้คะแนนแบบฟิชเชอร์เหมาะสมกับแบบจำลองเชิงเส้นกำลังสองน้อยที่สุดและการประมาณค่าสัมประสิทธิ์จากการบรรจบกันนี้บนโอกาสสูงสุดในการถดถอยแบบโลจิสติกส์ นอกเหนือจากการลดความเหมาะสมของการถดถอยโลจิสติกส์ไปยังปัญหาที่แก้ไขแล้วเรายังได้รับประโยชน์จากความสามารถในการใช้การวินิจฉัยการถดถอยเชิงเส้นใน WLS สุดท้ายที่เหมาะสมเพื่อเรียนรู้เกี่ยวกับการถดถอยโลจิสติกของเรา

ฉันจะเก็บเรื่องนี้มุ่งเน้นไปที่การถดถอยโลจิสติก แต่สำหรับมุมมองที่กว้างขึ้นในโอกาสสูงสุดใน GLMs ผมขอแนะนำส่วน 15.3 ของบทนี้ซึ่งผ่านไปนี้และบุคลากร IRLS ในการตั้งค่าทั่วไปมากขึ้น (ผมคิดว่ามันเป็นจากจอห์นฟ็อกซ์แล้ว การวิเคราะห์การถดถอยและตัวแบบเชิงเส้นทั่วไป .

* * * *ดูความคิดเห็นในตอนท้าย


ฟังก์ชั่นโอกาสและคะแนน

เราจะกระชับ GLM ของเราโดยการทำซ้ำบางสิ่งบางอย่างในรูปแบบ

b(ม.+1)=(ม.)-J(ม.)-1((ม.))
ที่เป็นโอกาสในการเข้าสู่ระบบและJม.จะเป็นอย่างใดอย่างหนึ่ง Hessian ที่สังเกตหรือคาดหวังจากบันทึกความเป็นไปได้

ฟังก์ชั่นการเชื่อมโยงของเราเป็นฟังก์ชั่นก.ที่แผนที่หมายถึงเงื่อนไขμi=E(yi|xi)ที่จะทำนายเชิงเส้นของเราดังนั้นรูปแบบของเราสำหรับความหมายคือg(μi)=xiTβ β ให้ชั่วโมงเป็นฟังก์ชันผกผันลิงก์การแม็พตัวทำนายเชิงเส้นกับค่าเฉลี่ย

สำหรับการถดถอยโลจิสติกเรามีโอกาส Bernoulli กับการสังเกตอิสระดังนั้น การซื้อขายสัญญาซื้อขายล่วงหน้า

(b;y)=i=1nyilogh(xiTb)+(1yi)log(1h(xiTb)).
= n ฉัน=1xฉันjh(x T ฉัน b)( y ฉัน
bj=i=1nyih(xiTb)h(xiTb)xij1yi1h(xiTb)h(xiTb)xij
=ฉันxฉันjh(x T ฉัน b)
=i=1nxijh(xiTb)(yih(xiTb)1yi1h(xiTb))
=ixijh(xiTb)h(xiTb)(1h(xiTb))(yih(xiTb)).

การใช้ลิงก์แบบบัญญัติ

ตอนนี้ขอสมมติว่าเรากำลังใช้ฟังก์ชั่นการเชื่อมโยงที่ยอมรับ logit จากนั้นg - 1 c ( x ) : = h c ( x ) = 1gc=logitดังนั้นเอช ' C =H(1-เอชซี)ซึ่งหมายถึงการช่วยลดความยุ่งยากนี้เพื่อ gc1(x):=hc(x)=11+exhc=hc(1hc) ดังนั้น (;Y)=XT(Y - Y ) นอกจากนี้ยังใช้hc, 2

bj=ixij(yihc(xiTb))
(b;y)=XT(yy^).
hc
2bkbj=ixijbkhc(xiTb)=ixijxik[hc(xiTb)(1hc(xiTb))].

Let แล้วเรามี H=- X T WX และทราบว่าวิธีนี้ไม่ได้มี Y ฉันอยู่ในนั้นอีกต่อไปดังนั้นE(H)=H(เรากำลังดูอยู่นี้เป็นหน้าที่ของดังนั้นสิ่งเดียวสุ่มYตัวเอง) ดังนั้นเราจึงแสดงให้เห็นว่าการให้คะแนนชาวประมงนั้นเทียบเท่ากับ Newton-Raphson เมื่อเราใช้ลิงก์มาตรฐานในการถดถอยโลจิสติก นอกจากนี้โดยอาศัยอำนาจตาม

W=diag(hc(x1Tb)(1hc(x1Tb)),,hc(xnTb)(1hc(xnTb)))=diag(y^1(1y^1),,y^n(1y^n)).
H=XTWX
yiE(H)=Hby-XTWXจะเป็นอย่างเคร่งครัดในเชิงลบที่ชัดเจนแม้ว่าตัวเลขถ้า y ที่ฉันได้รับใกล้เกินไปที่จะ0หรือ1แล้วเราอาจจะมีน้ำหนักปัดเศษ0ซึ่งสามารถทำให้Hsemidefinite เชิงลบและดังนั้นจึงคอมพิวเตอร์ เอกพจน์.y^i(0,1) XTWXy^i010H

z=W1(yy^)

=XT(yy^)=XTWz.

ทั้งหมดนี้หมายความว่าเราสามารถปรับความน่าจะเป็นบันทึกโดยการทำซ้ำ และ( X T W ( m ) X ) - 1 X T W ( m ) z ( m

b(m+1)=b(m)+(XTW(m)X)1XTW(m)z(m)
(XTW(m)X)1XTW(m)z(m)β^z(m)X

ตรวจสอบสิ่งนี้ในR:

set.seed(123)
p <- 5
n <- 500
x <- matrix(rnorm(n * p), n, p)
betas <- runif(p, -2, 2)
hc <- function(x) 1 /(1 + exp(-x)) # inverse canonical link
p.true <- hc(x %*% betas)
y <- rbinom(n, 1, p.true)

# fitting with our procedure
my_IRLS_canonical <- function(x, y, b.init, hc, tol=1e-8) {
  change <- Inf
  b.old <- b.init
  while(change > tol) {
    eta <- x %*% b.old  # linear predictor
    y.hat <- hc(eta)
    h.prime_eta <- y.hat * (1 - y.hat)
    z <- (y - y.hat) / h.prime_eta

    b.new <- b.old + lm(z ~ x - 1, weights = h.prime_eta)$coef  # WLS regression
    change <- sqrt(sum((b.new - b.old)^2))
    b.old <- b.new
  }
  b.new
}

my_IRLS_canonical(x, y, rep(1,p), hc)
# x1         x2         x3         x4         x5 
# -1.1149687  2.1897992  1.0271298  0.8702975 -1.2074851

glm(y ~ x - 1, family=binomial())$coef
# x1         x2         x3         x4         x5 
# -1.1149687  2.1897992  1.0271298  0.8702975 -1.2074851 

และพวกเขาเห็นด้วย


ฟังก์ชันลิงก์ที่ไม่เป็นที่ยอมรับ

hh(1h)=1HE(H)

2bkbj=ixijbkh(xiTb)(yih(xiTb)1yi1h(xiTb))
=ixijxik[h(xiTb)(yih(xiTb)1yi1h(xiTb))h(xiTb)2(yih(xiTb)2+1yi(1h(xiTb))2)]

Via the linearity of expectation all we need to do to get E(H) is replace each occurrence of yi with its mean under our model which is μi=h(xiTβ). Each term in the summand will therefore contain a factor of the form

h(xiTb)(h(xiTβ)h(xiTb)1h(xiTβ)1h(xiTb))h(xiTb)2(h(xiTβ)h(xiTb)2+1h(xiTβ)(1h(xiTb))2).
But to actually do our optimization we'll need to estimate each β, and at step m b(m) is the best guess we have. This means that this will reduce to
h(xiTb)(h(xiTb)h(xiTb)1h(xiTb)1h(xiTb))h(xiTb)2(h(xiTb)h(xiTb)2+1h(xiTb)(1h(xiTb))2)
=h(xiTb)2(1h(xiTb)+11h(xiTb))
=h(xiTb)2h(xiTb)(1h(xiTb)).
This means we will use J with
Jjk=ixijxikh(xiTb)2h(xiTb)(1h(xiTb)).

Now let

W=diag(h(x1Tb)2h(x1Tb)(1h(x1Tb)),,h(xnTb)2h(xnTb)(1h(xnTb)))
and note how under the canonical link hc=hc(1hc) reduces W to W from the previous section. This lets us write
J=XTWX
except this is now E^(H) rather than necessarily being H itself, so this can differ from Newton-Raphson. For all i Wii>0 so aside from numerical issues J will be negative definite.

We have

bj=ixijh(xiTb)h(xiTb)(1h(xiTb))(yih(xiTb))
so letting our new working response be z=D1(yy^) with D=diag(h(x1Tb),,h(xnTb)), we have =XTWz.

All together we are iterating

b(m+1)=b(m)+(XTW(m)X)1XTW(m)z(m)
so this is still a sequence of WLS regressions except now it's not necessarily Newton-Raphson.

I've written it out this way to emphasize the connection to Newton-Raphson, but frequently people will factor the updates so that each new point b(m+1) is itself the WLS solution, rather than a WLS solution added to the current point b(m). If we wanted to do this, we can do the following:

b(m+1)=b(m)+(XTW(m)X)1XTW(m)z(m)
=(XTW(m)X)1(XTW(m)Xb(m)+XTW(m)z(m))
=(XTW(m)X)1XTW(m)(Xb(m)+z(m))
so if we're going this way you'll see the working response take the form η(m)+D(m)1(yy^(m)), but it's the same thing.

Let's confirm that this works by using it to perform a probit regression on the same simulated data as before (and this is not the canonical link, so we need this more general form of IRLS).

my_IRLS_general <- function(x, y, b.init, h, h.prime, tol=1e-8) {
  change <- Inf
  b.old <- b.init
  while(change > tol) {
    eta <- x %*% b.old  # linear predictor
    y.hat <- h(eta)
    h.prime_eta <- h.prime(eta)
    w_star <- h.prime_eta^2 / (y.hat * (1 - y.hat))
    z_star <- (y - y.hat) / h.prime_eta

    b.new <- b.old + lm(z_star ~ x - 1, weights = w_star)$coef  # WLS

    change <- sqrt(sum((b.new - b.old)^2))
    b.old <- b.new
  }
  b.new
}

# probit inverse link and derivative
h_probit <- function(x) pnorm(x, 0, 1)
h.prime_probit <- function(x) dnorm(x, 0, 1)

my_IRLS_general(x, y, rep(0,p), h_probit, h.prime_probit)
# x1         x2         x3         x4         x5 
# -0.6456508  1.2520266  0.5820856  0.4982678 -0.6768585 

glm(y~x-1, family=binomial(link="probit"))$coef
# x1         x2         x3         x4         x5 
# -0.6456490  1.2520241  0.5820835  0.4982663 -0.6768581 

and again the two agree.


Comments on convergence

Finally, a few quick comments on convergence (I'll keep this brief as this is getting really long and I'm no expert at optimization). Even though theoretically each J(m) is negative definite, bad initial conditions can still prevent this algorithm from converging. In the probit example above, changing the initial conditions to b.init=rep(1,p) results in this, and that doesn't even look like a suspicious initial condition. If you step through the IRLS procedure with that initialization and these simulated data, by the second time through the loop there are some y^i that round to exactly 1 and so the weights become undefined. If we're using the canonical link in the algorithm I gave we won't ever be dividing by y^i(1y^i) to get undefined weights, but if we've got a situation where some y^i are approaching 0 or 1, such as in the case of perfect separation, then we'll still get non-convergence as the gradient dies without us reaching anything.


5
+1. I love how detailed your answers often are.
amoeba says Reinstate Monica

You stated "the coefficient estimates from this converge on a maximum of the logistic regression likelihood." Is that necessarily so, from any initial values?
Mark L. Stone

2
@ MarkL.Stone อาฉันสบายเกินไปที่นั่นไม่ได้หมายความว่าจะเพิ่มประสิทธิภาพคนที่ทำให้ขุ่นเคือง :) ฉันจะเพิ่มรายละเอียดเพิ่มเติม (และจะขอบคุณความคิดของคุณที่มีต่อพวกเขาเมื่อฉันทำ)
jld

any chance you watched the link I posted? Seems that video is talking from machine learning perspective, just optimize logistic loss, without talking about Hessain expectation?
Haitao Du

1
@hxd1011 in that pdf i linked to (link again: sagepub.com/sites/default/files/upm-binaries/…) on page 24 of it the author goes into the theory and explains what exactly makes a link function canonical. I found that pdf extremely helpful when I first came across this (although it took me a while to get through).
jld
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.