สำหรับคำถามแรกของคุณคุณควรกำหนด "มาตรฐาน" หรือรับทราบว่ามีการสร้าง "แบบจำลองมาตรฐาน" เป็นที่ยอมรับ ตามความคิดเห็นที่ระบุไว้อย่างน้อยก็ปรากฏว่าวิธีที่คุณใช้ IRWLS นั้นค่อนข้างมาตรฐาน
สำหรับคำถามที่สองของคุณ "การทำแผนที่ความน่าจะเป็นแบบหดตัว" สามารถเชื่อมโยงได้ (อย่างไม่เป็นทางการ) กับการบรรจบกันของ จากสิ่งที่ฉันอ่านมีวรรณคดีขนาดใหญ่ในวิชาวิศวกรรมเป็นหลัก ในสาขาเศรษฐศาสตร์เราใช้นิดหน่อยโดยเฉพาะงานน้ำเชื้อของ Lennart Ljung - บทความแรกคือLjung (1977) - ซึ่งแสดงให้เห็นว่าการลู่เข้า (หรือไม่) ของอัลกอริธึมแบบสุ่มซ้ำสามารถถูกกำหนดโดยเสถียรภาพ (หรือ ไม่) ของสมการเชิงอนุพันธ์สามัญที่เกี่ยวข้อง
(สิ่งต่อไปนี้ได้รับการทำงานซ้ำหลังจากการสนทนาที่มีผลกับ OP ในความคิดเห็น)
การลู่เข้า
I will use as reference Saber Elaydi "An Introduction to Difference Equations", 2005, 3d ed.
The analysis is conditional on some given data sample, so the x′s are treated as fixed.
The first-order condition for the minimization of the objective function, viewed as a recursive function in m,
m(k+1)=∑i=1Nvi[m(k)]xi,vi[m(k)]≡wi[m(k)]∑Ni=1wi[m(k)][1]
has a fixed point (the argmin of the objective function).
By Theorem 1.13 pp 27-28 of Elaydi, if the first derivative with respect to m of the RHS of [1], evaluated at the fixed point m∗, denote it A′(m∗), is smaller than unity in absolute value, then m∗ is asymptotically stable (AS). More over by Theorem 4.3 p.179 we have that this also implies that the fixed point is uniformly AS (UAS).
"Asymptotically stable" means that for some range of values around the fixed point, a neighborhood (m∗±γ), not necessarily small in size, the fixed point is attractive , and so if the algorithm gives values in this neighborhood, it will converge. The property being "uniform", means that the boundary of this neighborhood, and hence its size, is independent of the initial value of the algorithm. The fixed point becomes globally UAS, if γ=∞.
So in our case, if we prove that
|A′(m∗)|≡∣∣∣∣∑i=1N∂vi(m∗)∂mxi∣∣∣∣<1[2]
we have proven the UAS property, but without global convergence. Then we can either try to establish that the neighborhood of attraction is in fact the whole extended real numbers, or, that the specific starting value the OP uses as mentioned in the comments (and it is standard in IRLS methodology), i.e. the sample mean of the x's, x¯, always belongs to the neighborhood of attraction of the fixed point.
We calculate the derivative
∂vi(m∗)∂m=∂wi(m∗)∂m∑Ni=1wi(m∗)−wi(m∗)∑Ni=1∂wi(m∗)∂m(∑Ni=1wi(m∗))2
=1∑Ni=1wi(m∗)⋅[∂wi(m∗)∂m−vi(m∗)∑i=1N∂wi(m∗)∂m]
Then
A′(m∗)=1∑Ni=1wi(m∗)⋅[∑i=1N∂wi(m∗)∂mxi−(∑i=1N∂wi(m∗)∂m)∑i=1Nvi(m∗)xi]
=1∑Ni=1wi(m∗)⋅[∑i=1N∂wi(m∗)∂mxi−(∑i=1N∂wi(m∗)∂m)m∗]
and
|A′(m∗)|<1⇒∣∣∣∣∑i=1N∂wi(m∗)∂m(xi−m∗)∣∣∣∣<∣∣∣∣∑i=1Nwi(m∗)∣∣∣∣[3]
we have
∂wi(m∗)∂m=−ρ′′(|xi−m∗|)⋅xi−m∗|xi−m∗||xi−m∗|+xi−m∗|xi−m∗|ρ′(|xi−m∗|)|xi−m∗|2=xi−m∗|xi−m∗|3ρ′(|xi−m∗|)−ρ′′(|xi−m∗|)⋅xi−m∗|xi−m∗|2=xi−m∗|xi−m∗|2⋅[ρ′(|xi−m∗|)|xi−m∗|−ρ′′(|xi−m∗|)]=xi−m∗|xi−m∗|2⋅[wi(m∗)−ρ′′(|xi−m∗|)]
Inserting this into [3] we have
∣∣∣∣∑i=1Nxi−m∗|xi−m∗|2⋅[wi(m∗)−ρ′′(|xi−m∗|)](xi−m∗)∣∣∣∣<∣∣∣∣∑i=1Nwi(m∗)∣∣∣∣
⇒∣∣∣∣∑i=1Nwi(m∗)−∑i=1Nρ′′(|xi−m∗|)∣∣∣∣<∣∣∣∣∑i=1Nwi(m∗)∣∣∣∣[4]
This is the condition that must be satisfied for the fixed point to be UAS. Since in our case the penalty function is convex, the sums involved are positive. So condition [4] is equivalent to
∑i=1Nρ′′(|xi−m∗|)<2∑i=1Nwi(m∗)[5]
If ρ(|xi−m|) is Hubert's loss function, then we have a quadratic (q) and a linear (l) branch,
ρ(|xi−m|)=⎧⎩⎨(1/2)|xi−m|2|xi−m|≤δδ(|xi−m|−δ/2)|xi−m|>δ
and
ρ′(|xi−m|)={|xi−m||xi−m|≤δδ|xi−m|>δ
ρ′′(|xi−m|)={1|xi−m|≤δ0|xi−m|>δ
⎧⎩⎨⎪⎪wi,q(m)=1|xi−m|≤δwi,l(m)=δ|xi−m|<1|xi−m|>δ
Since we do not know how many of the |xi−m∗|'s place us in the quadratic branch and how many in the linear, we decompose condition [5] as (Nq+Nl=N)
∑i=1Nqρ′′q+∑i=1Nlρ′′l<2[∑i=1Nqwi,q+∑i=1Nlwi,l]
⇒Nq+0<2[Nq+∑i=1Nlwi,l]⇒0<Nq+2∑i=1Nlwi,l
which holds. So for the Huber loss function the fixed point of the algorithm is uniformly asymptotically stable, irrespective of the x's. We note that the first derivative is smaller than unity in absolute value for any m, not just the fixed point.
What we should do now is either prove that the UAS property is also global, or that, if m(0)=x¯ then m(0) belongs to the neighborhood of attraction of m∗.