การเขียนโปรแกรมเชิงเส้นด้วยข้อ จำกัด เมทริกซ์

ภาพรวม

คุณอาจต้องการลองใช้วิธีการเปลี่ยนเส้นทางของตัวคูณ (ADMM) ซึ่งพบว่ามาบรรจบกันอย่างรวดเร็วอย่างน่าประหลาดใจสำหรับปัญหาประเภท lasso กลยุทธ์คือการกำหนดปัญหาด้วยการเพิ่มลากรองจ์และเพิ่มความชันของปัญหาสองขั้น มันดีโดยเฉพาะอย่างยิ่งสำหรับปัญหาที่ทำให้เป็นปกตินี้เนื่องจากส่วนที่ไม่เรียบของการวนซ้ำของแต่ละวิธีมีวิธีการแก้ปัญหาที่แน่นอนคุณสามารถประเมินองค์ประกอบแต่ละองค์ประกอบได้อย่างง่ายดาย $l_1$ $l^1$

ในโพสต์นี้เรา

รับการกำหนด ADMM โดยรวมสำหรับการทำให้ปัญหาของคุณเป็นไปโดยทั่วไป
รับมาจากปัญหาย่อยสำหรับการวนซ้ำ ADMM แต่ละครั้งและให้ความเชี่ยวชาญพวกเขาในสถานการณ์ของคุณแล้ว
ตรวจสอบที่เกิดระบบเชิงเส้นที่ต้องได้รับการแก้ไขแต่ละซ้ำและพัฒนาแก้ได้อย่างรวดเร็ว (หรือ preconditioner) ตาม precomputing decompositions eigenvalue (หรือประมาณอันดับที่ต่ำดังกล่าว) สำหรับและ T $M^TM$ $YY^T$
สรุปด้วยคำพูดสรุปไม่กี่

ความคิดใหญ่ ๆ ส่วนใหญ่ที่นี่ครอบคลุมอยู่ในบทความวิจารณ์ที่ยอดเยี่ยมดังต่อไปนี้

Boyd, Stephen, et al. "การเพิ่มประสิทธิภาพแบบกระจายและการเรียนรู้เชิงสถิติด้วยวิธีการสลับทิศทางของตัวคูณ" รากฐานและแนวโน้ม®ในการเรียนรู้ของเครื่อง 3.1 (2011): 1-122 http://www.stanford.edu/~boyd/papers/pdf/admm_distr_stats.pdf

ก่อนที่จะลงรายละเอียดฉันต้องการทราบว่านี่เป็นวิธีการ / อัลกอริทึมตอบไม่ใช่คำตอบรหัสที่มีอยู่ในทางปฏิบัติ - ถ้าคุณต้องการใช้วิธีนี้คุณจะต้องม้วนการใช้งานของคุณเอง

สูตร ADMM

โดยทั่วไปสมมติว่าคุณต้องการแก้

\begin{aligned} min_{x} & \sum_{i} | x_{i} | \\ s.t. & A x = b \end{aligned} .

$\begin{array}{rl} \min_{x} & \sum_{i} |x_i|\\ \textrm{s.t.} & Ax = b \end{array}.$

ปัญหาในการโพสต์ต้นฉบับตกอยู่ในหมวดหมู่นี้หลังจาก vectorization ที่เหมาะสม (นี่เป็นเพียงหลักการเท่านั้น - เราจะเห็นว่าการแปลงเป็นเวกเตอร์ไม่จำเป็นต้องดำเนินการในทางปฏิบัติ)

คุณสามารถแก้ปัญหาที่เทียบเท่าแทน ซึ่งมี Lagrangian

\begin{aligned} min_{x, z} & \sum_{i} | x_{i} | + \frac{α}{2} | | x - z | |^{2} + \frac{β}{2} | | A z - b | |^{2} \\ s.t. & A z = b \\ & & x = z, \end{aligned}

$\begin{array}{rl} \min_{x,z} & \sum_{i} |x_i| + \frac{\alpha}{2}||x-z||^2 + \frac{\beta}{2}||Az-b||^2 \\ \textrm{s.t.} & Az = b \\ \textrm{&} & x = z, \end{array}$

\begin{aligned} L (x, z, λ, γ) = & \sum_{i} | x_{i} | + \frac{α}{2} | | x - z | |^{2} + \frac{β}{2} | | A z - b | |^{2} + λ^{T} (A z - b) + γ^{T} (x - z) \\ = & \sum_{i} | x_{i} | + \frac{α}{2} | | x - z + \frac{1}{α} γ | |^{2} + \frac{β}{2} | | A z - b + \frac{1}{β} λ | |^{2} \\ + \frac{α}{2} | | \frac{1}{α} γ | |^{2} + \frac{β}{2} | | \frac{1}{β} λ | |^{2} . \end{aligned}

$\begin{align} L(x,z,\lambda,\gamma) =& \sum_{i} |x_i| + \frac{\alpha}{2}||x-z||^2 + \frac{\beta}{2}||Az-b||^2 + \lambda^T(Az-b) + \gamma^T(x-z) \\ =& \sum_{i} |x_i| + \frac{\alpha}{2}||x-z + \frac{1}{\alpha}\gamma||^2 + \frac{\beta}{2}||Az-b + \frac{1}{\beta}\lambda||^2 \\ &+ \frac{\alpha}{2}||\frac{1}{\alpha}\gamma||^2 + \frac{\beta}{2}||\frac{1}{\beta}\lambda||^2. \end{align}$

วิธีการสลับทิศทางของตัวทวีคูณแก้ปัญหาคู่ ผ่านการไล่ระดับสีของตัวแปรสองตัวยกเว้น ไม่แน่นอนการสลับการประมาณการในปัญหาย่อยที่สอง นั่นคือการวนซ้ำ

max_{λ, γ} min_{x, z} L (x, z, λ, γ),

$\max_{\lambda,\gamma} \min_{x,z} L(x,z,\lambda,\gamma),$

\begin{aligned} x^{k + 1} & = {a r g m i n}_{x} L (x, z^{k}, λ^{k}, γ^{k}) \\ z^{k + 1} & = {a r g m i n}_{z} L (x^{k + 1}, z, λ^{k}, γ^{k}) \\ γ^{k + 1} & = γ^{k} + α (x^{k + 1} - z^{k + 1}) \\ λ^{k + 1} & = λ^{k} + β (A z^{k + 1} - b) . \end{aligned}

$\begin{align} x^{k+1} &= \mathrm{argmin}_x L(x,z^k,\lambda^k,\gamma^k) \\ z^{k+1} &= \mathrm{argmin}_z L(x^{k+1},z,\lambda^k,\gamma^k) \\ \gamma^{k+1} &= \gamma^k + \alpha(x^{k+1}-z^{k+1}) \\ \lambda^{k+1} &= \lambda^k + \beta(Az^{k+1}-b). \end{align}$

ภายใต้เงื่อนไขที่ไม่แน่นอนบางประการเกี่ยวกับพารามิเตอร์และ (อธิบายไว้ในกระดาษ Boyd & Parikh ที่ลิงก์ด้านบน) วิธีการ ADMM จะรวมเข้ากับโซลูชันที่แท้จริง อัตราการคอนเวอร์เจนซ์เป็นแบบเชิงเส้นเนื่องจากเป็นวิธีการไล่ระดับสีที่แกนกลาง บ่อยครั้งที่สามารถเร่งความเร็วให้สุดยอดโดย 1) การเปลี่ยนพารามิเตอร์และตามการวิเคราะห์พฤติกรรมหรือ 2) โดยใช้การเร่งความเร็ว Nesterov สำหรับหมายเหตุเกี่ยวกับการเปลี่ยนพารามิเตอร์การลงโทษโปรดดูที่กระดาษสำรวจ Boyd และสำหรับการใช้การเร่งความเร็ว Nesterov ด้วย ADMM ดูกระดาษต่อไปนี้ $\alpha$ $\beta$ $\alpha$ $\beta$

Goldstein, Tom, Brendan O'Donoghue และ Simon Setzer "วิธีการปรับทิศทางให้เร็วที่สุด" รายงาน CAM (2012): 12-35 ftp://ftp.math.ucla.edu/pub/camreport/cam12-35.pdf

อย่างไรก็ตามแม้ว่าอัตราการบรรจบโดยรวมเป็นเชิงเส้นเพียงอย่างเดียวสำหรับปัญหาวิธีการสังเกตพบว่ารูปแบบการกระจายอย่างรวดเร็วมากและจากนั้นมาบรรจบกันช้ากว่าค่าที่แน่นอน เนื่องจากการค้นหารูปแบบการกระจายเป็นส่วนที่ยากที่สุดนี่เป็นโชคดีมาก! เหตุผลที่แน่นอนว่าทำไมดูเหมือนจะเป็นพื้นที่ของการวิจัยในปัจจุบัน ทุกคนเห็นรูปแบบ sparsity มาบรรจบกันอย่างรวดเร็ว แต่ดูเหมือนไม่มีใครรู้ว่าทำไมมันถึงเกิดขึ้น ไม่นานมานี้ฉันถาม Boyd และ Parikh เกี่ยวกับเรื่องนี้ทางอีเมลและ Parikh คิดว่าอาจอธิบายได้ด้วยการตีความวิธีในบริบทของระบบควบคุม คำอธิบายปรากฏการณ์ฮิวริสติกอีกคำหนึ่งอยู่ในภาคผนวกของบทความต่อไปนี้ $l^1$

Goldstein, Tom และ Stanley Osher "วิธีการแบ่ง Bregman สำหรับปัญหาที่ทำให้เป็นมาตรฐาน L1" วารสารวิทยาศาสตร์การถ่ายภาพสยาม 2.2 (2552): 323-343 ftp://ftp.math.ucla.edu/pub/camreport/cam08-29.pdf

แน่นอนว่าความยากลำบากอยู่ที่การแก้ปัญหาย่อยและสำหรับสถานการณ์เฉพาะของคุณ เนื่องจาก Lagrangian เป็นกำลังสองใน , subproblem update เพียงแค่ต้องแก้ระบบเชิงเส้น subproblem ดูเหมือนยากเพราะมันเป็น nondifferentiable แต่ปรากฎว่ามีสูตรที่แน่นอนสำหรับการแก้ปัญหาที่สามารถนำมาใช้โดยองค์ประกอบองค์ประกอบ! ตอนนี้เราพูดถึงปัญหาย่อยเหล่านี้ในรายละเอียดเพิ่มเติมและระบุปัญหาในการโพสต์ต้นฉบับ $x$ $z$ $z$ $z$ $x$

การตั้งค่าสำหรับโปรแกรมย่อย update (ระบบเชิงเส้น) $z$

สำหรับการอัปเดตเรามี $z$

{a r g m i n}_{z} L (x_{k}, z, λ_{k}, γ_{k}) = {a r g m i n}_{z} \frac{α}{2} | | x - z + \frac{1}{α} γ | |^{2} + \frac{β}{2} | | A z - b + \frac{1}{β} λ | |^{2} .

$\mathrm{argmin}_z L(x_k,z,\lambda_k,\gamma_k) = \mathrm{argmin}_z \frac{\alpha}{2}||x-z + \frac{1}{\alpha}\gamma||^2 + \frac{\beta}{2}||Az-b + \frac{1}{\beta}\lambda||^2.$

สิ่งนี้จะทำให้คุณกลายเป็นปัญหาโดยเฉพาะ

\begin{aligned} {a r g m i n}_{Z_{J}, Z_{B}} & \frac{α}{2} | | J^{k + 1} - Z_{J} + \frac{1}{α} Γ_{J} | |_{F r o}^{2} + \frac{α}{2} | | B^{k + 1} - Z_{B} + \frac{1}{α} Γ_{B} | |_{F r o}^{2} \\ + \frac{β}{2} | | M Z_{J} + Z_{B} Y - X + \frac{1}{α} Λ | |_{F r o}^{2}, \end{aligned}

$\begin{align} \mathrm{argmin}_{Z_J,Z_B} &\frac{\alpha}{2}||J^{k+1}-Z_J + \frac{1}{\alpha}\Gamma_J||_{Fro}^2 + \frac{\alpha}{2}||B^{k+1}-Z_B + \frac{1}{\alpha}\Gamma_B||_{Fro}^2 \\ &+\frac{\beta}{2}||MZ_J + Z_BY - X + \frac{1}{\alpha}\Lambda||^2_{Fro}, \end{align}$

โดยที่หมายถึงบรรทัดฐานของ Frobenius (elementwise ) นี่คือปัญหาการลดกำลังสองที่ซึ่งเงื่อนไขการปรับให้เหมาะสมอันดับแรกสามารถพบได้โดยรับอนุพันธ์บางส่วนของวัตถุประสงค์ที่เกี่ยวข้องกับและและตั้งค่าเป็นศูนย์ นี่คือ $||\cdot||Fro$ $l_2$ $Z_J$ $Z_B$

\begin{aligned} 0 & = - \frac{α}{2} (J^{k + 1} - Z_{J} + \frac{1}{α} Γ_{J}) + \frac{β}{2} M^{T} (M Z_{J} + Z_{B} Y - X + \frac{1}{β} Λ), \\ 0 & = - \frac{α}{2} (B^{k + 1} - Z_{B} + \frac{1}{α} Γ_{B}) + \frac{β}{2} (M Z_{J} + Z_{B} Y - X + \frac{1}{β} Λ) Y^{T} . \end{aligned}

$\begin{align} 0 &= -\frac{\alpha}{2}(J^{k+1} - Z_J + \frac{1}{\alpha}\Gamma_J) + \frac{\beta}{2}M^T(MZ_J + Z_BY - X + \frac{1}{\beta}\Lambda), \\ 0 &= -\frac{\alpha}{2}(B^{k+1} - Z_B + \frac{1}{\alpha}\Gamma_B) + \frac{\beta}{2}(MZ_J + Z_BY - X + \frac{1}{\beta}\Lambda)Y^T. \end{align}$

ตามที่ระบุไว้ในความคิดเห็นโดยโปสเตอร์ต้นฉบับ Justin Solomon ระบบนี้สำหรับนั้นสมมาตรดังนั้นการไล่ระดับสีแบบคอนจูเกตจึงเป็นวิธีที่ปราศจากเมทริกซ์ในอุดมคติ ส่วนที่ใหม่กว่าจะกล่าวถึงระบบนี้และวิธีการแก้ไข / เงื่อนไขเบื้องต้นโดยละเอียดยิ่งขึ้น $Z_J,Z_B$

การแก้ปัญหาย่อยการอัพเดต (โซลูชัน thresholding การวิเคราะห์) $x$

ตอนนี้เราหันไปที่ subproblem $x$

{a r g m i n}_{x} L (x, z^{k}, λ^{k}, γ^{k}) = {a r g m i n}_{x} \sum_{i} | x_{i} | + \frac{α}{2} | | x - z^{k} + \frac{1}{α} γ^{k} | |^{2}

$\mathrm{argmin}_x L(x,z^k,\lambda^k,\gamma^k) = \mathrm{argmin}_x \sum_{i} |x_i| + \frac{\alpha}{2}||x-z^k + \frac{1}{\alpha}\gamma^k||^2$

สิ่งแรกที่เห็นคือผลรวมสามารถแยกองค์ประกอบตามองค์ประกอบ

\sum_{i} | x_{i} | + \frac{α}{2} | | x - z^{k} + \frac{1}{α} γ^{k} | |^{2} = \sum_{i} | x_{i} | + \frac{α}{2} \sum_{i} (x_{i} - z_{i}^{k} + \frac{1}{α} γ_{i}^{k})^{2},

$\sum_{i} |x_i| + \frac{\alpha}{2}||x-z^k + \frac{1}{\alpha}\gamma^k||^2 = \sum_{i} |x_i| + \frac{\alpha}{2}\sum_i (x_i-z_i^k + \frac{1}{\alpha}\gamma_i^k)^2,$

ดังนั้นเราสามารถแก้ปัญหาองค์ประกอบการหาค่าเหมาะที่สุดโดยองค์ประกอบในแบบคู่ขนานทำให้ได้

x_{i}^{k + 1} = {a r g m i n}_{x_{i}} | x_{i} | + \frac{α}{2} (x_{i} - z_{i}^{k} + \frac{1}{α} γ_{i}^{k})^{2} .

$x_i^{k+1} = \mathrm{argmin}_{x_i} |x_i| + \frac{\alpha}{2}(x_i-z_i^k + \frac{1}{\alpha}\gamma_i^k)^2.$

รูปแบบทั่วไปของสมการนี้คือ

min_{s} | s | + \frac{α}{2} (s - t)^{2} .

$\min_s |s| + \frac{\alpha}{2}(s-t)^2.$

ฟังก์ชันค่าสัมบูรณ์พยายามที่จะดึงจุดที่ดีที่สุดที่มีต่อในขณะที่ระยะกำลังสองพยายามที่จะดึงจุดที่ดีที่สุดที่มีต่อ tวิธีการแก้ปัญหาที่แท้จริงจึงอยู่ที่ไหนในส่วนระหว่างสองเพิ่มขึ้นพุ่งจะดึงจุดที่ดีที่สุดที่มีต่อและลดลงดึงจุดที่ดีที่สุดที่มีต่อ0 $s=0$ $s=t$ $[0,t)$ $\alpha$ $t$ $\alpha$ $0$

นี่เป็นฟังก์ชั่นนูน แต่มันไม่สามารถหาอนุพันธ์ได้ที่ 0 เงื่อนไขสำหรับจุดที่ย่อเล็กสุดคือ subderivative ของวัตถุประสงค์ที่จุดนั้นมีศูนย์ คำที่เป็นกำลังสองมีอนุพันธ์และฟังก์ชันค่าสัมบูรณ์มีอนุพันธ์สำหรับ , subderivative ที่ตั้งค่าไว้เป็นช่วงเวลาเมื่อ , และอนุพันธ์สำหรับ . ดังนั้นเราจึงได้รับ subderivative สำหรับฟังก์ชั่นวัตถุประสงค์โดยรวม $\alpha(s-t)$ $-1$ $s < 0$ $[-1,1]$ $s=0$ $1$ $s > 0$

\partial_{s} (| s | + \frac{α}{2} (s - t)^{2}) = {\begin{cases} 1 + α (s - t) & s > 0 \\ [- 1, 1] + α t, & s = 0, \\ - 1 + α (s - t), & s < 0. \end{cases}

$\partial_s \left(|s| + \frac{\alpha}{2}(s-t)^2\right) = \begin{cases} 1 + \alpha (s-t)\, & s > 0 \\ [-1,1] + \alpha t, & s = 0, \\ -1 + \alpha (s-t), & s < 0. \end{cases}$

จากนี้เราจะเห็นว่า subderivative ของวัตถุประสงค์ที่มีถ้าหาก , ในกรณีที่คือ minimizer ในทางกลับกันถ้าไม่ใช่ minimizer เราสามารถตั้งอนุพันธ์อันดับเดียวที่มีค่าเท่ากับศูนย์และแก้หา minimizer การทำเช่นนี้ทำให้ $s=0$ $0$ $|t| \le \frac{1}{\alpha}$ $s=0$ $s=0$

{a r g m i n}_{s} | s | + \frac{α}{2} (s - t)^{2} = {\begin{cases} t - \frac{1}{α}, & t > \frac{1}{α}, \\ 0, & | t | \leq \frac{1}{α}, \\ t + \frac{1}{α}, & t < - \frac{1}{α} \end{cases}

$\mathrm{argmin}_s |s| + \frac{\alpha}{2}(s-t)^2 = \begin{cases} t - \frac{1}{\alpha}, & t > \frac{1}{\alpha}, \\ 0, & |t| \le \frac{1}{\alpha}, \\ t + \frac{1}{\alpha}, & t < -\frac{1}{\alpha} \end{cases}$

การระบุผลลัพธ์นี้อีกครั้งกับปัญหาจริงที่เราพยายามแก้ไขในคำถามเดิมโดยที่อัตราผลตอบแทน การอัพเดตสำหรับคือ $t = Z_{ij}^k - \frac{1}{\alpha}\Gamma_{ij}^k$

J_{i j}^{k + 1} = {\begin{cases} Z_{i j}^{k} - \frac{1}{α} Γ_{i j}^{k} - \frac{1}{α}, & Z_{i j}^{k} - \frac{1}{α} Γ_{i j}^{k} > \frac{1}{α}, \\ 0, & | Z_{i j}^{k} - \frac{1}{α} Γ_{i j}^{k} | \leq \frac{1}{α}, \\ Z_{i j}^{k} - \frac{1}{α} Γ_{i j}^{k} + \frac{1}{α}, & Z_{i j}^{k} - \frac{1}{α} Γ_{i j}^{k} < - \frac{1}{α} . \end{cases}

$J_{ij}^{k+1} = \begin{cases} Z_{ij}^k - \frac{1}{\alpha}\Gamma_{ij}^k - \frac{1}{\alpha}, & Z_{ij}^k - \frac{1}{\alpha}\Gamma_{ij}^k > \frac{1}{\alpha}, \\ 0, & |Z_{ij}^k - \frac{1}{\alpha}\Gamma_{ij}^k| \le \frac{1}{\alpha}, \\ Z_{ij}^k - \frac{1}{\alpha}\Gamma_{ij}^k + \frac{1}{\alpha}, & Z_{ij}^k - \frac{1}{\alpha}\Gamma_{ij}^k < -\frac{1}{\alpha}. \end{cases}$

B

$B$

B^{k + 1} = Z_{B} - \frac{1}{α} Γ_{B},

$B^{k+1} = Z_B - \frac{1}{\alpha}\Gamma_B,$

ตามที่ระบุไว้โดยโปสเตอร์ต้นฉบับจัสตินโซโลมอนในความคิดเห็น โดยรวมแล้วการทำการอัพเดตสำหรับเพียงแค่ต้องวนลูปผ่านรายการการฝึกอบรมของคุณและประเมินสูตรข้างต้นสำหรับแต่ละรายการ $J,B$

Schur สมบูรณ์สำหรับระบบ $Z_J,Z_B$

ขั้นตอนที่มีค่าใช้จ่ายมากที่สุดในการทำซ้ำคือการแก้ปัญหาระบบ

\begin{aligned} 0 & = - \frac{α}{2} (J^{k + 1} - Z_{J} + \frac{1}{α} Γ_{J}) + \frac{β}{2} M^{T} (M Z_{J} + Z_{B} Y - X + \frac{1}{β} Λ), \\ 0 & = - \frac{α}{2} (B^{k + 1} - Z_{B} + \frac{1}{α} Γ_{B}) + \frac{β}{2} (M Z_{J} + Z_{B} Y - X + \frac{1}{β} Λ) Y^{T} . \end{aligned}

ด้วยเหตุนี้จึงคุ้มค่ากับความพยายามในการสร้างตัวแก้ปัญหา / เงื่อนไขเบื้องต้นที่ดีสำหรับระบบนี้ ในส่วนนี้เราทำได้โดยการเวกเตอร์สร้างส่วนประกอบ Schurทำการจัดการผลิตภัณฑ์ Krnoecker แล้วเปิดเผย ส่งผลให้ระบบสมบูรณ์ Schur คือการแก้ไขเล็กน้อยสมซิลเวส

ในสิ่งต่อไปนี้ตัวตนเกี่ยวกับ vectorization และผลิตภัณฑ์ Kronecker เป็นกุญแจสำคัญอย่างยิ่ง:

$\mathrm{vec}(ABC) = (C^T \otimes A)\mathrm{vec}(B),$
$(A \otimes B)(C \otimes D) = AC \otimes BD$ ,
$(A \otimes B)^{-1} = A^{-1} \otimes B^{-1}$ และ
$(A \otimes B)^T = A^T \otimes B^T$ T

ตัวตนเหล่านี้มีอยู่ทุกครั้งที่ขนาดของเมทริกซ์และการกลับด้านเป็นไปได้ว่าแต่ละด้านของสมการเป็นนิพจน์ที่ถูกต้อง

รูปแบบเวกเตอร์ของระบบคือ

(α I + β [\begin{matrix} I \otimes M^{T} M & (Y \otimes M)^{T} \\ Y \otimes M & Y Y^{T} \otimes I \end{matrix}]) [\begin{matrix} v e c (Z_{J}) \\ v e c (Z_{B}) \end{matrix}] = [\begin{matrix} v e c (α J + β M^{T} X + Γ_{J} - M^{T} Λ) \\ v e c (α B + β X Y^{T} + Γ_{B} - Λ Y^{T}) \end{matrix}],

$\left(\alpha I +\beta\begin{bmatrix}I \otimes M^TM & (Y \otimes M)^T \\ Y \otimes M & YY^T \otimes I\end{bmatrix}\right)\begin{bmatrix}\mathrm{vec}(Z_J) \\ \mathrm{vec}(Z_B)\end{bmatrix} = \begin{bmatrix}\mathrm{vec}(\alpha J + \beta M^TX + \Gamma_J - M^T\Lambda) \\ \mathrm{vec}(\alpha B + \beta XY^T + \Gamma_B - \Lambda Y^T)\end{bmatrix},$

หรือ

[\begin{matrix} I \otimes (α I + β M^{T} M) & β (Y \otimes M)^{T} \\ β Y \otimes M & (α I + β Y Y^{T}) \otimes I \end{matrix}] [\begin{matrix} v e c (Z_{J}) \\ v e c (Z_{B}) \end{matrix}] = [\begin{matrix} v e c (F) \\ v e c (G) \end{matrix}],

$\begin{bmatrix}I \otimes (\alpha I + \beta M^TM) & \beta (Y \otimes M)^T \\ \beta Y \otimes M & (\alpha I + \beta YY^T) \otimes I\end{bmatrix} \begin{bmatrix}\mathrm{vec}(Z_J) \\ \mathrm{vec}(Z_B)\end{bmatrix} = \begin{bmatrix}\mathrm{vec}(F) \\ \mathrm{vec}(G)\end{bmatrix},$

โดยที่และย่อตัวอักษรทางด้านขวามือ ตอนนี้เราทำการเสริม block-gaussian-elimination / Schur เพื่อกำจัดส่วนล่างซ้ายของเมทริกซ์ในกระบวนการกลั่นตัวผลิตภัณฑ์ Kronecker นี่คือ $F$ $G$

[\begin{matrix} I \otimes (α I + β M^{T} M) & β (Y \otimes M)^{T} \\ 0 & (α I + β Y Y^{T}) \otimes I - β^{2} Y Y^{T} \otimes M (α I + β M^{T} M)^{- 1} M^{T} \end{matrix}] \dots \cdot [\begin{matrix} v e c (Z_{J}) \\ v e c (Z_{B}) \end{matrix}] = [\begin{matrix} v e c (F) \\ v e c (G) - β Y \otimes M (α I + β M^{T} M)^{- 1} v e c (F) \end{matrix}] .

$\begin{bmatrix}I \otimes (\alpha I + \beta M^TM) & \beta (Y \otimes M)^T \\ 0 & (\alpha I + \beta YY^T) \otimes I - \beta^2 YY^T \otimes M(\alpha I + \beta M^TM)^{-1} M^T\end{bmatrix} \dots \\ \cdot \begin{bmatrix}\mathrm{vec}(Z_J) \\ \mathrm{vec}(Z_B)\end{bmatrix} = \begin{bmatrix}\mathrm{vec}(F) \\ \mathrm{vec}(G) - \beta Y \otimes M(\alpha I + \beta M^TM)^{-1}\mathrm{vec}(F)\end{bmatrix}.$

Unvectorizing สองสมการที่เราต้องแก้ตามลำดับคือ

$Z_{B} (α I + β Y Y^{T}) - (β M (α I + β M^{T} M)^{- 1} M^{T}) Z_{B} (β Y Y^{T}) \dots = G - β M (α I + β M^{T} M)^{- 1} F Y^{T}$ $Z_B (\alpha I + \beta YY^T) - (\beta M (\alpha I + \beta M^TM)^{-1} M^T)Z_B(\beta YY^T) \dots \\ = G - \beta M (\alpha I + \beta M^TM)^{-1} F Y^T$
$(α I + β M^{T} M) Z_{J} = F - β M^{T} Z_{B} Y .$ $(\alpha I + \beta M^TM) Z_J = F - \beta M^T Z_B Y.$

วิธีการแก้ปัญหาของระบบเติมเต็ม Schur เมื่อมีความกว้างและระดับสูง $Y,M$

ในส่วนนี้เราแก้ปัญหาระบบ Schur complement สำหรับ (สมการ 1 ข้างต้น) โดยใช้การคำนวณSVD แบบเต็มล่วงหน้าของและใช้อัลกอริทึม Bartels-Stewart รุ่นดัดแปลงสำหรับ Sylvester สมการ อัลกอริทึมถูกปรับเปลี่ยนเล็กน้อยจากรุ่นมาตรฐานเป็นบัญชีสำหรับส่วนเสริมในเทอมที่สองซึ่งทำให้ไม่สมการของซิลเวสเตอร์ เมื่อพบผ่านสมการแรกสามารถพบได้จากสมการที่สองได้อย่างง่ายดาย สมการที่สองนั้นไม่สำคัญที่จะแก้ปัญหาด้วยวิธีใดก็ได้ที่คุณต้องการ $Z_B$ $YY^T, MM^T, M^TM$ $\beta YY^T$ $Z_B$ $Z_J$

วิธีนี้ต้องการค่าใช้จ่ายล่วงหน้าเพื่อคำนวณค่า SVD สองค่าล่วงหน้าก่อนที่กระบวนการ ADMM จะเริ่มต้น แต่ก็จะสามารถนำไปใช้กับการทำซ้ำ ADMM จริงได้อย่างรวดเร็ว เนื่องจากวิธีการจัดการกับเมทริกซ์ SVD เต็มรูปแบบของข้อ จำกัด มันมีความเหมาะสมเมื่อพวกเขาใกล้กับสแควร์และอันดับสูง วิธีการที่ซับซ้อนมากขึ้นโดยใช้ SVD อันดับต่ำก็มีความเป็นไปได้เช่นกัน แต่จะแสดงในส่วนถัดไป

วิธีการพัฒนาดังต่อไปนี้ ให้ แสดงว่า precomputed เต็มสลายตัวมูลค่าเอกพจน์และรวมตัวด้านขวามือจะเป็นHจากนั้นสมการแรกจะกลายเป็น ทวีคูณ โดยปัจจัย orthogonal เพื่อล้างออกทางซ้ายและขวาและการตั้งค่าใหม่ชั่วคราวที่ไม่รู้จักนี่จะกลายเป็น

Q D Q^{T} = Y Y^{T}, W Σ W^{T} = M M^{T}, V T V^{T} = M^{T} M

$Q D Q^T = YY^T, \\ W\Sigma W^T = MM^T, \\ VTV^T = M^TM$

H

$H$

Z_{B} Q (α I + D) Q^{T} - W β Σ (α I + Σ)^{- 1} Σ W^{T} Z_{B} Q D Q^{T} = H .

$Z_B Q (\alpha I + D) Q^T - W \beta \Sigma (\alpha I + \Sigma)^{-1}\Sigma W^T Z_B Q D Q^T = H.$

A = W^{T} Z_{B} Q

$A = W^T Z_B Q$

A (α I + D) - β Σ (α I + Σ)^{- 1} Σ A D = W H Q^{T} .

$A (\alpha I + D) - \beta \Sigma (\alpha I + \Sigma)^{-1}\Sigma A D = W H Q^T.$

ตอนนี้เราสามารถหาโดยการแก้ระบบ แนวทแยง $A$

((α I + D) \otimes I + D \otimes β Σ (α I + Σ)^{- 1} Σ) v e c (A) = v e c (W H Q^{T}) .

$\left((\alpha I + D) \otimes I + D \otimes \beta \Sigma (\alpha I + \Sigma)^{-1}\Sigma \right)\mathrm{vec}(A) = \mathrm{vec}(W H Q^T).$

เมื่อพบเราคำนวณและรู้ว่าเราแก้สมการที่สองข้างบนสำหรับซึ่งไม่สำคัญเพราะเรามีการแยกค่า eigenvalue สำหรับอยู่แล้ว $A$ $Z_B = W A Q^T$ $Z_B$ $Z_J$ $M^TM$

ค่าใช้จ่ายล่วงหน้าคือการคำนวณค่า eigenvalue ที่แน่นอนเชิงบวกสองสมมาตรของและจากนั้นค่าใช้จ่ายต่อการวนซ้ำสำหรับการแก้ปัญหาที่สมบูรณ์นั้นถูกครอบงำด้วยการคูณเมทริกซ์จำนวนหนึ่งซึ่งอยู่ในลำดับเดียวกัน ขนาดเท่ากับ 1 subiteration CG หากค่า eigenvalue ล่วงหน้ามีค่าใช้จ่ายสูงเกินไปพวกเขาสามารถคำนวณได้อย่างแน่นอนโดยยกตัวอย่างเช่นการยกเลิกการทำซ้ำของ Lanczos ในช่วงต้นและรักษาผู้ใช้ที่ใหญ่ที่สุด จากนั้นวิธีการดังกล่าวสามารถใช้เป็นเครื่องปรับสภาพเบื้องต้นที่ดีสำหรับ CG แทนที่จะเป็นตัวแก้ปัญหาโดยตรง $M^TM$ $YY^T$

วิธีการแก้ปัญหาเมื่อเป็นรูปสี่เหลี่ยมผืนผ้ามากหรือมีการจัดอันดับที่ต่ำ $M,Y$

ตอนนี้เราหันความสนใจไปที่การแก้ปัญหาหรือ จำกัด เงื่อนไขเมื่อใดก) เมทริกซ์การป้อนข้อมูลเป็นรูปสี่เหลี่ยมผืนผ้ามาก - หมายถึงพวกมันมีแถวมากกว่าคอลัมน์หรือในทางกลับกัน - หรือ b) พวกเขามีการประมาณอันดับต่ำ แหล่งที่มาด้านล่างเกี่ยวข้องกับการใช้สูตรวูดเบอรีส่วนประกอบ Schur และการผสมอื่น ๆ ที่คล้ายคลึงกันอย่างกว้างขวาง $Z_J,Z_B$ $M,Y$

เราเริ่มต้นด้วยระบบเติมเต็ม Schur ของเรา

(α I + β Y Y^{T}) \otimes I - β^{2} Y Y^{T} \otimes M (α I + β M^{T} M)^{- 1} M^{T} .

$(\alpha I + \beta YY^T) \otimes I - \beta^2 YY^T \otimes M(\alpha I + \beta M^TM)^{-1} M^T.$

กิจวัตรบางอย่างเปลี่ยนระบบนี้ให้อยู่ในรูปแบบสมมาตร

(α I + β I \otimes M M^{T} + β Y Y^{T} \otimes I) v e c (Z_{B}) = (I \otimes (I + \frac{β}{α} M M^{T})) v e c (H) .

$(\alpha I + \beta I \otimes MM^T + \beta YY^T \otimes I)\mathrm{vec}(Z_B) = \left(I \otimes (I + \frac{\beta}{\alpha}MM^T)\right)\mathrm{vec}(H).$

ตอนนี้เรานำการประมาณอันดับต่ำมาใช้ ปล่อยให้ เป็น SVD ที่ลดลงหรืออันดับที่ต่ำกว่าของและ (เป็นตัวยึดตำแหน่งและไม่ใช่ ใช้) การแทนที่สิ่งเหล่านี้ในระบบของเราทำให้เมทริกซ์ผกผันต่อไปนี้ที่เราต้องการใช้

Q D^{1 / 2} Q_{2}^{T} = Y W Σ^{1 / 2} V^{T} = M

$Q D^{1/2} Q_2^T = Y \\ W \Sigma^{1/2} V^T = M$

Y

$Y$

M

$M$

Q_{2}

$Q_2$

(α I + β I \otimes W Σ W^{T} + β Y Y^{T} \otimes I)^{- 1} .

$(\alpha I + \beta I \otimes W \Sigma W^T + \beta YY^T \otimes I)^{-1}.$

เนื่องจากเมทริกซ์ที่เราต้องสลับกลับเป็นการอัปเดตตัวตนระดับต่ำกลยุทธ์เชิงตรรกะคือพยายามใช้สูตรวูดเบอรี

(A + U C U^{T})^{- 1} = A^{- 1} - A^{- 1} U (C^{- 1} + U^{T} A^{- 1} U)^{- 1} U^{T} A^{- 1} .

$(A + UCU^T)^{-1} = A^{-1} - A^{-1}U(C^{-1}+U^TA^{-1}U)^{-1}U^TA^{-1}.$

อย่างไรก็ตามจำเป็นต้องมีการดูแลเนื่องจากชิ้นส่วนที่มีระดับต่ำและไม่ใช่แบบมุมฉาก ดังนั้นเพื่อใช้สูตรวูดเบอรีเรารวบรวมการอัปเดตระดับต่ำทั้งสองลงในการอัปเดตครั้งใหญ่เพียงครั้งเดียว ทำให้ดีขึ้นและใช้สูตรวูดเบอรีให้ผลตอบแทน $I \otimes W$ $Y \otimes I$

{(\frac{1}{α} I + β [\begin{matrix} I \otimes W & Q \otimes I \end{matrix}] [\begin{matrix} I \otimes Σ \\ D \otimes Y \end{matrix}] [\begin{matrix} I \otimes Σ^{T} \\ Q^{T} \otimes I \end{matrix}])}^{- 1} = α I - \frac{β}{α^{2}} [\begin{matrix} I \otimes W & Q \otimes I \end{matrix}] {[\begin{matrix} I \otimes (Σ^{- 1} + \frac{β}{α} I) & \frac{β}{α} Q \otimes W^{T} \\ \frac{β}{α} Q^{T} \otimes W & (D^{- 1} + \frac{β}{α} I) \otimes Y \end{matrix}]}^{- 1} [\begin{matrix} I \otimes Σ^{T} \\ Q^{T} \otimes I \end{matrix}] .

$\left(\frac{1}{\alpha} I + \beta \begin{bmatrix}I\otimes W & Q \otimes I\end{bmatrix}\begin{bmatrix}I \otimes \Sigma & \\ & D \otimes Y\end{bmatrix}\begin{bmatrix}I \otimes \Sigma^T \\ Q^T \otimes I\end{bmatrix}\right)^{-1} \\ = \alpha I - \frac{\beta}{\alpha^2}\begin{bmatrix}I\otimes W & Q \otimes I\end{bmatrix}\begin{bmatrix}I \otimes (\Sigma^{-1}+\frac{\beta}{\alpha}I) & \frac{\beta}{\alpha}Q \otimes W^T\\ \frac{\beta}{\alpha}Q^T\otimes W & (D^{-1} + \frac{\beta}{\alpha}I) \otimes Y\end{bmatrix}^{-1}\begin{bmatrix}I \otimes \Sigma^T \\ Q^T \otimes I\end{bmatrix}.$

แกนผกผันสามารถคำนวณได้ด้วยสูตรผกผันบล็อค 2x2, start

{[\begin{matrix} A & B \\ B^{T} & C \end{matrix}]}^{- 1} = [\begin{matrix} (A - B C^{- 1} B^{T})^{- 1} & - A^{- 1} B (C - B^{T} A^{- 1} B)^{- 1} \\ - C^{- 1} B^{T} (A - B C^{- 1} B^{T})^{- 1} & (C - B^{T} A^{- 1} B)^{- 1} \end{matrix}] .

$\begin{bmatrix}A & B \\ B^T & C\end{bmatrix}^{-1} = \begin{bmatrix}(A-BC^{-1}B^T)^{-1} & -A^{-1}B(C-B^TA^{-1}B)^{-1} \\ -C^{-1}B^T(A-BC^{-1}B^T)^{-1} & (C-B^TA^{-1}B)^{-1}\end{bmatrix}.$

โพสต์นี้มีอยู่แล้วนานพอดังนั้นฉันจะสำรองรายละเอียดความยาวของการคำนวณ แต่ผลสุดท้ายก็คือเสียบ submatrices จำเป็นลงผกผัน blockwise และคูณทุกอย่างผ่านอัตราผลตอบแทนในรูปแบบที่ชัดเจนต่อไปนี้สำหรับผกผันโดยรวม

(α I + β I \otimes M M^{T} + β Y Y^{T} \otimes I)^{- 1} = \frac{1}{α} I - \frac{β}{α^{2}} (t_{11} + s_{11} + t_{12} + s_{12} + t_{21} + s_{21} + t_{22} + s_{22}),

$(\alpha I + \beta I \otimes MM^T + \beta YY^T \otimes I)^{-1} = \frac{1}{\alpha} I - \frac{\beta}{\alpha^2}(t_{11} + s_{11} + t_{12} + s_{12} + t_{21} + s_{21} + t_{22} + s_{22}),$

โดยที่

\begin{aligned} t_{11} & = \frac{α}{β} I \otimes W l^{- 1} W^{T} \\ s_{11} & = (Q \otimes W l^{- 1}) D_{11} (Q^{T} \otimes l^{- 1} W^{T}) \\ t_{12} & = - \frac{α}{β} Q h^{- 1} Q^{T} \otimes W l^{- 1} W^{T} \\ s_{12} & = - (Q h^{- 1} \otimes W l^{- 1}) D_{22} (h^{- 1} Q^{T} \otimes W^{T}) \\ t_{21} & = t_{12} \\ s_{21} & = - (Q h^{- 1} \otimes W) D_{22} (h^{- 1} Q^{T} \otimes l^{- 1} W^{T}) \\ t_{22} & = \frac{α}{β} Q h^{- 1} Q^{T} \otimes I \\ s_{22} & = (Q h^{- 1} \otimes W) D_{22} (h^{- 1} Q^{T} \otimes W^{T}) \\ D_{11} & = \frac{α}{β} {(h \otimes I - I \otimes l^{- 1})}^{- 1} \\ D_{22} & = \frac{α}{β} {(I \otimes l - h^{- 1} \otimes I)}^{- 1} \\ l & = \frac{α}{β} Σ^{- 1} + I \\ h & = \frac{α}{β} D^{- 1} + I . \end{aligned}

$\begin{align} t_{11} &= \frac{\alpha}{\beta}I \otimes W l^{-1} W^T \\ s_{11} &= (Q \otimes W l^{-1})D_{11}(Q^T \otimes l^{-1}W^T) \\ t_{12} &= -\frac{\alpha}{\beta} Q h^{-1} Q^T \otimes W l^{-1} W^T \\ s_{12} &= -(Q h^{-1} \otimes W l^{-1})D_{22}(h^{-1} Q^T \otimes W^T) \\ t_{21} &= t_{12} \\ s_{21} &= -(Q h^{-1} \otimes W)D_{22}(h^{-1} Q^T \otimes l^{-1} W^T) \\ t_{22} &= \frac{\alpha}{\beta}Q h^{-1} Q^T \otimes I \\ s_{22} &= (Q h^{-1} \otimes W)D_{22}(h^{-1}Q^T \otimes W^T) \\ D_{11} &= \frac{\alpha}{\beta}\left(h \otimes I - I \otimes l^{-1} \right)^{-1} \\ D_{22} &= \frac{\alpha}{\beta}\left(I \otimes l - h^{-1} \otimes I \right)^{-1} \\ l &= \frac{\alpha}{\beta} \Sigma^{-1} + I \\ h &= \frac{\alpha}{\beta} D^{-1} + I. \end{align}$

ในรูปแบบนี้เราสามารถใช้ผกผันและหาคำศัพท์ตามคำศัพท์ผ่านแซนด์วิชการคูณเมทริกซ์ 8 ตัวทางซ้ายและขวา สูตรทั่วไปสำหรับการใช้ผลรวมของผลิตภัณฑ์ Kronecker คือ $Z_B$

((A_{1} \otimes B_{1}) + (A_{2} \otimes B_{2}) + \dots) v e c (C) = v e c (B_{1}^{T} C A_{1} + B_{2}^{T} C A_{2} + \dots) .

$\left((A_1 \otimes B_1) + (A_2 \otimes B_2) + \dots\right)\mathrm{vec}(C) = \mathrm{vec}(B_1^T C A_1 + B_2^T C A_2 + \dots ).$

โปรดทราบว่าผู้รุกรานที่ชัดเจนที่เราลงท้ายด้วยเส้นทแยงมุมจึงไม่มีสิ่งใดที่จะ "แก้ไข"

รหัสตัวแก้ปัญหาเชิงเส้น

ฉันใช้สองตัวใน Matlab ดูเหมือนจะทำงานได้ดี รหัสแก้อยู่ที่นี่ $z_J,Z_B$

https://github.com/NickAlger/MeshADMM/blob/master/zkronsolve.m

สคริปต์ทดสอบสำหรับตรวจสอบว่านักแก้ปัญหาทำงานอยู่ที่นี่หรือไม่ นอกจากนี้ยังแสดงตัวอย่างวิธี calll รหัสตัวแก้

https://github.com/NickAlger/MeshADMM/blob/master/test_zkronsolve.m

สรุปข้อสังเกต

วิธีการประเภท ADMM นั้นเหมาะสมสำหรับปัญหาเช่นนี้ แต่คุณต้องยกเลิกการใช้งานของคุณเอง โครงสร้างโดยรวมของวิธีการนั้นค่อนข้างง่ายดังนั้นการนำไปใช้นั้นไม่ยากเกินไปในบางสิ่งอย่างเช่น MATLAB

ชิ้นส่วนที่ขาดหายไปจากการโพสต์นี้ที่จะต้องมีการระบุไว้ในการรองรับการกำหนดวิธีการในการแก้ไขปัญหาของคุณเป็นทางเลือกของพารามิเตอร์โทษ\โชคดีที่วิธีการนั้นค่อนข้างแข็งแกร่งตราบใดที่ค่าพารามิเตอร์ไม่ได้บ้า กระดาษ Boyd และ Parikh มีส่วนหนึ่งเกี่ยวกับพารามิเตอร์การลงโทษเช่นเดียวกับการอ้างอิงในนั้น แต่ฉันจะทดสอบกับพารามิเตอร์จนกว่าคุณจะได้รับอัตราการลู่เข้าที่เหมาะสม $\alpha,\beta$

แก้กลยุทธ์การนำเสนอที่มีประสิทธิภาพสูงถ้าเมทริกซ์ จำกัด มีทั้ง) หนาแน่น squareish และตำแหน่งสูงหรือข) มีดีอันดับต่ำประมาณ อีกแก้ประโยชน์ที่อาจจะเป็นเรื่องของการทำงานในอนาคตจะมีการแก้ที่ดีที่สุดสำหรับกรณีดังต่อไปนี้ - เมทริกซ์ จำกัดจะเบาบางและ squareish และอันดับสูง แต่มีอยู่ preconditioner ดีสำหรับ Tนี่อาจเป็นกรณีตัวอย่างเช่นเป็น Laplacian ที่ไม่ต่อเนื่อง $Z_J,Z_B$ $M$ $\alpha I + MM^T$ $M$

— นิคแอลจีเรีย
แหล่งที่มา

ใช้งานได้ทันที! ในการตรวจสอบเมทริกซ์แก้สำหรับและควรเป็นสมมาตร / บวกแน่นอนเนื่องจากมันมาจากกำลังสองน้อยใช่มั้ย สังเกตุนี้น่าจะเป็นจริง :-) ดังนั้น CG เป็นตัวเลือกที่ดีกว่า GMRES หรือไม่?

Z_{B}

$Z_B$

Z_{J}

$Z_J$

— Justin Solomon

นอกจากนี้ฉันคิดว่าการอัปเดตสำหรับ B นั้นผิด ฉันทำงานผ่านรายละเอียดนี้มากกว่า แต่การเรียกคืน B ไม่ปรากฏในฟังก์ชันพลังงานของฉัน (ไม่ใช่เทอม) ดังนั้นฉันไม่แน่ใจว่าควรใช้ค่าเป็น ฉันกำลังคิดผิดเกี่ยวกับเรื่องนี้หรือไม่? ขอบคุณ!

| B |

$|B|$

\pm (1 - 1 / α) .

$\pm (1-1/\alpha).$

— Justin Solomon

[errr ค่อนข้าง ]

B = Z_{B} - Γ_{B} / α

$B = Z_B-\Gamma_B/\alpha$

— Justin Solomon

! ที่น่าตื่นตาตื่นใจ หลังจากใส่สูตรของฉันเองสำหรับและ (อาจใกล้ / เทียบเท่ากับสิ่งที่คุณโพสต์ แต่มีบางอย่างที่ไม่ทำงาน) นี่เป็นวิธีที่ดีกว่าวิธี IRLS ขอบคุณ!

J

$J$

B

$B$

— Justin Solomon

ข่าวดี. ดีใจมากที่เห็นว่าการมีส่วนร่วมที่นี่นำไปสู่ผลลัพธ์ที่แท้จริง

— Michael Grant