KL ขาดทุนด้วยยูนิตเสียน

10

ฉันได้ใช้ VAE และฉันสังเกตเห็นการใช้งานที่แตกต่างกันสองทางออนไลน์ของความแตกต่างที่ไม่ซับซ้อนของ gaussian KL แบบไม่ระบุตัวตน ความแตกต่างดั้งเดิมตามที่นี่คือ หากเราถือว่าก่อนหน้านี้คือหน่วย gaussian เช่นและสิ่งนี้จะลดความซับซ้อนลงเหลือ และนี่คือที่ที่ความสับสนของฉันอยู่ แม้ว่าฉันจะพบ repos github ที่คลุมเครือไม่กี่อย่างกับการใช้งานข้างต้นสิ่งที่ฉันมักจะใช้คือ:

K L_{ล. โอ s s} = เข้าสู่ระบบ (\frac{σ_{2}}{σ_{1}}) + \frac{σ_{1}^{2} + (μ_{1} - μ_{2})^{2}}{2 σ_{2}^{2}} - \frac{1}{2}

$KL_{loss}=\log(\frac{\sigma_2}{\sigma_1})+\frac{\sigma_1^2+(\mu_1-\mu_2)^2}{2\sigma^2_2}-\frac{1}{2}$

μ_{2} = 0

$\mu_2=0$

σ_{2} = 1

$\sigma_2=1$

K L_{ล. โอ s s} = - เข้าสู่ระบบ (σ_{1}) + \frac{σ_{1}^{2} + μ_{1}^{2}}{2} - \frac{1}{2}

$KL_{loss}=-\log(\sigma_1)+\frac{\sigma_1^2+\mu_1^2}{2}-\frac{1}{2}$

K L_{ล. โอ s s} = - \frac{1}{2} (2 เข้าสู่ระบบ (σ_{1}) - σ_{1}^{2} - μ_{1}^{2} + 1)

$KL_{loss}=-\frac{1}{2}(2\log(\sigma_1)-\sigma_1^2-\mu_1^2+1)$

= - \frac{1}{2} (เข้าสู่ระบบ (σ_{1}) - σ_{1} - μ_{1}^{2} + 1)

$=-\frac{1}{2}(\log(\sigma_1)-\sigma_1-\mu^2_1+1)$ ยกตัวอย่างอย่างเป็นทางการในKeras autoencoder กวดวิชา คำถามของฉันคืออะไรฉันหายไปไหนระหว่างสองสิ่งนี้ ความแตกต่างที่สำคัญคือการลดลงของปัจจัยที่ 2 ในคำล็อกและไม่ยกกำลังการแปรปรวน ฉันได้ใช้ความสำเร็จในการวิเคราะห์กับสิ่งที่คุ้มค่า ขอบคุณล่วงหน้าสำหรับความช่วยเหลือใด ๆ !

— groovyDragon
แหล่งที่มา

7

โปรดสังเกตว่าด้วยการแทนที่ด้วยในสมการสุดท้ายคุณจะกู้คืนก่อนหน้า (เช่น ) ทำให้ฉันคิดว่าในกรณีแรกตัวเข้ารหัสถูกใช้เพื่อทำนายความแปรปรวนในขณะที่ตัวที่สองมันถูกใช้เพื่อทำนายค่าเบี่ยงเบนมาตรฐาน $\sigma_1$ $\sigma_1^2$ $\log(\sigma_1) - \sigma_1 \rightarrow 2\log(\sigma_1) - \sigma_1^2$

สูตรทั้งสองมีความเท่าเทียมกันและไม่มีการเปลี่ยนแปลงวัตถุประสงค์

— F. Evlangeli
แหล่งที่มา

ฉันไม่คิดว่ามันจะเป็นกรณีที่สิ่งเหล่านี้เทียบเท่า ใช่พวกเขาทั้งสองลดลงเมื่อคุณสำหรับศูนย์และหน่วย\อย่างไรก็ตามในสมการดั้งเดิม (เนื้อเรื่องความแปรปรวน) โทษสำหรับการย้ายห่างจากเอกภาพนั้นใหญ่กว่าในสมการที่สอง (ขึ้นอยู่กับค่าเบี่ยงเบนมาตรฐาน) บทลงโทษสำหรับการผันแปรในเหมือนกันทั้งคู่และข้อผิดพลาดในการสร้างใหม่จะเหมือนกันดังนั้นการใช้รุ่นที่สองจะเปลี่ยนความสำคัญของการออกเดินทางของจากเอกภาพอย่างมาก ฉันพลาดอะไรไป

μ

$\mu$

σ

$\sigma$

σ

$\sigma$

μ

$\mu$

σ

$\sigma$

— TheBamf

0

ฉันเชื่อว่าคำตอบนั้นง่ายกว่า ใน VAE คนมักจะใช้การกระจายปกติหลายตัวแปรที่มีความแปรปรวนเมทริกซ์แทนความแปรปรวน 2 ที่ดูสับสนในรหัส แต่มีรูปแบบที่ต้องการ $\Sigma$ $\sigma^2$

ที่นี่คุณจะได้รับความแตกต่างของ KL สำหรับการแจกแจงปกติหลายตัวแปร: การได้รับการสูญเสีย KL divergence สำหรับ VAE

— Dmitry Grebenyuk
แหล่งที่มา