2
KL ขาดทุนด้วยยูนิตเสียน
ฉันได้ใช้ VAE และฉันสังเกตเห็นการใช้งานที่แตกต่างกันสองทางออนไลน์ของความแตกต่างที่ไม่ซับซ้อนของ gaussian KL แบบไม่ระบุตัวตน ความแตกต่างดั้งเดิมตามที่นี่คือ หากเราถือว่าก่อนหน้านี้คือหน่วย gaussian เช่นและสิ่งนี้จะลดความซับซ้อนลงเหลือ และนี่คือที่ที่ความสับสนของฉันอยู่ แม้ว่าฉันจะพบ repos github ที่คลุมเครือไม่กี่อย่างกับการใช้งานข้างต้นสิ่งที่ฉันมักจะใช้คือ:KLL o s s= บันทึก(σ2σ1) +σ21+ (μ1-μ2)22σ22-12KLล.โอss=เข้าสู่ระบบ(σ2σ1)+σ12+(μ1-μ2)22σ22-12 KL_{loss}=\log(\frac{\sigma_2}{\sigma_1})+\frac{\sigma_1^2+(\mu_1-\mu_2)^2}{2\sigma^2_2}-\frac{1}{2} μ2= 0μ2=0\mu_2=0σ2= 1σ2=1\sigma_2=1KLL o s s= - บันทึก(σ1) +σ21+μ212-12KLล.โอss=-เข้าสู่ระบบ(σ1)+σ12+μ122-12 KL_{loss}=-\log(\sigma_1)+\frac{\sigma_1^2+\mu_1^2}{2}-\frac{1}{2} KLL o s s= -12( 2 บันทึก(σ1) -σ21-μ21+ 1 )KLล.โอss=-12(2เข้าสู่ระบบ(σ1)-σ12-μ12+1) KL_{loss}=-\frac{1}{2}(2\log(\sigma_1)-\sigma_1^2-\mu_1^2+1) = -12( บันทึก(σ1) -σ1-μ21+ 1 )=-12(เข้าสู่ระบบ(σ1)-σ1-μ12+1) =-\frac{1}{2}(\log(\sigma_1)-\sigma_1-\mu^2_1+1) …