นี่คือหัวข้อการสนทนา (ตั้งแต่เดือนกรกฎาคม 2013) ที่ระบุว่าอาจมีปัญหาบางอย่างเกี่ยวกับเรื่องนี้ แต่สามารถทำได้
ÇağlarGülçehre (จากห้องทดลองของ Yoshua Bengio) กล่าวว่าเขาประสบความสำเร็จในการใช้เทคนิคต่อไปนี้ในเรื่องความรู้: ความสำคัญของข้อมูลก่อนเพื่อเพิ่มประสิทธิภาพ :
ฝึก DAE แรกตามปกติ แต่ใช้วงจรเรียงกระแสในเลเยอร์ที่ซ่อนอยู่:
a1(x) = W1 x + b1
h1 = f1(x) = rectifier(a1(x))
g1(h1) = {sigmoid}(V1 h1 + c1)
ลด cross-entropy หรือการสูญเสีย MSE เปรียบเทียบ g1 (f1 (เสียหาย (x))) และ x sigmoid เป็นทางเลือกขึ้นอยู่กับข้อมูล
h2 = f2(h1) = rectifier(W2 h1 + b2)
g2(h2) = softplus(V2 h2 + c2)
∥ f1( x ) - g2( ฉ2( r e c t i fฉันอีอาร์ ( C o R R ยูพีที (1( x ) ) ) ) ) ∥2+ λ1∥ W.∥1+ λ2∥ W.∥2
Xavier Glorot จากห้องปฏิบัติการ Bengio กล่าวว่าเขาทำเช่นเดียวกันยกเว้นการแทนที่ด้วยการลงโทษ "ในค่าการเปิดใช้งาน" (สมมุติ ?) ทั้งในAdaptation สำหรับ การจำแนกประเภทความเชื่อมั่นขนาดใหญ่: แนวทางการเรียนรู้ลึก (ICML 2011) และในเครือข่ายนิวรัลเรกติไฟเซอร์เบาบาง (AISTATS 2011)L 1 ‖ g 2 ( … ) ‖ 1∥ W.∥1L1∥ กรัม2( … ) ∥1