ฉันต้องขออภัยล่วงหน้าสำหรับความจริงที่ว่าฉันยังคงเร่งความเร็วในเรื่องนี้ ฉันพยายามเข้าใจข้อดีข้อเสียของการใช้ tanh (แผนที่ -1 ถึง 1) กับ sigmoid (แผนที่ 0 ถึง 1) สำหรับฟังก์ชั่นการเปิดใช้งานเซลล์ประสาทของฉัน จากการอ่านของฉันมันฟังดูเป็นเรื่องเล็กน้อยที่มีความแตกต่างเล็กน้อย ในทางปฏิบัติสำหรับปัญหาของฉันฉันพบว่า sigmoid ง่ายต่อการฝึกอบรมและแปลก sigmoid ปรากฏขึ้นเพื่อค้นหาวิธีแก้ปัญหาทั่วไปที่ดีกว่า จากนี้ฉันหมายถึงว่าเมื่อรุ่น sigmoid เสร็จสิ้นการฝึกอบรมก็ทำได้ดีในชุดข้อมูลอ้างอิง (ไม่ผ่านการฝึกอบรม) ซึ่งรุ่น tanh ดูเหมือนว่าจะได้รับคำตอบที่ถูกต้องเกี่ยวกับข้อมูลการฝึกอบรมในขณะที่ทำการอ้างอิงไม่ดี นี่เป็นสถาปัตยกรรมเครือข่ายเดียวกัน
สัญชาตญาณหนึ่งที่ฉันมีคือด้วย sigmoid มันง่ายกว่าสำหรับเซลล์ประสาทที่จะปิดเกือบทั้งหมดดังนั้นจึงไม่มีการป้อนข้อมูลไปยังเลเยอร์ถัดไป tanh มีเวลายากขึ้นที่นี่เนื่องจากต้องการยกเลิกอินพุตที่สมบูรณ์แบบไม่เช่นนั้นจะให้ค่ากับเลเยอร์ถัดไปเสมอ บางทีสัญชาตญาณนี้ผิด
โพสต์ยาว บรรทัดล่างคืออะไรค้าขายและควรสร้างความแตกต่างใหญ่