ฉันได้อ่านที่อื่นแล้วว่าฟังก์ชั่นการเปิดใช้งานเลเยอร์ที่ซ่อนอยู่ใน NN ควรเป็นไปตามความต้องการเช่นถ้าคุณต้องการค่าในช่วง -1 ถึง 1 ใช้ tanh และใช้ sigmoid สำหรับช่วง 0 ถึง 1
คำถามของฉันคือใครจะรู้ว่าสิ่งที่ต้องการคืออะไร? มันขึ้นอยู่กับช่วงของเลเยอร์อินพุทเช่นใช้ฟังก์ชั่นที่สามารถครอบคลุมช่วงเต็มของเลเยอร์ของค่าหรือไม่ก็สะท้อนการกระจายของเลเยอร์อินพุท (ฟังก์ชั่นเกาส์) หรือไม่? หรือต้องการปัญหา / โดเมนที่เฉพาะเจาะจงและจำเป็นต้องมีประสบการณ์ / วิจารณญาณในการเลือกตัวเลือกนี้หรือไม่? หรือเป็นเพียง "ใช้สิ่งที่ให้ข้อผิดพลาดในการฝึกอบรมขั้นต่ำที่ผ่านการตรวจสอบความถูกต้องขั้นต่ำ"
1 + (1 / exp(-sum))
และทำเพื่อให้ใช้การเปิดใช้งาน ทำให้ความต้องการในการทำความเข้าใจนั้นยากมากโดยไม่ต้องลองทั้งคู่ในแต่ละชุดข้อมูล ความต้องการตามที่คุณอธิบายที่นี่นั้นเชื่อมโยงกับความสัมพันธ์ที่เกิดขึ้นจริงเช่นชุดข้อมูลไบนารีจะเรียนรู้ได้เร็วขึ้นหรือไม่ได้รับการเปิดใช้งานที่แตกต่างกันเลย