ฉันกำลังศึกษาและพยายามใช้โครงข่ายประสาทเทียม แต่ฉันคิดว่าคำถามนี้ใช้ได้กับผู้เรียนหลายคนโดยทั่วไป
เซลล์ส่งออกในเครือข่ายของฉันเป็นตัวแทนของการเปิดใช้งานของแต่ละชั้นเรียน: เซลล์ประสาทที่ใช้งานมากที่สุดสอดคล้องกับระดับที่คาดการณ์ไว้สำหรับการป้อนข้อมูลที่กำหนด ในการพิจารณาค่าใช้จ่ายข้ามเอนโทรปีสำหรับการฝึกอบรมฉันเพิ่มเลเยอร์ softmax ที่ส่วนท้ายของเครือข่ายเพื่อให้ค่าการเปิดใช้งานของเซลล์ประสาทแต่ละค่าถูกตีความเป็นค่าความน่าจะเป็น
คำถามของฉันคือ: เซลล์ประสาทในชั้นเอาต์พุตควรใช้ฟังก์ชันที่ไม่ใช่เชิงเส้นกับอินพุตหรือไม่ สัญชาตญาณของฉันคือมันไม่จำเป็น:
- ถ้าอินพุตกับ th เอาต์พุตเซลล์ประสาทคือจุดผลิตภัณฑ์ระหว่างเวกเตอร์ (มาจากเลเยอร์ก่อนหน้า) และน้ำหนักสำหรับเซลล์ประสาทนั้นx T θ ฉัน x θ ฉัน
- และถ้าฉันใช้ฟังก์ชั่นที่ไม่ใช่เชิงเส้นเดียวเช่น sigmoid หรือ ReLU
- ดังนั้นการเปิดใช้งานเอาต์พุตขนาดใหญ่จะยังคงสอดคล้องกับใหญ่ที่สุดดังนั้นจากมุมมองนี้ฟังก์ชั่นที่ไม่ใช่เชิงเส้นจะไม่เปลี่ยนการทำนาย
มีอะไรผิดปกติกับการตีความนี้หรือไม่? มีปัจจัยการฝึกอบรมบางอย่างที่ฉันมองเห็นหรือไม่
และถ้าฉันพูดถูกสิ่งใดจะเปลี่ยนไปถ้าแทนที่จะใช้ฟังก์ชั่น sigmoid ฉันใช้ฟังก์ชั่น ReLUซึ่งไม่ใช่ฟังก์ชั่นโมโนโทนิกอย่างแน่นอน
แก้ไข
จากการอ้างอิงถึงคำตอบของ Karel ซึ่งคำตอบโดยทั่วไปคือ "ขึ้นอยู่กับ" นี่คือคำอธิบายโดยละเอียดเพิ่มเติมเกี่ยวกับเครือข่ายและข้อสงสัยของฉัน:
สมมติว่าฉันมีเลเยอร์ที่ซ่อนอยู่ N ชั้นและชั้นการส่งออกของฉันเป็นเพียงชั้น softmax เหนือชุดของเซลล์ประสาทที่เป็นตัวแทนของคลาส (ดังนั้นผลลัพธ์ที่คาดหวังของฉันคือความน่าจะเป็นที่ข้อมูลอินพุตเป็นของแต่ละชั้นเรียน) สมมติว่าเลเยอร์ N-1 แรกมีเซลล์ประสาทแบบไม่เชิงเส้นอะไรคือความแตกต่างระหว่างการใช้เซลล์ประสาทแบบไม่เชิงเส้นกับเชิงเส้นตรงในเลเยอร์ N-th ที่ซ่อนอยู่?