tanh vs. sigmoid ในโครงข่ายประสาท


16

ฉันต้องขออภัยล่วงหน้าสำหรับความจริงที่ว่าฉันยังคงเร่งความเร็วในเรื่องนี้ ฉันพยายามเข้าใจข้อดีข้อเสียของการใช้ tanh (แผนที่ -1 ถึง 1) กับ sigmoid (แผนที่ 0 ถึง 1) สำหรับฟังก์ชั่นการเปิดใช้งานเซลล์ประสาทของฉัน จากการอ่านของฉันมันฟังดูเป็นเรื่องเล็กน้อยที่มีความแตกต่างเล็กน้อย ในทางปฏิบัติสำหรับปัญหาของฉันฉันพบว่า sigmoid ง่ายต่อการฝึกอบรมและแปลก sigmoid ปรากฏขึ้นเพื่อค้นหาวิธีแก้ปัญหาทั่วไปที่ดีกว่า จากนี้ฉันหมายถึงว่าเมื่อรุ่น sigmoid เสร็จสิ้นการฝึกอบรมก็ทำได้ดีในชุดข้อมูลอ้างอิง (ไม่ผ่านการฝึกอบรม) ซึ่งรุ่น tanh ดูเหมือนว่าจะได้รับคำตอบที่ถูกต้องเกี่ยวกับข้อมูลการฝึกอบรมในขณะที่ทำการอ้างอิงไม่ดี นี่เป็นสถาปัตยกรรมเครือข่ายเดียวกัน

สัญชาตญาณหนึ่งที่ฉันมีคือด้วย sigmoid มันง่ายกว่าสำหรับเซลล์ประสาทที่จะปิดเกือบทั้งหมดดังนั้นจึงไม่มีการป้อนข้อมูลไปยังเลเยอร์ถัดไป tanh มีเวลายากขึ้นที่นี่เนื่องจากต้องการยกเลิกอินพุตที่สมบูรณ์แบบไม่เช่นนั้นจะให้ค่ากับเลเยอร์ถัดไปเสมอ บางทีสัญชาตญาณนี้ผิด

โพสต์ยาว บรรทัดล่างคืออะไรค้าขายและควรสร้างความแตกต่างใหญ่

คำตอบ:


23

ในหนังสือ "Neural Networks: A Comprehensive Foundation" ของ Symon Haykin มีคำอธิบายต่อไปนี้ซึ่งฉันอ้างถึง:

เพื่อลดเวลาการเรียนรู้ให้น้อยที่สุดควรหลีกเลี่ยงการใช้อินพุตที่ไม่เป็นศูนย์ ตอนนี้ตราบเท่าที่เวกเตอร์สัญญาณนำไปใช้กับเซลล์ประสาทในเลเยอร์แรกที่ซ่อนของ perceptron หลายชั้นที่เกี่ยวข้องมันเป็นเรื่องง่ายที่จะลบค่าเฉลี่ยจากองค์ประกอบของแต่ละxก่อนที่จะประยุกต์ใช้กับเครือข่าย แต่สิ่งที่เกี่ยวกับสัญญาณที่ใช้กับเซลล์ประสาทในชั้นซ่อนเร้นและเอาท์พุทที่เหลือของเครือข่าย คำตอบสำหรับคำถามนี้อยู่ในประเภทของฟังก์ชั่นการเปิดใช้งานที่ใช้ในเครือข่าย หากฟังก์ชั่นการเปิดใช้งานไม่สมมาตรเช่นในกรณีของฟังก์ชั่น sigmoid เอาท์พุทของแต่ละเซลล์ประสาทจะมีการ จำกัด ช่วง[ 0 , 1 ] ตัวเลือกดังกล่าวแนะนำแหล่งที่มาของความลำเอียงอย่างเป็นระบบxx[0,1]สำหรับเซลล์ประสาทเหล่านั้นที่อยู่เหนือชั้นแรกของเครือข่าย เพื่อเอาชนะปัญหานี้เราจำเป็นต้องใช้ฟังก์ชั่นการเปิดใช้งาน antisymmetric เช่นฟังก์ชั่นไฮเพอร์โบลิกแทนเจนต์ ด้วยตัวเลือกหลังนี้เอาต์พุตของนิวรอนแต่ละตัวจะได้รับอนุญาตให้ถือว่าทั้งค่าบวกและลบในช่วงเวลาซึ่งในกรณีนี้มันมีแนวโน้มว่าค่าเฉลี่ยจะเป็นศูนย์ หากการเชื่อมต่อเครือข่ายมีขนาดใหญ่การเรียนรู้การแพร่กระจายย้อนกลับด้วยฟังก์ชั่นการเปิดใช้งาน antisymmetric สามารถให้การลู่เข้าได้เร็วกว่ากระบวนการที่คล้ายกันกับฟังก์ชั่นการเปิดใช้งานที่ไม่สมมาตรซึ่งมีหลักฐานเชิงประจักษ์[1,1]

การอ้างอิงที่อ้างถึงคือ:

  • Y. LeCun, I. Kanter และ SASolla: "คุณสมบัติอันดับสองของพื้นผิวข้อผิดพลาด: เวลาเรียนรู้และการวางหลักเกณฑ์ทั่วไป", ความก้าวหน้าในระบบประมวลผลข้อมูลประสาท, ฉบับที่ 19 3, pp. 918-924, 1991

การอ้างอิงที่น่าสนใจอีกประการหนึ่งคือ:

  • Y. LeCun, L. Bottou, G. Orr และ K. Muller: " Efficient BackProp ", ใน Orr, G. และ Muller K. (บรรณาธิการ), เครือข่ายประสาท: เทคนิคการค้า, Springer, 1998

เซลล์ประสาท ReLU ดูเหมือนจะทำงานได้ดีแม้จะมีอคติแล้วก็ตาม คุณมีความคิดเกี่ยวกับเรื่องนี้ไหม?
Ark-kun

@ Ark-kun ฉันไม่รู้มากเกี่ยวกับเซลล์ประสาท ReLU แต่ฉันสามารถอ้างอิงคุณไปยังบทความนี้ซึ่งผู้เขียนอธิบายถึงข้อดีของฟังก์ชั่นการเปิดใช้งานดังกล่าว X. Glorot, A. Bordes และ Y. Bengio "เครือข่ายนิวรัลเรกติไฟเซอร์เบาบางลึก AISTATS 2011. jmlr.org/proceedings/papers/v15/glorot11a/glorot11a.gdf
tiagotvv

1

ฟังก์ชั่นการเปิดใช้งานทั้งสองนี้คล้ายกันมาก แต่ถูกหักล้าง เครือข่ายเดิมของฉันไม่มีเงื่อนไขการตั้งค่า ตั้งแต่เพิ่มอคติทุกอย่างมีเสถียรภาพมากขึ้น จากประสบการณ์ของฉันฉันจะบอกว่าสิ่งใดสิ่งหนึ่งเหล่านี้อาจทำงานได้ดีขึ้นสำหรับแอปพลิเคชันเฉพาะสำหรับเหตุผลที่ซับซ้อนอาจเป็นไปไม่ได้ แต่วิธีการที่ถูกต้องคือการรวมคำศัพท์อคติเพื่อให้การพึ่งพา


0

tanh

L=1ni(yilog(pi)+(1yi)log(1pi))

yiipiiฉัน

pitanh


คุณสามารถปรับขนาดได้ tanh (X) -1 แบ่งปันอนุพันธ์และไม่มีปัญหาบันทึกลบ
Pablo Arnau González
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.