เหตุใดเราจึงใช้ ReLU ในเครือข่ายประสาทและเราจะใช้อย่างไร


31

เหตุใดเราจึงใช้หน่วยเชิงเส้นแก้ไข (ReLU) กับเครือข่ายประสาทเทียม มันช่วยปรับปรุงโครงข่ายประสาทเทียมได้อย่างไร?

ทำไมเราถึงบอกว่า ReLU เป็นฟังก์ชั่นการเปิดใช้งาน ฟังก์ชั่นการเปิดใช้งาน softmax ไม่ใช่สำหรับเครือข่ายประสาทหรือไม่ ฉันเดาว่าเราจะใช้ทั้ง ReLU และ softmax แบบนี้:

เซลล์ประสาท 1 ที่มีเอาต์พุต softmax ----> ReLU บนเอาต์พุตของเซลล์ประสาท 1 ซึ่งเป็น
อินพุตของเซลล์ประสาท 2 ---> เซลล์ประสาท 2 ที่มีเอาต์พุต softmax -> ...

ดังนั้นอินพุตของเซลล์ประสาท 2 จึงเป็น ReLU (softmax (x1)) ถูกต้องหรือไม่

คำตอบ:


36

ฟังก์ชั่น Relu คือf(x)=max(0,x).โดยปกติจะใช้องค์ประกอบที่ชาญฉลาดกับการส่งออกของฟังก์ชั่นอื่น ๆ เช่นผลิตภัณฑ์เมทริกซ์เวกเตอร์ ในประเพณี MLP หน่วยแก้ไขจะแทนที่ฟังก์ชั่นการเปิดใช้งานอื่น ๆ ทั้งหมดยกเว้นชั้นการอ่านข้อมูล แต่ฉันคิดว่าคุณสามารถผสมและจับคู่พวกเขาหากคุณต้องการ

วิธีหนึ่งที่ ReLUs ปรับปรุงเครือข่ายประสาทคือการเร่งการฝึกอบรม การคำนวณการไล่ระดับสีนั้นง่ายมาก (ทั้ง 0 หรือ 1 ขึ้นอยู่กับเครื่องหมายของx ) นอกจากนี้ขั้นตอนการคำนวณของ ReLU นั้นง่าย: องค์ประกอบเชิงลบใด ๆ ถูกตั้งค่าเป็น 0.0 - ไม่มีเลขชี้กำลังไม่มีการดำเนินการคูณหรือการหาร

การไล่สีของเครือข่ายโลจิสติกและไฮเพอร์โบลิกแทนเจนต์มีขนาดเล็กกว่าส่วนที่เป็นบวกของ ReLU ซึ่งหมายความว่าส่วนที่เป็นบวกจะได้รับการปรับปรุงอย่างรวดเร็วยิ่งขึ้นเมื่อการฝึกอบรมดำเนินไป อย่างไรก็ตามสิ่งนี้มีค่าใช้จ่าย 0 การไล่ระดับสีทางด้านซ้ายมือมีปัญหาของตัวเองที่เรียกว่า "เซลล์ประสาทที่ตายแล้ว" ซึ่งการปรับปรุงการไล่ระดับสีตั้งค่าที่เข้ามาเป็น ReLU เพื่อให้เอาต์พุตเป็นศูนย์เสมอ หน่วย ReLU ที่แก้ไขเช่น ELU (หรือ LeLe ReLU หรือ PReLU เป็นต้น) สามารถแก้ไขปัญหานี้ได้

ddxReLU(x)=1x>00 ในทางตรงกันข้ามการไล่ระดับสีของหน่วย sigmoid คือที่มากที่สุด0.25; ในทางตรงกันข้ามtanhอัตราที่ดีขึ้นสำหรับการป้อนข้อมูลในภูมิภาคใกล้ 0 ตั้งแต่0.25<ddxtanh(x)1x[1.31,1.31](โดยประมาณ)


@aginensky คุณสามารถถามคำถามได้โดยคลิกปุ่มถามคำถามที่ด้านบนของหน้า
Sycorax พูดว่า Reinstate Monica

ฉันไม่เห็นหลักฐานที่ฉันต้องการถามคำถามหรือมีส่วนร่วมในหน้านี้ ตรงไปตรงมาฉันประหลาดใจมากที่ ReLU ทำงานได้ดี แต่ฉันหยุดตั้งคำถามแล้ว :)
aginensky

@aginensky ปรากฏว่ามีการลบความคิดเห็นในระหว่างกาล
Sycorax พูดว่า Reinstate Monica

ฉันไม่ได้ลบความคิดเห็นหรือแจ้งให้ทราบ ฉันหยุดตอบคำถามและฉันเดาว่านี่หมายความว่าฉันแสดงความคิดเห็นด้วยเช่นกัน
aginensky

@aginensky ฉันไม่รู้ว่าทำไมสิ่งนี้จะทำให้คุณหยุดแสดงความคิดเห็น หากคุณมีคำถามเกี่ยวกับความคิดเห็นและการกลั่นกรองคุณสามารถถามคำถามได้ที่ meta.stats.SE
Sycorax พูดว่า Reinstate Monica

4

ρ(x)=สูงสุด(0,x)ρρρρ=ρ

ป้อนคำอธิบายรูปภาพที่นี่

n


0

ReLU เป็นฟังก์ชั่นสูงสุด (x, 0) กับอินพุต x เช่นเมทริกซ์จากภาพที่มีการแปลง ReLU จะตั้งค่าลบทั้งหมดในเมทริกซ์ x เป็นศูนย์และค่าอื่น ๆ ทั้งหมดจะคงที่

มีการคำนวณ ReLU หลังการสนทนาดังนั้นฟังก์ชันการเปิดใช้งานแบบไม่เชิงเส้นเช่น tanh หรือ sigmoid

Softmax เป็นตัวจําแนกในตอนท้ายของเครือข่ายประสาท นั่นคือการถดถอยโลจิสติกเพื่อทำให้ผลลัพธ์เป็นค่าปกติระหว่าง 0 ถึง 1 (ทางเลือกนี่คือตัวจําแนก SVM)

CNN Forward Pass เช่น: input-> conv-> ReLU-> Pool-> conv-> ReLU-> Pool-> FC-> softmax


8
downvoting นี่เป็นคำตอบที่แย่มาก! Softmax ไม่ใช่ตัวจําแนก! มันเป็นฟังก์ชั่นที่ทำให้ปกติ (สเกล) เอาท์พุทเป็นช่วง [0,1] และทำให้แน่ใจว่าพวกเขารวมกันได้ถึง 1 การถดถอยโลจิสติกไม่ได้ "ทำให้ปกติ" อะไร! ประโยค "ReLU ถูกคำนวณหลังจากการแปลงดังนั้นฟังก์ชันการเปิดใช้งานแบบไม่เชิงเส้นเช่น tanh หรือ sigmoid" ขาดคำกริยาหรือความรู้สึก
Jan Kukacka

1
คำตอบนั้นไม่เลว ประโยคโดยไม่ต้องคำกริยาจะต้อง "Relu คำนวณหลังจากบิดและISจึงฟังก์ชั่นการเปิดใช้งานไม่เชิงเส้นเช่น tanh หรือ sigmoid." การคิดถึง softmax เป็นลักษณนามก็สมเหตุสมผลเช่นกัน มันสามารถมองเห็นเป็นลักษณนามน่าจะเป็นที่กำหนดความน่าจะเป็นให้กับแต่ละชั้นเรียน มัน "normalizes" / "normalizes" ผลลัพธ์ไปยังช่วง [0,1]
user118967

0

ReLU เป็นสวิตช์ที่แท้จริง ด้วยสวิตช์ไฟฟ้า 1 โวลต์ให้ 1 โวลต์ออก n โวลต์ในให้ n โวลต์เมื่อเปิด เปิด / ปิดเมื่อคุณตัดสินใจที่จะเปลี่ยนที่ศูนย์ให้กราฟเหมือนกันกับ ReLU ผลรวมถ่วงน้ำหนัก (ผลิตภัณฑ์ดอท) ของจำนวนผลรวมถ่วงน้ำหนักยังคงเป็นระบบเชิงเส้น สำหรับอินพุตเฉพาะสวิตช์ ReLU นั้นเปิดหรือปิดแยกกัน ผลลัพธ์นั้นเป็นเส้นโครงประมาณการเฉพาะจากอินพุตไปยังเอาต์พุตเนื่องจากผลรวมของน้ำหนักถ่วงน้ำหนักของผลรวมถ่วงน้ำหนักของ ... เชื่อมต่อกันด้วยสวิตช์ สำหรับอินพุตที่เฉพาะเจาะจงและเซลล์ประสาทเอาท์พุทที่เฉพาะเจาะจงมีระบบผสมของผลรวมของน้ำหนักที่จริงสามารถสรุปได้เป็นผลรวมถ่วงน้ำหนักที่มีประสิทธิภาพเดียว เนื่องจาก ReLU เปลี่ยนสถานะเป็นศูนย์จึงไม่มีการหยุดทำงานอย่างฉับพลันในเอาต์พุตสำหรับการเปลี่ยนแปลงทีละน้อยในอินพุต

มีอัลกอริธึมรวมน้ำหนัก (dot product) อื่น ๆ ที่มีประสิทธิภาพเชิงตัวเลขเช่นการแปลง FFT และ Walsh Hadamard ไม่มีเหตุผลใดที่คุณไม่สามารถรวมสิ่งเหล่านั้นลงในเครือข่ายประสาทเทียมที่ใช้ ReLU และได้รับประโยชน์จากกำไรจากการคำนวณ (เช่น. เครือข่ายประสาทกรองธนาคารคงที่)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.