คำที่ไม่อิ่มตัวเชิงเส้นที่มีความหมายถึงอะไร?

ฉันอ่านเอกสารการจำแนกประเภทของ ImageNet ด้วย Deep Convolutional Neural Networksและในส่วนที่ 3 พวกเขาอธิบายสถาปัตยกรรมของโครงข่ายประสาทเทียมของพวกเขาพวกเขาอธิบายว่าพวกเขาต้องการใช้อย่างไร:

ไม่ใช่พอดิบพอดีไม่เป็นเชิงเส้น $f(x) = max(0, x).$

เพราะมันเร็วกว่าในการฝึก ในกระดาษพวกนั้นดูเหมือนว่าจะหมายถึง saturating nonlinearities เป็นฟังก์ชันดั้งเดิมที่ใช้ใน CNNs, sigmoid และฟังก์ชันไฮเพอร์โบลิกแทนเจนต์ (เช่นและเป็น saturating) $f(x) = tanh(x)$ $f(x) = \frac{1}{1 + e^{-x}} = (1 + e^{-x})^{-1}$

ทำไมพวกเขาอ้างถึงฟังก์ชั่นเหล่านี้ว่า "saturating" หรือ "non-saturating"? ฟังก์ชันเหล่านี้มีความหมายว่าอะไร "saturating" หรือ "non-saturating"? คำเหล่านั้นมีความหมายอย่างไรในบริบทของโครงข่ายประสาทเทียม พวกเขาใช้ในด้านอื่น ๆ ของการเรียนรู้ของเครื่อง (และสถิติ) หรือไม่?

— ชาร์ลีปาร์คเกอร์
แหล่งที่มา

ฉันพบว่าคำตอบนี้ยังมีประโยชน์มาก

— ตรงไปตรงมา

คำตอบ:

ปรีชา

ฟังก์ชั่นการเปิดใช้งาน saturating บีบอินพุต

คำนิยาม

$f$ คือ iff ที่ไม่อิ่มตัว $(|\lim_{z\to-\infty} f(z)| = +\infty) \vee (|\lim_{z\to+\infty} f(z)| = +\infty)$
$f$ คือ saturating iff $f$ ไม่ใช่แบบไม่อิ่มตัว

คำจำกัดความเหล่านี้ไม่เฉพาะเจาะจงสำหรับเครือข่ายประสาทเทียม

ตัวอย่าง

ฟังก์ชั่นการเปิดใช้งานฟังก์ชั่น Rectified Linear Unit (ReLU) ซึ่งถูกกำหนดให้เป็น $f(x)=max(0,x)$ ไม่อิ่มตัวเนื่องจาก $\lim_{z\to+\infty} f(z) = +\infty$ :

ฟังก์ชันการเปิดใช้งาน sigmoid ซึ่งถูกกำหนดเป็น $f(x) = \frac{1}{1 + e^{-x}}$ กำลังอิ่มตัวเพราะมันจะทำให้จำนวนจริงอยู่ในช่วงระหว่าง $[0,1]$ :

$[-1,1]$

(ตัวเลขมาจากCS231n , MIT License)

— Franck Dernoncourt
แหล่งที่มา

อาดีทำให้รู้สึก! ฉันรู้ว่านี่ไม่ใช่คำถามเดิมของฉัน แต่อะไรคือคุณสมบัติที่สำคัญในบริบทของ ML และ CNNs

— Charlie Parker

สำหรับ ANNs เพื่อหลีกเลี่ยงการมีหนึ่งยูนิตที่มีเอาต์พุตขนาดใหญ่ที่ส่งผลกระทบต่อเลเยอร์เอาต์พุตของ ANN มากเกินไป

— Franck Dernoncourt

อะไรคือความแตกต่างระหว่างสีแทนและ sigmoid? พวกเขาทั้งสองสควอชตัวเลขในช่วงปิด! ฉันไม่เข้าใจคุณช่วยอธิบายเรื่องนี้ให้มากกว่านี้ได้ไหม? ฉันเป็นคนเลวในวิชาคณิตศาสตร์ (โดยวิธีที่ฉันมาจากมุมมองของซีเอ็นเอ็น)

— Rika

@FranckDernoncourt คุณหมายถึง saturating สำหรับฟังก์ชันการเปิดใช้งาน tanh หรือไม่ ฉันเดาว่ามีการพิมพ์ผิด? :)

— CoderSpinoza

@tenCupMaximum: การอิ่มตัวหมายถึงการเติมจนถึงจุดที่ไม่สามารถเพิ่มได้อีก ในบริบทของฟังก์ชั่น saturating ก็หมายความว่าหลังจากผ่านไประยะหนึ่งแล้วการเพิ่มอินพุตใด ๆ ของฟังก์ชันจะไม่ทำให้การส่งออกเพิ่มขึ้น (ซึ่งมีความหมาย) ซึ่งมีค่าเกือบจะถึง ฟังก์ชั่น ณ จุดนั้นคือ "เติมเต็ม" เพื่อพูด (หรืออิ่มตัว )

— Ruben van Bergen

ฟังก์ชั่นการเปิดใช้งานที่พบบ่อยที่สุดคือ LOG และ TanH ฟังก์ชั่นเหล่านี้มีช่วงขนาดกะทัดรัดซึ่งหมายความว่าพวกเขาบีบอัดการตอบสนองของระบบประสาทเป็นส่วนย่อยของขอบเขตจำนวนจริง LOG บีบอัดอินพุตไปยังเอาต์พุตระหว่าง 0 และ 1, TAN H ระหว่าง -1 และ 1 ฟังก์ชันเหล่านี้แสดงพฤติกรรม จำกัด ที่ขอบเขต

ที่ชายแดนการไล่ระดับสีของเอาต์พุตเมื่อเทียบกับอินพุต∂yj / ∂xjนั้นมีขนาดเล็กมาก ดังนั้นการไล่ระดับสีจึงเป็นขั้นตอนเล็ก ๆ ในการลู่เข้าหากันดังนั้นจึงใช้เวลาในการบรรจบกันนานขึ้น

— ปราดี KL
แหล่งที่มา