ฟังก์ชั่นค่าใช้จ่ายของโครงข่ายประสาทเทียมนั้นไม่นูนหรือไม่?


36

ฟังก์ชั่นค่าใช้จ่ายของเครือข่ายประสาทเป็นและมันจะอ้างว่าเป็นที่ไม่นูน ฉันไม่เข้าใจว่าทำไมมันถึงเป็นเช่นนั้นเพราะเมื่อฉันเห็นว่ามันค่อนข้างคล้ายกับฟังก์ชันต้นทุนของการถดถอยโลจิสติกใช่มั้ยJ(W,b)

ถ้ามันไม่ใช่แบบนูนดังนั้นอนุพันธ์อันดับสองใช่ไหม?JW<0

UPDATE

ขอบคุณคำตอบด้านล่างรวมถึงความคิดเห็นของ @ gung ฉันได้รับประเด็นของคุณหากไม่มีเลเยอร์ที่ซ่อนอยู่เลยมันก็นูนเหมือนการถดถอยโลจิสติก แต่ถ้ามีเลเยอร์ที่ซ่อนอยู่โดยอนุญาตให้โหนดในเลเยอร์ที่ซ่อนอยู่รวมถึงตุ้มน้ำหนักในการเชื่อมต่อที่ตามมาเราอาจมีวิธีแก้ปัญหาหลายอย่างของน้ำหนักที่ทำให้สูญเสียเหมือนกัน

ตอนนี้คำถามเพิ่มเติม

1) มีหลายท้องถิ่นน้อยและบางอันควรมีค่าเท่ากันเนื่องจากมันสอดคล้องกับบางโหนดและการเปลี่ยนลำดับน้ำหนักใช่ไหม?

2) ถ้าโหนดและตุ้มน้ำหนักไม่ได้ถูกดัดแปรเลยงั้นมันก็จะโค้งงั้นเหรอ? และ Minima จะเป็น Minima ทั่วโลก ถ้าเป็นเช่นนั้นคำตอบของ 1) คือ minima ท้องถิ่นทั้งหมดนั้นจะมีค่าเท่ากันถูกต้องหรือไม่


มันไม่นูนซึ่งสามารถมีได้หลายท้องถิ่น
gung - Reinstate Monica

2
ขึ้นอยู่กับเครือข่ายประสาท เครือข่ายนิวรัลที่มีฟังก์ชั่นการกระตุ้นเชิงเส้นและการสูญเสียกำลังสองจะให้ผลการออปติไมซ์แบบนูน (หากหน่วยความจำของฉันทำหน้าที่ฉันถูกต้องสำหรับเครือข่ายฟังก์ชั่นพื้นฐานแบบเรเดียล อย่างไรก็ตามเครือข่ายประสาทส่วนใหญ่จะใช้กับฟังก์ชั่นการเปิดใช้งานที่ไม่ใช่เชิงเส้น (เช่น sigmoid) ดังนั้นการเพิ่มประสิทธิภาพกลายเป็นแบบไม่นูน
Cagdas Ozgenc

@gung ผมได้จุดของคุณและตอนนี้ฉันมีคำถามเพิ่มเติมโปรดดูการอัปเดตของฉัน :-)
อะโวคาโด

5
ณ จุดนี้ (2 ปีต่อมา) มันอาจเป็นการดีกว่าที่จะย้อนคำถามของคุณกลับไปเป็นรุ่นก่อนหน้ายอมรับคำตอบข้อใดข้อหนึ่งด้านล่างและถามคำถามใหม่ติดตามผลที่เชื่อมโยงกับบริบทนี้
gung - Reinstate Monica

1
@ gung, ใช่คุณพูดถูก แต่ตอนนี้ฉันไม่แน่ใจเกี่ยวกับบางแง่มุมของคำตอบที่ฉันโหวตขึ้นมาก่อน ขณะที่ฉันได้แสดงความคิดเห็นใหม่เกี่ยวกับคำตอบด้านล่างฉันรอสักครู่เพื่อดูว่าจำเป็นต้องถามคำถามใหม่หรือไม่
อะโวคาโด

คำตอบ:


25

ฟังก์ชั่นค่าใช้จ่ายของเครือข่ายนิวรัลนั้นโดยทั่วไปจะไม่นูนหรือเว้า นี่หมายความว่าเมทริกซ์ของอนุพันธ์อันดับสองทั้งหมด (The Hessian) ไม่ใช่ semidefinite เชิงบวกหรือ semidefinite เชิงลบ เนื่องจากอนุพันธ์อันดับสองเป็นเมทริกซ์จึงมีความเป็นไปได้ที่มันจะไม่เป็นอย่างใดอย่างหนึ่ง

เพื่อให้คล้ายคลึงนี้เพื่อฟังก์ชั่นหนึ่งตัวแปรหนึ่งอาจกล่าวได้ว่าฟังก์ชั่นค่าใช้จ่ายจะมีรูปร่างไม่เหมือนกราฟของมิได้เช่นกราฟของ 2 ตัวอย่างของการที่ไม่นูน, ฟังก์ชั่นที่ไม่เว้าก็คือใน{R} หนึ่งในความแตกต่างที่โดดเด่นที่สุดคือมีเพียงหนึ่ง extremum ในขณะที่มี maxima และ minima จำนวนมากอนันต์x2x2sin(x)R±x2sin

สิ่งนี้เกี่ยวข้องกับโครงข่ายประสาทเทียมของเราอย่างไร ฟังก์ชั่นค่าใช้จ่ายนอกจากนี้ยังมีจำนวนสูงสุดในท้องถิ่นและต่ำสุดที่คุณสามารถเห็นในภาพนี้ยกตัวอย่างเช่นJ(W,b)

ความจริงที่ว่ามีหลายขนาดเล็กสามารถตีความได้อย่างดี ในแต่ละเลเยอร์คุณใช้หลายโหนดที่กำหนดพารามิเตอร์ที่แตกต่างกันเพื่อทำให้ฟังก์ชั่นค่าใช้จ่ายมีขนาดเล็ก ยกเว้นค่าของพารามิเตอร์โหนดเหล่านี้เหมือนกัน ดังนั้นคุณสามารถแลกเปลี่ยนพารามิเตอร์ของโหนดแรกในชั้นหนึ่งกับของโหนดที่สองในชั้นเดียวกันและการบัญชีสำหรับการเปลี่ยนแปลงนี้ในชั้นถัดไป คุณจะได้ชุดพารามิเตอร์ที่แตกต่างกัน แต่ค่าของฟังก์ชั่นค่าใช้จ่ายไม่สามารถแยกความแตกต่างได้ (โดยทั่วไปคุณเพิ่งย้ายโหนดไปยังที่อื่น แต่เก็บอินพุต / เอาต์พุตทั้งหมดไว้เหมือนเดิม)J


ตกลงฉันเข้าใจคำอธิบายการเรียงสับเปลี่ยนที่คุณทำฉันคิดว่ามันสมเหตุสมผล แต่ตอนนี้ฉันสงสัยว่านี่เป็นของแท้ที่จะอธิบายว่าทำไมโครงข่ายประสาทเทียมจึงไม่นูน?
อะโวคาโด

1
คุณหมายถึงอะไรกับ 'ของแท้'
Roland

ฉันหมายความว่านี่เป็นวิธีที่ควรตีความไม่ใช่เพียงการเปรียบเทียบ
อะโวคาโด

4
@loganecolss คุณถูกต้องว่านี่ไม่ใช่เหตุผลเดียวที่ฟังก์ชั่นค่าใช้จ่ายไม่ใช่แบบนูน แต่เป็นหนึ่งในเหตุผลที่ชัดเจนที่สุด ขึ้นอยู่กับเครือข่ายและชุดฝึกอบรมอาจมีสาเหตุอื่นว่าทำไมมีหลายขั้นต่ำ แต่บรรทัดล่างคือ: การอนุญาตเพียงอย่างเดียวสร้างความไม่นูนโดยไม่คำนึงถึงผลกระทบอื่น ๆ
Roland

1
ขออภัยฉันไม่สามารถเข้าใจย่อหน้าสุดท้าย แต่ฉันก็ยังเข้าใจผิดว่าทำไมถึงพูดถึง max (0, x) ที่นี่ ไม่ว่าในกรณีใด - ฉันคิดว่าวิธีที่ถูกต้องในการแสดงให้เห็นว่าอาจมีหลายโหมด ปล. ถ้า Hessian ไม่มีกำหนดก็ไม่ได้พูดอะไร - ฟังก์ชั่น quasiconvex สามารถมี Hessian ได้อย่างไม่มีกำหนด
bruziuz

17

หากคุณทำการเปลี่ยนแปลงเซลล์ประสาทในเลเยอร์ที่ซ่อนอยู่และทำการเปลี่ยนแปลงแบบเดียวกันกับน้ำหนักของเลเยอร์ที่อยู่ติดกันการสูญเสียจะไม่เปลี่ยนแปลง ดังนั้นหากมีค่าต่ำสุดในระดับโลกที่ไม่เป็นศูนย์ในฐานะที่เป็นฟังก์ชันของตุ้มน้ำหนักก็ไม่สามารถเป็นเอกลักษณ์ได้เนื่องจากการเปลี่ยนแปลงของน้ำหนักให้ค่าต่ำสุดอีกครั้ง ดังนั้นฟังก์ชั่นจึงไม่นูน


5

ฟังก์ชั่นวัตถุประสงค์จะนูนหรือไม่ขึ้นอยู่กับรายละเอียดของเครือข่าย ในกรณีที่มีท้องถิ่นขนาดเล็กหลายแห่งคุณถามว่าเทียบเท่ากันหรือไม่ โดยทั่วไปแล้วคำตอบคือไม่ แต่โอกาสในการหาค่าต่ำสุดในท้องถิ่นที่มีประสิทธิภาพการสรุปที่ดีนั้นเพิ่มขึ้นตามขนาดเครือข่าย

กระดาษนี้น่าสนใจ:

Choromanska และคณะ (2015) การสูญเสียพื้นผิวของเครือข่ายหลายชั้น

http://arxiv.org/pdf/1412.0233v3.pdf

จากการแนะนำ:

  • สำหรับเครือข่ายขนาดใหญ่ minima ในพื้นที่ส่วนใหญ่จะเทียบเท่าและให้ประสิทธิภาพที่คล้ายคลึงกันในชุดทดสอบ

  • ความน่าจะเป็นในการค้นหาค่าต่ำสุดในท้องถิ่น "ไม่ดี" (ค่าสูง) นั้นไม่เป็นศูนย์สำหรับเครือข่ายขนาดเล็กและลดลงอย่างรวดเร็วด้วยขนาดเครือข่าย

  • การดิ้นรนเพื่อหาค่าต่ำสุดของโลกในชุดการฝึกอบรม (ตรงข้ามกับหนึ่งในหลาย ๆ อันที่ดีในท้องถิ่น) นั้นไม่ได้มีประโยชน์ในทางปฏิบัติและอาจนำไปสู่การ overfitting

พวกเขายังอ้างถึงเอกสารบางส่วนที่อธิบายว่าจุดอานเป็นปัญหาที่ใหญ่กว่า minima ท้องถิ่นเมื่อฝึกอบรมเครือข่ายขนาดใหญ่


4

คำตอบบางประการสำหรับการอัปเดตของคุณ:

  1. ใช่มีหลายท้องถิ่นทั่วไปน้อยที่สุด (หากมีเพียงหนึ่งเดียวมันจะเรียกว่าค่าต่ำสุดทั่วโลก) ค่าต่ำสุดในท้องถิ่นไม่จำเป็นต้องมีค่าเท่ากัน โดยทั่วไปอาจไม่มีการแชร์ในท้องถิ่นด้วยค่าเดียวกัน

  2. ไม่มันไม่นูนเว้นแต่จะเป็นเครือข่ายแบบชั้นเดียว ในกรณีทั่วไปแบบหลายเลเยอร์พารามิเตอร์ของเลเยอร์ที่ใหม่กว่า (น้ำหนักและพารามิเตอร์การเปิดใช้งาน) สามารถเป็นฟังก์ชันแบบเรียกซ้ำของพารามิเตอร์ในเลเยอร์ก่อนหน้า โดยทั่วไปการคูณตัวแปรการตัดสินใจที่นำมาใช้โดยโครงสร้างแบบเรียกซ้ำบางครั้งมีแนวโน้มที่จะทำลายความนูน อีกตัวอย่างที่ยอดเยี่ยมของเรื่องนี้คือโมเดล MA (q) ในการวิเคราะห์อนุกรมเวลา

หมายเหตุด้านข้าง: ฉันไม่รู้จริงๆว่าคุณหมายถึงอะไรโดยอนุญาตให้โหนดและตุ้มน้ำหนัก หากฟังก์ชั่นการเปิดใช้งานนั้นแตกต่างกันไปในแต่ละโหนดและคุณอนุญาตให้ใช้โหนดคุณจะต้องปรับเครือข่ายประสาทเทียมให้เหมาะสม นั่นคือในขณะที่ minima ของเครือข่ายที่อนุญาตนี้อาจเป็น minima เดียวกัน แต่นี่ไม่ใช่เครือข่ายเดียวกันดังนั้นคุณจึงไม่สามารถสร้างคำสั่งเกี่ยวกับความซ้ำซ้อนของ minima เดียวกันได้ สำหรับการเปรียบเทียบสิ่งนี้ในเฟรมเวิร์กกำลังสองน้อยที่สุดคุณเป็นตัวอย่างการสลับแถวของและบางส่วนและบอกว่าตั้งแต่ขั้นต่ำของเหมือนกับก่อนหน้านี้ที่มี minimizers ให้มากที่สุดเท่าที่มีการเรียงสับเปลี่ยนyXyXβ


1
"เครือข่ายหนึ่งชั้น" จะเป็นเพียง "softmax" หรือการถดถอยโลจิสติกดูเหมือนว่าใช่มั้ย
อะโวคาโด

โดย "permuting โหนดและน้ำหนัก" ผมหมายถึง "การแลกเปลี่ยน" และว่าสิ่งที่ฉันได้จากข้างต้น 2 คำตอบเก่าและเป็นฉันเข้าใจคำตอบของพวกเขาด้วย "แลกเปลี่ยน" โหนดและน้ำหนักในชั้นซ่อนเราอาจจะจบลงด้วยการมี เอาท์พุทเหมือนกันในทางทฤษฎีและนั่นคือสาเหตุที่เราอาจมีหลายค่าน้อยที่สุด คุณหมายถึงคำอธิบายนี้ไม่ถูกต้อง?
อะโวคาโด

คุณมีความคิดที่ถูกต้อง แต่ก็ไม่เหมือนกัน สำหรับเครือข่ายการสูญเสียอาจไม่จำเป็นต้องสูญเสียแบบทวินามฟังก์ชันการเปิดใช้งานอาจไม่จำเป็นต้องเป็น sigmoids เป็นต้น
Mustafa S Eisa

ใช่ฉันคิดว่ามันไม่ถูกต้อง แม้ว่ามันจะเป็นความจริงที่ว่าคุณจะได้รับประสิทธิภาพการทำงานเดียวกันไม่ว่าคุณจะอนุญาตเงื่อนไขหรือไม่ก็ตามสิ่งนี้ไม่ได้กำหนดความนูนหรือความไม่นูนของปัญหาใด ๆ ปัญหาการหาค่าเหมาะที่สุดจะเป็นแบบนูนหากสำหรับฟังก์ชันการสูญเสียคงที่ (ไม่ใช่การเปลี่ยนแปลงเงื่อนไขของการสูญเสีย) ฟังก์ชันวัตถุประสงค์จะนูนในพารามิเตอร์โมเดลและขอบเขตที่เป็นไปได้ที่คุณปรับให้เหมาะสมคือนูนและปิด
Mustafa S Eisa

ฉันเห็นแล้วดังนั้นถ้ามันเป็น "หนึ่งเลเยอร์" มันอาจไม่ใช่ "softmax"
อะโวคาโด

2

คุณจะมีหนึ่งขั้นต่ำทั่วโลกหากมีปัญหานูนหรือ quasiconvex

เกี่ยวกับ "การบล็อก" ในระหว่างการสร้างเครือข่ายประสาท (รุ่นวิทยาศาสตร์คอมพิวเตอร์)

ฉันคิดว่ามีหลายคนที่สามารถกล่าวถึง:

  1. สูงสุด (0, x) - นูนและเพิ่มขึ้น

  2. log-sum-exp - นูนและเพิ่มขึ้นในแต่ละพารามิเตอร์

  3. y = Axe เป็นเลียนแบบดังนั้นนูนใน (A) อาจเพิ่มขึ้นอาจลดลง y = Axe เป็นเลียนแบบดังนั้นนูนใน (x) อาจเพิ่มขึ้นอาจลดลง

น่าเสียดายที่มันไม่ได้อยู่ใน (A, x) เพราะมันดูเหมือนว่ารูปสี่เหลี่ยมกำลังสองที่ไม่มีกำหนด

  1. (โดยปกติ "ฉันหมายถึงกำหนดด้วยสัญญาณซ้ำ) Y = h * X ดูเหมือนว่ามันเป็นฟังก์ชั่นเลียนแบบของ h หรือของตัวแปร X ดังนั้นมันเป็นนูนในตัวแปร h หรือในตัวแปร X เกี่ยวกับตัวแปรทั้งสอง - ฉันไม่คิดอย่างนั้นเพราะเมื่อ h และ X เป็นสเกลาร์สเกลาร์จะลดลงเป็นรูปสี่เหลี่ยมจัตุรัสกำลังสองไม่ จำกัด

  2. max (f, g) - ถ้า f และ g นูนจากนั้น max (f, g) ก็นูน

หากคุณแทนที่ฟังก์ชันหนึ่งเป็นอีกฟังก์ชันหนึ่งและสร้างการเรียบเรียงจากนั้นให้อยู่ในห้องนูนสำหรับ y = h (g (x), q (x)) แต่ h ควรเป็นนูนและควรเพิ่ม (ไม่ลด) ในแต่ละอาร์กิวเมนต์ ...

ทำไม netwoks ของระบบประสาทในแบบไม่นูน:

  1. ฉันคิดว่า Convolution Y = h * X ไม่จำเป็นต้องเพิ่มขึ้นในเอช ดังนั้นหากคุณไม่ได้ใช้สมมติฐานพิเศษใด ๆ เกี่ยวกับเคอร์เนลคุณจะออกจากการปรับให้เหมาะสมที่สุดในทันทีหลังจากที่คุณใช้การแปลง ดังนั้นจึงไม่มีการปรับองค์ประกอบทั้งหมด

  2. การคูณด้วย convolution และ matrix ไม่ได้มาหากพิจารณาพารามิเตอร์คู่ดังกล่าวข้างต้น ดังนั้นจึงมีปัญหาเกี่ยวกับการคูณเมทริกซ์: มันเป็นการดำเนินการแบบไม่นูนในพารามิเตอร์ (A, x)

  3. y = Axe สามารถเป็น quasiconvex ใน (A, x) แต่ควรพิจารณาสมมติฐานพิเศษเพิ่มเติมด้วย

โปรดแจ้งให้เราทราบหากคุณไม่เห็นด้วยหรือมีข้อพิจารณาพิเศษ คำถามก็น่าสนใจสำหรับฉันเช่นกัน

ps max-pooling - ซึ่ง downsamping ด้วยการเลือก max ดูเหมือนการปรับเปลี่ยนการดำเนินการ elementwise max บางอย่างพร้อมกับคำบุพบทเลียนแบบ (เพื่อดึงความต้องการบล็อก) และมันดูนูนสำหรับฉัน

เกี่ยวกับคำถามอื่น ๆ

  1. ไม่ได้การถดถอยแบบโลจิสติกไม่ใช่แบบนูนหรือเว้า แต่เป็นแบบล็อกเว้า ซึ่งหมายความว่าหลังจากใช้ลอการิทึมแล้วคุณจะมีฟังก์ชันเว้าในตัวแปรอธิบาย ดังนั้นนี่คือเคล็ดลับโอกาสในการเข้าสู่ระบบสูงสุดจึงยอดเยี่ยม

  2. หากมีไม่ทั่วโลกเพียงหนึ่งขั้นต่ำ ไม่มีอะไรสามารถพูดเกี่ยวกับความสัมพันธ์ระหว่างค่าต่ำสุดในท้องถิ่น หรืออย่างน้อยคุณไม่สามารถใช้การเพิ่มประสิทธิภาพนูนและส่วนขยายของมันเพราะพื้นที่ของคณิตศาสตร์นี้ขึ้นอยู่กับ underestimator ระดับโลก

บางทีคุณอาจมีความสับสนเกี่ยวกับเรื่องนี้ เพราะจริงๆคนที่สร้างแบบแผนดังกล่าวเพียงแค่ทำ "สิ่ง" และพวกเขาได้รับ "บางอย่าง" น่าเสียดายเพราะเราไม่มีกลไกที่สมบูรณ์แบบสำหรับจัดการกับการเพิ่มประสิทธิภาพแบบไม่ต้องนูน (โดยทั่วไป)

แต่มีสิ่งง่าย ๆ เพิ่มเติมนอกเหนือจาก Neural Networks - ซึ่งไม่สามารถแก้ไขได้เช่นสี่เหลี่ยมจัตุรัสที่ไม่ใช่เชิงเส้น - https://youtu.be/l1X4tOoIHYo?t=2992 (EE263, L8, 50:10)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.