คุณจะมีหนึ่งขั้นต่ำทั่วโลกหากมีปัญหานูนหรือ quasiconvex
เกี่ยวกับ "การบล็อก" ในระหว่างการสร้างเครือข่ายประสาท (รุ่นวิทยาศาสตร์คอมพิวเตอร์)
ฉันคิดว่ามีหลายคนที่สามารถกล่าวถึง:
สูงสุด (0, x) - นูนและเพิ่มขึ้น
log-sum-exp - นูนและเพิ่มขึ้นในแต่ละพารามิเตอร์
y = Axe เป็นเลียนแบบดังนั้นนูนใน (A) อาจเพิ่มขึ้นอาจลดลง y = Axe เป็นเลียนแบบดังนั้นนูนใน (x) อาจเพิ่มขึ้นอาจลดลง
น่าเสียดายที่มันไม่ได้อยู่ใน (A, x) เพราะมันดูเหมือนว่ารูปสี่เหลี่ยมกำลังสองที่ไม่มีกำหนด
(โดยปกติ "ฉันหมายถึงกำหนดด้วยสัญญาณซ้ำ) Y = h * X ดูเหมือนว่ามันเป็นฟังก์ชั่นเลียนแบบของ h หรือของตัวแปร X ดังนั้นมันเป็นนูนในตัวแปร h หรือในตัวแปร X เกี่ยวกับตัวแปรทั้งสอง - ฉันไม่คิดอย่างนั้นเพราะเมื่อ h และ X เป็นสเกลาร์สเกลาร์จะลดลงเป็นรูปสี่เหลี่ยมจัตุรัสกำลังสองไม่ จำกัด
max (f, g) - ถ้า f และ g นูนจากนั้น max (f, g) ก็นูน
หากคุณแทนที่ฟังก์ชันหนึ่งเป็นอีกฟังก์ชันหนึ่งและสร้างการเรียบเรียงจากนั้นให้อยู่ในห้องนูนสำหรับ y = h (g (x), q (x)) แต่ h ควรเป็นนูนและควรเพิ่ม (ไม่ลด) ในแต่ละอาร์กิวเมนต์ ...
ทำไม netwoks ของระบบประสาทในแบบไม่นูน:
ฉันคิดว่า Convolution Y = h * X ไม่จำเป็นต้องเพิ่มขึ้นในเอช ดังนั้นหากคุณไม่ได้ใช้สมมติฐานพิเศษใด ๆ เกี่ยวกับเคอร์เนลคุณจะออกจากการปรับให้เหมาะสมที่สุดในทันทีหลังจากที่คุณใช้การแปลง ดังนั้นจึงไม่มีการปรับองค์ประกอบทั้งหมด
การคูณด้วย convolution และ matrix ไม่ได้มาหากพิจารณาพารามิเตอร์คู่ดังกล่าวข้างต้น ดังนั้นจึงมีปัญหาเกี่ยวกับการคูณเมทริกซ์: มันเป็นการดำเนินการแบบไม่นูนในพารามิเตอร์ (A, x)
y = Axe สามารถเป็น quasiconvex ใน (A, x) แต่ควรพิจารณาสมมติฐานพิเศษเพิ่มเติมด้วย
โปรดแจ้งให้เราทราบหากคุณไม่เห็นด้วยหรือมีข้อพิจารณาพิเศษ คำถามก็น่าสนใจสำหรับฉันเช่นกัน
ps max-pooling - ซึ่ง downsamping ด้วยการเลือก max ดูเหมือนการปรับเปลี่ยนการดำเนินการ elementwise max บางอย่างพร้อมกับคำบุพบทเลียนแบบ (เพื่อดึงความต้องการบล็อก) และมันดูนูนสำหรับฉัน
เกี่ยวกับคำถามอื่น ๆ
ไม่ได้การถดถอยแบบโลจิสติกไม่ใช่แบบนูนหรือเว้า แต่เป็นแบบล็อกเว้า ซึ่งหมายความว่าหลังจากใช้ลอการิทึมแล้วคุณจะมีฟังก์ชันเว้าในตัวแปรอธิบาย ดังนั้นนี่คือเคล็ดลับโอกาสในการเข้าสู่ระบบสูงสุดจึงยอดเยี่ยม
หากมีไม่ทั่วโลกเพียงหนึ่งขั้นต่ำ ไม่มีอะไรสามารถพูดเกี่ยวกับความสัมพันธ์ระหว่างค่าต่ำสุดในท้องถิ่น หรืออย่างน้อยคุณไม่สามารถใช้การเพิ่มประสิทธิภาพนูนและส่วนขยายของมันเพราะพื้นที่ของคณิตศาสตร์นี้ขึ้นอยู่กับ underestimator ระดับโลก
บางทีคุณอาจมีความสับสนเกี่ยวกับเรื่องนี้ เพราะจริงๆคนที่สร้างแบบแผนดังกล่าวเพียงแค่ทำ "สิ่ง" และพวกเขาได้รับ "บางอย่าง" น่าเสียดายเพราะเราไม่มีกลไกที่สมบูรณ์แบบสำหรับจัดการกับการเพิ่มประสิทธิภาพแบบไม่ต้องนูน (โดยทั่วไป)
แต่มีสิ่งง่าย ๆ เพิ่มเติมนอกเหนือจาก Neural Networks - ซึ่งไม่สามารถแก้ไขได้เช่นสี่เหลี่ยมจัตุรัสที่ไม่ใช่เชิงเส้น - https://youtu.be/l1X4tOoIHYo?t=2992 (EE263, L8, 50:10)