กฎสำหรับการเลือกพารามิเตอร์ไฮเปอร์เน็ตเวิร์กโครงข่ายประสาทเทียม


22

มีเอกสารที่ดีหรือไม่ที่ครอบคลุมวิธีการบางส่วนในการเลือกขนาดของตัวกรองรวบรวมหน่วยและกำหนดจำนวนชั้นของ convolutional


1
ฉันแก้ไขชื่อของคุณ มันเป็นการดีกว่าที่จะใช้ชื่อเต็มแทนที่จะใช้ตัวย่อเนื่องจากในหลายกรณีชื่อสั้นจะคลุมเครือ
ทิม

คำตอบ:


11

ในระดับหนึ่งแล้วรายงานล่าสุดจากนักวิจัยของ Google เกี่ยวกับวิธีเลือกสถาปัตยกรรม Inception ที่ดี การลงทะเบียน nets บรรลุประสิทธิภาพสูงมากในงบประมาณพารามิเตอร์ที่ จำกัด ดังนั้นนี่เป็นสถานที่ที่ดีที่จะเริ่มเป็นใด ๆ และล่าสุด นี่คือการเชื่อมโยง: ทบทวน Inception สถาปัตยกรรมสำหรับวิสัยทัศน์คอมพิวเตอร์

พวกเขาไม่ได้เสนอกฎเชิงปริมาณที่ยากนัก แต่เป็นแนวทางที่พวกเขาใช้และเชื่อว่าช่วยให้พวกเขาประสบความสำเร็จในการแข่งขัน ImageNet เมื่อเร็ว ๆ นี้

ตัวอย่างเช่นหลักการบางอย่างที่พวกเขาพูดถึงคือ:

  • ใช้สแต็คของเลเยอร์ convolutional field ที่มีขนาดเล็กลงแทนการใช้เลเยอร์ convolutional field ที่มีขนาดใหญ่แบบเดี่ยวเช่นสแต็ค 3 ชั้นของ 3x3 Conv เป็นสแต็ค 7x7 ความคิดนี้ไม่ใช่เรื่องใหม่ แต่มีการพูดคุยกันในReturn of the Devil ในรายละเอียด: การเจาะลึกเข้าไปในเครือข่าย Convolutionalโดยทีม Oxford VGG สิ่งนี้เกิดจากความต้องการพารามิเตอร์ที่มีประสิทธิภาพ นอกจากนี้ยังมีเอฟเฟกต์คู่ของความสามารถในการเป็นตัวแทนมากขึ้นในขณะที่เราแนะนำแบบไม่เชิงเส้นกับชั้นต่างๆ

  • สิ่งที่ฉันไม่ได้เห็นในวรรณคดีที่กล่าวถึงในบทความนี้คือการแยกชั้น convolutional เป็นชั้นลึก ดังนั้นแทนที่จะมีชั้น Conv 7x7 เดียวเราก็จะมีชั้น Conv ชั้น 1x7 แล้วก็ชั้น Conv ชั้น 7x1 เพิ่มความลึกมากขึ้นฉันเชื่อว่ามันก็เป็นพารามิเตอร์ที่มีประสิทธิภาพเช่นกัน

  • ยอดคงเหลือความลึกและความกว้างของสุทธิของคุณ ใช้การนำเสนอมิติสูง นี่คือหนึ่งในหลักการที่อยู่เบื้องหลังโมดูลการลงทะเบียนเรียนของพวกเขาซึ่งเชื่อมต่อกันหลายชั้นด้วยกัน ดังนั้นแม้ว่าคุณจะมีขนาดเชิงพื้นที่ขนาดเล็กในเครือข่าย Conv ของคุณโดยใช้โมดูล Inception เราสามารถใช้การแสดงมิติสูงผ่านการต่อข้อมูลแบบหลายมิติ: 1x1, 3x3, 3x3-3x3, พูลสูงสุดรวมกันทั้งหมด โมดูลการลงทะเบียนเหล่านี้มี "ความกว้าง" เนื่องจากสามารถตีความได้ว่าเป็นการดำเนินการหลายอย่างพร้อมกัน พวกเขาไปได้ดียิ่งขึ้นด้วยโมดูล Inception ใหม่ซึ่งมีขนาด Convolutional ขนาด 1x3, 3x1 และอื่น ๆ

  • ใช้ 1x1 Conv. เลเยอร์ (เครือข่ายในรูปแบบเครือข่าย) เพื่อลดมิติข้อมูล พวกเขาใช้เทคนิคการลดมิติข้อมูลจำนวนมากเพื่อให้ได้ประสิทธิภาพของพารามิเตอร์ พวกเขาเชื่อว่าสิ่งนี้มีประสิทธิภาพเพราะแผนที่คุณลักษณะที่อยู่ติดกันมีเอาต์พุตที่มีความสัมพันธ์สูง ซึ่งทำให้รู้สึกเป็นภาพธรรมชาติที่เป็นที่รู้จักกันเพื่อแสดงคุณสมบัติทางสถิติในท้องถิ่นที่สอดคล้องกับสิ่งนี้ ดังนั้นการลดขนาดของมิติผ่านเลเยอร์ 1x1 NIN จึงไม่มีผลร้ายต่อพลังการดำเนินการ

มีมากขึ้นในบทความ ฉันคิดว่ามันเป็นบทความที่สามารถให้ข้อมูลเชิงลึกเกี่ยวกับสิ่งที่คุณถาม พวกเขากำลังพูดถึงแนวคิดหลักของการออกแบบสถาปัตยกรรมสุทธิ


2

ฉันไม่ได้พบกับวรรณกรรมใด ๆ เกี่ยวกับการเลือกพารามิเตอร์ไฮเปอร์เหล่านี้เป็นฟังก์ชั่นของข้อกำหนดของปัญหา แต่มันเป็นความเข้าใจของฉันว่าส่วนใหญ่ใช้วิธีการปรับให้เหมาะสมแบบเบย์เพื่อเป็นศูนย์ในค่าที่มีประสิทธิภาพ คุณระบุช่วงที่เหมาะสมและโดยการทดสอบชุดค่าผสมต่าง ๆ คุณจะได้เรียนรู้รูปแบบว่าพารามิเตอร์ไฮเปอร์เหล่านั้นเกี่ยวข้องกับความแม่นยำของโมเดลอย่างไร มันทำงานได้ดีสำหรับฉัน ตรวจสอบ "การเพิ่มประสิทธิภาพเบย์เซียนเชิงปฏิบัติของอัลกอริทึมการเรียนรู้ของเครื่อง" จาก Snoek, Larochelle และ Adams ( http://papers.nips.cc/paper/4522-practical-bayesian-optimization-of-machine-learning-algorithms.pdf )

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.