โพสต์นี้ได้รับการปรับปรุงมาก ด้านบนคุณจะเห็นลิงค์อัปเดต ด้านล่างรูปแบบของคำตอบเริ่มต้น สำหรับเวอร์ชั่นสั้น: ความสำเร็จของโครงข่ายประสาทเทียมและการเรียนรู้เชิงลึกดูเหมือนการปฏิวัติกาลิลี สำหรับจุดปฏิบัติในมุมมองของการประมวลผลสัญญาณคลาสสิกหรือคอมพิวเตอร์วิสัยทัศน์มีคนตาย ... โดยมีเงื่อนไขว่าคุณมีข้อมูลที่มีป้ายกำกับพอดูแลเพียงเล็กน้อยเกี่ยวกับความล้มเหลวของการจัดหมวดหมู่ที่เห็นได้ชัด ( ข้อบกพร่องลึก ) มีพลังงานที่ไม่มีขีด จำกัด ที่จะเรียกใช้การทดสอบโดยไม่ต้องคิดเกี่ยวกับการปล่อยก๊าซคาร์บอนไดออกไซด์ , และไม่ต้องชี้แจงเหตุผล สำหรับคนอื่น ๆ สิ่งนี้ทำให้เราคิดใหม่เกี่ยวกับสิ่งที่เราทำมาก่อน: การดึงคุณสมบัติการเพิ่มประสิทธิภาพ (เทียบกับเพื่อนร่วมงานของฉัน J.-C. Pesquet ทำงานในโครงสร้างโครงข่ายประสาทเทียมลึกการแก้ปัญหาความไม่เท่าเทียมของตัวแปร), ค่าคงที่, ปริมาณและอื่น ๆ และการวิจัยที่น่าสนใจกำลังเกิดขึ้นจากนั้นหวังว่าจะได้รับหลักการที่แน่นแฟ้นและประสิทธิภาพที่คล้ายคลึงกัน
ลิงค์อัพเดท:
เราแนะนำตัวอย่างของฝ่ายตรงข้ามที่เป็นธรรมชาติ - โลกแห่งความจริงไม่มีการแก้ไขและตัวอย่างที่เกิดขึ้นตามธรรมชาติ เราดูแลตัวอย่างภัยธรรมชาติ 7,500 รายการและเผยแพร่ในชุดทดสอบตัวจําแนก ImageNet ที่เราเรียกว่า ImageNet-A ชุดข้อมูลนี้ทำหน้าที่เป็นวิธีใหม่ในการวัดความทนทานของลักษณนาม เช่นเดียวกับตัวอย่างฝ่ายตรงข้ามของ l_p ตัวอย่าง ImageNet-A ถ่ายโอนไปยังตัวแยกประเภทที่มองไม่เห็นหรือกล่องดำเรียบร้อยแล้ว ตัวอย่างเช่นใน ImageNet-A DenseNet-121 จะได้รับความถูกต้องประมาณ 2% ความแม่นยำจะลดลงประมาณ 90% การกู้คืนความแม่นยำนี้ไม่ใช่เรื่องง่ายเพราะตัวอย่าง ImageNet-A ใช้ประโยชน์จากข้อบกพร่องลึก ๆ ในตัวแยกประเภทปัจจุบันรวมถึงการพึ่งพาสีพื้นผิวและตัวชี้นำพื้นหลัง เราสังเกตว่าเทคนิคการฝึกอบรมยอดนิยมสำหรับการปรับปรุงความทนทานมีผลเพียงเล็กน้อย แต่เราแสดงให้เห็นว่าการเปลี่ยนแปลงทางสถาปัตยกรรมบางอย่างสามารถเพิ่มความแข็งแกร่งให้กับตัวอย่างที่เป็นปฏิปักษ์ต่อธรรมชาติ การวิจัยในอนาคตจะต้องเปิดใช้งานการทำให้เป็นมาตรฐานโดยทั่วไปสำหรับชุดทดสอบ ImageNet ที่ยาก
การอ้างอิงการเรียนรู้อย่างลึกซึ้ง "ก้าว" ในการประมวลผลสัญญาณ / ภาพมาตรฐานสามารถพบได้ที่ด้านล่าง Michael Elad เพิ่งเขียน ปัญหาที่ลึกลงไปลึก: ผลกระทบของการเรียนรู้ลึกเกี่ยวกับการประมวลผลภาพ, คณิตศาสตร์และมนุษยชาติ (SIAM News, 2017/05), ข้อความที่ตัดตอนมา:
จากนั้นเครือข่ายประสาทก็กลับมาพร้อมกับการล้างแค้น
ทริบูนนี้เป็นที่สนใจเพราะมันแสดงให้เห็นถึงการเปลี่ยนจาก "การประมวลผลภาพ" แบบดั้งเดิมพยายามที่จะสร้างแบบจำลอง / ทำความเข้าใจข้อมูลให้เป็นขอบเขตที่ถูกต้องโดยไม่ต้องมีความเข้าใจมากนัก
โดเมนนี้มีการพัฒนาค่อนข้างเร็ว นี่ไม่ได้หมายความว่ามันจะวิวัฒนาการไปในทิศทางที่ตั้งใจหรือไม่เปลี่ยนแปลง ไม่ว่าถูกหรือผิด แต่เช้านี้ฉันได้ยินคำพูดต่อไปนี้ (หรือเป็นเรื่องตลก?):
อัลกอริทึมที่ไม่ดีที่มีชุดข้อมูลจำนวนมากสามารถทำได้ดีกว่าอัลกอริทึมอัจฉริยะที่มีข้อมูลpauce
นี่คือความพยายามสั้น ๆ ของฉัน: การเรียนรู้อย่างลึกซึ้งอาจให้ผลลัพธ์ที่ทันสมัย แต่ก็ไม่เข้าใจว่าทำไมและส่วนหนึ่งของงานนักวิทยาศาสตร์ของเรายังคงอธิบายว่าทำไมสิ่งต่าง ๆ ทำงานเนื้อหาของข้อมูลคืออะไร ฯลฯ
การเรียนรู้อย่างลึกซึ้งต้องการฐานข้อมูลที่ติดแท็กอย่างดี เมื่อใดก็ตามที่คุณทำงานฝีมือในภาพเดียวหรือเอกพจน์ (เช่นไม่มีฐานข้อมูลขนาดใหญ่ด้านหลัง) โดยเฉพาะอย่างยิ่งในสถานที่ที่ไม่น่าจะให้ผล "ภาพที่ติดแท็กผู้ใช้ฟรี" (ในชุดเสริมของชุด " แมวตลกเล่นเกมและใบหน้า ") คุณสามารถใช้การประมวลผลภาพแบบดั้งเดิมได้สักระยะหนึ่งและเพื่อผลกำไร ทวีตล่าสุดสรุปว่า:
(จำนวนมาก) ข้อมูลที่มีข้อความ (ไม่มี vars ขาดหายไป) เป็นตัวจัดการข้อตกลง (& ไม่จำเป็น) สำหรับโดเมนจำนวนมาก
หากพวกเขาถูกฆ่าตาย (ซึ่งฉันสงสัยในการแจ้งเตือนระยะสั้น) พวกเขายังไม่ตาย ดังนั้นทักษะใดก็ตามที่คุณได้รับจากการประมวลผลสัญญาณการวิเคราะห์ภาพการมองเห็นด้วยคอมพิวเตอร์จะช่วยคุณได้ในอนาคต นี่เป็นตัวอย่างที่กล่าวถึงในบล็อกโพสต์: เราลืมเรื่องเรขาคณิตในคอมพิวเตอร์วิชั่นไหม? โดย Alex Kendall:
การเรียนรู้อย่างลึกซึ้งได้ปฏิวัติวิสัยทัศน์คอมพิวเตอร์ วันนี้มีปัญหาไม่มากนักที่ทางออกที่มีประสิทธิภาพดีที่สุดไม่ได้อยู่บนพื้นฐานของรูปแบบการเรียนรู้ที่ลึกล้ำ โดยเฉพาะอย่างยิ่งเครือข่ายประสาทเทียมที่เป็นที่นิยมเนื่องจากมีแนวโน้มที่จะทำงานได้ดีนอกกรอบ อย่างไรก็ตามโมเดลเหล่านี้ส่วนใหญ่เป็นกล่องดำขนาดใหญ่ มีหลายสิ่งที่เราไม่เข้าใจเกี่ยวกับพวกเขา
ตัวอย่างที่เป็นรูปธรรมสามารถมีดังต่อไปนี้: ภาพมืดมาก (เช่นการเฝ้าระวัง) จากตำแหน่งเดียวกันซึ่งจำเป็นต้องประเมินว่าหนึ่งในนั้นมีการเปลี่ยนแปลงเฉพาะที่ควรตรวจพบซึ่งอาจเป็นเรื่องของการประมวลผลภาพแบบดั้งเดิมมากกว่า การเรียนรู้อย่างลึกซึ้ง (ณ วันนี้)
ในอีกด้านหนึ่งเมื่อประสบความสำเร็จในการเรียนรู้อย่างลึกล้ำในระดับสูงก็สามารถนำไปสู่การจำแนกข้อมูลชุดเล็ก ๆ ซึ่งอาจไม่เป็นอันตรายต่อ "โดยเฉลี่ย" สำหรับบางแอปพลิเคชัน ภาพสองภาพที่แตกต่างจากสายตามนุษย์เล็กน้อยสามารถจำแนกได้แตกต่างกันผ่านทาง DL หรือรูปภาพแบบสุ่มสามารถตั้งค่าเป็นคลาสเฉพาะ ดูตัวอย่างเช่นเครือข่ายประสาทเทียมที่ถูกหลอกได้ง่าย: การทำนายความมั่นใจสูงสำหรับภาพที่ไม่สามารถจดจำได้ (Nguyen A, Yosinski J, Clune J. Proc. การมองเห็นของคอมพิวเตอร์และการจดจำรูปแบบ 2015) หรือการเรียนรู้ลึกมีข้อบกพร่องหรือไม่? ในเชิงลบของฝ่ายตรงข้าม:
เครือข่ายอาจจำแนกภาพหลังจากที่นักวิจัยใช้การก่อกวนที่มองไม่เห็นบางอย่าง ความยุ่งเหยิงที่พบโดยการปรับค่าพิกเซลเพื่อเพิ่มข้อผิดพลาดการทำนาย
ด้วยความเคารพอย่างสูงจาก "การเรียนรู้ลึก" ให้นึกถึง "การผลิตจำนวนมากที่ตอบสนองต่อพฤติกรรมการลงทะเบียนที่เป็นที่รู้จักและมีความน่าเชื่อถือหรือเป็นไปตามคาด" กับ "ชิ้นงานฝีมือเอกพจน์" ไม่มีดีกว่า (ยัง) ในระดับดัชนีเดียว ทั้งคู่อาจต้องอยู่ร่วมกันซักพัก
อย่างไรก็ตามการเรียนรู้อย่างลึกซึ้งนั้นแผ่ขยายไปทั่วหลายพื้นที่ใหม่ดังที่อธิบายไว้ในเอกสารอ้างอิงด้านล่าง
โชคดีที่คนบางคนพยายามที่จะหาเหตุผลทางคณิตศาสตร์ที่อยู่เบื้องหลังการเรียนรู้ลึกตัวอย่างที่มีการกระจายเครือข่ายหรือแปลงที่เสนอโดยสเตฟานมาลลาตและผู้เขียนร่วมดูเว็บไซต์ ENS สำหรับกระเจิง การวิเคราะห์ฮาร์มอนิกและตัวดำเนินการที่ไม่ใช่เชิงเส้น, ฟังก์ชัน Lipschitz, ค่าคงที่การแปล / การหมุน, ดีกว่าสำหรับบุคคลที่ประมวลผลสัญญาณเฉลี่ย ดูตัวอย่างเช่นความรู้ความเข้าใจเครือข่าย Convolutional