การเรียนรู้อย่างลึกซึ้งนั้นเป็นการฆ่าการประมวลผลภาพ / การมองเห็นคอมพิวเตอร์หรือไม่?


52

ฉันรอคอยที่จะลงทะเบียนในปริญญาโทในการประมวลผลสัญญาณและภาพหรือบางทีคอมพิวเตอร์วิสัยทัศน์ (ฉันยังไม่ได้ตัดสินใจ) และคำถามนี้เกิดขึ้น

ความกังวลของฉันคือเนื่องจากการเรียนรู้ลึกไม่ต้องการการแยกคุณลักษณะและแทบจะไม่มีการประมวลผลล่วงหน้าอินพุตมันฆ่าการประมวลผลภาพ (หรือการประมวลผลสัญญาณโดยทั่วไป) หรือไม่?

ฉันไม่ใช่ผู้เชี่ยวชาญในการเรียนรู้อย่างลึกซึ้ง แต่ดูเหมือนว่าจะทำงานได้ดีมากในการจดจำและจัดประเภทงานถ่ายภาพโดยตรงแทนที่จะเป็นเวกเตอร์คุณลักษณะเช่นเทคนิคอื่น ๆ

มีกรณีใดบ้างที่วิธีการแยกคุณสมบัติแบบดั้งเดิม + การจำแนกประเภทจะดีกว่าใช้เทคนิคการประมวลผลภาพหรือสิ่งนี้กำลังจะตายเพราะการเรียนรู้อย่างลึกซึ้ง?


3
การเปิดใหม่อีกครั้งเนื่องจากมีจำนวนโหวตสูงและคำตอบที่ได้รับคะแนนสูงสุดมีจำนวนอัปโหลดสูงมาก
Peter K.

1
@ LaurentDuval ฉันคิดว่าคำตอบทุกคำตอบมีประโยชน์และน่าสนใจมาก แต่ส่วนใหญ่แล้วคำตอบของคุณและนักคณิตศาสตร์
Tony

2
ฉันต้องการแยกในการสนทนาอย่างต่อเนื่อง ใครบอกว่าการเรียนรู้ลึกไม่ต้องการการดึงคุณสมบัติ จากประสบการณ์จริงของฉันเราไม่ควรฝึก DNN สำหรับข้อมูลดิบ เราต้องทำการแยกฟีเจอร์และต้องมีความเข้าใจพื้นฐานของภาพ การเรียนรู้อย่างลึกซึ้งควรใช้ด้วยความระมัดระวัง แต่ก็เป็นความคิดที่ดี
arun raj

คำตอบ:


45

โพสต์นี้ได้รับการปรับปรุงมาก ด้านบนคุณจะเห็นลิงค์อัปเดต ด้านล่างรูปแบบของคำตอบเริ่มต้น สำหรับเวอร์ชั่นสั้น: ความสำเร็จของโครงข่ายประสาทเทียมและการเรียนรู้เชิงลึกดูเหมือนการปฏิวัติกาลิลี สำหรับจุดปฏิบัติในมุมมองของการประมวลผลสัญญาณคลาสสิกหรือคอมพิวเตอร์วิสัยทัศน์มีคนตาย ... โดยมีเงื่อนไขว่าคุณมีข้อมูลที่มีป้ายกำกับพอดูแลเพียงเล็กน้อยเกี่ยวกับความล้มเหลวของการจัดหมวดหมู่ที่เห็นได้ชัด ( ข้อบกพร่องลึก ) มีพลังงานที่ไม่มีขีด จำกัด ที่จะเรียกใช้การทดสอบโดยไม่ต้องคิดเกี่ยวกับการปล่อยก๊าซคาร์บอนไดออกไซด์ , และไม่ต้องชี้แจงเหตุผล สำหรับคนอื่น ๆ สิ่งนี้ทำให้เราคิดใหม่เกี่ยวกับสิ่งที่เราทำมาก่อน: การดึงคุณสมบัติการเพิ่มประสิทธิภาพ (เทียบกับเพื่อนร่วมงานของฉัน J.-C. Pesquet ทำงานในโครงสร้างโครงข่ายประสาทเทียมลึกการแก้ปัญหาความไม่เท่าเทียมของตัวแปร), ค่าคงที่, ปริมาณและอื่น ๆ และการวิจัยที่น่าสนใจกำลังเกิดขึ้นจากนั้นหวังว่าจะได้รับหลักการที่แน่นแฟ้นและประสิทธิภาพที่คล้ายคลึงกัน

ลิงค์อัพเดท:

เราแนะนำตัวอย่างของฝ่ายตรงข้ามที่เป็นธรรมชาติ - โลกแห่งความจริงไม่มีการแก้ไขและตัวอย่างที่เกิดขึ้นตามธรรมชาติ เราดูแลตัวอย่างภัยธรรมชาติ 7,500 รายการและเผยแพร่ในชุดทดสอบตัวจําแนก ImageNet ที่เราเรียกว่า ImageNet-A ชุดข้อมูลนี้ทำหน้าที่เป็นวิธีใหม่ในการวัดความทนทานของลักษณนาม เช่นเดียวกับตัวอย่างฝ่ายตรงข้ามของ l_p ตัวอย่าง ImageNet-A ถ่ายโอนไปยังตัวแยกประเภทที่มองไม่เห็นหรือกล่องดำเรียบร้อยแล้ว ตัวอย่างเช่นใน ImageNet-A DenseNet-121 จะได้รับความถูกต้องประมาณ 2% ความแม่นยำจะลดลงประมาณ 90% การกู้คืนความแม่นยำนี้ไม่ใช่เรื่องง่ายเพราะตัวอย่าง ImageNet-A ใช้ประโยชน์จากข้อบกพร่องลึก ๆ ในตัวแยกประเภทปัจจุบันรวมถึงการพึ่งพาสีพื้นผิวและตัวชี้นำพื้นหลัง เราสังเกตว่าเทคนิคการฝึกอบรมยอดนิยมสำหรับการปรับปรุงความทนทานมีผลเพียงเล็กน้อย แต่เราแสดงให้เห็นว่าการเปลี่ยนแปลงทางสถาปัตยกรรมบางอย่างสามารถเพิ่มความแข็งแกร่งให้กับตัวอย่างที่เป็นปฏิปักษ์ต่อธรรมชาติ การวิจัยในอนาคตจะต้องเปิดใช้งานการทำให้เป็นมาตรฐานโดยทั่วไปสำหรับชุดทดสอบ ImageNet ที่ยาก

การอ้างอิงการเรียนรู้อย่างลึกซึ้ง "ก้าว" ในการประมวลผลสัญญาณ / ภาพมาตรฐานสามารถพบได้ที่ด้านล่าง Michael Elad เพิ่งเขียน ปัญหาที่ลึกลงไปลึก: ผลกระทบของการเรียนรู้ลึกเกี่ยวกับการประมวลผลภาพ, คณิตศาสตร์และมนุษยชาติ (SIAM News, 2017/05), ข้อความที่ตัดตอนมา:

จากนั้นเครือข่ายประสาทก็กลับมาพร้อมกับการล้างแค้น

ทริบูนนี้เป็นที่สนใจเพราะมันแสดงให้เห็นถึงการเปลี่ยนจาก "การประมวลผลภาพ" แบบดั้งเดิมพยายามที่จะสร้างแบบจำลอง / ทำความเข้าใจข้อมูลให้เป็นขอบเขตที่ถูกต้องโดยไม่ต้องมีความเข้าใจมากนัก

โดเมนนี้มีการพัฒนาค่อนข้างเร็ว นี่ไม่ได้หมายความว่ามันจะวิวัฒนาการไปในทิศทางที่ตั้งใจหรือไม่เปลี่ยนแปลง ไม่ว่าถูกหรือผิด แต่เช้านี้ฉันได้ยินคำพูดต่อไปนี้ (หรือเป็นเรื่องตลก?):

อัลกอริทึมที่ไม่ดีที่มีชุดข้อมูลจำนวนมากสามารถทำได้ดีกว่าอัลกอริทึมอัจฉริยะที่มีข้อมูลpauce

นี่คือความพยายามสั้น ๆ ของฉัน: การเรียนรู้อย่างลึกซึ้งอาจให้ผลลัพธ์ที่ทันสมัย ​​แต่ก็ไม่เข้าใจว่าทำไมและส่วนหนึ่งของงานนักวิทยาศาสตร์ของเรายังคงอธิบายว่าทำไมสิ่งต่าง ๆ ทำงานเนื้อหาของข้อมูลคืออะไร ฯลฯ

การเรียนรู้อย่างลึกซึ้งต้องการฐานข้อมูลที่ติดแท็กอย่างดี เมื่อใดก็ตามที่คุณทำงานฝีมือในภาพเดียวหรือเอกพจน์ (เช่นไม่มีฐานข้อมูลขนาดใหญ่ด้านหลัง) โดยเฉพาะอย่างยิ่งในสถานที่ที่ไม่น่าจะให้ผล "ภาพที่ติดแท็กผู้ใช้ฟรี" (ในชุดเสริมของชุด " แมวตลกเล่นเกมและใบหน้า ") คุณสามารถใช้การประมวลผลภาพแบบดั้งเดิมได้สักระยะหนึ่งและเพื่อผลกำไร ทวีตล่าสุดสรุปว่า:

(จำนวนมาก) ข้อมูลที่มีข้อความ (ไม่มี vars ขาดหายไป) เป็นตัวจัดการข้อตกลง (& ไม่จำเป็น) สำหรับโดเมนจำนวนมาก

หากพวกเขาถูกฆ่าตาย (ซึ่งฉันสงสัยในการแจ้งเตือนระยะสั้น) พวกเขายังไม่ตาย ดังนั้นทักษะใดก็ตามที่คุณได้รับจากการประมวลผลสัญญาณการวิเคราะห์ภาพการมองเห็นด้วยคอมพิวเตอร์จะช่วยคุณได้ในอนาคต นี่เป็นตัวอย่างที่กล่าวถึงในบล็อกโพสต์: เราลืมเรื่องเรขาคณิตในคอมพิวเตอร์วิชั่นไหม? โดย Alex Kendall:

การเรียนรู้อย่างลึกซึ้งได้ปฏิวัติวิสัยทัศน์คอมพิวเตอร์ วันนี้มีปัญหาไม่มากนักที่ทางออกที่มีประสิทธิภาพดีที่สุดไม่ได้อยู่บนพื้นฐานของรูปแบบการเรียนรู้ที่ลึกล้ำ โดยเฉพาะอย่างยิ่งเครือข่ายประสาทเทียมที่เป็นที่นิยมเนื่องจากมีแนวโน้มที่จะทำงานได้ดีนอกกรอบ อย่างไรก็ตามโมเดลเหล่านี้ส่วนใหญ่เป็นกล่องดำขนาดใหญ่ มีหลายสิ่งที่เราไม่เข้าใจเกี่ยวกับพวกเขา

ตัวอย่างที่เป็นรูปธรรมสามารถมีดังต่อไปนี้: ภาพมืดมาก (เช่นการเฝ้าระวัง) จากตำแหน่งเดียวกันซึ่งจำเป็นต้องประเมินว่าหนึ่งในนั้นมีการเปลี่ยนแปลงเฉพาะที่ควรตรวจพบซึ่งอาจเป็นเรื่องของการประมวลผลภาพแบบดั้งเดิมมากกว่า การเรียนรู้อย่างลึกซึ้ง (ณ วันนี้)

ในอีกด้านหนึ่งเมื่อประสบความสำเร็จในการเรียนรู้อย่างลึกล้ำในระดับสูงก็สามารถนำไปสู่การจำแนกข้อมูลชุดเล็ก ๆ ซึ่งอาจไม่เป็นอันตรายต่อ "โดยเฉลี่ย" สำหรับบางแอปพลิเคชัน ภาพสองภาพที่แตกต่างจากสายตามนุษย์เล็กน้อยสามารถจำแนกได้แตกต่างกันผ่านทาง DL หรือรูปภาพแบบสุ่มสามารถตั้งค่าเป็นคลาสเฉพาะ ดูตัวอย่างเช่นเครือข่ายประสาทเทียมที่ถูกหลอกได้ง่าย: การทำนายความมั่นใจสูงสำหรับภาพที่ไม่สามารถจดจำได้ (Nguyen A, Yosinski J, Clune J. Proc. การมองเห็นของคอมพิวเตอร์และการจดจำรูปแบบ 2015) หรือการเรียนรู้ลึกมีข้อบกพร่องหรือไม่? ในเชิงลบของฝ่ายตรงข้าม:

เครือข่ายอาจจำแนกภาพหลังจากที่นักวิจัยใช้การก่อกวนที่มองไม่เห็นบางอย่าง ความยุ่งเหยิงที่พบโดยการปรับค่าพิกเซลเพื่อเพิ่มข้อผิดพลาดการทำนาย

ด้วยความเคารพอย่างสูงจาก "การเรียนรู้ลึก" ให้นึกถึง "การผลิตจำนวนมากที่ตอบสนองต่อพฤติกรรมการลงทะเบียนที่เป็นที่รู้จักและมีความน่าเชื่อถือหรือเป็นไปตามคาด" กับ "ชิ้นงานฝีมือเอกพจน์" ไม่มีดีกว่า (ยัง) ในระดับดัชนีเดียว ทั้งคู่อาจต้องอยู่ร่วมกันซักพัก

อย่างไรก็ตามการเรียนรู้อย่างลึกซึ้งนั้นแผ่ขยายไปทั่วหลายพื้นที่ใหม่ดังที่อธิบายไว้ในเอกสารอ้างอิงด้านล่าง

โชคดีที่คนบางคนพยายามที่จะหาเหตุผลทางคณิตศาสตร์ที่อยู่เบื้องหลังการเรียนรู้ลึกตัวอย่างที่มีการกระจายเครือข่ายหรือแปลงที่เสนอโดยสเตฟานมาลลาตและผู้เขียนร่วมดูเว็บไซต์ ENS สำหรับกระเจิง การวิเคราะห์ฮาร์มอนิกและตัวดำเนินการที่ไม่ใช่เชิงเส้น, ฟังก์ชัน Lipschitz, ค่าคงที่การแปล / การหมุน, ดีกว่าสำหรับบุคคลที่ประมวลผลสัญญาณเฉลี่ย ดูตัวอย่างเช่นความรู้ความเข้าใจเครือข่าย Convolutional


1
การเพิ่มข้อมูลการฝึกอบรมไม่เพียงพอโดยใช้สำเนาที่ปรับเปลี่ยนได้อย่างเหมาะสมจะช่วยให้การเรียนรู้เชิงลึกสามารถพูดคุยทั่วไปได้ เมื่อไม่นานมานี้พบวิธีที่จำเป็นสำหรับการติดแท็กที่มีผู้ดูแลอย่างสมบูรณ์: การเพิ่มข้อมูลที่ไม่ได้รับอนุญาตจะสร้างฉลากสำหรับส่วนที่ไม่มีป้ายกำกับของข้อมูลการฝึกอบรมโดยอัตโนมัติในการเรียนรู้แบบกึ่งภายใต้การดูแล (อย่าลังเลที่จะรวมข้อมูลนี้หรือคล้ายกันในคำตอบ)
Olli Niemitalo

1
หากคุณรู้วิธีเพิ่ม "สม่ำเสมอ" ตกลงบนชุดข้อมูลคลาสสิกยังคงเดินไปรอบ ๆ ในข้อมูลทางวิทยาศาสตร์ที่ฉันจัดการจะ (ธรณีวิทยาเคมี)
Laurent Duval

@ Laurent เกี่ยวกับสิ่งที่คุณพูดว่า: "งานนักวิทยาศาสตร์ของเรายังคงอธิบายว่าทำไมสิ่งต่าง ๆ ทำงาน" : ดูเหมือนว่าวิทยาศาสตร์ข้อมูลเป็นอาชีพที่ถูกต้องสำหรับบางคนที่พิจารณาทำงานอย่างจริงจังใน DSP มีชื่ออื่นนอกเหนือจากชื่อ "วิศวกร DSP" ทั่วไปที่คุณเคยได้ยินหรือไม่?
JFonseca

21

ประการแรกไม่มีอะไรผิดปกติกับการทำงานระดับบัณฑิตศึกษาในการประมวลผลภาพหรือการมองเห็นคอมพิวเตอร์และใช้การเรียนรู้อย่างลึกซึ้ง การเรียนรู้อย่างลึกซึ้งไม่ได้เป็นการฆ่าการประมวลผลภาพและการมองเห็นคอมพิวเตอร์ แต่เป็นเพียงหัวข้อการวิจัยที่เป็นที่นิยมในปัจจุบันในสาขาเหล่านั้น

ประการที่สองการเรียนรู้เชิงลึกนั้นถูกใช้เป็นหลักในการจดจำหมวดหมู่ของวัตถุ แต่นั่นเป็นเพียงหนึ่งในหลาย ๆ ด้านของการมองเห็นคอมพิวเตอร์ มีพื้นที่อื่น ๆ เช่นการตรวจจับวัตถุการติดตามการสร้างภาพ 3 มิติ ฯลฯ ซึ่งส่วนใหญ่ยังคงใช้คุณสมบัติ "ทำมือ"


5
ระวัง: DNN นั้นมีความสามารถในการทำทุกอย่างที่คุณพูดถึง: การตรวจจับวัตถุ, การติดตาม, การสร้าง 3D ใหม่และอื่น ๆ ที่กล่าวว่าการประมวลสัญญาณเป็นข้อมูลเชิงลึกเกี่ยวกับลักษณะทางกายภาพของการจัดการสัญญาณและทำไมเราควร จัดการกับพวกเขาในทางใดทางหนึ่งและผู้ที่ (ฉันเชื่อว่า) จะกลับมาเพื่ออธิบายว่าทำไมอัลกอริธึมแบบปรับตัวได้อย่าง DNNs แต่อย่าทำผิดพลาด - DNN นั้นมีความสามารถในการแปลงพื้นฐานจากอินพุตเป็นอย่างดีและไปจนถึงเป้าหมายที่แตกต่างกัน
Tarin Ziyaee

11

ไม่มีการเรียนรู้อย่างลึกซึ้งไม่ได้ฆ่าการประมวลผลภาพ คุณต้องการชุดข้อมูลขนาดใหญ่และทรัพยากรการคำนวณจำนวนมากเพื่อเรียนรู้อย่างลึกซึ้ง มีแอปพลิเคชั่นมากมายที่เป็นที่พึงปรารถนาที่จะสามารถทำการประมวลผลภาพด้วยภาระการคำนวณที่น้อยลงและรอยเท้าหน่วยความจำขนาดเล็กลงและไม่ต้องเข้าถึงฐานข้อมูลขนาดใหญ่ ตัวอย่างเช่นโทรศัพท์มือถือแท็บเล็ตกล้องมือถือรถยนต์ quadcopters การเรียนรู้ที่ลึกล้ำมากในตอนนี้เนื่องจากมีผลลัพธ์ที่น่าประทับใจในการจัดหมวดหมู่

การจำแนกประเภทเป็นปัญหาหนึ่งในหลาย ๆ เรื่องที่การประมวลผลรูปภาพเกี่ยวข้องด้วยดังนั้นถึงแม้ว่าจะเป็นความจริงที่การเรียนรู้อย่างลึกซึ้งจะช่วยแก้ปัญหาการจำแนกประเภททั้งหมดได้ การลดเสียงรบกวนการลงทะเบียนภาพการคำนวณการเคลื่อนไหว morphing / การผสมการปรับความคมชัดการแก้ไขทางแสงและการแปลงการคำนวณรูปทรงเรขาคณิตการประมาณแบบ 3 มิติแบบจำลองการเคลื่อนไหวเวลา 3D + เวลาการมองเห็นสเตอริโอการบีบอัดข้อมูลและการเข้ารหัส การแสดงผลทุกชนิด


การประมาณค่าแบบ Denoising, การประเมิน 3D และอื่น ๆ ทั้งหมดที่คุณกล่าวถึงนั้นสามารถที่จะประมาณและแก้ไขได้โดย DNN ของสถาปัตยกรรมที่เหมาะสมและข้อมูลที่เหมาะสม
Tarin Ziyaee

1
ใช่แล้วคุณสามารถทำการช็อปปิ้งรายสัปดาห์ใน Jaguar ได้ (แต่นั่นไม่ใช่สาเหตุที่พวกเขาถูกสร้างขึ้น)
คณิตศาสตร์ที่

1
เฮ้จริง - แต่นั่นก็ไม่ต่างไปจากการบอกว่าคุณไม่สามารถซื้อจากัวร์ได้
Tarin Ziyaee

มันง่ายที่จะกำหนดข้อ จำกัด ที่มีประโยชน์เกี่ยวกับปัญหาทางวิศวกรรมซึ่ง DNN นั้นค่อนข้างเส็งเคร็งในการจัดการ ตัวอย่างเช่นข้อ จำกัด ที่วิธีการที่ใช้ไม่ควรเอนเอียงไปยังชุดข้อมูลอินพุตบางชุด จากนั้นแน่นอนว่า DNN จะถูกตัดสิทธิ์โดยค่าเริ่มต้นเนื่องจากพวกเขาทุกคนต้องการการฝึกอบรมและดังนั้นจึงจะมีอคติโดยใช้ข้อมูลการฝึกอบรม
mathreadler

นั่นเป็นความจริงสำหรับเครื่องมือวิศวกรรมใด ๆ : แต่นั่นไม่ใช่ประเด็น ประเด็นก็คืองานทั้งหมดที่คุณได้กล่าวถึงข้างต้นสามารถแก้ไขได้ด้วย DNN ใช่บางอย่างเป็นพัฒนาการที่เกิดขึ้นเร็ว ๆ นี้ แต่มันก็ผิดพลาดที่จะบอกว่าพวกเขาไม่สามารถแก้ไขด้วย DNNs ได้! นั่นคือทั้งหมด!
Tarin Ziyaee

11

วันนี้เราได้พูดคุยกับเพื่อนของฉัน มันเป็นวันที่ฝนตกที่มิวนิคในขณะที่ยุโรปส่วนใหญ่มีบรรยากาศที่สดใส ผู้คนกำลังแบ่งปันภาพถ่ายในโซเชียลมีเดียที่ซึ่งพวกเขาอยู่ในชุดฤดูร้อนที่ดีเดินไปรอบ ๆ ทะเล เธอหงุดหงิดกับสถานการณ์นี้และหันมาหาฉันและถามว่า: "คุณสามารถเขียนซอฟต์แวร์เพื่อบล็อกรูปภาพบนโซเชียลมีเดียซึ่งเกี่ยวข้องกับรูปถ่ายน่ารัก ๆ ของฤดูร้อนเมื่ออากาศเลวร้ายที่นี่ได้ไหม?" ฉันพูดว่าทำไมไม่ สิ่งที่คุณต้องทำคือรวบรวมภาพฤดูร้อนขนาดใหญ่และตัวอย่างเชิงลบป้อนผ่านเครือข่ายซึ่งจัดประเภทไบนารีในระดับ "บล็อก" หรือ "ไม่มีบล็อก" ฝึกอบรมและปรับแต่งเครือข่าย แค่นั้นแหละ.

จากนั้นฉันก็หันไปหาตัวเอง: ฉันรู้วิธีเขียนอัลกอริทึมอย่างง่าย ๆ เพื่อตัดสินใจว่าอากาศดีหรือไม่โดยไม่ปล่อยให้เครื่องคิดอะไรกับฉัน ไม่แน่ ... อาจจะเป็น ... สำหรับผู้อ่านที่อยากรู้อยากเห็นนี่คือคุณสมบัติบางอย่างที่คุณอาจต้องการออกแบบหากคุณต้องการลองทำดู:

การจำแนกสภาพอากาศสองระดับ, Cewu Lu§ Di Lin, Jiaya Jia, Chi-Keung Tang , CVPR 2014

เห็นได้ชัดว่าฉันจะไม่สนใจเกี่ยวกับสิ่งพิมพ์ CVPR นี้ทุกวันนี้และลงลึก ดังนั้นเท่าที่ฉันชอบการเรียนรู้อย่างลึกซึ้งสำหรับประสิทธิภาพที่แข็งแกร่งในหลาย ๆ สถานการณ์ฉันก็ใช้มันอย่างระมัดระวัง แม้ว่ามันจะไม่ฆ่าความรู้ของฉันในการประมวลผลภาพ แต่ก็มีแนวโน้มที่จะลดความเชี่ยวชาญด้านโดเมนที่ฉันต้องการ ในทางปัญญาแล้วมันไม่ได้สวยงามมาก

ทันทีที่แต่ละคนตัดสินใจที่จะให้เขา / เธออยู่ในการติดตามและได้รับประโยชน์จากทั้งสองโลกเขาจะอยู่ฝ่ายปลอดภัย


7

คำตอบสั้น ๆ ก็คือไม่ DL สามารถจดจำแก้วน้ำในภาพถ่ายได้ ที่กล่าวว่าคำถามของคุณมีความเกี่ยวข้องในวันที่มีปัญหาเหล่านี้ มีการอภิปรายที่ดีในเรื่องที่มีสเตฟาน Mallat, ฯลฯ เป็นที่นี่


5

วิศวกรรมข้อมูลยังคงใช้ในการเรียนรู้ของเครื่องเพื่อประมวลผลล่วงหน้าและเลือกข้อมูลที่ส่งไปยัง DNN เพื่อปรับปรุงเวลาการเรียนรู้และประสิทธิภาพการประเมินของพวกเขา การประมวลผลภาพ (สิ่งต่าง ๆ ระหว่างเซ็นเซอร์กล้องและบิตแมป RGB / ฯลฯ ที่ส่งไปยัง DNNs) ซึ่งเป็นรูปแบบหนึ่งของวิศวกรรมข้อมูลยังเป็นสิ่งจำเป็น


4

ความเข้าใจอย่างถี่ถ้วนเกี่ยวกับการประมวลผลสัญญาณ (รวมถึงพีชคณิตเชิงเส้น, เวกเตอร์แคลคูลัส, สถิติทางคณิตศาสตร์ ฯลฯ ) เป็นสิ่งที่ขาดไม่ได้สำหรับงานที่ไม่สำคัญในสาขาการเรียนรู้เชิงลึกโดยเฉพาะอย่างยิ่งในวิสัยทัศน์คอมพิวเตอร์

กระดาษที่มีแรงกระแทกสูงบางตัวในการเรียนรู้อย่างลึกซึ้ง (ตอนนี้ผลไม้ที่แขวนต่ำส่วนใหญ่ได้ถูกเลือก) ทำให้เข้าใจแนวคิดการประมวลผลสัญญาณได้ดี

แนวคิดสร้างแรงบันดาลใจบางประการ:

  • การโน้มน้าวใจที่ลดลง : ลองดูบล็อกนี้ หนึ่งในสมการแรกนั้นจะมีทั้งขนมปังและเนยสำหรับบุคคลที่มีเหตุผล (hah) ในแนวคิดการประมวลผลสัญญาณ นอกจากนี้ยังเกี่ยวข้องอย่างใกล้ชิดกับอัลกอริทึม trous ที่พบในการประมวลผลสัญญาณเวฟเล็ตแบบดั้งเดิม
  • เปลี่ยนชั้น convolutional / Deconv ชั้น อีกครั้งแนวคิดการประมวลสัญญาณขั้นพื้นฐาน
  • การสร้างตัวกรอง Conv - จำเป็นต้องมีความคิดที่ดีเกี่ยวกับบรรทัดฐานของผู้ปฏิบัติงานและการทำแผนที่การหดตัว โดยทั่วไปแล้วจะพบได้ทั้งในหลักสูตร EE ระดับบัณฑิตศึกษาในทฤษฎีทฤษฎีสัญญาณหรือระบบควบคุมหรือในหลักสูตรคณิตศาสตร์เกี่ยวกับการวิเคราะห์ (จริงหรือการทำงาน)
  • ตัวอย่างของฝ่ายตรงข้าม : หนึ่งในเอกสารฉบับแรกที่จะตรวจสอบเรื่องนี้ ( "คุณสมบัติที่น่าสนใจของ ... " ) ทำให้สิ่งนี้เป็นระเบียบในแง่ของการก่อกวนและใช้ค่าคงที่ Lipschitz ของเลเยอร์ต่างๆและไม่ใช่เชิงเส้นในเครือข่ายประสาทเทียม การก่อกวนดังกล่าว เห็นด้วยการวิเคราะห์เป็นเบื้องต้นมาก แต่อีกครั้งฉันเชื่อว่ามันพิสูจน์จุดที่ทำให้ความคืบหน้าไม่สำคัญในทุกสิ่งรวมถึงการเรียนรู้ลึกต้องมีความเข้าใจทฤษฎีที่ไม่น่าสนใจ

รายการดำเนินต่อไป ดังนั้นแม้ว่าคุณจะทำงานด้วยคอมพิวเตอร์วิสัยทัศน์และใช้การเรียนรู้อย่างลึกซึ้งกับปัญหาของคุณพื้นหลังการประมวลผลสัญญาณจะทำให้สิ่งต่าง ๆ เป็นเรื่องง่ายสำหรับคุณ


1
ใช่. ทางลัดใด ๆ ที่ไม่จำเป็นต้องเรียนรู้สิ่งที่ต้องป้อนเข้าสู่เครือข่ายจะต้องได้รับการเรียนรู้อย่างหนักหน่วงจากประสิทธิภาพที่แย่ลง
mathreadler

4

ฉันไม่ได้ทำการประมวลผลภาพมากนัก แต่ฉันทำงานให้กับองค์กร (กองทัพเรือสหรัฐฯ) ที่ทำและให้ทุนสนับสนุนการวิจัยเกี่ยวกับการจำแนกสัญญาณในครั้งล่าสุดที่ Neural Nets เป็นหัวข้อร้อนแรงกลางถึงปลายยุค 80 ฉันต้องนั่งดูการตลาดเป็นจำนวนมาก อาร์กิวเมนต์มีตามแนวของ:

  • มันเกี่ยวกับประสาทเช่นเดียวกับสมองของคุณและเนื่องจากตัวแยกประเภทแบบเส้นตรงมีประสิทธิภาพสูงกว่าจึงเป็นเทคนิคทางสถิติ ฉันรู้ว่าคนบางคนที่เอกสารของพวกเขาถูกปฏิเสธเพราะพวกเขาใช้สถิติเพื่อประเมินประสิทธิภาพ
  • โครงข่ายประสาทเทียมเป็นอุปนัยพวกเขาสามารถจำแนกสิ่งต่าง ๆ ได้อย่างถูกต้องหากไม่มีตัวอย่างในชุดฝึกอบรมของพวกเขา
  • DARPA กำลังระดมทุนทำงานและเราทุกคนรู้ว่าทุกสิ่งที่ DARPA ทำนั้นเป็นผู้ชนะ (Google ยังไม่ได้อยู่รอบตัว)
  • การแสดงนั้นยอดเยี่ยมมากไม่ต้องการเมทริกซ์ที่สับสนไม่ต้องการไพรเออร์ระดับชั้นฉันแค่บอกคุณได้ว่าความน่าจะเป็นข้อผิดพลาดของฉันคืออะไร ไม่จำเป็นต้องมีขอบเขตฉันเพียงแค่กดปุ่มสับเปลี่ยนออกไป
  • เลือกฟีเจอร์บางอย่างแล้วใช้มันเป็นกล่องดำปรับขนาดการจัดเรียงข้อมูลปฏิเสธความยุ่งเหยิงติดป้ายไม่ดีเกิดขึ้นหลายคลาสไม่ใช่ปัญหาของฉัน
  • หมอกแห่งคณิตศาสตร์เครื่องจักร Boltzmann
  • ลองโยน SVD และมิติเศษส่วน
  • เหยื่อและสวิตช์ที่ไม่ได้รับการดูแล / ดูแลฉันจะพบรูปแบบที่ซ่อนอยู่ทั้งหมดของคุณ นี่คือสิ่งที่หน่วยความจำเชื่อมโยงลึกซึ้งหรือไม่?

เอาสมุดของบิชอปมาเยาะเย้ยความเห็นถากถางดูถูกของฉัน

ในแอปพลิเคชั่นมากกว่าสองสามขั้นตอนวิธีการประมวลผลสัญญาณที่ดีที่สุดจะต้องค้นหาการระบุที่ละเอียดกว่าพื้นที่พารามิเตอร์ขนาดใหญ่ ฟาร์มเซิร์ฟเวอร์ขนาดใหญ่สามารถเพิ่มพื้นที่การค้นหาที่สามารถทำได้ แต่ในบางจุดคุณต้องหาวิธีแก้ปัญหาแบบฮิวริสติก DL ดูเหมือนว่าจะสามารถค้นหาฮิวริสติกได้บ้าง แต่ก็ไม่ได้แก้ปัญหาการเพิ่มประสิทธิภาพของ NP อย่างหนัก


คุณถูกอย่างสมบูรณ์ในการทำให้ความเห็นถากถางดูถูกลดลงเพราะดูเหมือนว่าจะทำให้หลายคนผิดหวัง บางครั้งฉันก็หวังว่าฉันจะได้เรียนรู้ว่าก่อนหน้านี้ในชีวิต
คณิตศาสตร์ที่

3

มุมมองของฉันจากมหาวิทยาลัยคือผู้คนที่ส่งสัญญาณหลาย ๆ คนนั้นเป็นศัตรูต่อ ML ฉันสงสัยเพราะพวกเขารู้สึกว่าถูกคุกคามในพื้นที่ของพวกเขา แต่เมื่อไม่นานมานี้มีงานวิจัยจำนวนมากเกี่ยวกับประโยชน์ของเครือข่ายประสาทล้ำลึกที่มีคุณค่าซึ่งอาจชี้ให้เห็นว่าตั๋วทองคำเป็นความเข้าใจที่มั่นคงของทั้งสองสาขา


1
อ๋อ การประมวลสัญญาณมีความสัมพันธ์อย่างใกล้ชิดกับการเรียนรู้ของเครื่อง ความเข้าใจอย่างถ่องแท้ของการประมวลผลสัญญาณช่วยให้เข้าใจวิธีการสร้างและใช้อัลกอริธึม ML และข้อมูลประเภทใดที่เหมาะกับการป้อนเข้า
mathreadler

2

ก็ใช่ ในลักษณะเดียวกับที่การพัฒนาในภาษาโปรแกรมระดับสูงเช่น C ++ และ Python โปรแกรม 'แอสเซมบลี' ถูกฆ่า ' แต่นั่นไม่ได้หมายความว่าจะไม่เกี่ยวข้องกับการเรียนรู้การประกอบเมื่อคุณลงทะเบียนในหลักสูตร CS มันให้ข้อมูลเชิงลึกที่ยอดเยี่ยมเกี่ยวกับวิธีการทำงานของคอมพิวเตอร์สิ่งที่เกิดขึ้นเบื้องหลังของภาษาระดับสูงหลักการพื้นฐานของภาษาคอมพิวเตอร์คืออะไรเป็นต้น แต่ตอนนี้ไม่มีใครในใจที่ถูกต้องของเขาจะเขียนโปรแกรมแอปเดสก์ท็อป

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.