มีปัญหาการเรียนรู้ภายใต้การดูแลที่ชัดเจน (ลึก) เครือข่ายประสาทเทียมไม่สามารถทำได้ดีกว่าวิธีการอื่น ๆ ?


33

ฉันเคยเห็นผู้คนใช้ความพยายามอย่างมากกับ SVM และ Kernels และพวกเขาดูน่าสนใจทีเดียวในฐานะผู้เริ่มต้นในการเรียนรู้ของเครื่อง แต่ถ้าเราคาดหวังว่าเกือบตลอดเวลาเราจะพบทางออกที่ดีกว่าในแง่ของเครือข่ายประสาท (ลึก) ความหมายของการลองใช้วิธีการอื่นในยุคนี้คืออะไร?

นี่คือข้อ จำกัด ของฉันในหัวข้อนี้

  1. เราคิดถึงการเรียนรู้แบบมีผู้ควบคุมเท่านั้น การถดถอยและการจำแนก
  2. การอ่านผลลัพธ์จะไม่ถูกนับ เฉพาะความแม่นยำในปัญหาการเรียนรู้ภายใต้การควบคุมเท่านั้นที่จะนับ
  3. การคำนวณต้นทุนไม่ได้พิจารณา
  4. ฉันไม่ได้บอกว่าวิธีการอื่นใดไร้ประโยชน์

3
มีข้อ จำกัด เรื่องปริมาณข้อมูลการฝึกอบรมใดบ้าง
Jake Westfall

1
ฉันไม่ได้ทำมัน แต่ฉันคาดหวังว่าคุณจะมีเวลาหนึ่งในการฝึกฝนเครือข่ายประสาทให้ทำเช่นการสลายตัวของเอกพจน์บนเมทริกซ์ที่ไม่ใช่ขนาดเล็ก (พูด, อันดับ> 10)
Mehrdad

1
ตอนนี้ Google แปลภาษาใช้เครือข่ายประสาทและทำให้เกิดความล้มเหลวที่อยากรู้อยากเห็นมากขึ้นสำหรับชื่อเมืองของบราซิลที่การใช้พจนานุกรมแบบคำต่อคำจะดีขึ้นมาก
เฮนรี

ฉันไม่เคยได้ยินการเรียนรู้เชิงลึกสำหรับการใช้เมทริกซ์ที่สมบูรณ์ (แม้ว่าการใช้เมทริกซ์ที่เสร็จสิ้นก่อนที่การเรียนรู้ที่ลึกจะเป็นเรื่องธรรมดา) คุณอาจแย้งว่านี่อาจเป็นปัญหาด้านค่าใช้จ่ายในการคำนวณ แต่ก็เป็นเรื่องที่น่าสังเกตว่าฉันไม่รู้ว่าคอมพิวเตอร์ทุกเครื่องในโลกสามารถเรียนรู้เมทริกซ์ที่สมบูรณ์ได้หรือไม่ปัญหา netflix
หน้าผา AB

@CliffAB: (ลิ้นครึ่งทางในแก้ม ... ) มันอาจจะคุ้มค่าที่จะสังเกตว่าพวกเขาอาจจะไม่สามารถทำได้ แต่ฉันไม่แน่ใจว่ามันคุ้มค่าที่จะสังเกตว่าคุณไม่รู้ว่าพวกเขาสามารถ;)
Mehrdad

คำตอบ:


31

นี่คือเหตุผลเชิงทฤษฎีและเหตุผลสองข้อที่ว่าทำไมบางคนอาจชอบวิธีที่ไม่ใช่ DNN อย่างมีเหตุผล

  1. ไม่มีทฤษฎีอาหารกลางวันฟรีจากWolpert และ Macreadyพูดว่า

    เราได้ขนานนามทฤษฎีบท NFL ผลลัพธ์ที่เกี่ยวข้องเพราะพวกเขาแสดงให้เห็นว่าหากอัลกอริทึมทำงานได้ดีในระดับหนึ่งของปัญหาแล้วมันก็จำเป็นต้องจ่ายสำหรับสิ่งนั้นด้วยประสิทธิภาพที่ลดลงในชุดของปัญหาที่เหลืออยู่ทั้งหมด

    กล่าวอีกนัยหนึ่งไม่มีอัลกอริธึมเดียวที่กฎทั้งหมด คุณต้องมีมาตรฐาน

    โต้แย้งที่เห็นได้ชัดที่นี่เป็นที่ที่คุณมักจะไม่สนใจเกี่ยวกับทุกปัญหาที่เป็นไปได้และการเรียนรู้ลึกดูเหมือนว่าจะทำงานได้ดีในหลายชั้นเรียนของปัญหาที่คนทำเกี่ยวกับการดูแล (เช่นการรับรู้วัตถุ) และดังนั้นจึงเป็นเรื่องที่เหมาะสมตัวเลือกแรก / เท่านั้น สำหรับแอปพลิเคชันอื่นในโดเมนเหล่านั้น

  2. เครือข่ายที่ลึกมากเหล่านี้จำนวนมากต้องการข้อมูลจำนวนมากรวมถึงการคำนวณจำนวนมากเพื่อให้เหมาะสม หากคุณมีตัวอย่าง 500 ตัวอย่างเครือข่ายยี่สิบเลเยอร์จะไม่เรียนรู้ได้ดีในขณะที่มันอาจเป็นไปได้ที่จะปรับให้เข้ากับโมเดลที่ง่ายกว่า มีปัญหามากมายที่น่าแปลกใจที่ไม่สามารถรวบรวมข้อมูลได้มากมาย ในอีกทางหนึ่งอาจลองเรียนรู้ที่จะแก้ปัญหาที่เกี่ยวข้อง (หากมีข้อมูลมากขึ้น) ใช้บางอย่างเช่นการเรียนรู้การถ่ายโอนเพื่อปรับให้เข้ากับงานที่มีข้อมูลน้อยข้อมูลเฉพาะ

  3. เครือข่ายประสาทลึกยังสามารถมีโหมดความล้มเหลวที่ผิดปกติ มีเอกสารบางฉบับที่แสดงว่าการเปลี่ยนแปลงที่แทบจะไม่เป็นมนุษย์อาจทำให้เครือข่ายพลิกจากการจัดประเภทรูปภาพอย่างถูกต้องเพื่อจำแนกประเภทผิดพลาดอย่างมั่นใจ (โปรดดูที่นี่และที่มาพร้อมกับกระดาษโดย Szegedy et al.)วิธีการอื่น ๆ อาจจะมีประสิทธิภาพมากขึ้นต่อนี้: มีพิษโจมตี SVMs (เช่นนี้โดย Biggio, เนลสันและ Laskov) แต่ผู้ที่เกิดขึ้นในรถไฟมากกว่าการทดสอบ เวลา. ที่ตรงกันข้ามมากมีขอบเขตการปฏิบัติงานที่รู้จัก (แต่ไม่ดี) สำหรับอัลกอริทึมเพื่อนบ้านที่ใกล้ที่สุด ในบางสถานการณ์คุณอาจมีความสุขมากขึ้นเมื่อประสิทธิภาพโดยรวมลดลงและมีโอกาสเกิดภัยพิบัติน้อยลง


ฉันเห็นด้วยทุกอย่างที่คุณพูด แต่ปัญหาเกี่ยวกับ "ปัญหาการคำนวณละเว้น" นั่นหมายความว่า OP ถือว่าคุณมีตัวอย่างที่ไม่มีที่สิ้นสุดและทรัพยากรการคำนวณที่ไม่มีที่สิ้นสุด
SmallChess

17
การคำนวณแบบไม่มีที่สิ้นสุด! = ตัวอย่างที่ไม่มีที่สิ้นสุด ตัวอย่างเช่นฉันมีการเข้าถึงคลัสเตอร์ขนาดใหญ่อย่างน่าอัศจรรย์สำหรับการประมวลผลข้อมูล อย่างไรก็ตามการทดลองในห้องปฏิบัติการที่เราทำเพื่อให้ได้มาซึ่งข้อมูลบางส่วนนั้นเป็นเรื่องยากช้าและใช้เวลามาก (ตามลำดับชั่วโมงต่อวันสำหรับจุดข้อมูลเดียว) และการคำนวณทั้งหมดในโลกจะไม่ช่วยเช่นนั้น .
Matt Krause

2
SVM ที่มีตัวแยกคุณลักษณะที่ให้มานั้นมีความเสี่ยงต่อการถูกคัดค้านจาก CNNs - เป็นเรื่องยากที่จะหาพวกเขาเพราะเราไม่มีการไล่ระดับสีที่ง่ายของชั้นการดึงคุณลักษณะ
Dougal

1
ตัวอย่างชีวิตจริงที่น่าสนใจและล่าสุดของปัญหา @MattKrause ให้และพยายามที่จะหมุนเวียนโดยใช้การเรียนรู้การถ่ายโอนจะถูกนำเสนอในการเรียนรู้หุ่นยนต์ Sim-to-Real จาก Pixels กับ
Proets

@ ผิดกฎหมายฉันยังสงสัยว่ามันเป็นเรื่องสำคัญที่ DNN-feature-extractors ได้เรียนรู้หรือไม่ในขณะที่ SVM นั้นทำด้วยมือและสอดคล้องกับคุณสมบัติที่มนุษย์สังเกตเห็น ส่วนหนึ่งของสิ่งที่ทำให้ตัวอย่างแพนด้าเป็นร้ายกาจคือความแตกต่างที่มองไม่เห็นระหว่างตัวอย่างของฝ่ายตรงข้ามกับตัวอย่างทั่วไป
Matt Krause

24

ที่ไหนสักแห่งในรายการบรรยายการบรรยายโดยเจฟฟ์ฮินตัน (จากหลักสูตร Coursera ของเขาในเครือข่ายประสาทเทียม) มีส่วนที่เขาพูดถึงปัญหาสองชั้น:

  1. ปัญหาที่เสียงเป็นคุณสมบัติที่สำคัญ
  2. ปัญหาตรงไหน สัญญาณเป็นคุณสมบัติที่สำคัญ

ฉันจำคำอธิบายได้ว่าในขณะที่ตาข่ายประสาทเจริญเติบโตในพื้นที่หลังนี้วิธีการทางสถิติแบบดั้งเดิมมักจะเหมาะกับอดีต การวิเคราะห์ภาพถ่ายดิจิตอลความละเอียดสูงของสิ่งที่เกิดขึ้นจริงในโลกซึ่งเป็นสถานที่ที่ตาข่ายแหย่ที่ดีเลิศถือได้ว่าเป็นภาพหลัง

ในทางกลับกันเมื่อเสียงเป็นคุณลักษณะที่เด่นชัดตัวอย่างเช่นในการศึกษากรณีการควบคุมทางการแพทย์ที่มี 50 รายและ 50 ตัวควบคุมวิธีการทางสถิติแบบดั้งเดิมอาจเหมาะสมกว่าสำหรับปัญหา

หากใครพบวิดีโอนั้นโปรดแสดงความคิดเห็นและฉันจะอัปเดต


คำตอบที่ยอดเยี่ยม ทำไมเราถึงหันมาเรียนรู้อย่างลึกซึ้งในสิ่งที่เราสามารถทำได้ (เช่นจำภาพและเขียนข้อความ) แต่อาจหันไปใช้แบบจำลองอื่นสำหรับสิ่งที่อาจยาก
Mustafa S Eisa

โดยส่วนตัวแล้วฉันใช้คำตอบนี้เพื่อผลประโยชน์สูงสุดของฉัน ขอบคุณมากสำหรับคำตอบ
Robin

13

ตัวแปรที่สัมพันธ์กันอย่างสมบูรณ์แบบสองตัวแปร เครือข่ายลึกที่มีเลเยอร์ที่ซ่อนอยู่ 1 ล้านเลเยอร์และนิวตรอน 2 ล้านล้านสามารถเอาชนะการถดถอยเชิงเส้นอย่างง่ายได้หรือไม่?

แก้ไข

จากประสบการณ์ของฉันการเก็บตัวอย่างมีราคาแพงกว่าการคำนวณ ฉันหมายความว่าเราสามารถจ้างอินสแตนซ์ของ Amazon บางส่วนทำการฝึกอบรมการเรียนรู้อย่างลึกซึ้งแล้วกลับมาใหม่ในอีกไม่กี่วันต่อมา ค่าใช้จ่ายในสาขาของฉันประมาณ $ 200 USD ค่าใช้จ่ายน้อยมาก เพื่อนร่วมงานของฉันมีรายได้มากกว่านั้นในหนึ่งวัน

โดยทั่วไปการเก็บตัวอย่างต้องมีความรู้เกี่ยวกับโดเมนและอุปกรณ์พิเศษ การเรียนรู้เชิงลึกนั้นเหมาะสำหรับปัญหาที่มีชุดข้อมูลราคาถูกและเข้าถึงได้ง่ายเช่นการประมวลผลภาษาธรรมชาติการประมวลผลภาพและทุกอย่างที่คุณสามารถนำออกจากอินเทอร์เน็ตได้


1
ของหลักสูตรใดวิธี MLE จะออกดำเนินลึกการเรียนรู้แบบมีเงื่อนไขในการสร้างรูปแบบการประชุมสมมติฐานของ MLE อย่างไรก็ตามสิ่งนี้ไม่เคยเกิดขึ้นกับข้อมูลจริงหรืออย่างน้อยก็สำหรับปัญหาที่น่าสนใจใด ๆ (เช่นไม่ทำนายผลการพลิกเหรียญ) ดังนั้นฉันคิดว่า OP กำลังขอตัวอย่างที่เกี่ยวข้องกับคำถามจริงที่น่าสนใจด้วยข้อมูลจริง
หน้าผา AB

มันเป็นคำตอบที่ดีมาก คุณได้เสนอมุมมองที่ใช้งานง่ายและสมจริงมาก ขอบคุณมาก.
โรบิน
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.