ปัญหาเกี่ยวกับและทางเลือกในการเรียนรู้แบบลึก?


17

ในช่วง 50 ปีที่ผ่านมาความนิยมเพิ่มขึ้น / ลดลง / เพิ่มขึ้นของอวนประสาทได้ทำหน้าที่เป็น 'บารอมิเตอร์' สำหรับการวิจัย AI

ชัดเจนจากคำถามในเว็บไซต์นี้ที่ผู้คนสนใจที่จะใช้การเรียนรู้อย่างลึก (DL) กับปัญหาที่หลากหลาย

ฉันมีสองคำถาม:

  1. ผู้ปฏิบัติการ - สิ่งใดที่คุณพบว่าเป็นอุปสรรคสำคัญในการใช้ 'ออกจากกล่อง' กับปัญหาของคุณ?
  2. นักวิจัย - เทคนิคใดที่คุณใช้ (หรือพัฒนาขึ้น) ที่อาจช่วยแก้ไขปัญหาในทางปฏิบัติ พวกเขาอยู่ใน DL หรือพวกเขาเสนอแนวทางอื่นหรือไม่?

3
หากคุณมีสองคำถามคุณควรถามคำถามสองข้อ
bpachev

1
พวกเขาเกี่ยวข้องอย่างชัดเจนระหว่างกัน
NietzscheanAI

คำตอบ:


5

เพื่อสรุปมีสองประเด็นที่สำคัญในการใช้การเรียนรู้ลึก

  • คนแรกที่คำนวณได้มันครบถ้วนสมบูรณ์ CPU ปกติต้องใช้เวลานานในการดำเนินการแม้กระทั่งการคำนวณ / การฝึกอบรมขั้นพื้นฐานด้วย Deep Learning อย่างไรก็ตามขอแนะนำให้ใช้ GPU แม้ว่าจะไม่เพียงพอในสถานการณ์จำนวนมาก แบบจำลองการเรียนรู้ลึกทั่วไปไม่สนับสนุนเวลาเชิงทฤษฎีที่จะอยู่ในพหุนาม อย่างไรก็ตามหากเราดูแบบจำลองที่ค่อนข้างเรียบง่ายใน ML สำหรับงานเดียวกันบ่อยครั้งเรามีการรับประกันทางคณิตศาสตร์ว่าเวลาการฝึกอบรมที่จำเป็นสำหรับอัลกอริทึมที่ง่ายกว่านั้นคือในชื่อพหุนาม อย่างน้อยก็น่าจะเป็นความแตกต่างที่ยิ่งใหญ่ที่สุดสำหรับฉัน

    มีวิธีแก้ไขปัญหานี้อยู่ วิธีการหนึ่งที่สำคัญคือการปรับแต่งอัลกอริธึม DL ให้เหมาะกับการวนซ้ำจำนวนมากเท่านั้น (แทนที่จะมองไปที่การแก้ปัญหาระดับโลกในทางปฏิบัติเพียงแค่ปรับอัลกอริทึมให้เหมาะกับการแก้ปัญหาในท้องถิ่นที่ดี

  • อีกประเด็นที่อาจเป็นที่ถกเถียงกันเล็กน้อยเกี่ยวกับผู้ที่ชื่นชอบการเรียนรู้ระดับลึกคืออัลกอริทึมการเรียนรู้แบบลึกขาดความเข้าใจในเชิงทฤษฎีและการใช้เหตุผล Deep Neural Networks ประสบความสำเร็จในการใช้งานในหลายสถานการณ์เช่นการรู้จำลายมือเขียน, การประมวลผลภาพ, รถยนต์ขับเคลื่อนด้วยตัวเอง, การประมวลผลสัญญาณ, NLP และการวิเคราะห์ทางชีวการแพทย์ ในบางกรณีพวกเขามีแม้แต่มนุษย์ อย่างไรก็ตามการที่ถูกกล่าวว่าพวกเขาไม่ได้อยู่ภายใต้สถานการณ์ใด ๆ ในทางทฤษฎีเป็นเสียงเป็นวิธีการทางสถิติส่วนใหญ่

    ฉันจะไม่ลงรายละเอียด แต่ฉันจะปล่อยให้คุณ มีข้อดีข้อเสียสำหรับอัลกอริธึม / ระเบียบวิธีและ DL ไม่ได้เป็นข้อยกเว้น มันมีประโยชน์มากอย่างที่ได้รับการพิสูจน์ในหลาย ๆ สถานการณ์และนักวิทยาศาสตร์ข้อมูลทุกคนต้องเรียนรู้พื้นฐานของ DL อย่างน้อย อย่างไรก็ตามในกรณีของปัญหาที่ค่อนข้างง่ายจะดีกว่าที่จะใช้วิธีการทางสถิติที่มีชื่อเสียงเพราะพวกเขามีผล / การรับประกันทางทฤษฎีมากมายที่จะสนับสนุนพวกเขา นอกจากนี้จากมุมมองการเรียนรู้มันจะดีกว่าเสมอที่จะเริ่มต้นด้วยวิธีการที่ง่ายและเชี่ยวชาญพวกเขาก่อน


โดย 'ในชื่อพหุนาม' คุณหมายถึง 'ในเวลาพหุนาม' ใช่ไหม คุณมีข้อมูลอ้างอิงเพื่อสนับสนุนสิ่งนั้นหรือไม่?
NietzscheanAI

ใช่นั่นคือสิ่งที่ฉันหมายถึง แน่นอนมันสามารถพิสูจน์ได้ในหลาย ๆ สถานการณ์ ... ฉันจะเริ่มต้นด้วยตัวอย่างที่ง่ายที่สุดที่เป็นไปได้เพียงแค่ฝึกอบรมเครือข่ายที่มีสามโหนดและสองชั้นคือปัญหา NP-Complete ดังที่นี่ ( citeseerx.ist.psu edu / viewdoc / … ) โปรดจำไว้ว่าบทความนี้เก่ามากและตอนนี้เรามีแนวคิดเพิ่มเติมเกี่ยวกับวิธีการปรับปรุงในทางปฏิบัติด้วยฮิวริสติกบางอย่าง แต่ในทางทฤษฎีแล้วยังไม่มีผลลัพธ์ที่ดีขึ้น
Sibghat Ullah

บทความที่ดีอื่น ๆ เกี่ยวกับปัญหาเดียวกันซึ่งยังอธิบายถึงเทคนิคบางอย่างเพื่อปรับปรุงเวลาการฝึกอบรมในทางปฏิบัติ ( pdfs.semanticscholar.org/9499/… )
Sibghat Ullah

สมมติว่าเราต้องการทำนายราคาของบางอย่าง การถดถอยเชิงเส้นอย่างง่ายที่มีพื้นที่สี่เหลี่ยมจัตุรัสน้อยที่สุดจะมีเวลาพหุนามในขณะที่การแก้ปัญหาเดียวกันกับ Neural Networks (แม้แต่สิ่งที่ง่ายที่สุด) จะส่งผลให้เกิดปัญหาสมบูรณ์แบบ นี่คือความแตกต่างที่ยิ่งใหญ่มาก ในที่สุดคุณต้องเลือกอัลกอริทึมสำหรับงานเฉพาะอย่างระมัดระวัง ตัวอย่างเช่น Least Square fit มีสมมติฐานเฉพาะซึ่งรวมถึง "ฟังก์ชั่นในอุดมคติที่อัลกอริทึมคือการเรียนรู้สามารถเรียนรู้เป็นการผสมผสานระหว่างคุณลักษณะ" หากข้อสันนิษฐานนั้นไม่ถูกต้องผลลัพธ์ก็จะสำเร็จ
Sibghat Ullah

แน่นอนเพราะปัญหา (ในกรณีนี้การหาน้ำหนักที่เหมาะสมที่สุด) ก็คือ NP-complete ไม่ได้หมายความว่าไม่มีวิธีการปฏิบัติที่มีประสิทธิภาพสำหรับการหาน้ำหนักที่ดี ...
NietzscheanAI

5

ฉันมีประสบการณ์น้อยมากกับ ML / DL ที่จะเรียกตัวเองว่าเป็นผู้ประกอบการ แต่นี่คือคำตอบของคำถามที่ 1:

ที่แกนกลางของ DL สามารถแก้ปัญหาการจำแนกได้ดี ไม่ใช่ปัญหาเชิงปฏิบัติที่สามารถนำมาใช้ใหม่ได้ในแง่ของการจำแนกประเภท ต้องจำแนกโดเมนการจำแนกประเภทล่วงหน้า แม้ว่าการจัดหมวดหมู่สามารถนำไปใช้กับข้อมูลประเภทใด ๆ ก็ตามคุณจำเป็นต้องฝึกอบรม NN ด้วยตัวอย่างของโดเมนเฉพาะที่จะนำไปใช้ หากมีการสลับโดเมนในบางจุดในขณะที่รักษารูปแบบเดียวกัน (โครงสร้าง NN) ไว้จะต้องมีการฝึกอบรมกับตัวอย่างใหม่ นอกจากนี้ตัวแยกประเภทที่ดีที่สุดยังมี "ช่องว่าง" -ตัวอย่างของฝ่ายตรงข้ามสามารถสร้างขึ้นได้อย่างง่ายดายจากตัวอย่างการฝึกเช่นการเปลี่ยนแปลงที่มนุษย์ไม่สามารถมองเห็นได้


2
'การจัดหมวดหมู่' ถือได้ว่าเป็นกรณีพิเศษของ 'การถดถอย' ซึ่งอาจเป็นลักษณะที่ดีกว่าของ DL
NietzscheanAI

3

คำถามที่ 2 ฉันกำลังค้นคว้าว่าการคำนวณไฮเปอร์มิติเป็นทางเลือกสำหรับการเรียนรู้ลึก Hyper-D ใช้เวกเตอร์บิตที่ยาวมาก (10,000 บิต) เพื่อเข้ารหัสข้อมูล เวกเตอร์เป็นแบบสุ่มและเป็นเช่นนั้นพวกเขาจะประมาณมุมฉาก ด้วยการจัดกลุ่มและการหาค่าเฉลี่ยของคอลเลกชันของเวกเตอร์ดังกล่าวจะสามารถสร้าง "ชุด" และสอบถามภายหลังเพื่อดูว่ามีเวกเตอร์ที่ไม่รู้จักอยู่ในชุดหรือไม่ ชุดสามารถพิจารณาแนวคิดหรือภาพทั่วไป ฯลฯ การฝึกอบรมเป็นไปอย่างรวดเร็วเช่นเดียวกับการรับรู้ สิ่งที่ต้องทำคือจำลองโดเมนที่ Deep Learning ประสบความสำเร็จและเปรียบเทียบ Hyper-D กับมัน


น่าสนใจ ดังนั้นสิ่งนี้แตกต่างจาก 'Sparse Distributed Memory' ของ Kanerva อย่างไร
NietzscheanAI

ทั้งสองได้รับการพัฒนาโดย Pentti Kanerva ค้นหาการคำนวณไฮเปอร์มิติเพื่อดูความแตกต่าง นานเกินไปที่จะตอบที่นี่
Douglas G Danforth

1

จากมุมมองทางคณิตศาสตร์หนึ่งในประเด็นสำคัญในเครือข่ายลึกที่มีหลายเลเยอร์กำลังหายไปหรือการไล่ระดับสีที่ไม่เสถียรการไล่ระดับสีที่ไม่เสถียรเลเยอร์ที่ซ่อนอยู่เพิ่มเติมแต่ละตัวเรียนรู้ช้าลงอย่างมากเกือบลบล้างประโยชน์ของชั้นเพิ่มเติม

วิธีการเรียนรู้แบบลึกสมัยใหม่สามารถปรับปรุงพฤติกรรมนี้ได้ แต่ในเครือข่ายประสาทแบบเก่าที่เรียบง่ายนี่เป็นปัญหาที่รู้จักกันดี คุณสามารถค้นหาการวิเคราะห์ที่เป็นลายลักษณ์อักษรได้ดีที่นี่สำหรับการศึกษาเชิงลึก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.