TCS ต้องการคำตอบประเภทใดสำหรับคำถามที่ว่า“ ทำไมเครือข่ายประสาทเทียมจึงทำงานได้ดี?”

52

ปริญญาเอกของฉัน อยู่ในคณิตศาสตร์บริสุทธิ์และฉันยอมรับว่าฉันไม่รู้อะไรเกี่ยวกับทฤษฎี CS มากนัก อย่างไรก็ตามฉันได้เริ่มสำรวจตัวเลือกที่ไม่ใช่ทางวิชาการสำหรับอาชีพของฉันและในการแนะนำตัวเองเกี่ยวกับการเรียนรู้ของเครื่องโดยพบข้อความเช่น "ไม่มีใครเข้าใจว่าทำไมเครือข่ายประสาททำงานได้ดี" ซึ่งฉันคิดว่าน่าสนใจ

คำถามของฉันโดยพื้นฐานแล้วนักวิจัยต้องการคำตอบประเภทใด? นี่คือสิ่งที่ฉันได้พบในการค้นหาสั้น ๆ ของฉันในหัวข้อ:

อัลกอริทึมที่ใช้โครงข่ายประสาทอย่างง่ายนั้นค่อนข้างตรงไปตรง
กระบวนการของ SGD มีความเข้าใจทางคณิตศาสตร์เป็นอย่างดีเช่นเดียวกับทฤษฎีทางสถิติ
ทฤษฎีบทการประมาณสากลนั้นทรงพลังและได้รับการพิสูจน์แล้ว
มีรายงานเมื่อไม่นานมานี้https://arxiv.org/abs/1608.08225ซึ่งให้คำตอบว่าการประมาณสากลนั้นมากกว่าที่เราต้องการในทางปฏิบัติจริง ๆ เพราะเราสามารถสร้างสมมติฐานที่ง่ายขึ้นเกี่ยวกับฟังก์ชันที่เราพยายามทำแบบจำลองด้วย โครงข่ายประสาทเทียม

ในเอกสารดังกล่าวพวกเขาระบุ (การถอดความ) "อัลกอริทึม GOFAI เข้าใจอย่างเต็มที่ในการวิเคราะห์ แต่อัลกอริธึม ANN จำนวนมากเข้าใจเพียงการเรียนรู้ด้วยวิธีการ" ทฤษฎีการบรรจบกันของอัลกอริธึมที่นำมาใช้เป็นตัวอย่างของความเข้าใจในการวิเคราะห์ที่ดูเหมือนว่าเรามีเกี่ยวกับเครือข่ายประสาทดังนั้นคำสั่งในระดับทั่วไปนี้ไม่ได้บอกฉันมากเกี่ยวกับสิ่งที่รู้จักหรือไม่ทราบ ."

ผู้เขียนแนะนำในการสรุปว่าคำถามเช่นขอบเขตที่มีประสิทธิภาพกับขนาดของเครือข่ายประสาทที่จำเป็นในการประมาณค่าพหุนามที่กำหนดนั้นเปิดกว้างและน่าสนใจ ตัวอย่างอื่น ๆ ของคำถามวิเคราะห์เชิงคณิตศาสตร์ที่ต้องได้รับคำตอบเพื่อบอกว่าเรา "เข้าใจ" เครือข่ายประสาทเทียมคืออะไร? มีคำถามที่อาจตอบเป็นภาษาทางคณิตศาสตร์ที่บริสุทธิ์กว่านี้หรือไม่?

(ฉันกำลังคิดถึงวิธีการในทฤษฎีการแทนโดยเฉพาะเนื่องจากการใช้ฟิสิกส์ในบทความนี้ - และเห็นแก่ตัวเพราะมันเป็นสาขาการศึกษาของฉันอย่างไรก็ตามฉันยังสามารถจินตนาการถึงพื้นที่เช่นทฤษฎี combinatorics / กราฟเรขาคณิตเชิงพีชคณิต และโทโพโลยีให้เครื่องมือที่ทำงานได้)

machine-learning

— Neuling
แหล่งที่มา

3

GOFAI นั้นเข้าใจดีหรือไม่? ดูเหมือนว่า GOFAI จำนวนมากจะเริ่มการแก้ปัญหา SAT ซึ่งเป็นปัญหาที่สมบูรณ์แบบตามแบบฉบับ เครื่องมือแก้ปัญหา SAT แบบใหม่ทำงานได้ดีในทางปฏิบัติแม้ว่าจะไม่เป็นไปตามทฤษฎีที่มีอยู่ ทำไม?

— Martin Berger

มีการเรียนรู้ล่วงหน้าอย่างลึกซึ้งและการเรียนรู้หลังการเรียนรู้ลึก / การเปลี่ยนแปลง / ประวัติศาสตร์ในพื้นที่นี้และการเปลี่ยนกระบวนทัศน์ที่สำคัญในสาขานี้ การเรียนรู้อย่างลึกซึ้งเริ่มต้นขึ้นภายในครึ่งทศวรรษที่ผ่านมา คำตอบง่ายๆคือเครือข่ายประสาทสามารถเป็นตัวแทนของฟังก์ชันที่ซับซ้อนได้และความซับซ้อนนั้นอยู่ในระดับที่สูงมากพร้อมด้วยเครือข่ายประสาทที่ลึก คำตอบก็คือปัญหาที่ศึกษาและอาจจะเป็น "ความจริงโดยทั่วไป" ก็คือ "คุณลักษณะที่สร้างขึ้น" และ ANNs นั้นเชี่ยวชาญในการเรียนรู้คุณลักษณะที่ซับซ้อนมาก

— vzn

ฉันไม่คิดว่าผู้คนกำลังค้นหา "คำตอบ" จริงๆที่นี่ พวกเขาพยายามใช้โครงข่ายประสาทเทียมเพื่อแก้ปัญหาและหากปัญหาได้รับการแก้ไขจริง ๆ แล้วก็ไม่เป็นไร การรู้วิธีที่เครือข่ายมาถึงโซลูชันนั้นไม่จำเป็นต้องสนใจที่นี่ ไม่มีใครสนใจมากนักหากเป็นกล่องดำ / ทึบแสงตราบเท่าที่มันแก้ปัญหาได้

— xji

38

มีทฤษฎีบท "ไม่มีอาหารกลางวันฟรี" ในการเรียนรู้ของเครื่องโดยคร่าว ๆ ว่าไม่มีใครสามารถเรียนรู้อัลกอริธึมที่ทำได้ดีกว่าอัลกอริธึมอื่น ๆ (ดูตัวอย่างเช่นที่นี่http: //www.no-free- lunch.org/ ) แน่นอนว่าการเรียนรู้อย่างลึกซึ้งสามารถ“ แตกสลาย” ได้โดยไม่ต้องลำบากมาก: http://www.evolvingai.org/fooling

ดังนั้นเพื่อให้สามารถพิสูจน์ได้อย่างมีประสิทธิภาพผู้เรียนต้องการอคติแบบอุปนัย --- กล่าวคือมีข้อสมมติฐานก่อนหน้าบางประการเกี่ยวกับข้อมูล ตัวอย่างของอคติที่เกิดจากการอนุมานนั้นรวมถึงสมมติฐานของความกระจัดกระจายของข้อมูลหรือความมีมิติต่ำหรือการกระจายตัวของปัจจัยอย่างดีหรือมีอัตรากำไรขั้นต้นที่สูงเป็นต้นอัลกอริทึมการเรียนรู้ที่ประสบความสำเร็จต่างๆ ยกตัวอย่างเช่น SVM เชิงเส้นทำงานได้ดีเมื่อข้อมูลถูกแยกออกจากกันในอวกาศ เป็นอย่างอื่น - ไม่มาก

ฉันคิดว่าความท้าทายหลักที่มีการเรียนรู้ลึกคือการเข้าใจความลำเอียงแบบอุปนัยของมันคืออะไร กล่าวอีกนัยหนึ่งก็คือการพิสูจน์ทฤษฎีบทของประเภท: ถ้าข้อมูลการฝึกอบรมเป็นไปตามสมมติฐานเหล่านี้แล้วฉันสามารถรับประกันบางสิ่งบางอย่างเกี่ยวกับประสิทธิภาพการทำงานทั่วไป (มิฉะนั้นการเดิมพันทั้งหมดจะปิด)

$\ell_2$

— Aryeh
แหล่งที่มา

ควรสังเกตว่าตัวอย่างของฝ่ายตรงข้ามนั้นไม่ได้มีลักษณะเฉพาะกับโครงข่ายประสาทเทียม พวกเขายังสามารถสร้างขึ้นได้อย่างง่ายดายสำหรับการถดถอยเชิงเส้นและโลจิสติกเช่น: arxiv.org/pdf/1412.6572.pdf

— Lenar Hoyt

1

ใช่ แต่การถดถอยเชิงเส้นและลอจิสติกนั้นเป็นที่เข้าใจในทางทฤษฎีได้ดีกว่ามาก

— Aryeh

2

มันควรจะสังเกตด้วยว่าทฤษฎีบทของเอ็นเอฟแอลอาจไม่ได้มีบทบาทสำคัญในการเรียนรู้การใช้งานจริงเพราะในขณะที่เอ็นเอฟแอลเกี่ยวข้องกับคลาสของทุกฟังก์ชั่นปัญหาโลกแห่งความจริงมักถูก จำกัด คนที่พิจารณาในกระดาษโดย Lin และ Tegmark อาจมีความเป็นไปได้ที่จะพบอคติเหนี่ยวนำที่ครอบคลุมปัญหาการเรียนรู้ทั้งหมดที่เราสนใจ

— Lenar Hoyt

4

จากนั้นเราควรทำให้พื้นที่นี้เป็น“ ปัญหาการเรียนรู้ทั้งหมดที่เราสนใจ” อย่างเป็นทางการ

— Aryeh

1

ดูเหมือนจะคุ้มค่าอย่างยิ่งโดยเฉพาะในเรื่องความปลอดภัยของ AI เราจำเป็นต้องสามารถระบุได้อย่างแม่นยำว่าอัลกอริทึมการเรียนรู้ของเครื่องควรเรียนรู้อะไร

— Lenar Hoyt

26

มีช่องว่างหลักสองประการในการทำความเข้าใจของเราเกี่ยวกับโครงข่ายประสาทเทียม: การเพิ่มประสิทธิภาพความแข็งและประสิทธิภาพการวางนัยทั่วไป

การฝึกอบรมเครือข่ายนิวรัลต้องมีการแก้ปัญหาการหาค่าเหมาะที่สุดที่ไม่มีความนูนสูงในมิติที่สูง อัลกอริธึมการฝึกอบรมในปัจจุบันนั้นมีพื้นฐานมาจากการไล่ระดับสีซึ่งทำหน้าที่รับประกันการลู่เข้าสู่จุดวิกฤติ (เฉพาะจุดต่ำสุดหรืออาน) ในความเป็นจริงAnandkumar & Ge 2016เพิ่งพิสูจน์ว่าการค้นหาแม้แต่น้อยที่สุดในท้องถิ่นคือ NP-hard ซึ่งหมายความว่า (สมมติว่า P! = NP) มี "เลวร้าย" ยากที่จะหลบหนีจุดอานในพื้นผิวผิดพลาด
แต่อัลกอริทึมการฝึกอบรมเหล่านี้มีประสิทธิภาพเชิงประจักษ์สำหรับปัญหาเชิงปฏิบัติมากมายและเราไม่รู้ว่าทำไม
มีเอกสารทางทฤษฎีเช่นChoromanska และคณะ 2559และKawaguchi 2559ซึ่งพิสูจน์ว่าภายใต้สมมติฐานบางอย่าง minima ท้องถิ่นนั้นดีพอ ๆ กับ minima ทั่วโลก แต่สมมติฐานที่พวกเขาทำนั้นค่อนข้างไม่สมจริงและพวกเขาไม่ได้แก้ไขปัญหาของจุดอานที่ไม่ดี

ช่องว่างหลักอื่น ๆ ในความเข้าใจของเราคือประสิทธิภาพของการวางนัยทั่วไป: ตัวแบบจำลองทำงานได้ดีเพียงใดในตัวอย่างนวนิยายที่ไม่ได้เห็นในระหว่างการฝึกอบรม มันง่ายที่จะแสดงให้เห็นว่าในข้อ จำกัด ของตัวอย่างการฝึกอบรมที่ไม่ จำกัด จำนวน (ตัวอย่างไอดอลจากการแจกแจงแบบคงที่) ข้อผิดพลาดในการฝึกอบรมจะมาบรรจบกับข้อผิดพลาดที่คาดไว้สำหรับตัวอย่างใหม่ ๆ ไม่มีตัวอย่างการฝึกอบรมที่ไม่มีที่สิ้นสุดเราสนใจว่าจะต้องมีตัวอย่างจำนวนเท่าใดเพื่อให้เกิดความแตกต่างระหว่างการฝึกอบรมและข้อผิดพลาดทั่วไป ทฤษฎีการเรียนรู้ทางสถิติศึกษาขอบเขตทั่วไปเหล่านี้
ประจักษ์การฝึกอบรมเครือข่ายประสาทขนาดใหญ่ที่ทันสมัยต้องมีตัวอย่างการฝึกอบรมจำนวนมาก (ข้อมูลขนาดใหญ่ถ้าคุณชอบ buzzwords) แต่ไม่ว่าขนาดใหญ่ที่มีขนาดใหญ่ที่จะเป็นไปไม่ได้ในทางปฏิบัติ แต่ถ้าคุณใช้ขอบเขตที่รู้จักกันดีที่สุดจากทฤษฎีการเรียนรู้ทางสถิติ (เช่นGao & Zhou 2014 ) คุณมักจะได้รับจำนวนมากอย่างไม่น่าเชื่อเหล่านี้ ดังนั้นขอบเขตเหล่านี้จึงห่างไกลจากความรัดกุมอย่างน้อยสำหรับปัญหาในทางปฏิบัติ
เหตุผลหนึ่งอาจเป็นเพราะขอบเขตเหล่านี้มีแนวโน้มที่จะถือว่าน้อยมากเกี่ยวกับการกระจายการสร้างข้อมูลดังนั้นพวกเขาจึงสะท้อนให้เห็นถึงประสิทธิภาพการทำงานที่เลวร้ายที่สุดต่อสภาพแวดล้อมของฝ่ายตรงข้ามในขณะที่สภาพแวดล้อม "ธรรมชาติ" มีแนวโน้มที่จะ
เป็นไปได้ที่จะเขียนขอบเขตการวางนัยทั่วไปขึ้นอยู่กับการกระจาย แต่เราไม่รู้ว่าจะอธิบายลักษณะการกระจายอย่างเป็นทางการในสภาพแวดล้อม "ธรรมชาติ" ได้อย่างไร วิธีการเช่นทฤษฎีข้อมูลอัลกอริทึมยังคงเป็นที่น่าพอใจ
ดังนั้นเราจึงยังไม่รู้ว่าทำไมเครือข่ายประสาทเทียมจึงสามารถฝึกได้โดยไม่ต้องให้ข้อมูลมากเกินไป

นอกจากนี้ควรสังเกตว่าประเด็นหลักสองประเด็นนี้ดูเหมือนจะเกี่ยวข้องในทางที่ยังเข้าใจไม่ดี: ขอบเขตทั่วไปจากทฤษฎีการเรียนรู้ทางสถิติสมมติว่าแบบจำลองได้รับการฝึกฝนให้เหมาะสมที่สุดในโลกในชุดฝึกอบรม แต่ในสภาพแวดล้อมจริง จะไม่ฝึกโครงข่ายประสาทเทียมจนกว่าการบรรจบกันแม้กระทั่งจุดอาน แต่คุณจะหยุดการฝึกอบรมเมื่อข้อผิดพลาดในชุดการตรวจสอบความถูกต้องแบบจัดออก (ซึ่งเป็นพร็อกซีสำหรับข้อผิดพลาดทั่วไป) หยุดปรับปรุง เรื่องนี้เป็นที่รู้จักกันในชื่อ "หยุดเร็ว"
ดังนั้นในความรู้สึกทั้งหมดการวิจัยเชิงทฤษฎีเกี่ยวกับการจำกัดความผิดพลาดของการมองโลกในแง่ที่เหมาะสมที่สุดอาจไม่เกี่ยวข้องเลย: ไม่เพียง แต่เราไม่สามารถหามันได้อย่างมีประสิทธิภาพ แต่แม้ว่าเราจะทำได้เราก็ไม่ต้องการเพราะมันจะแย่ลง ตัวอย่างที่แปลกใหม่กว่าโซลูชันที่ "ดีที่สุด" จำนวนมาก
อาจเป็นกรณีที่ความแข็งของการปรับให้เหมาะสมไม่ได้เป็นข้อบกพร่องของเครือข่ายประสาทในทางกลับกันเครือข่ายประสาทอาจทำงานได้อย่างแม่นยำเพราะมันยากที่จะปรับให้เหมาะสม
ข้อสังเกตทั้งหมดเหล่านี้เป็นเชิงประจักษ์และไม่มีทฤษฎีที่ดีที่อธิบายพวกเขา นอกจากนี้ยังไม่มีทฤษฎีที่อธิบายวิธีตั้งค่าไฮเปอร์พารามิเตอร์ของโครงข่ายประสาทเทียม (ความกว้างและความลึกของชั้นที่ซ่อนเร้น, อัตราการเรียนรู้, รายละเอียดทางสถาปัตยกรรม, ฯลฯ ) ผู้ประกอบการใช้สัญชาตญาณของพวกเขาที่ได้รับการฝึกฝนด้วยประสบการณ์และการลองผิดลองถูกมากมายเพื่อหาค่าที่มีประสิทธิภาพในขณะที่ทฤษฎีจะช่วยให้เราออกแบบโครงข่ายประสาทเทียมได้อย่างเป็นระบบมากขึ้น

— Antonio Valerio Miceli-Barone
แหล่งที่มา

11

คำถามอื่นอีกข้อหนึ่งเพื่อเพิ่มคำพูดของ @ Aryeh: สำหรับการเรียนรู้รูปแบบอื่น ๆ เรารู้ "รูปร่าง" ของพื้นที่สมมติฐาน SVM เป็นตัวอย่างที่ดีที่สุดของสิ่งนี้ในสิ่งที่คุณกำลังค้นหาคือตัวคั่นเชิงเส้นในพื้นที่ฮิลแบร์ต (อาจเป็นมิติสูง)

สำหรับเครือข่ายประสาททั่วไปเราไม่มีคำอธิบายที่ชัดเจนหรือแม้แต่การประมาณ และคำอธิบายดังกล่าวมีความสำคัญสำหรับเราที่จะเข้าใจว่าเครือข่ายประสาทกำลังค้นหาอะไรในข้อมูล

— Suresh Venkat
แหล่งที่มา

สิ่งที่คุณจะเรียกว่า "รูปร่าง" ของพื้นที่สมมติฐาน? :) ทฤษฎีบทของเรา (หน้า 3) ของเราตอบคำถามของคุณบ้างไหม: eccc.weizmann.ac.il/report/2017/098 ? : D

— Anirbit

4

หลักการของคอขวดข้อมูลได้ถูกเสนอเพื่ออธิบายความสำเร็จของเครือข่ายการพูดลึก

นี่คือคำพูดจากนิตยสาร Quanta

เมื่อเดือนที่แล้ววิดีโอ YouTube ของการบรรยายการประชุมในกรุงเบอร์ลินมีการแบ่งปันกันอย่างกว้างขวางในหมู่นักวิจัยด้านปัญญาประดิษฐ์ให้คำตอบ ในการพูดคุย Naftali Tishby นักวิทยาศาสตร์คอมพิวเตอร์และนักประสาทวิทยาจากมหาวิทยาลัยฮิบรูแห่งเยรูซาเล็มได้นำเสนอหลักฐานเพื่อสนับสนุนทฤษฎีใหม่ที่อธิบายว่าการเรียนรู้เชิงลึกทำงานอย่างไร Tishby ให้เหตุผลว่าเครือข่ายประสาทลึกเรียนรู้ตามขั้นตอนที่เรียกว่า "คอขวดข้อมูล" ซึ่งเขาและผู้ทำงานร่วมกันสองคนแรกอธิบายไว้ในข้อตกลงทางทฤษฎีอย่างหมดจดในปี 1999 ความคิดคือเครือข่าย rids ป้อนข้อมูลที่มีเสียงดังของรายละเอียดภายนอกราวกับว่า ข้อมูลผ่านคอขวดการรักษาเฉพาะคุณสมบัติที่เกี่ยวข้องกับแนวคิดทั่วไปมากที่สุด

อ้างอิง:

1- การเรียนรู้อย่างลึกซึ้งและหลักการคอขวดของข้อมูล Naftali Tishby และ Noga Zaslavsky

2- เปิดกล่องดำของเครือข่ายประสาทลึกผ่านข้อมูล Ravid Shwartz-Ziv และ Naftali Tishby

3- วิดีโอพูดคุยการประชุม: ข้อมูลทฤษฎีการเรียนรู้ลึกโดย Naftali Tishby

— Mohammad Al-Turkistany
แหล่งที่มา

1

ฉันจะบอกว่าเรายังต้องค้นพบอัลกอริทึมที่มีประสิทธิภาพสำหรับการฝึกอบรมโครงข่ายประสาทเทียม ใช่ SGD ทำงานได้ดีในทางปฏิบัติ แต่การหาอัลกอริทึมที่ดีกว่าซึ่งรับประกันว่าการบรรจบกันไปสู่ระดับต่ำสุดทั่วโลกน่าจะดีมาก

— Didymus
แหล่งที่มา