โครงข่ายประสาทเทียมใกล้เคียงกับการถดถอยเชิงเส้นพร้อมคุณสมบัติพหุนาม


11

ฉันต้องการปรับปรุงความเข้าใจของฉันเกี่ยวกับเครือข่ายประสาทและผลประโยชน์ของพวกเขาเปรียบเทียบกับอัลกอริทึมการเรียนรู้ของเครื่องอื่น ๆ ความเข้าใจของฉันเป็นด้านล่างและคำถามของฉันคือ:

คุณช่วยแก้ไขและเสริมความเข้าใจของฉันได้ไหม? :)

ความเข้าใจของฉัน:

(1) เครือข่ายประสาทเทียม = ฟังก์ชันที่ทำนายค่าเอาต์พุตจากค่าอินพุต ตามทฤษฎีบทการประมาณแบบสากล ( https://en.wikipedia.org/wiki/Universal_approximation_theorem ) คุณมักจะมีฟังก์ชั่นการทำนายใด ๆ (แม้ว่ามันจะทำงานได้ดี) โดยมีเซลล์ประสาทเพียงพอ

(2) สิ่งนี้เป็นจริงสำหรับการถดถอยเชิงเส้นโดยใช้พหุนามของค่าอินพุตเป็นค่าอินพุตเพิ่มเติมเนื่องจากคุณสามารถประมาณ (เปรียบเทียบการขยายตัวของเทย์เลอร์) แต่ละฟังก์ชั่นได้ดีโดยใช้ชื่อพหุนาม

(3) ซึ่งหมายความว่า (ในแง่ที่เกี่ยวกับผลลัพธ์ที่ดีที่สุดที่เป็นไปได้) วิธีการทั้งสองนั้นจะเทียบเท่ากัน

(4) ดังนั้นความแตกต่างหลักของพวกเขาอยู่ที่วิธีการยืมตัวเองเพื่อการดำเนินการคำนวณที่ดีขึ้น กล่าวอีกนัยหนึ่งด้วยวิธีการใดที่คุณสามารถค้นหาได้โดยอิงตามตัวอย่างการฝึกอบรมให้ค่าที่ดีขึ้นเร็วขึ้นสำหรับพารามิเตอร์ที่กำหนดฟังก์ชันการทำนายในที่สุด

ฉันยินดีต้อนรับความคิดความคิดเห็นและคำแนะนำเกี่ยวกับลิงก์หรือหนังสืออื่น ๆ เพื่อปรับปรุงความคิดของฉัน


2
tanhndeπ|nx|2

@ user1952009 - Stone-Weierstrass ไม่ได้บ่งบอกถึงการประมาณทั่วโลกที่ดีโดยพลการเนื่องจากความสม่ำเสมอของการประมาณในทฤษฎีบทหรือไม่?
jbowman

frϵfr,ϵsup|x|r|f(x)fr,ϵ(x)|ϵx0

1
นี้อาจเป็นซ้ำstats.stackexchange.com/questions/41289/...ฉันต้องการธงคำถามนี้ แต่มีเงินรางวัลในนั้นผมคิดว่าผมจะแสดงความคิดเห็นที่นี่แทน :)
ฮิวจ์ Perkins

1
+1 @HughPerkins สำหรับลิงก์ไปยังคำถามที่เกี่ยวข้องที่ลึกซึ้ง แต่ถึงแม้ว่าคำตอบในคำถามที่เกี่ยวข้องจะให้ข้อมูลเชิงลึกเกี่ยวกับคำถามที่นี่ (เช่น Stephan Kolassa อธิบาย aNN คำนึงถึงความไม่เป็นเชิงเส้นเป็นค่าเริ่มต้นในขณะที่การถดถอยเท่านั้น เมื่อรูปแบบเฉพาะผ่านเทคนิคเพิ่มเติม) ฉันจะไม่ธงที่ซ้ำกัน คุณถามว่ารูปแบบประเภทใดที่สามารถให้ผลลัพธ์ที่ดีกว่าในขณะที่คำถามนี้ขอให้อธิบายว่าทั้งสองวิธีมีความคล้ายคลึงกันในผลลัพธ์และความสามารถทั่วไปหรือไม่
IWS

คำตอบ:


7

นี่คือข้อตกลง:

ในทางเทคนิคคุณเขียนประโยคจริง (ทั้งสองรุ่นสามารถประมาณฟังก์ชั่น 'ไม่บ้า' ให้พารามิเตอร์เพียงพอ) แต่ประโยคเหล่านั้นไม่ได้รับคุณทุกที่!

ทำไมถึงเป็นอย่างนั้น? ทีนี้ลองดูทฤษฎีการประมาณสากลหรือหลักฐานที่เป็นทางการอื่น ๆ ว่าเครือข่ายประสาทสามารถคำนวณ f (x) ใด ๆ ได้ถ้ามีเซลล์ประสาทเพียงพอ

หลักฐานทั้งหมดที่ฉันได้เห็นนั้นใช้เลเยอร์ที่ซ่อนอยู่เพียงชั้นเดียวเท่านั้น

ลองดูที่นี่http://neuralnetworksanddeeplearning.com/chap5.htmlสำหรับการใช้สัญชาตญาณ มีงานแสดงให้เห็นว่าในแง่หนึ่งจำนวนเซลล์ประสาทที่ต้องการนั้นเพิ่มขึ้นแบบทวีคูณหากคุณใช้แค่เลเยอร์เดียว

ในขณะที่ในทางทฤษฎีคุณถูกต้องในทางปฏิบัติคุณไม่มีหน่วยความจำไม่ จำกัด ดังนั้นคุณไม่ต้องการฝึกโครงข่าย 2 ^ 1,000 นิวรอนใช่ไหม? แม้ว่าคุณจะมีหน่วยความจำไม่ จำกัด จำนวนสุทธินั้นก็จะเหมาะสมอย่างแน่นอน

ในใจของฉันจุดที่สำคัญที่สุดของ ML คือจุดที่ใช้งานได้จริง! ลองขยายอีกหน่อย ปัญหาใหญ่ที่แท้จริงที่นี่ไม่ได้เป็นเพียงการเพิ่ม / ลดจำนวนพหุนามอย่างรวดเร็วนอกชุดฝึกอบรม ไม่ใช่เลย. เป็นตัวอย่างอย่างรวดเร็วพิกเซลของรูปภาพใด ๆ อยู่ในช่วงที่เฉพาะเจาะจงมาก ([0,255] สำหรับแต่ละสี RGB) ดังนั้นคุณสามารถมั่นใจได้ว่าตัวอย่างใหม่ใด ๆ จะอยู่ในช่วงของค่าชุดฝึกอบรมของคุณ ไม่เรื่องใหญ่คือ: การเปรียบเทียบนี้ไม่มีประโยชน์ในการเริ่มต้นด้วย (!)

ฉันขอแนะนำให้คุณลองทดสอบกับ MNIST สักเล็กน้อยแล้วลองดูผลลัพธ์ที่แท้จริงที่คุณสามารถทำได้ด้วยการใช้เลเยอร์เดียวเพียงชั้นเดียว

อวนที่ใช้งานได้ใช้วิธีที่มากกว่าหนึ่งเลเยอร์ที่ซ่อนอยู่บางครั้งหลายสิบ (ดี Resnet มากยิ่งขึ้น ... ) ของชั้น ด้วยเหตุผล. เหตุผลนั้นไม่ได้รับการพิสูจน์และโดยทั่วไปการเลือกสถาปัตยกรรมสำหรับโครงข่ายประสาทเทียมเป็นงานวิจัยที่ได้รับความนิยม กล่าวอีกนัยหนึ่งในขณะที่เรายังต้องการทราบข้อมูลเพิ่มเติมทั้งสองแบบที่คุณได้เปรียบเทียบ (การถดถอยเชิงเส้นและ NN ที่มีเลเยอร์ที่ซ่อนอยู่เพียงชั้นเดียว) สำหรับชุดข้อมูลจำนวนมากนั้นไม่มีประโยชน์อะไรเลย!

โดยวิธีการในกรณีที่คุณจะได้รับใน ML มีอีกทฤษฎีที่ไร้ประโยชน์ซึ่งจริง ๆ แล้วเป็น 'พื้นที่ของการวิจัยในปัจจุบัน' - PAC (อาจถูกต้องประมาณ) มิติ / VC ฉันจะขยายออกเป็นโบนัส:

ถ้าโดยทั่วไปการประมาณโดยทั่วไประบุว่าได้รับจำนวนเซลล์ประสาทที่ไม่มีที่สิ้นสุดเราสามารถประมาณฟังก์ชั่นใด ๆ (ขอบคุณมาก?) สิ่งที่ PAC กล่าวว่าในแง่การปฏิบัติคือให้ (ในทางปฏิบัติ!) จำนวนตัวอย่างฉลากที่ไม่มีที่สิ้นสุด ต้องการสมมติฐานที่ดีที่สุดในแบบจำลองของเรา มันตลกมากเมื่อฉันคำนวณจำนวนตัวอย่างจริงที่จำเป็นสำหรับเน็ตจริงเพื่อให้อยู่ในอัตราข้อผิดพลาดที่ต้องการในทางปฏิบัติพร้อมความน่าจะเป็นที่โอเค :) มันมากกว่าจำนวนอิเล็กตรอนในจักรวาล PS เพื่อเพิ่มมันยังถือว่าตัวอย่างเป็น IID (นั่นไม่เคยเป็นจริง!)


ดังนั้นเครือข่ายประสาทเทียมจะเทียบเท่ากับการถดถอยเชิงเส้นที่มีคุณสมบัติพหุนามหรือไม่? คำตอบของคุณดูเหมือนจะเน้นที่จำนวนเลเยอร์และเซลล์ประสาทที่ต้องการ แต่ไม่ได้อธิบายว่าทำไมการวิเคราะห์ทั้งสองนี้จึงควร / อาจเทียบเท่ากัน การเพิ่มเลเยอร์ (ซ่อน) มากขึ้นทำให้เครือข่ายประสาทสามารถรับมือกับฟังก์ชั่นได้มากกว่าการถดถอยด้วยพหุนามหรือไม่? และตามที่ OP ได้สงสัยในคำตอบของเขา / เธอเกี่ยวกับความถูกต้องภายนอก / ประสิทธิภาพนอกตัวอย่างของรุ่นเหล่านี้ (และการแลกเปลี่ยนระหว่างการใช้ตัวเลือกรูปแบบและประสิทธิภาพที่ซับซ้อนมากขึ้น)?
IWS

ฉันอ้างอิงคุณถึงประโยคแรกของฉัน: "ในทางเทคนิคคุณเขียนประโยคจริง"
Yoni Keren

ฉันถามเพราะการให้เหตุผลของคุณว่า 'OP เขียนประโยคจริง' ไม่ชัดเจนสำหรับฉันตามคำตอบของคุณ คุณจะใจดีกับเรื่องนี้ไหม?
IWS

ได้อย่างแน่นอน ดีกว่านี้หรือคุณพบสิ่งอื่นใดที่ยังไม่ชัดเจน?
Yoni Keren

8

มันเป็นความจริงที่ว่าฟังก์ชั่นใด ๆ สามารถถูกประมาณโดยพลการปิดทั้งสองอย่างโดยสิ่งที่นับว่าเป็นเครือข่ายประสาทและสิ่งที่นับว่าเป็นพหุนาม

ก่อนอื่นให้จำไว้ว่าสิ่งนี้เป็นจริงสำหรับสิ่งก่อสร้างจำนวนมาก คุณสามารถประมาณฟังก์ชั่นใดก็ได้โดยรวมไซน์และโคไซน์ (แปลงฟูริเยร์) หรือเพียงแค่เพิ่ม "สี่เหลี่ยม" จำนวนมาก (ไม่ใช่คำจำกัดความที่แม่นยำจริงๆ แต่ฉันหวังว่าคุณจะได้คะแนน)

ประการที่สองคล้ายกับคำตอบของโยนี่ทุกครั้งที่คุณฝึกอบรมเครือข่ายหรือปรับการถดถอยที่มีพลังมากจำนวนเซลล์ประสาทหรือจำนวนพลังที่ได้รับการแก้ไข จากนั้นคุณใช้อัลกอริธึมบางทีการไล่ระดับสีหรือบางอย่างและค้นหาพารามิเตอร์ที่ดีที่สุด พารามิเตอร์คือตุ้มน้ำหนักในเครือข่ายและค่าสัมประสิทธิ์สำหรับพหุนามขนาดใหญ่ กำลังสูงสุดที่คุณใช้ในพหุนามหรือจำนวนของเซลล์ประสาทที่ใช้เรียกว่าพารามิเตอร์ ในทางปฏิบัติคุณจะลองสักสองสามอย่าง คุณสามารถสร้างเคสที่พารามิเตอร์เป็นพารามิเตอร์ได้ แต่ไม่ใช่ในทางปฏิบัติ

ประเด็นก็คือด้วยการเรียนรู้ของเครื่องคุณไม่ต้องการฟังก์ชั่นที่เหมาะสมกับข้อมูลของคุณอย่างสมบูรณ์แบบ นั่นคงไม่ยากเกินกว่าจะสำเร็จได้จริง คุณต้องการบางสิ่งที่เหมาะสม แต่อาจใช้กับจุดที่คุณยังไม่ได้เห็น scikit-learnดูภาพนี้เช่นนำมาจากเอกสารสำหรับ

เส้นนั้นง่ายเกินไป แต่การประมาณที่ดีที่สุดไม่ได้อยู่ทางขวา แต่อยู่ตรงกลางแม้ว่าฟังก์ชั่นด้านขวาจะเข้ากันได้ดีที่สุด ฟังก์ชั่นด้านขวาจะทำให้การคาดการณ์แปลก ๆ (และอาจไม่น่าเชื่อ) สำหรับจุดข้อมูลใหม่โดยเฉพาะอย่างยิ่งหากมันอยู่ใกล้บิตที่เอียงทางด้านซ้าย

เหตุผลที่ดีที่สุดสำหรับโครงข่ายประสาทเทียมที่มีพารามิเตอร์สองตัวที่ทำงานได้ดีก็คือพวกมันสามารถปรับให้เข้ากับบางสิ่ง แต่ไม่เหมาะกับมัน นอกจากนี้ยังมีสิ่งต่างๆมากมายเกี่ยวกับวิธีการฝึกอบรมของพวกเขาด้วยการสืบเชื้อสายการไล่ระดับสีสุ่ม


2

เนื่องจากยังไม่ได้รับคำตอบ (แม้ว่าฉันจะยอมรับความคิดเห็นของ user1952009 ที่โพสต์เป็นคำตอบ) ให้ฉันแบ่งปันสิ่งที่ฉันได้เรียนรู้ในระหว่างนี้:

(1) ดูเหมือนว่าความเข้าใจของฉันจะถูกต้อง แต่ปีศาจอยู่ในรายละเอียด

(2) สิ่งหนึ่งที่พลาดใน "ความเข้าใจของฉัน": สมมติฐานที่ดีกว่านี้จะพูดคุยกับข้อมูลนอกชุดฝึกอบรมได้อย่างไร ธรรมชาติที่ไม่ใช่พหุนามของการทำนายโครงข่ายประสาทอาจดีกว่าการถดถอยเชิงเส้น / พหุนามแบบง่าย

(3) ลิงค์ที่อธิบายความสำคัญของความสามารถในการคำนวณพารามิเตอร์เพิ่มเติมได้อย่างรวดเร็ว: http://www.heatonresearch.com/2017/06/01/hidden-layers.html


2

บางทีบทความนี้สามารถช่วยคุณ:

การถดถอยพหุนามเป็นทางเลือกสำหรับมุ้งประสาท

นามธรรมพูดว่า:

แม้จะมีความสำเร็จของโครงข่ายประสาทเทียม (NNs) แต่ก็ยังมีข้อกังวลหลายประการเกี่ยวกับธรรมชาติ "กล่องดำ" พวกเขาทำงานทำไม ที่นี่เรานำเสนออาร์กิวเมนต์การวิเคราะห์อย่างง่ายที่ NNs เป็นจริงแบบจำลองการถดถอยพหุนามเป็นหลัก มุมมองนี้จะมีความหมายที่หลากหลายสำหรับ NNs เช่นการให้คำอธิบายว่าทำไมปัญหาการลู่เข้าที่เกิดขึ้นใน NNs และมันให้คำแนะนำคร่าวๆเกี่ยวกับการหลีกเลี่ยงการ overfitting นอกจากนี้เราใช้ปรากฏการณ์นี้ในการทำนายและยืนยันคุณสมบัติความสัมพันธ์หลายระดับของ NNs ที่ไม่ได้รายงานไว้ก่อนหน้านี้ในวรรณคดี ที่สำคัญที่สุดเนื่องจากการติดต่อแบบหลวม ๆ นี้เราอาจเลือกใช้แบบจำลองพหุนามแทน NNs เป็นประจำจึงหลีกเลี่ยงปัญหาที่สำคัญบางอย่างของยุคหลังเช่นต้องตั้งค่าการปรับแต่งจำนวนมากและจัดการกับปัญหาการลู่เข้า เรานำเสนอผลลัพธ์เชิงประจักษ์จำนวนหนึ่ง ในแต่ละกรณีความแม่นยำของวิธีพหุนามตรงกับหรือเกินกว่าวิธีของ NN polyreg มีชุดซอฟต์แวร์โอเพ่นซอร์สหลายแบบให้เลือกใช้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.