โครงข่ายประสาทเทียมเทียบกับทุกอย่างอื่น

ฉันไม่ได้พบคำตอบที่น่าพอใจนี้จากGoogle

แน่นอนถ้าข้อมูลที่ฉันมีนั้นเป็นของคำสั่งซื้อหลายล้านรายการการเรียนรู้อย่างลึกซึ้งเป็นวิธี

และฉันได้อ่านว่าเมื่อฉันไม่มีข้อมูลขนาดใหญ่แล้วอาจเป็นการดีกว่าถ้าใช้วิธีอื่นในการเรียนรู้ของเครื่อง เหตุผลที่ได้รับคือความพอดี การเรียนรู้ของเครื่อง: เช่นการดูข้อมูลการแยกคุณลักษณะการสร้างฟีเจอร์ใหม่จากสิ่งที่รวบรวม ฯลฯ สิ่งต่าง ๆ เช่นการลบตัวแปรที่มีความสัมพันธ์สูง ฯลฯ การเรียนรู้ของเครื่องทั้งหมด 9 หลา

และฉันสงสัยว่า: ทำไมเครือข่ายประสาทที่มีเลเยอร์ที่ซ่อนอยู่หนึ่งชั้นนั้นไม่ใช่ยาครอบจักรวาลเพื่อแก้ไขปัญหาการเรียนรู้ของเครื่อง? พวกมันคือตัวประมาณสากลการจัดการที่มากเกินไปสามารถจัดการได้ด้วย dropout, l2 normalization, l1 normalization, batch-normalization ความเร็วการฝึกอบรมไม่ใช่ปัญหาถ้าเรามีตัวอย่างการฝึกอบรมเพียง 50,000 ตัวอย่าง เวลาทดสอบดีกว่าให้เราบอกว่าป่าสุ่ม

ดังนั้นทำไมไม่ - ทำความสะอาดข้อมูล, กำหนดค่าที่หายไปตามปกติ, จัดทำข้อมูล, จัดทำมาตรฐานข้อมูล, โยนมันไปยังเครือข่ายประสาทเทียมโดยใช้เลเยอร์ที่ซ่อนอยู่หนึ่งชั้นและใช้การทำให้เป็นมาตรฐานจนกว่าคุณจะเห็นว่า พวกเขาไปยังจุดสิ้นสุด ไม่มีปัญหาเรื่องการไล่ระดับสีหรือการไล่ระดับสีหายไปเนื่องจากเป็นเพียงเครือข่าย 2 ชั้น หากต้องการเลเยอร์ลึกนั่นหมายความว่าจะต้องเรียนรู้คุณลักษณะแบบลำดับชั้นและอัลกอริธึมการเรียนรู้ของเครื่องอื่นก็ไม่ดีเช่นกัน ตัวอย่างเช่น SVM เป็นเครือข่ายประสาทเทียมที่มีการสูญเสียบานพับเท่านั้น

ตัวอย่างที่บางอัลกอริทึมการเรียนรู้ของเครื่องอื่นจะมีประสิทธิภาพสูงกว่าเครือข่ายนิวรัล 2 ชั้น (อาจจะ 3? คุณสามารถให้ลิงค์กับปัญหาและฉันจะฝึกอบรมโครงข่ายประสาทเทียมที่ดีที่สุดที่ฉันสามารถทำได้และเราสามารถดูได้ว่าเครือข่ายประสาท 2 ชั้นหรือ 3 ชั้นตกต่ำจากอัลกอริธึมการเรียนรู้เครื่องจักรมาตรฐานอื่น ๆ

— MiloMinderbinder
แหล่งที่มา

โครงข่ายประสาทเป็นขั้นตอนวิธีการเรียนรู้เครื่อง ...

— แมทธิว Drury

แน่นอนว่ามีบางโดเมนที่การเรียนรู้อย่างลึกซึ้งเป็นราชาเช่นการจดจำภาพ แต่ในพื้นที่อื่น ๆ ส่วนใหญ่พวกเขามักจะถูกครอบงำด้วยการไล่ระดับสีตามที่เห็นได้ชัดจากการดูผลลัพธ์ของการแข่งขัน Kaggle

— Jake Westfall

@ MatthewDrury - แน่นอนมันเป็น! ขอโทษที่เป็นหมัดในคำศัพท์ ฉันหวังว่าข้อความนี้จะสื่อถึง อย่างไรก็ตามการเปลี่ยนคำถามจะมีประสิทธิภาพยิ่งขึ้น ขอบคุณสำหรับการชี้ให้เห็น

— MiloMinderbinder

เกี่ยวกับความลึกของเครือข่ายตรวจสอบสิ่งนี้อย่างแน่นอน: stats.stackexchange.com/questions/182734

— jld

en.wikipedia.org/wiki/No_free_lunch_in_search_and_optimization

— Tim Seguine

คำตอบ:

อัลกอริทึมการเรียนรู้ของเครื่องแต่ละเครื่องมีอคติเหนี่ยวนำแตกต่างกันดังนั้นจึงไม่เหมาะที่จะใช้เครือข่ายประสาท แนวโน้มเชิงเส้นจะได้รับการเรียนรู้ที่ดีที่สุดเสมอโดยการถดถอยเชิงเส้นอย่างง่ายมากกว่าเครือข่ายที่ไม่ใช่เชิงเส้น

หากคุณดูที่ผู้ชนะของการแข่งขัน Kaggle ที่ผ่านมายกเว้นความท้าทายใด ๆ กับข้อมูลภาพ / วิดีโอคุณจะพบว่าเครือข่ายประสาทนั้นไม่ใช่ทางออกสำหรับทุกสิ่งอย่างรวดเร็ว โซลูชั่นที่ผ่านมาบางอย่างที่นี่

ใช้การทำให้เป็นมาตรฐานจนกว่าคุณจะเห็นว่าไม่มีการปรับตัวมากเกินไปและจากนั้นฝึกฝนให้ถึงที่สุด

ไม่มีการรับประกันว่าคุณสามารถใช้การทำให้เป็นมาตรฐานมากพอเพื่อป้องกันการ overfitting โดยไม่ทำลายขีดความสามารถของเครือข่ายเพื่อเรียนรู้อะไรเลย ในชีวิตจริงมันเป็นไปได้ยากที่จะกำจัดช่องว่างการทดสอบรถไฟและนั่นคือสาเหตุที่เอกสารยังคงรายงานประสิทธิภาพของรถไฟและการทดสอบ

มันเป็นตัวประมาณสากล

สิ่งนี้เป็นจริงเฉพาะในการ จำกัด จำนวนหน่วยที่ไม่ได้ จำกัด ซึ่งไม่เหมือนจริง

คุณสามารถให้ลิงค์กับปัญหาและฉันจะฝึกโครงข่ายประสาทเทียมที่ดีที่สุดที่ฉันสามารถทำได้และเราสามารถดูได้ว่า 2 ชั้นหรือ 3 ชั้นโครงข่ายประสาทเทียมขาดขั้นตอนวิธีการเรียนรู้กลไกมาตรฐานอื่น ๆ

ตัวอย่างปัญหาที่ฉันคาดว่าเครือข่ายประสาทจะไม่สามารถแก้ปัญหา: กำหนดจำนวนเต็มจำแนกเป็นนายกหรือไม่สำคัญ

ฉันเชื่อว่าสิ่งนี้สามารถแก้ไขได้อย่างสมบูรณ์แบบด้วยอัลกอริธึมที่เรียบง่ายที่วนซ้ำโปรแกรมที่ใช้ได้ทั้งหมดในความยาวจากน้อยไปหามากและค้นหาโปรแกรมที่สั้นที่สุดซึ่งระบุหมายเลขเฉพาะได้อย่างถูกต้อง ที่จริงแล้วสตริงตัวอักษร regex 13 ตัวนี้สามารถจับคู่หมายเลขเฉพาะซึ่งไม่สามารถคำนวณได้ยากนักในการค้นหา

การทำให้เป็นมาตรฐานสามารถใช้แบบจำลองจากแบบจำลองที่เกินความสามารถไปจนถึงแบบที่มีอำนาจการเป็นตัวแทนของมันอย่างรุนแรงโดยการทำให้เป็นมาตรฐาน? จะไม่ได้มีจุดหวานที่ในระหว่าง?

ใช่มีจุดหวาน แต่มักจะเป็นวิธีก่อนที่คุณจะหยุด overfitting ดูรูปนี้:

หากคุณพลิกแกนแนวนอนและติดตั้งใหม่เป็น "จำนวนของการทำให้เป็นมาตรฐาน" มันค่อนข้างแม่นยำ - ถ้าคุณทำให้เป็นปกติจนกระทั่งไม่มีการ overfitting เลยข้อผิดพลาดของคุณจะใหญ่มาก "จุดที่น่ารัก" เกิดขึ้นเมื่อมีแรงกระแทกเล็กน้อย แต่ไม่มากเกินไป

'อัลกอริธึมแบบง่าย ๆ เป็นอย่างไรในการวนซ้ำโปรแกรมที่ถูกต้องทั้งหมดในความยาวจากน้อยไปหามากและค้นหาโปรแกรมที่สั้นที่สุดซึ่งระบุหมายเลขเฉพาะได้อย่างถูกต้อง' อัลกอริทึมที่เรียนรู้?

$\theta$ $H(\theta)$ $\theta$

ดังนั้นถ้าฉันทำให้คุณถูกต้องคุณกำลังโต้แย้งว่าถ้าข้อมูลไม่มากเครือข่ายที่ลึกจะไม่ตีความถูกต้องในการตรวจสอบความถูกต้องของเครือข่ายตื้นที่ดีที่สุดที่ได้รับพารามิเตอร์ที่ดีที่สุดสำหรับทั้งสอง?

ใช่. นี่คือตัวเลขที่น่าเกลียด แต่มีประสิทธิภาพหวังว่าจะแสดงจุดของฉัน

แต่นั่นก็ไม่สมเหตุสมผล เครือข่ายที่ลึกสามารถเรียนรู้การทำแผนที่ 1-1 เหนือตื้น

คำถามไม่ใช่ "สามารถทำได้" แต่ "จะเป็นไปได้" และหากคุณฝึกอบรมการ backpropagation คำตอบน่าจะไม่ใช่

เรากล่าวถึงความจริงที่ว่าเครือข่ายขนาดใหญ่จะทำงานได้ดีกว่าเครือข่ายขนาดเล็ก

หากไม่มีคุณสมบัติเพิ่มเติมการอ้างสิทธิ์นั้นผิด

— shimao
แหล่งที่มา

ขอบคุณสำหรับคำตอบ! การทำให้เป็นมาตรฐานสามารถใช้แบบจำลองจากแบบจำลองที่เกินความสามารถไปจนถึงแบบที่มีอำนาจการเป็นตัวแทนของมันอย่างรุนแรงโดยการทำให้เป็นมาตรฐาน? จะไม่ได้มีจุดหวานที่ในระหว่าง?

— MiloMinderbinder

เกี่ยวกับปัญหาของเล่นของคุณ 'อัลกอริธึมแบบง่าย ๆ เป็นอย่างไรในการวนซ้ำโปรแกรมที่ถูกต้องทั้งหมดในความยาวจากน้อยไปหามากและค้นหาโปรแกรมที่สั้นที่สุดซึ่งระบุหมายเลขเฉพาะได้อย่างถูกต้อง' อัลกอริทึมที่เรียนรู้?

— MiloMinderbinder

โปรดทราบหมายเหตุ cs231n การบรรยาย - 'เราได้พูดถึงความจริงที่ว่าเครือข่ายขนาดใหญ่จะทำงานได้ดีกว่าเครือข่ายขนาดเล็ก แต่ความสามารถของแบบจำลองที่สูงขึ้นจะต้องได้รับการจัดการอย่างเหมาะสมด้วยการกำหนดมาตรฐานที่แข็งแกร่ง (เช่น เราจะเห็นรูปแบบของการทำให้เป็นปกติมากขึ้น (โดยเฉพาะอย่างยิ่งการออกกลางคัน) ในส่วนหลัง ' cs231n.github.io/neural-networks-1

— MiloMinderbinder

@ user46478 ฉันตอบคำถามข้างต้นของคุณโดยแก้ไขคำตอบ

— shimao

'ไม่มีการรับประกันว่าคุณสามารถใช้การทำให้เป็นมาตรฐานมากพอเพื่อป้องกันการ overfitting โดยไม่ทำลายขีดความสามารถของเครือข่ายเพื่อเรียนรู้สิ่งใด' - ฉันขอโทษ แต่ฉันก็ยังไม่เข้าใจคำสั่งนี้ ฉันใช้ข้อมูลการฝึกอบรม {train, val} split สร้างเครือข่ายที่ใหญ่ที่สุดที่เครื่องอนุญาตให้เพิ่มความน่าจะเป็นที่จะออกกลางคันจนกว่าฉันจะเห็นข้อผิดพลาดในการตรวจสอบความถูกต้องลดลงท่ามกลางข้อผิดพลาดในการตรวจสอบความถูกต้อง กระบวนการนี้นำไปสู่การไร้ประโยชน์จากรุ่นที่มีขนาดพอดีโดยไม่ต้องผ่านตัวแบบที่ดีหรือไม่?

— MiloMinderbinder

ฉันจะเพิ่มว่าไม่มีสิ่งเช่นเครื่องเรียนรู้ยาครอบจักรวาล:

โดยไม่มีทฤษฎีอาหารกลางวันฟรี :

หากอัลกอริทึมทำงานได้ดีในบางระดับของปัญหาก็จำเป็นต้องจ่ายสำหรับสิ่งนั้นด้วยประสิทธิภาพที่ลดลงในชุดของปัญหาที่เหลือทั้งหมด

— user3684792
แหล่งที่มา

นี่เป็นเรื่องที่ตกต่ำมาก (แต่ไม่ต้องกังวลฉันจะไม่โต้แย้งจากผลที่ตามมา) 1. การอ่านสิ่งนี้ฉันเข้าใจว่านี่เป็นเรื่องเกี่ยวกับอัลกอริทึมที่มีการแจกแจงแบบเดียวกันกับฟังก์ชั่นที่พวกเขาสามารถเรียนรู้ได้ ดังนั้นเครือข่ายนิวรัลจึงสามารถพิสูจน์ได้กับเครื่องมือประเมินสากลเท่านั้น 2. สิ่งนี้ไม่ได้พูดถึงความเร็วในการค้นหาพื้นที่ฟังก์ชั่น เราสามารถพูดได้หรือไม่ว่าโครงข่ายประสาทเทียมที่มีเลเยอร์ที่ซ่อนอยู่ 2 ชั้นนั้นจำเป็นต้องเทียบเท่าหรือเหนือกว่ากับโครงข่ายประสาทเทียมที่มีเลเยอร์ที่ซ่อนอยู่หนึ่งชั้นในทุกปัญหา ฉันคิดว่าสมมติฐานของความต่อเนื่องที่มีการทำมากที่นี่

— MiloMinderbinder

ด้วยการปรับจูนพารามิเตอร์ที่เหมาะสมเครือข่ายประสาทสองชั้นที่ซ่อนอยู่จะกระโดดข้ามหน้าที่ที่มีโดเมนร่วมที่คล้ายกันเร็วกว่าเครือข่ายประสาทชั้นเดียวที่ซ่อนอยู่ อินพุตของคุณ?

— MiloMinderbinder

'เราสามารถพูดได้หรือไม่ว่าโครงข่ายประสาทเทียมที่มีเลเยอร์ที่ซ่อนอยู่ 2 ชั้นนั้นจำเป็นต้องเทียบเท่าหรือเหนือกว่ากับโครงข่ายประสาทเทียมที่มีเลเยอร์ที่ซ่อนอยู่หนึ่งชั้นในทุกปัญหา' ไม่น่าเสียดายไม่ใช่ จากตัวอย่างตัวนับลองจินตนาการถึงการถดถอยแบบลอจิสติก (a nn ที่มีเลเยอร์ที่ซ่อนอยู่เป็นศูนย์) เทียบกับเครือข่ายนิวรัลเลเยอร์ 1 ชั้นที่มีจำนวนยูนิตที่ถูกซ่อนเท่ากับจำนวนดาต้าพอยน์สำหรับชุดข้อมูล ไม่มีข้อมูลเกี่ยวกับขอบเขตการตัดสินใจที่ lr ไม่สามารถจับภาพได้และความซับซ้อนสูง nn น่าจะเกินความเหมาะสม

— user3684792

เห็นด้วยกับคำสั่งที่นี่ แต่ฉันต้องการที่จะเพิ่มข้อแม้มาตรฐานในเอ็นเอฟแอลที่นำมาจากหน้าวิกิพีเดีย: "โปรดทราบว่าเอ็นเอฟแอลจะใช้เฉพาะในกรณีที่ฟังก์ชั่นเป้าหมายได้รับการคัดเลือก

— mkt - Reinstate Monica

@ user46478 ฉันเห็นด้วยกับความเกี่ยวข้องของทฤษฎีบท NFL ในการตอบคำถามของคุณ "ทำไมเครือข่ายประสาทเทียมที่มีเลเยอร์ที่ซ่อนอยู่หนึ่งชั้นไม่ได้เป็นยาครอบจักรวาลกับปัญหาการเรียนรู้ของเครื่อง?"

— mkt - Reinstate Monica