1 เลเยอร์ที่ซ่อนอยู่กับ 1,000 เซลล์ประสาทเมื่อเทียบกับ 10 ชั้นที่ซ่อนอยู่กับ 100 เซลล์ประสาท


13

คำถามประเภทนี้อาจขึ้นอยู่กับปัญหา แต่ฉันได้พยายามค้นหางานวิจัยที่ตอบคำถามว่าจำนวนเลเยอร์ที่ซ่อนอยู่และขนาด (จำนวนเซลล์ประสาทในแต่ละเลเยอร์) มีความสำคัญหรือไม่

ดังนั้นคำถามของฉันคือมันสำคัญไหมถ้าเรามี 1 เลเยอร์ใหญ่ที่ซ่อน 1,000 นิวรอนเทียบกับ 10 เลเยอร์ที่ซ่อนเร้น 100 นิวรอนแต่ละอัน?

คำตอบ:


12

โดยทั่วไปแล้วการมีหลายเลเยอร์ (หรือที่เรียกว่าเครือข่ายที่ลึก) ทำให้เครือข่ายของคุณกระตือรือร้นที่จะรับรู้แง่มุมบางอย่างของข้อมูลอินพุต ตัวอย่างเช่นหากคุณมีรายละเอียดของบ้าน (ขนาด, ขนาดสนามหญ้า, สถานที่ ฯลฯ ) เป็นอินพุทและต้องการที่จะทำนายราคา เลเยอร์แรกอาจทำนาย:

  • พื้นที่ขนาดใหญ่ราคาสูงขึ้น
  • ห้องนอนเล็กราคาไม่แพง

ชั้นที่สองอาจสรุป:

  • พื้นที่ขนาดใหญ่ + ห้องนอนเล็ก = ห้องนอนขนาดใหญ่ = + - เอฟเฟกต์

ใช่หนึ่งเลเยอร์สามารถ 'ตรวจสอบ' สถิติได้ แต่มันจะต้องใช้เซลล์ประสาทมากขึ้นเนื่องจากไม่สามารถพึ่งพาเซลล์อื่น ๆ ที่จะทำ 'ส่วน' ของการคำนวณทั้งหมดที่จำเป็นในการตรวจสอบสถิตินั้น

ลองดูคำตอบนี้


ขอบคุณมากสำหรับคำตอบของคุณ เพื่อชี้แจงเมื่อคุณเขียน "มันทำให้เครือข่ายของคุณ [... ]" คุณหมายถึงกรณีที่เมื่อฉันมีเลเยอร์ที่ซ่อนอยู่จำนวนมากที่มีเซลล์ประสาทน้อยลงแต่ละคนมากกว่าที่จะมีเซลล์ประสาทในชั้นที่น้อยลง?
สตีเฟ่นจอห์นสัน

@StephenJohnson อ๊ะฉันแก้ไขคำถามแล้ว ฉันหมายถึงเครือข่ายลึก (หลายชั้น)
โทมัส W

คำตอบที่ดีขอบคุณอีกครั้ง บางทีฉันควรดำเนินการต่อในเธรดอื่น แต่คุณคิดว่าการใช้เหตุผลแบบเดียวกันกับเครือข่ายประสาทกำเริบเช่น GRU หรือ LSTM หรือไม่
สตีเฟ่นจอห์นสัน

@StephenJohnson คุณหมายถึงหนึ่งเครือข่ายที่เกิดซ้ำเป็นชั้น ๆ เทียบกับเครือข่ายที่เกิดขึ้นอีกหลายชั้นหรือคุณหมายถึงเพราะการเชื่อมต่อที่เกิดขึ้นอีกหรือไม่?
โทมัส W

ฉันหมายถึงโดยทั่วไปเพราะพวกเขามีการเชื่อมต่อซ้ำ ๆ ทำให้พวกเขาสามารถทำแผนที่บริบทในระยะทางไกลเครือข่ายดังกล่าวได้รับประโยชน์จากการเป็น Deep ในลักษณะเดียวกับเครือข่าย feedforward ปกติหรือไม่ บางทีพวกเขาอาจไม่สามารถเปรียบเทียบเช่นนั้นได้เนื่องจากเครือข่ายที่เกิดซ้ำมักใช้เมื่อมีการใช้ข้อมูลตามลำดับเช่นเสียง
สตีเฟ่นจอห์นสัน

4

มีหลายด้าน

1. การฝึกอบรม: การฝึกอบรมมุ้งลึกเป็นงานที่ยากเนื่องจากปัญหาการไล่ระดับสีหายไป (การระเบิดด้านหลัง) ดังนั้นจึงไม่แนะนำให้สร้างเซลล์ประสาท 10x100-net

2. ประสิทธิภาพเครือข่ายที่ผ่านการฝึกอบรม:

  • การสูญเสียข้อมูล: การใช้คลาสสิกของอวนประสาทเป็นปัญหาการจำแนก ซึ่งหมายความว่าเราต้องการรับข้อมูลที่กำหนดไว้อย่างดีจากข้อมูล (เช่นมีใบหน้าในภาพหรือไม่) ดังนั้นโดยปกติปัญหาการจำแนกมีอินพุตจำนวนมากและเอาต์พุตไม่กี่ขนาดของเลเยอร์ที่ซ่อนจะยิ่งลดลงจากอินพุตไปยังเอาต์พุต อย่างไรก็ตามเราสูญเสียข้อมูลโดยใช้เซลล์ประสาทน้อยลงทีละชั้น (เช่นเราไม่สามารถทำซ้ำภาพต้นฉบับตามความจริงที่ว่ามีใบหน้าหรือไม่) ดังนั้นคุณต้องรู้ว่าคุณสูญเสียข้อมูลโดยใช้เซลล์ประสาท 100 เซลล์ถ้าขนาดของอินพุตเป็น (สมมติว่า) 1,000
  • ความซับซ้อนของข้อมูล:อย่างไรก็ตามอวนที่ลึกกว่า (ดังที่โทมัสดับบลิวกล่าว) สามารถดึงข้อมูลที่ซับซ้อนมากขึ้นจากข้อมูลอินพุต ทั้งๆที่ไม่แนะนำให้ใช้ 10 เลเยอร์ที่เชื่อมต่อเต็มที่ แนะนำให้ใช้ convolutional / relu / maxpooling หรือเลเยอร์ประเภทอื่น ๆ ชั้น Firest สามารถบีบอัดส่วนสำคัญของอินพุต (เช่นมีเส้นใดในส่วนหนึ่งของภาพ) เลเยอร์ที่สองสามารถพูดได้: มีรูปร่างที่เฉพาะเจาะจงในสถานที่นี้ในรูปภาพ ฯลฯ

ดังนั้นตาข่ายที่ลึกจึงเป็น "ฉลาด" มากกว่า แต่โครงสร้างสุทธิ 10x100 เป็นตัวเลือกที่ดี


1

หากปัญหาที่คุณแก้อยู่นั้นแยกออกจากกันเป็นเส้นตรงหนึ่งชั้นของ 1,000 เซลล์ประสาทสามารถทำงานได้ดีกว่า 10 ชั้นกับแต่ละ 100 เซลล์ประสาท หากปัญหาไม่เป็นเส้นตรงและไม่นูนคุณต้องมีตาข่ายระบบประสาทลึก


2
หากปัญหาสามารถแบ่งแยกได้แบบเป็นเส้นตรงคุณไม่จำเป็นต้องมีเลเยอร์ที่ซ่อนอยู่เลย
Amedeo Baragiola

0

ฉันคิดว่าคุณมีความสับสนในพื้นฐานของเครือข่ายประสาท ทุกชั้นมีฟังก์ชั่นการเปิดใช้งานแยกต่างหากและน้ำหนักการเชื่อมต่ออินพุต / เอาต์พุต

ผลลัพธ์ของเลเยอร์ที่ซ่อนแรกจะถูกคูณด้วยน้ำหนักประมวลผลโดยฟังก์ชันการเปิดใช้งานในเลเยอร์ถัดไปเป็นต้น โครงข่ายประสาทชั้นเดียวมีข้อ จำกัด มากสำหรับงานง่าย ๆ NN ที่ลึกกว่าสามารถทำงานได้ดีกว่าชั้นเดียว

อย่างไรก็ตามอย่าใช้มากกว่าเลเยอร์หากใบสมัครของคุณไม่ซับซ้อนพอสมควร สรุปแล้วชั้นของเซลล์ประสาท 100 ชั้นไม่ได้แปลว่าโครงข่ายประสาทที่ดีกว่า 10 ชั้น x 10 เซลล์ประสาท แต่ 10 ชั้นนั้นเป็นสิ่งที่จินตนาการถ้าคุณไม่ได้เรียนรู้อย่างลึกซึ้ง เริ่มต้นด้วย 10 เซลล์ประสาทในเลเยอร์ที่ซ่อนอยู่และลองเพิ่มเลเยอร์หรือเพิ่มเซลล์ประสาทอื่น ๆ ลงในเลเยอร์เดียวกันเพื่อดูความแตกต่าง การเรียนรู้ด้วยเลเยอร์ที่มากขึ้นจะง่ายขึ้น แต่ต้องใช้เวลาในการฝึกฝนมากขึ้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.