ประโยคสามประโยค:
แต่ละเลเยอร์สามารถใช้ฟังก์ชั่นใด ๆ ที่คุณต้องการกับเลเยอร์ก่อนหน้า (โดยปกติคือการแปลงเชิงเส้นตามด้วยการบีบอัดแบบไม่เชิงเส้น)
หน้าที่ของเลเยอร์ที่ซ่อนอยู่คือการแปลงอินพุตเป็นสิ่งที่เลเยอร์เอาท์พุทสามารถใช้ได้
เลเยอร์เอาท์พุทแปลงการเปิดใช้งานเลเยอร์ที่ซ่อนอยู่ในระดับใดก็ตามที่คุณต้องการให้เอาต์พุตของคุณเปิดอยู่
เช่นเดียวกับคุณ 5:
ถ้าคุณต้องการให้คอมพิวเตอร์บอกคุณว่ามีรถบัสอยู่ในรูปภาพหรือไม่คอมพิวเตอร์อาจมีเวลาได้ง่ายขึ้นถ้ามีเครื่องมือที่เหมาะสม
ดังนั้นเครื่องตรวจจับบัสของคุณอาจทำจากเครื่องตรวจจับล้อ (เพื่อช่วยบอกคุณว่าเป็นยานพาหนะ) และเครื่องตรวจจับกล่อง (เนื่องจากบัสมีรูปร่างเหมือนกล่องใหญ่) และเครื่องตรวจจับขนาด (เพื่อบอกคุณว่าใหญ่เกินไปที่จะเป็นรถ ) เหล่านี้คือองค์ประกอบสามส่วนของเลเยอร์ที่ซ่อนอยู่ของคุณ: พวกเขาไม่ได้เป็นส่วนหนึ่งของภาพดิบเครื่องมือที่คุณออกแบบมาเพื่อช่วยคุณระบุบัส
หากเครื่องตรวจจับทั้งสามตัวเปิด (หรือบางทีอาจทำงานโดยเฉพาะอย่างยิ่ง) ก็มีโอกาสดีที่คุณมีรถบัสต่อหน้าคุณ
ตาข่ายประสาทมีประโยชน์เพราะมีเครื่องมือที่ดี (เช่น backpropagation) สำหรับการสร้างเครื่องตรวจจับจำนวนมากและรวมเข้าด้วยกัน
เหมือนคุณเป็นผู้ใหญ่
เครือข่ายประสาทส่งต่อไปใช้ชุดของฟังก์ชั่นกับข้อมูล ฟังก์ชั่นที่แน่นอนจะขึ้นอยู่กับเครือข่ายประสาทที่คุณใช้บ่อยที่สุดฟังก์ชั่นเหล่านี้แต่ละเครื่องคำนวณการแปลงเชิงเส้นของเลเยอร์ก่อนหน้าตามด้วยการบีบอัดแบบไม่เชิงเส้น บางครั้งฟังก์ชันจะทำอย่างอื่น (เช่นการคำนวณฟังก์ชันแบบลอจิคัลในตัวอย่างของคุณหรือเฉลี่ยเหนือพิกเซลที่อยู่ติดกันในภาพ) ดังนั้นบทบาทของเลเยอร์ที่แตกต่างกันอาจขึ้นอยู่กับฟังก์ชั่นการคำนวณ แต่ฉันจะพยายามให้กว้างมาก
ขอเรียกการป้อนข้อมูลเวกเตอร์ , ที่ซ่อนอยู่ชั้นเปิดใช้งานและการเปิดใช้งานการส่งออกปีคุณมีบางฟังก์ชั่นที่แผนที่จากไปและฟังก์ชั่นอื่นที่แผนที่จากที่จะY h y f x h g h y yxชั่วโมงYฉxชั่วโมงก.ชั่วโมงY
ดังนั้นการเปิดใช้งานชั้นที่ซ่อนอยู่คือและการส่งออกของเครือข่ายที่มีการ(x))g ( f ( x ) )ฉ( x )ก.( ฉ( x ) )
ทำไมมีสองฟังก์ชั่น (และ ) แทนที่จะเป็นเพียงหนึ่ง?กรัมฉก.
หากระดับความซับซ้อนต่อฟังก์ชั่นถูก จำกัด ดังนั้นสามารถคำนวณสิ่งต่าง ๆ ที่และไม่สามารถทำทีละรายการได้ f gก.( ฉ( x ) )ฉก.
ตัวอย่างที่มีฟังก์ชั่นตรรกะ:
ตัวอย่างเช่นหากเราอนุญาตให้และเป็นตัวดำเนินการเชิงตรรกะอย่างง่ายเช่น "AND", "OR" และ "NAND" คุณจะไม่สามารถคำนวณฟังก์ชันอื่น ๆ เช่น "XOR" ด้วยหนึ่งในนั้น ในทางกลับกันเราสามารถคำนวณ "XOR" ถ้าเราเต็มใจที่จะเลเยอร์ฟังก์ชั่นเหล่านี้ที่ด้านบนของกันและกัน:กรัมฉก.
ฟังก์ชั่นชั้นแรก:
- ตรวจสอบให้แน่ใจว่าอย่างน้อยหนึ่งองค์ประกอบคือ "TRUE" (โดยใช้ OR)
- ตรวจสอบให้แน่ใจว่าไม่ใช่ "TRUE" ทั้งหมด (ใช้ NAND)
ฟังก์ชั่นชั้นที่สอง:
- ตรวจสอบให้แน่ใจว่าเป็นไปตามเกณฑ์ของเลเยอร์ทั้งสอง (โดยใช้ AND)
เอาต์พุตของเครือข่ายเป็นเพียงผลลัพธ์ของฟังก์ชันที่สองนี้ เลเยอร์แรกแปลงอินพุตเป็นสิ่งที่เลเยอร์ที่สองสามารถใช้เพื่อให้เครือข่ายทั้งหมดสามารถทำงาน XOR ได้
ตัวอย่างที่มีรูปภาพ:
สไลด์ 61 จากการพูดคุย -มีให้ที่นี่เป็นภาพเดียว - แสดง (วิธีหนึ่งในการมองเห็น) สิ่งที่เลเยอร์ที่ซ่อนอยู่แตกต่างกันในเครือข่ายประสาทกำลังมองหา
เลเยอร์แรกจะมองหาส่วนสั้น ๆ ของภาพ: สิ่งเหล่านี้หาได้ง่ายจากข้อมูลพิกเซลแบบดิบ แต่พวกมันไม่ได้มีประโยชน์มากสำหรับพวกเขาในการบอกคุณว่าคุณกำลังมองหน้าหรือรถบัสหรือช้าง .
เลเยอร์ถัดไปจะเรียงขอบ: หากขอบจากชั้นที่ซ่อนอยู่ด้านล่างประกอบเข้าด้วยกันในบางวิธีดังนั้นหนึ่งในอุปกรณ์ตรวจจับสายตาที่อยู่ตรงกลางคอลัมน์ด้านซ้ายสุดอาจเปิดใช้งาน มันจะยากที่จะสร้างเลเยอร์เดี่ยวที่ดีในการค้นหาสิ่งที่เฉพาะเจาะจงจากพิกเซลดิบ: เครื่องตรวจจับดวงตานั้นง่ายกว่ามากในการสร้างเครื่องตรวจจับขอบออกมาได้ง่ายกว่าการใช้พิกเซลดิบ
เลเยอร์ถัดไปประกอบด้วยเครื่องตรวจจับดวงตาและเครื่องตรวจจับจมูกเข้าไปในใบหน้า กล่าวอีกนัยหนึ่งสิ่งเหล่านี้จะสว่างขึ้นเมื่อเครื่องตรวจจับดวงตาและเครื่องตรวจจับจมูกจากชั้นก่อนหน้าเปิดใช้งานด้วยรูปแบบที่ถูกต้อง สิ่งเหล่านี้ดีมากที่มองหาใบหน้าบางประเภท: หากมีใบหน้าหนึ่งใบหน้าหรือมากกว่าสว่างขึ้นเลเยอร์เอาต์พุตของคุณควรรายงานว่ามีใบหน้าอยู่
สิ่งนี้มีประโยชน์เพราะเครื่องตรวจจับใบหน้าสร้างจากเครื่องตรวจจับดวงตาและเครื่องตรวจจับจมูกได้ง่าย แต่จริงๆแล้วการสร้างความเข้มของพิกเซลนั้นยากมาก
ดังนั้นแต่ละเลเยอร์จะทำให้คุณไกลขึ้นและไกลขึ้นจากพิกเซลดิบและใกล้กับเป้าหมายสูงสุดของคุณ (เช่นการตรวจจับใบหน้าหรือการตรวจจับบัส)
คำตอบสำหรับคำถามอื่น ๆ ที่หลากหลาย
"ทำไมเลเยอร์บางอย่างในเลเยอร์อินพุตเชื่อมต่อกับเลเยอร์ที่ซ่อนอยู่และทำไมบางเลเยอร์ถึงไม่ได้?"
โหนดที่ถูกตัดการเชื่อมต่อในเครือข่ายเรียกว่าโหนด "อคติ" มีคำอธิบายที่ดีจริงๆเป็นที่นี่ คำตอบสั้น ๆ คือพวกเขาชอบดักคำศัพท์ในการถดถอย
"ภาพ" เครื่องตรวจจับนัยน์ตา "ในภาพตัวอย่างมาจากที่ใด"
ฉันไม่ได้ตรวจสอบภาพที่ฉันเชื่อมโยงด้วยซ้ำ แต่โดยทั่วไปแล้วการสร้างภาพข้อมูลเหล่านี้แสดงชุดของพิกเซลในเลเยอร์อินพุตที่เพิ่มกิจกรรมของเซลล์ประสาทที่เกี่ยวข้องให้ได้มากที่สุด ดังนั้นถ้าเราคิดว่าเซลล์ประสาทเป็นเครื่องตรวจจับดวงตานี่เป็นภาพที่เซลล์ประสาทพิจารณาว่าเป็นเหมือนตามากที่สุด คนมักจะพบว่าชุดพิกเซลเหล่านี้มีขั้นตอนการเพิ่มประสิทธิภาพ (ปีนเขา)
ในบทความนี้โดยคน Google บางคนที่มีหนึ่งในเครือข่ายประสาทที่ใหญ่ที่สุดในโลกพวกเขาแสดงเซลล์ประสาท "เครื่องตรวจจับใบหน้า" และ "เครื่องตรวจจับแมว" เซลล์ประสาทด้วยวิธีนี้เช่นเดียวกับวิธีที่สอง: พวกเขายังแสดงภาพจริงที่เปิดใช้งาน เซลล์ประสาทแรงที่สุด (รูปที่ 3 รูปที่ 16) วิธีที่สองนั้นดีเพราะมันแสดงให้เห็นว่าเครือข่ายมีความยืดหยุ่นและไม่เชิงเส้นอย่างไร "เครื่องตรวจจับ" ระดับสูงเหล่านี้มีความไวต่อภาพเหล่านี้ทั้งหมดแม้ว่าพวกเขาจะดูไม่คล้ายกับระดับพิกเซลก็ตาม
แจ้งให้เราทราบหากมีสิ่งใดที่นี่ไม่ชัดเจนหรือหากคุณมีคำถามเพิ่มเติม