โครงข่ายใยประสาทรับรู้ภาพได้อย่างไร


25

ฉันพยายามที่จะเรียนรู้ว่า Neural Network ทำงานอย่างไรกับการจดจำภาพ ฉันได้เห็นตัวอย่างและสับสนมากขึ้น ในตัวอย่างของการจดจำตัวอักษรของภาพขนาด 20x20 ค่าของแต่ละพิกเซลจะกลายเป็นเลเยอร์อินพุต ดังนั้น 400 เซลล์ประสาท จากนั้นเป็นชั้นที่ซ่อนอยู่ของเซลล์ประสาทและเซลล์ประสาทเอาท์พุท 26 จากนั้นฝึกเครือข่ายและใช้งานได้ไม่สมบูรณ์แบบ

สิ่งที่ทำให้ฉันสับสนเกี่ยวกับ Neural Network คือมันเรียนรู้เกี่ยวกับสิ่งที่อยู่ในภาพได้อย่างไร คุณไม่จำเป็นต้องทำการกำหนดใหม่หรือการแบ่งส่วนหรือการวัดใด ๆ เครือข่ายเรียนรู้ที่จะเปรียบเทียบภาพและรับรู้ ตอนนี้มันเป็นเวทย์มนตร์สำหรับฉันแล้ว ที่จะเริ่มเรียนรู้เครือข่ายประสาท


1
หากฉันเข้าใจอย่างถูกต้องเครือข่ายประสาทเป็นเพียงพื้นผิวหลายมิติในพื้นที่นามธรรมบางแห่งซึ่งสุดขั้วในท้องถิ่นนำไปสู่ทางเลือกที่เป็นไปได้ การสอนโครงข่ายประสาทเทียมเป็นเพียงการปรับพื้นผิวนามธรรมนี้เป็นงานของมัน มันเป็นความเข้าใจที่ไร้สาระของฉัน

คุณต้องการคำอธิบายหรือแหล่งข้อมูลเพื่อเริ่มทำงานกับ NNs หรือไม่ มันจะเป็นการดีที่จะชี้แจง

2
มีหลักสูตรฟรีที่ดีสำหรับหลักสูตรที่อุทิศให้กับคำถามของคุณ coursera.org/course/neuralnets
pat

คลาส Coursera NN ดูเหมือนว่าจะเป็นขั้นสูงไม่ดีเท่าการแนะนำ Andrew Ng มีการนำเสนอที่อ่อนโยนกว่าที่คุณสามารถหาได้ตัวอย่างเช่นบน Youtube
Douglas Zare

ที่จริงแล้วหลักสูตร Coursera นั้นมีความก้าวหน้า แต่แน่นอนว่าจะเป็นการสร้างขึ้นและจะตอบคำถามของ OP ได้ค่อนข้างดี นอกจากนี้ยังมีตัวอย่างจำนวนมากในการรับรู้หลัก
Chris A.

คำตอบ:


24

ข้อมูลเชิงลึกที่สำคัญเกี่ยวกับวิธีที่เครือข่ายประสาทสามารถเรียนรู้ที่จะจำแนกสิ่งที่ซับซ้อนเช่นข้อมูลภาพที่ได้รับเพียงตัวอย่างและคำตอบที่ถูกต้องมาให้ฉันในขณะที่ศึกษางานของศาสตราจารย์ Kunihiko Fukushima เกี่ยวกับ neocognitrion ในปี 1980 แทนที่จะแสดงเครือข่ายของเขาเป็นรูปภาพจำนวนหนึ่งและใช้การเผยแพร่กลับเพื่อปล่อยให้สิ่งนั้นเป็นของตัวเองเขาใช้วิธีการที่แตกต่างกันและฝึกฝนเลเยอร์เครือข่ายของเขาทีละชั้นและแม้กระทั่งทีละโหนด เขาวิเคราะห์ประสิทธิภาพและการทำงานของแต่ละโหนดของเครือข่ายและปรับเปลี่ยนส่วนเหล่านั้นโดยเจตนาเพื่อให้ตอบสนองในรูปแบบที่ต้องการ

ตัวอย่างเช่นเขารู้ว่าเขาต้องการให้เครือข่ายสามารถรับรู้เส้นได้ดังนั้นเขาจึงฝึกฝนเลเยอร์และโหนดเฉพาะเพื่อให้รู้จักเส้นแนวนอนสามพิกเซล, เส้นแนวตั้ง 3 พิกเซลและความแตกต่างของเส้นทแยงมุมในทุกมุม ด้วยการทำเช่นนี้เขารู้อย่างแน่นอนว่าส่วนใดของเครือข่ายที่สามารถนับได้ว่าจะยิงเมื่อรูปแบบที่ต้องการนั้นมีอยู่ จากนั้นเนื่องจากแต่ละเลเยอร์มีการเชื่อมต่อกันสูงนิโคตินทั้งหมดทั้งหมดจึงสามารถระบุส่วนประกอบคอมโพสิตแต่ละชิ้นที่ปรากฏในภาพไม่ว่าจะอยู่ที่ไหน ดังนั้นเมื่อมีส่วนของเส้นตรงที่ระบุอยู่ที่ไหนสักแห่งในภาพจะมีโหนดเฉพาะที่จะยิง

ทำให้ภาพนี้ปรากฏอยู่เสมอพิจารณาการถดถอยเชิงเส้นซึ่งเป็นเพียงการหาสูตร (หรือเส้น) ผ่านผลรวมของข้อผิดพลาดกำลังสองที่ส่งผ่านข้อมูลของคุณอย่างใกล้ชิดนั่นเป็นเรื่องง่ายที่จะเข้าใจ ในการค้นหาเส้นโค้ง "เส้น" เราสามารถทำการคำนวณผลรวมเดียวกันได้ยกเว้นตอนนี้เราเพิ่มพารามิเตอร์สองสามตัวของ x ^ 2 หรือ x ^ 3 หรือพหุนามคำสั่งที่สูงขึ้น ตอนนี้คุณมีลักษณนามการถดถอยโลจิสติก ลักษณนามนี้สามารถค้นหาความสัมพันธ์ที่ไม่เป็นเชิงเส้นได้ ในความเป็นจริงการถดถอยโลจิสติกสามารถแสดงความสัมพันธ์ที่ซับซ้อนโดยพลการ แต่คุณยังต้องเลือกจำนวนคุณสมบัติพลังงานที่ถูกต้องด้วยตนเองเพื่อทำงานที่ดีในการทำนายข้อมูล

วิธีหนึ่งในการคิดของโครงข่ายประสาทเทียมคือการพิจารณาชั้นสุดท้ายเป็นลักษณนามถดถอยโลจิสติกและจากนั้นชั้นซ่อนสามารถจะคิดว่าเป็นอัตโนมัติคุณลักษณะ "เตอร์" สิ่งนี้จะช่วยลดการทำงานของการเลือกจำนวนและคุณสมบัติของอินพุตที่ถูกต้องด้วยตนเอง ดังนั้น NN จึงกลายเป็นตัวเลือกคุณสมบัติพลังงานอัตโนมัติและสามารถค้นหาความสัมพันธ์เชิงเส้นหรือไม่เชิงเส้น หรือทำหน้าที่เป็นตัวจําแนกของชุดที่ซับซ้อนตามอำเภอใจ ** (สิ่งนี้ถือว่าเฉพาะที่มีเลเยอร์และการเชื่อมต่อที่ซ่อนอยู่เพียงพอ รูปแบบที่ต้องเรียนรู้) ในท้ายที่สุด NN ที่ทำงานได้ดีคาดว่าจะเรียนรู้ไม่เพียง แต่ "ความสัมพันธ์" ระหว่างอินพุตและเอาต์พุต แต่เรามุ่งมั่นที่จะให้นามธรรมหรือรูปแบบที่สรุปได้ดี

ตามกฎของหัวแม่มือเครือข่ายประสาทไม่สามารถเรียนรู้สิ่งที่มนุษย์ฉลาดพอสมควรไม่สามารถเรียนรู้ตามทฤษฎีในเวลาที่กำหนดจากข้อมูลเดียวกันอย่างไรก็ตาม

  • มันอาจสามารถที่จะเรียนรู้บางสิ่งที่ยังไม่มีใครรู้ได้
  • สำหรับปัญหาใหญ่ธนาคารของคอมพิวเตอร์ที่ประมวลผลเครือข่ายประสาทเทียมสามารถค้นหาคำตอบที่ดีได้เร็วกว่าทีมงานคนอื่น ๆ (ในราคาที่ถูกกว่า)
  • เมื่อ NNs ที่ได้รับการฝึกอบรมแล้วจะให้ผลลัพธ์ที่สอดคล้องกับอินพุตที่ได้รับการฝึกอบรมและควรจะสรุปได้ดีหากปรับให้เหมาะสม
  • NN ไม่เคยเบื่อหรือเสียสมาธิ

1
+1 สำหรับย่อหน้าเกี่ยวกับวิธีที่เลเยอร์สุดท้ายทำการถดถอยโลจิสติกส์ที่ด้านบนของการเลือกคุณสมบัติของเลเยอร์ที่ซ่อนอยู่ นั่นเป็นวิธีที่ดีในการคิดเกี่ยวกับ NNs
jlund3

ขอบคุณ แต่ฉันควรชี้แจงว่าฉันไม่ได้บอกว่าชั้นสุดท้ายของทุก ANN นั้นเป็นเลเยอร์การถดถอยโลจิสติก แต่เพียงว่านี่เป็นหนึ่งการกำหนดค่าที่เป็นไปได้ที่สามารถแก้ปัญหาได้มากมาย เนื่องจากวิธีการสุ่มส่วนใหญ่เรามักจะฝึกอบรมความน่าจะเป็นที่ผลลัพธ์ที่ได้ของ ANN จะกระจายไปทั่วโหนดและเลเยอร์จำนวนมากในแบบสุ่ม หนึ่งสามารถฝึกอบรมเครือข่ายย่อยเพื่อตอบสนองในวิธีที่เฉพาะเจาะจงและจากนั้นปั๊มเอาท์พุทของผู้ที่อยู่ในชั้นการถดถอยเพื่อฝีมือเครือข่ายเฉพาะสำหรับปัญหาเฉพาะ ทำให้ ANN มีประสิทธิภาพสูงในหน่วยความจำและความเร็ว
mcstar

1
คำตอบนี้ยังคงได้รับมุมมองดังนั้นฉันคิดว่าฉันจะชี้ให้เห็นว่าตอนนี้มีอายุมากกว่า 5 ปีแล้วและพิจารณาเฉพาะฟีดที่ส่งต่อเครือข่ายที่เชื่อมต่ออย่างสมบูรณ์เท่านั้น แม้ว่าข้อมูลเชิงลึกเชิงแนวคิดที่นี่ยังคงใช้ได้ แต่พวกเขาไม่ได้ให้ผู้ปฏิบัติเพียงพอที่จะเข้าใจแนวคิด NN ที่ลึกล้ำที่กลายเป็นมาตรฐานในทศวรรษที่ผ่านมา CNN (โครงข่ายประสาทเทียม) เป็นการดัดแปลงที่ทันสมัยที่สำคัญมากซึ่งให้พลังล้ำลึกในเครือข่ายโดยอนุญาตให้พวกเขาค้นหาขอบ, คอนทราสต์, ความคมชัด, พื้นที่สี, เงาและอื่น ๆ และใช้เพื่อกำหนดบริบทของคุณลักษณะระดับต่ำ
mcstar

10

คุณอาจเคยได้ยินมันบอกว่าเครือข่ายประสาทเทียมเป็น "ตัวประมาณฟังก์ชั่นสากล " ในสาระสำคัญทฤษฎีบท Cybenko บอกว่าสำหรับการทำแผนที่ฟังก์ชั่นใด ๆ ที่ reals คุณสามารถประมาณได้ด้วยเครือข่ายประสาทที่มีฟังก์ชั่นการเปิดใช้งาน sigmoid ในความเป็นจริงปรากฎว่าเครือข่ายประสาทเทียมช่วยให้คุณสามารถคำนวณฟังก์ชันใด ๆ ที่คำนวณโดยเครื่องทัวริง (เช่นสิ่งใดก็ตามที่คุณสามารถเขียนอัลกอริธึมเพื่อคำนวณ) น่าเสียดายที่หลักฐานเหล่านี้บอกเพียงว่าสำหรับการกำหนดค่าบางอย่างของเซลล์ประสาทและน้ำหนักคุณสามารถประมาณฟังก์ชั่นใด ๆ

ทฤษฎีเป็นสิ่งที่ดีและสวยงาม แต่คำถามของคุณดูเหมือนจะเป็นไปตามแนวทางการเข้ารหัสการคำนวณของฟังก์ชันบางอย่างในชุดของเซลล์ประสาทและน้ำหนัก เพื่ออธิบายให้พิจารณาตัวอย่างง่ายๆ - แบบพิเศษหรือ XOR รับสองอินพุตผ่านอินพุตเหล่านั้น เมื่อเปิดใช้งานอินพุตอินพุตเพียงหนึ่งอินพุตเท่านั้นโหนดเอาต์พุตจะถูกเปิดใช้งาน เมื่อเปิดใช้งานอินพุตทั้งสองหรือไม่อินพุตจะไม่เปิดใช้งานโหนดเอาต์พุต

Net Perceptron สามชั้นสามารถคำนวณ XOR ที่ยืมมาจากวิกิพีเดีย

ขอให้สังเกตว่าสามโหนที่ซ่อนอยู่ทำสิ่งต่าง ๆ โหนดซ้ายและขวาส่วนใหญ่จะผ่านการเปิดใช้งานโหนดการป้อนข้อมูลด้วยความเคารพ เซลล์ประสาทตรงกลางจะรับอินพุตทั้งสองและจะลบล้างพวกมันหากพวกมันทั้งคู่เปิดอยู่ การรวมกันอย่างชาญฉลาดและการรวมเข้าด้วยกันของอินพุตเป็นวิธีการทำงานในเครือข่ายประสาทเทียม

เห็นได้ชัดว่าสำหรับฟังก์ชั่นที่ซับซ้อนมากขึ้นการรวมและการรวมตัวกันอีกครั้งจะต้องทำในวิธีที่ชาญฉลาดและซับซ้อนมากขึ้น แต่นี่คือสิ่งสำคัญที่เกิดขึ้นในระดับต่ำ สิ่งที่บ้าคือนี่คือสิ่งที่คุณต้องการในการคำนวณฟังก์ชั่นการคำนวณใด ๆ ! จากนั้นอีกครั้งเครื่องทัวริงก็กลายเป็นเรื่องง่ายที่หลอกลวง ...

ปัญหาคือเราไม่มีวิธีสร้างเครือข่ายประสาทเทียมที่คำนวณฟังก์ชันตามอำเภอใจได้อย่างน่าอัศจรรย์ หลักฐานเพียงบอกเราว่ามีบางเครือข่ายออกมีที่สามารถทำได้ เมื่อเราฝึกโครงข่ายประสาทเราแค่พยายามหาเครือข่ายที่ใกล้เคียง

ในบริบทของการจดจำรูปภาพคุณสามารถจินตนาการถึงรูปแบบการเข้ารหัสในเครือข่าย ตัวอย่างเช่นหากต้องการจดจำหมายเลข '1' คุณสามารถจินตนาการถึงโหนดที่ซ่อนอยู่ซึ่งคาดว่าคอลัมน์พิกเซลจะเปิดใช้งานเป็นส่วนใหญ่หรือทั้งหมดเปิดใช้งานโดยปิดพิกเซลที่อยู่ใกล้เคียง โหนดที่ซ่อนอยู่นี้อาจดีพอที่จะรับรู้เส้นตรงในคอลัมน์นั้น ใส่ให้พอเข้าด้วยกันและในไม่ช้าคุณก็มีโหนดมากมายที่ทำมันในสถานที่ที่มีภาพของคุณมากพอที่จะแสดงให้เห็นว่าถ้าฉันแสดงเครือข่ายหนึ่ง ๆ ปัญหาของการเรียนการสอนกลายเป็นเรื่องทั่วไปของเครือข่ายเพื่อให้สามารถรับรู้ชุดของอินพุตที่หลากหลาย

หวังว่านี่จะช่วยให้คุณเข้าใจแนวคิดของโครงข่ายประสาทที่สามารถทำการคำนวณได้มากขึ้นหรือน้อยลง อย่างไรก็ตามคุณได้พบกับจุดที่ค่อนข้างสำคัญเกี่ยวกับเครือข่ายประสาท: โดยทั่วไปแล้วมันเป็นเรื่องยากที่จะเข้าใจว่าทำไมเครือข่ายพ่นเอาท์พุทโดยเฉพาะอย่างยิ่งโดยเฉพาะอย่างยิ่งเมื่อคุณพิจารณาสิ่งนั้นเช่นการรับรู้ภาพ ใหญ่พอที่มนุษย์จะมีช่วงเวลาที่ยากลำบากในการทำความเข้าใจแต่ละส่วนที่เคลื่อนไหวของเครื่องจักร สิ่งที่ทำให้เกิดความยุ่งยากมากขึ้นคือโดยทั่วไปโครงข่ายประสาทส่วนใหญ่ไม่มีโหนดที่ซ่อนอยู่เพียงตัวเดียวสำหรับคุณสมบัติเล็ก ๆ น้อย ๆ แต่ละเครือข่ายสามารถเรียนรู้เกี่ยวกับข้อมูลได้ แต่การตรวจจับบางอย่างเช่นเส้นตรงเพื่อจำแนกหมายเลข '1' จะเกิดขึ้นในลักษณะที่ไม่รวมศูนย์ผ่านโหนดที่ซ่อนอยู่จำนวนมาก อัลกอริทึมอื่น ๆ

หากคุณกำลังมองหาการอ่านเพิ่มเติมฉันขอแนะนำให้อ่านบทแนะนำนี้ที่ ai junkie มันจะนำคุณไปสู่พื้นฐานของการทำงานของเครือข่ายประสาทและยังให้ตัวอย่างรหัสง่ายๆที่ทำให้เครือข่ายประสาทเทียมขับรถถังไปสู่เป้าหมาย อย่างไรก็ตามการสอนไม่ครอบคลุม backpropagation ซึ่งเป็นวิธีที่ใช้กันโดยทั่วไปมากที่สุดในการฝึกอบรมโครงข่ายประสาทเทียมและใช้อัลกอริธึมทางพันธุกรรมแบบง่าย ๆ แทน เมื่อเขาเริ่มพูดพันธุศาสตร์ฉันคิดว่าคุณสามารถหยุดอ่าน ...


ขอบคุณสำหรับเวลาและความพยายามที่จะรวบรวมคำและความคิดทั้งหมดเหล่านี้เข้าด้วยกัน ฉันสนใจ Convolutional NN เป็นพิเศษสำหรับการจดจำภาพ ฉันลองตัวอย่างการตรวจจับใบหน้าในไลบรารี OpenCV แต่พบว่ามันทำได้ดีกับวัตถุที่แข็ง Neural Network มีข้อ จำกัด ที่คล้ายคลึงกันในการรู้จำลายเช่นเพียงวัตถุแข็งเท่านั้นหรือไม่
user1731927

ไม่มีเหตุผลเชิงเหตุผลว่าทำไม NN (หรือ CNN สำหรับเรื่องนั้น) จะมีข้อ จำกัด ในการจดจำรูปแบบ แต่เมื่อคุณค้นพบแล้วปัญหาบางอย่างจะง่ายต่อการเรียนรู้มากกว่าคนอื่น เช่นเดียวกับปัญหาหลายอย่างในการเรียนรู้ของเครื่องคุณอาจต้องปรับแต่งโมเดลของคุณเล็กน้อยเพื่อให้สามารถทำตามประเภทของปัญหาที่คุณพยายามแก้ไขได้ดีและ NN ก็ไม่มีข้อยกเว้น
jlund3

1
นี่เป็นบทความที่น่าสนใจเกี่ยวกับวิธีการจัดโครงสร้าง NN ให้ดีขึ้นเพื่อแก้ปัญหาตาราง 2 มิติเช่นการจัดประเภทภาพ axon.cs.byu.edu/~martinez/classes/678/Papers/science.pdf
jlund3

1
ความยากลำบากในการจำแนกวัตถุที่มองเห็น "ไม่แข็ง" อย่างถูกต้องหรือกล่าวอีกวิธีหนึ่งว่าวัตถุที่มีขอบไม่มีเส้นที่สะอาดเป็นเหตุให้ธรรมชาติถึงกับระบุว่าการปลอมตัวเป็นกลยุทธ์การหลีกเลี่ยงที่ยอดเยี่ยม อาหารสมอง.
mcstar

2

นั่นคือสิ่งที่คุณสับสน

เรียนรู้เกี่ยวกับสิ่งที่อยู่ในภาพ

สิ่งที่อยู่ในภาพจะถูกแทนด้วยดิจิทัลด้วยค่าในพิกเซลของรูปภาพ ถ้าคุณนำตัวอย่างของสีในภาพ พิกเซลอาจมีค่าสามค่าแต่ละค่าสำหรับสีหลักสามสีคือสีแดงสีเขียวและสีน้ำเงิน ( RGB) พิกเซลที่มี ( 10,50,100) หมายถึงมันมีองค์ประกอบสีฟ้าน้อยกว่าพิกเซลที่มี ( 40,50,100) ดังนั้นในภาพพิกเซลแรกแสดงพื้นที่ที่มีสีน้ำเงินน้อยกว่า นี่คือข้อมูลที่เครือข่ายนิวรัลเรียนรู้จากตำแหน่ง / ภูมิภาคของภาพหนึ่งไปอีกอันหนึ่งและจบลงด้วยการ 'รู้' สิ่งที่อยู่ในภาพ หลักการเดียวกันนี้ใช้กับคุณสมบัติภาพอื่น ๆ (นอกเหนือจากสี) ที่อาจใช้เป็นอินพุตไปยังเครือข่ายประสาท ดูสิ่งนี้และสิ่งนี้สำหรับแนวคิดพื้นฐานเกี่ยวกับภาพแล้วเลื่อนไปที่สิ่งนี้ เพื่อเรียนรู้วิธีการทำงานของเครือข่ายประสาท


1

ปัญหาการเรียนรู้ของเครื่องเหมือนกันทั้งหมด คุณมีข้อมูลรถไฟเรียนรู้รูปแบบที่เป็นตัวแทนของข้อมูลนี้และมีความสามารถในการสรุปความรู้นี้ในแบบที่คุณจัดกลุ่มเรียนรู้ด้วยอัลกอริทึมที่แตกต่างกัน

ในการจดจำรูปภาพคุณมีชุดรูปภาพที่คุณต้องการเรียนรู้อีกครั้ง

  1. ภาพเหล่านี้ได้รับการประมวลผลในตอนแรกและคุณสมบัติบางอย่างถูกดึงออกมาจากรูปภาพ (มีรูปแบบคุณสมบัติภาพที่เป็นไปได้มากมายเช่น SIFT, Bag of WORDS) เช่นคุณใช้พิกเซลและค่าของมัน
  2. ให้ภาพเหล่านี้มีคุณสมบัติเวกเตอร์ที่เกี่ยวข้องกับอัลกอริทึม ML ของคุณ (Neural Net, SVM หรืออื่น ๆ )
  3. เรียนรู้รูปแบบ
  4. ใช้โมเดลนี้เพื่อจดจำวัตถุที่เห็นอย่างเพียงพอในข้อมูลการฝึกอบรม

หากคุณต้องการจดจำมากกว่าหนึ่งสิ่งให้ใช้ตัวจําแนกหลายตัวสําหรับแต่ละตัว


1

ฉันอยากจะพูดถึงความนิยมอย่างมากสำหรับเครือข่ายประสาทการรับรู้ภาพ นี่คือการเชื่อมโยงคำอธิบายง่ายของซีเอ็นเอ็น

สั้น ๆ ในภาพซีเอ็นเอ็นจะแบ่งออกเป็นคุณสมบัติเช่นขอบรูปร่างคอลเลกชันของรูปร่าง จากนั้นฟีเจอร์เหล่านี้จะถูกป้อนเข้าสู่เครือข่ายประสาทหลายชั้นแบบปกติที่เชื่อมต่ออย่างเต็มที่ (perceptron หลายชั้น)

ในรายละเอียดเพิ่มเติมชุดตัวกรองจะถูกใช้เพื่อแยกคุณลักษณะในรูปแบบของแผนที่คุณลักษณะ ตัวกรองเป็นเพียงเมทริกซ์ (สุ่มในตอนเริ่มต้น) ที่ใช้กับภาพต้นฉบับเพื่อให้ผลิตภัณฑ์ดอทของเมทริกซ์ภาพต้นฉบับและเมทริกซ์ตัวกรองถูกคำนวณและผลลัพธ์จะถูกรวมเข้าด้วยกัน ตัวกรองเคลื่อนที่ไปตามภาพต้นฉบับหนึ่งพิกเซล (ขั้นตอน) ในแต่ละครั้งและเมทริกซ์ของคุณลักษณะแผนที่กำลังถูกเติมเต็ม แผนที่คุณลักษณะถูกสร้างขึ้นสำหรับแต่ละตัวกรอง จากนั้นจึงนำความไม่เชิงเส้นมาใช้กับ RELU (Rectified Linear Unit) สำหรับแต่ละพิกเซลในแต่ละแผนที่คุณลักษณะ การรวมกำไรผ่านแอปพลิเคชันของ max (), sum () หรือ average () อย่างใดอย่างหนึ่งจะทำหลังจากการแปลง ในที่สุดฟีเจอร์ที่ดึงมาในลักษณะนี้จะดูเหมือนชิ้นส่วน 'ขยาย' ของภาพต้นฉบับ คุณสมบัติเหล่านี้ถูกป้อนเข้าสู่การเชื่อมต่ออย่างสมบูรณ์ (เชื่อมต่อทุกหน่วย) เครือข่ายประสาทเทียมและความน่าจะเป็นสำหรับแต่ละภาพ (สมมติว่าเราฝึกอบรมเครือข่ายของเราเกี่ยวกับภาพของรถยนต์ต้นไม้และเรือ) เครือข่ายได้รับการฝึกอบรมซึ่งหมายความว่าพารามิเตอร์ (น้ำหนัก) และเมทริกซ์ตัวกรองจะได้รับการปรับให้เหมาะสมผ่านการเพิ่มส่วนหลัง (การลดข้อผิดพลาดการแบ่งประเภทย่อยให้น้อยที่สุด) เมื่ออิมเมจใหม่ถูกป้อนเข้าสู่เครือข่ายที่ผ่านการฝึกอบรมมีเพียงฟีดไปข้างหน้าเท่านั้นที่จำเป็นในการระบุภาพ (โดยมีเงื่อนไขว่าเครือข่ายนั้นมีความถูกต้องเพียงพอเช่นเราฝึกฝนด้วยตัวอย่างที่เพียงพอเป็นต้น) ซึ่งหมายความว่าพารามิเตอร์ (ตุ้มน้ำหนัก) และเมทริกซ์ตัวกรองจะได้รับการปรับให้เหมาะสมผ่านการปรับปรุงส่วนหลัง (การลดข้อผิดพลาดการแบ่งส่วนย่อย) เมื่ออิมเมจใหม่ถูกป้อนเข้าสู่เครือข่ายที่ผ่านการฝึกอบรมมีเพียงฟีดไปข้างหน้าเท่านั้นที่จำเป็นในการระบุภาพ (โดยมีเงื่อนไขว่าเครือข่ายนั้นมีความถูกต้องเพียงพอเช่นเราฝึกฝนด้วยตัวอย่างที่เพียงพอเป็นต้น) ซึ่งหมายความว่าพารามิเตอร์ (ตุ้มน้ำหนัก) และเมทริกซ์ตัวกรองจะได้รับการปรับให้เหมาะสมผ่านการปรับปรุงส่วนหลัง (การลดข้อผิดพลาดการแบ่งส่วนย่อย) เมื่ออิมเมจใหม่ถูกป้อนเข้าสู่เครือข่ายที่ผ่านการฝึกอบรมมีเพียงฟีดไปข้างหน้าเท่านั้นที่จำเป็นในการระบุภาพ (โดยมีเงื่อนไขว่าเครือข่ายนั้นมีความถูกต้องเพียงพอเช่นเราฝึกฝนด้วยตัวอย่างที่เพียงพอเป็นต้น)


0

เป็นการดีที่จะรู้ว่า ANN สามารถสร้างฟังก์ชันใด ๆ f (x) หรือ f (x, y, z, .. ) หรือมัลติฟังก์ชั่นสำหรับเรื่องนั้น ๆ แต่มันก็สำคัญที่จะต้องรู้ว่าฟังก์ชั่นนั้นมีข้อ จำกัด ในการจำแนกข้อมูล ... มีความสัมพันธ์ที่ซับซ้อนยิ่งขึ้นของชุดย่อยของวัตถุที่มีความสำคัญในการจัดหมวดหมู่และสิ่งเหล่านี้ไม่ได้อธิบายโดยฟังก์ชันดังกล่าว แต่มีความสำคัญในภาษาและการจำแนกวัตถุ ANN สามารถทำสิ่งนี้ได้เช่นกัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.