คำถามติดแท็ก convolutional-neural-networks

สำหรับคำถามเกี่ยวกับ Convolutional Neural Network หรือที่เรียกว่า CNN หรือ ConvNet

8
นักวิทยาศาสตร์รู้หรือไม่ว่าเกิดอะไรขึ้นกับเครือข่ายประสาทเทียม?
นักวิทยาศาสตร์หรือผู้เชี่ยวชาญด้านการวิจัยทราบจากห้องครัวสิ่งที่เกิดขึ้นภายในเครือข่ายประสาทที่ "ลึก" ที่ซับซ้อนโดยมีการเชื่อมต่ออย่างน้อยหลายล้านจุดในทันที พวกเขาเข้าใจกระบวนการที่อยู่เบื้องหลังสิ่งนี้หรือไม่ (เช่นเกิดอะไรขึ้นภายในและมันทำงานอย่างไร) หรือเป็นประเด็นถกเถียง ตัวอย่างเช่นการศึกษานี้พูดว่า: แต่ไม่มีความเข้าใจที่ชัดเจนของเหตุผลที่พวกเขาดำเนินการให้ดีหรือวิธีการที่พวกเขาอาจจะดีขึ้น ดังนั้นนี่หมายความว่านักวิทยาศาสตร์ไม่ทราบว่ารูปแบบเครือข่าย convolutional ที่ซับซ้อนทำงานอย่างไร

9
เป็นไปได้อย่างไรที่เครือข่ายประสาทเทียมนั้นถูกหลอกอย่างง่ายดาย?
หน้า / การศึกษาต่อไปนี้แสดงให้เห็นว่าเครือข่ายประสาทลึกนั้นถูกหลอกอย่างง่ายดายโดยการทำนายความมั่นใจสูงสำหรับภาพที่ไม่สามารถจดจำได้เช่น เป็นไปได้อย่างไร? คุณช่วยอธิบายความรู้สึกเป็นภาษาอังกฤษธรรมดา ๆ ได้ไหม?

3
เครือข่ายประสาทสามารถจัดการกับขนาดอินพุตที่แตกต่างกันอย่างไร
เท่าที่ฉันจะบอกได้เครือข่ายประสาทมีจำนวนเซลล์ประสาทคงที่ในชั้นข้อมูลเข้า หากใช้โครงข่ายประสาทในบริบทเช่น NLP ประโยคหรือบล็อกข้อความที่มีขนาดแตกต่างกันจะถูกป้อนเข้าเครือข่าย ขนาดอินพุตที่แตกต่างกันอย่างไรจะกระทบยอดกับขนาดคงที่ของเลเยอร์อินพุตของเครือข่าย กล่าวอีกนัยหนึ่งเครือข่ายเช่นนี้มีความยืดหยุ่นเพียงพอที่จะจัดการกับอินพุตที่อาจอยู่ที่ใดก็ได้ตั้งแต่หนึ่งคำไปจนถึงหลายหน้าของข้อความ หากสมมติฐานของฉันเกี่ยวกับจำนวนเซลล์ประสาทนำเข้าที่กำหนดไม่ถูกต้องและมีการเพิ่มเซลล์ประสาทขาเข้าใหม่เข้า / ออกจากเครือข่ายเพื่อให้ตรงกับขนาดอินพุตฉันไม่เห็นว่าจะสามารถฝึกอบรมสิ่งเหล่านี้ได้อย่างไร ฉันยกตัวอย่าง NLP แต่ปัญหามากมายมีขนาดอินพุตที่คาดเดาไม่ได้ ฉันสนใจวิธีการทั่วไปในการจัดการกับสิ่งนี้ สำหรับรูปภาพมันชัดเจนว่าคุณสามารถขึ้น / ลงตัวอย่างเป็นขนาดคงที่ แต่สำหรับข้อความดูเหมือนว่าจะเป็นวิธีที่เป็นไปไม่ได้เนื่องจากการเพิ่ม / ลบข้อความเปลี่ยนความหมายของอินพุตต้นฉบับ

8
ใน CNN ตัวกรองใหม่แต่ละตัวมีน้ำหนักแตกต่างกันสำหรับแต่ละช่องสัญญาณหรือมีน้ำหนักเท่ากันของตัวกรองแต่ละตัวที่ใช้ในช่องสัญญาณอินพุตหรือไม่
ความเข้าใจของฉันคือชั้นของเครือข่ายประสาทเทียมแบบ Convolutional มีสี่มิติคือ input_channels, filter_height, filter_width, number_of_filters ยิ่งไปกว่านั้นฉันเข้าใจว่าตัวกรองใหม่แต่ละตัวมีความซับซ้อนมากกว่า input_channels ทั้งหมด (หรือคุณสมบัติ / แผนที่เปิดใช้งานจากเลเยอร์ก่อนหน้า) อย่างไรก็ตามกราฟิกด้านล่างจาก CS231 จะแสดงตัวกรองแต่ละตัว (สีแดง) ที่ใช้กับช่องเดี่ยวแทนที่จะใช้ตัวกรองเดียวกันที่ใช้ข้ามช่องสัญญาณ ดูเหมือนว่านี่จะบ่งบอกว่ามีตัวกรองแยกต่างหากสำหรับช่อง EACH (ในกรณีนี้ฉันสมมติว่าเป็นช่องสามสีของภาพที่ป้อน แต่สิ่งเดียวกันจะใช้กับช่องสัญญาณทั้งหมด) นี่คือความสับสน - มีตัวกรองที่ไม่ซ้ำกันที่แตกต่างกันสำหรับแต่ละช่องสัญญาณเข้าหรือไม่? ที่มา: http://cs231n.github.io/convolutional-networks/ ภาพด้านบนดูเหมือนจะขัดแย้งกับข้อความที่ตัดตอนมาจาก"พื้นฐานการเรียนรู้ลึก"ของ O'reilly : "... ตัวกรองไม่เพียงทำงานบนแผนที่คุณลักษณะเดียวเท่านั้นพวกเขาทำงานบนไดรฟ์ข้อมูลแผนที่ทั้งหมดที่สร้างขึ้นในเลเยอร์เฉพาะ ... ด้วยเหตุนี้คุณสมบัติแผนที่จะต้องสามารถทำงานได้มากกว่าโวลุ่ม ไม่ใช่แค่พื้นที่ " ... นอกจากนี้มันเป็นความเข้าใจของฉันที่ภาพด้านล่างนี้แสดงให้เห็นว่าตัวกรองTHE SAMEนั้นได้รับการโน้มน้าวใจเหนือช่องสัญญาณอินพุตทั้งสาม (ขัดแย้งกับสิ่งที่แสดงในกราฟิก CS231 ด้านบน):

4
ความสามารถในการจดจำรูปแบบของ CNN จำกัด เฉพาะการประมวลผลภาพหรือไม่?
Convolutional Neural Network สามารถใช้ในการจดจำรูปแบบในโดเมนปัญหาที่ไม่มีภาพที่มีอยู่แล้วโดยการแสดงข้อมูลนามธรรมแบบกราฟิกหรือไม่? นั่นจะมีประสิทธิภาพน้อยกว่าเสมอหรือไม่? นักพัฒนาซอฟต์แวร์รายนี้กล่าวว่าการพัฒนาในปัจจุบันสามารถดำเนินต่อไปได้ แต่จะไม่เกิดขึ้นหากมีการ จำกัด การจดจำภาพ

3
อะไรคือความแตกต่างระหว่างเครือข่ายประสาทเทียมและเครือข่ายประสาทปกติ?
ฉันเห็นคำเหล่านี้ถูกโยนไปรอบ ๆ ไซต์นี้เป็นจำนวนมากโดยเฉพาะในแท็ก สับสน-ประสาทเครือข่ายและระบบประสาทเครือข่าย ฉันรู้ว่าเครือข่ายประสาทเทียมเป็นระบบที่อิงกับสมองมนุษย์ แต่สิ่งที่แตกต่างระหว่างที่Convolutionalประสาทเครือข่ายและเครือข่ายประสาทปกติ? มีเพียงหนึ่งที่ซับซ้อนมากขึ้นและ ahem, convolutedกว่าอีกหรือไม่

3
วิธีจัดการกับภาพขนาดใหญ่ใน CNN
สมมติว่ามีภาพขนาด 10K ขนาด 2400 x 2400 ที่จำเป็นต้องใช้ใน CNN.Acc กับมุมมองของฉันคอมพิวเตอร์ทั่วไปที่ผู้คนใช้จะถูกใช้งาน ตอนนี้คำถามคือทำอย่างไรถึงจะจัดการกับภาพขนาดใหญ่เช่นนี้ได้โดยไม่มีสิทธิ์ในการสุ่มตัวอย่าง นี่คือข้อกำหนดของระบบ: - Ubuntu 16.04 RAM 64 GB GPU 16 GB 8 GB HDD 500 GB 1) มีเทคนิคใดบ้างในการจัดการภาพขนาดใหญ่ที่ต้องผ่านการฝึกอบรม? 2) ขนาดชุดใดที่เหมาะสมที่จะใช้? 3) มีข้อควรระวังในการใช้หรือเพิ่มหรือลดทรัพยากรฮาร์ดแวร์ที่ฉันสามารถทำได้หรือไม่?

3
ทอพอโลยีแบบใดที่ไม่ได้สำรวจส่วนใหญ่ในการเรียนรู้ของเครื่อง? [ปิด]
ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน29 วันที่ผ่านมา เรขาคณิตและ AI เมทริกซ์, ก้อน, ชั้น, กองและวรรณะเป็นสิ่งที่เราสามารถเรียกได้อย่างถูกต้องโครงสร้าง พิจารณาโทโพโลยีในบริบทนี้การออกแบบทางเรขาคณิตระดับสูงของระบบการเรียนรู้ เมื่อความซับซ้อนเพิ่มขึ้นก็มักจะมีประโยชน์ในการแสดงโครงสร้างเหล่านี้เป็นโครงสร้างกราฟกำกับ แผนภาพสถานะและผลงานของมาร์คอฟเกี่ยวกับทฤษฎีเกมเป็นสองสถานที่ซึ่งมักใช้กราฟกำกับ กราฟกำกับมีจุดยอด (มักจะมองเห็นเป็นรูปร่างปิด) และขอบมักมองเห็นเป็นลูกศรที่เชื่อมต่อรูปร่าง นอกจากนี้เรายังสามารถเป็นตัวแทนของ GANs เป็นกราฟกำกับซึ่งผลลัพธ์ของแต่ละเน็ตไดรฟ์จะช่วยฝึกอบรมเรื่องอื่น ๆ ในลักษณะที่เป็นปฏิปักษ์ GANs คล้ายกับแถบMöbiusทอพอโลยี เราไม่สามารถค้นพบการออกแบบและสถาปัตยกรรมใหม่ ๆ โดยไม่เข้าใจไม่เพียง แต่คณิตศาสตร์ของการมาบรรจบกันบนทางออกที่ดีที่สุดหรือการติดตาม แต่ยังรวมถึงทอพอโลยีของการเชื่อมต่อเครือข่ายที่สามารถรองรับการบรรจบกัน มันเหมือนกับการพัฒนาตัวประมวลผลครั้งแรกในขณะที่จินตนาการถึงสิ่งที่ระบบปฏิบัติการต้องการก่อนที่จะเขียนระบบปฏิบัติการ หากต้องการดูว่าเราไม่ได้พิจารณาโทโพโลยีแบบใดเรามาดูกันว่ามีใครบ้าง ขั้นตอนที่หนึ่ง - การอัดขึ้นรูปในมิติที่สอง ในปี 1980 ความสำเร็จประสบความสำเร็จด้วยการขยายการออกแบบ perceptron ดั้งเดิม นักวิจัยได้เพิ่มมิติที่สองเพื่อสร้างเครือข่ายประสาทหลายชั้น การบรรจบกันอย่างมีเหตุผลนั้นเกิดขึ้นได้จากการย้อนกลับของการไล่ระดับของฟังก์ชันข้อผิดพลาดผ่านการไล่ระดับสีของฟังก์ชั่นการเปิดใช้งานซึ่งลดทอนโดยอัตราการเรียนรู้และชุบด้วย meta-parameters อื่น ๆ ขั้นตอนที่สอง - การเพิ่มมิติให้กับสัญญาณอินพุตแบบไม่ต่อเนื่อง เราเห็นการเกิดขึ้นของเครือข่าย …

2
ฟีเจอร์คอขวดคืออะไร?
ในบล็อกโพสต์การสร้างรูปแบบการจำแนกภาพที่ทรงพลังโดยใช้ข้อมูลน้อยมากมีการกล่าวถึงคุณสมบัติของคอขวด ฟีเจอร์คอขวดคืออะไร? พวกเขาเปลี่ยนแปลงด้วยสถาปัตยกรรมที่ใช้หรือไม่ พวกมันเป็นผลลัพธ์สุดท้ายของเลเยอร์ convolutional ก่อนเลเยอร์ที่เชื่อมต่อเต็มที่หรือไม่? ทำไมพวกเขาถึงเรียกเช่นนั้น?

2
เลเยอร์ใดที่ใช้เวลามากขึ้นในการฝึกอบรมของ CNN Convolution Layer กับ FC FC
ใน Convolutional Neural Network เลเยอร์ใดที่ใช้เวลาสูงสุดในการฝึกอบรม? Convolution Layer หรือ Layer ที่เชื่อมต่อเต็ม? เราสามารถใช้สถาปัตยกรรม AlexNet เพื่อทำความเข้าใจกับสิ่งนี้ ฉันต้องการที่จะเห็นการแบ่งเวลาของกระบวนการฝึกอบรม ฉันต้องการเปรียบเทียบเวลาแบบสัมพัทธ์เพื่อให้เราสามารถกำหนดค่า GPU คงที่ได้

3
การใช้โครงข่ายประสาทเทียมเพื่อจดจำรูปแบบในเมทริกซ์
ฉันพยายามที่จะพัฒนาโครงข่ายประสาทเทียมซึ่งสามารถระบุคุณสมบัติการออกแบบในแบบจำลอง CAD (เช่นสล็อต, หัวหน้า, หลุม, กระเป๋า, ขั้นตอน) ข้อมูลอินพุตที่ฉันต้องการใช้สำหรับเครือข่ายคือเมทริกซ์ anxn (โดยที่ n คือจำนวนใบหน้าในโมเดล CAD) '1' ในสามเหลี่ยมด้านขวาบนของเมทริกซ์แสดงถึงความสัมพันธ์ที่นูนระหว่างสองใบหน้าและ '1' ในสามเหลี่ยมล่างซ้ายแสดงถึงความสัมพันธ์แบบเว้า ศูนย์ทั้งสองตำแหน่งหมายความว่าใบหน้าไม่ได้อยู่ติดกัน ภาพด้านล่างเป็นตัวอย่างของเมทริกซ์ดังกล่าว ให้บอกว่าฉันตั้งค่าขนาดรุ่นสูงสุดไว้ที่ 20 ใบหน้าและใช้การเติมเต็มสำหรับสิ่งที่เล็กกว่านั้นเพื่อให้อินพุตกับเครือข่ายมีขนาดคงที่ ฉันต้องการที่จะรับรู้ถึง 5 คุณสมบัติการออกแบบที่แตกต่างกันและดังนั้นจึงมี 5 เซลล์ประสาทเอาท์พุท - [สล็อต, กระเป๋า, หลุม, เจ้านาย, ขั้นตอน] ฉันจะพูดถูกไหมว่านี่เป็นปัญหาของ 'การจดจำรูปแบบ' ตัวอย่างเช่นถ้าฉันจัดหาเครือข่ายด้วยรูปแบบการฝึกอบรมจำนวนมาก - พร้อมกับฉลากที่อธิบายถึงคุณลักษณะการออกแบบที่มีอยู่ในโมเดลเครือข่ายจะเรียนรู้ที่จะจดจำรูปแบบ adjacency เฉพาะที่แสดงในเมทริกซ์ซึ่งเกี่ยวข้องกับคุณสมบัติการออกแบบบางอย่างหรือไม่ ฉันเป็นผู้เริ่มต้นที่สมบูรณ์ในการเรียนรู้ของเครื่องและฉันพยายามที่จะเข้าใจว่าวิธีการนี้จะใช้งานได้หรือไม่ - หากต้องการข้อมูลเพิ่มเติมใด ๆ เพื่อทำความเข้าใจปัญหาแสดงความคิดเห็น ข้อมูลหรือความช่วยเหลือใด ๆ จะได้รับการชื่นชมขอบคุณ

4
รูปแบบที่มีศักยภาพในการแทนที่เครือข่ายประสาทในอนาคตอันใกล้คืออะไร?
มีแบบจำลองที่เป็นไปได้ที่มีศักยภาพในการแทนที่โครงข่ายประสาทเทียมในอนาคตอันใกล้นี้หรือไม่? และเราต้องการมันด้วยหรือไม่ อะไรคือสิ่งที่แย่ที่สุดเกี่ยวกับการใช้โครงข่ายประสาทเทียมในแง่ของประสิทธิภาพ?

2
ใช้ AI หรือ Neural Network สำหรับตรวจจับโลโก้
ฉันพยายามตรวจสอบโลโก้ช่องทีวีในไฟล์วิดีโอดังนั้นเพียงแค่ใส่.mp4วิดีโอตรวจสอบว่ามีโลโก้นั้นอยู่ในเฟรมที่ระบุหรือพูดว่าเฟรมแรกหรือไม่ เรามีโลโก้นั้นล่วงหน้า (แม้ว่าอาจจะไม่ใช่ขนาดเดียวกัน 100%) และตำแหน่งจะถูกแก้ไขเสมอ ฉันมีวิธีการจับคู่รูปแบบอยู่แล้ว แต่ต้องใช้รูปแบบเป็น 100% ขนาดเดียวกัน ฉันต้องการใช้ Deep Learning และ Neural Network เพื่อให้บรรลุเป้าหมายนั้น ฉันจะทำสิ่งนั้นได้อย่างไร ฉันเชื่อว่า CNN สามารถมีประสิทธิภาพที่สูงขึ้นได้หรือไม่

1
มีปัญหาเท่าไหร่ที่เสียงสีขาวสำหรับการใช้งานจริงของ DNN?
ฉันอ่านว่าเครือข่ายประสาทลึกสามารถถูกหลอกได้ง่าย ( ลิงค์ ) เพื่อให้ความมั่นใจสูงในการรับรู้ภาพสังเคราะห์ / เทียมที่สมบูรณ์ (หรืออย่างน้อยส่วนใหญ่) จากเรื่องความมั่นใจ โดยส่วนตัวฉันไม่เห็นปัญหาใหญ่กับ DNN ที่ให้ความมั่นใจสูงกับภาพสังเคราะห์ / ประดิษฐ์เหล่านั้น แต่ฉันคิดว่าการให้ความมั่นใจสูงสำหรับสัญญาณรบกวนสีขาว ( ลิงก์ ) อาจเป็นปัญหาเนื่องจากนี่เป็นปรากฏการณ์ทางธรรมชาติอย่างแท้จริงที่กล้องอาจเห็น ในโลกแห่งความจริง มีปัญหาเท่าไหร่ที่เสียงสีขาวสำหรับการใช้งานจริงของ DNN? สามารถตรวจจับผลบวกผิดพลาดจากสัญญาณรบกวนธรรมดาได้หรือไม่?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.