คำถามติดแท็ก image-recognition

9
เป็นไปได้อย่างไรที่เครือข่ายประสาทเทียมนั้นถูกหลอกอย่างง่ายดาย?
หน้า / การศึกษาต่อไปนี้แสดงให้เห็นว่าเครือข่ายประสาทลึกนั้นถูกหลอกอย่างง่ายดายโดยการทำนายความมั่นใจสูงสำหรับภาพที่ไม่สามารถจดจำได้เช่น เป็นไปได้อย่างไร? คุณช่วยอธิบายความรู้สึกเป็นภาษาอังกฤษธรรมดา ๆ ได้ไหม?

8
ใน CNN ตัวกรองใหม่แต่ละตัวมีน้ำหนักแตกต่างกันสำหรับแต่ละช่องสัญญาณหรือมีน้ำหนักเท่ากันของตัวกรองแต่ละตัวที่ใช้ในช่องสัญญาณอินพุตหรือไม่
ความเข้าใจของฉันคือชั้นของเครือข่ายประสาทเทียมแบบ Convolutional มีสี่มิติคือ input_channels, filter_height, filter_width, number_of_filters ยิ่งไปกว่านั้นฉันเข้าใจว่าตัวกรองใหม่แต่ละตัวมีความซับซ้อนมากกว่า input_channels ทั้งหมด (หรือคุณสมบัติ / แผนที่เปิดใช้งานจากเลเยอร์ก่อนหน้า) อย่างไรก็ตามกราฟิกด้านล่างจาก CS231 จะแสดงตัวกรองแต่ละตัว (สีแดง) ที่ใช้กับช่องเดี่ยวแทนที่จะใช้ตัวกรองเดียวกันที่ใช้ข้ามช่องสัญญาณ ดูเหมือนว่านี่จะบ่งบอกว่ามีตัวกรองแยกต่างหากสำหรับช่อง EACH (ในกรณีนี้ฉันสมมติว่าเป็นช่องสามสีของภาพที่ป้อน แต่สิ่งเดียวกันจะใช้กับช่องสัญญาณทั้งหมด) นี่คือความสับสน - มีตัวกรองที่ไม่ซ้ำกันที่แตกต่างกันสำหรับแต่ละช่องสัญญาณเข้าหรือไม่? ที่มา: http://cs231n.github.io/convolutional-networks/ ภาพด้านบนดูเหมือนจะขัดแย้งกับข้อความที่ตัดตอนมาจาก"พื้นฐานการเรียนรู้ลึก"ของ O'reilly : "... ตัวกรองไม่เพียงทำงานบนแผนที่คุณลักษณะเดียวเท่านั้นพวกเขาทำงานบนไดรฟ์ข้อมูลแผนที่ทั้งหมดที่สร้างขึ้นในเลเยอร์เฉพาะ ... ด้วยเหตุนี้คุณสมบัติแผนที่จะต้องสามารถทำงานได้มากกว่าโวลุ่ม ไม่ใช่แค่พื้นที่ " ... นอกจากนี้มันเป็นความเข้าใจของฉันที่ภาพด้านล่างนี้แสดงให้เห็นว่าตัวกรองTHE SAMEนั้นได้รับการโน้มน้าวใจเหนือช่องสัญญาณอินพุตทั้งสาม (ขัดแย้งกับสิ่งที่แสดงในกราฟิก CS231 ด้านบน):

4
ความสามารถในการจดจำรูปแบบของ CNN จำกัด เฉพาะการประมวลผลภาพหรือไม่?
Convolutional Neural Network สามารถใช้ในการจดจำรูปแบบในโดเมนปัญหาที่ไม่มีภาพที่มีอยู่แล้วโดยการแสดงข้อมูลนามธรรมแบบกราฟิกหรือไม่? นั่นจะมีประสิทธิภาพน้อยกว่าเสมอหรือไม่? นักพัฒนาซอฟต์แวร์รายนี้กล่าวว่าการพัฒนาในปัจจุบันสามารถดำเนินต่อไปได้ แต่จะไม่เกิดขึ้นหากมีการ จำกัด การจดจำภาพ

3
วิธีจัดการกับภาพขนาดใหญ่ใน CNN
สมมติว่ามีภาพขนาด 10K ขนาด 2400 x 2400 ที่จำเป็นต้องใช้ใน CNN.Acc กับมุมมองของฉันคอมพิวเตอร์ทั่วไปที่ผู้คนใช้จะถูกใช้งาน ตอนนี้คำถามคือทำอย่างไรถึงจะจัดการกับภาพขนาดใหญ่เช่นนี้ได้โดยไม่มีสิทธิ์ในการสุ่มตัวอย่าง นี่คือข้อกำหนดของระบบ: - Ubuntu 16.04 RAM 64 GB GPU 16 GB 8 GB HDD 500 GB 1) มีเทคนิคใดบ้างในการจัดการภาพขนาดใหญ่ที่ต้องผ่านการฝึกอบรม? 2) ขนาดชุดใดที่เหมาะสมที่จะใช้? 3) มีข้อควรระวังในการใช้หรือเพิ่มหรือลดทรัพยากรฮาร์ดแวร์ที่ฉันสามารถทำได้หรือไม่?

4
มีกลยุทธ์อะไรบ้างในการจดจำสื่อที่ทำขึ้นมา?
ด้วยความสามารถที่เพิ่มมากขึ้นในการสร้างภาพปลอมราคาถูกเสียงปลอมและวิดีโอปลอมทำให้กลายเป็นปัญหาที่เพิ่มขึ้นด้วยการรับรู้สิ่งที่เป็นจริงและสิ่งที่ไม่ใช่ แม้ตอนนี้เราจะเห็นตัวอย่างของแอปพลิเคชั่นที่สร้างสื่อปลอมในราคาเพียงเล็กน้อย (ดูDeepfake , FaceAppและอื่น ๆ ) เห็นได้ชัดว่าหากมีการใช้แอปพลิเคชันเหล่านี้ในทางที่ผิดพวกเขาอาจถูกใช้เพื่อทำให้ภาพลักษณ์ของบุคคลอื่นเสื่อม Deepfake สามารถใช้เพื่อทำให้คนดูนอกใจคู่ของตน อาจใช้แอปพลิเคชันอื่นเพื่อทำให้ดูเหมือนว่านักการเมืองพูดถึงสิ่งที่ขัดแย้ง เทคนิคใดบ้างที่สามารถใช้ในการรับรู้และป้องกันสื่อที่ทำขึ้นโดยทำเทียม

3
มี CAPTCHA เกี่ยวกับใจความซึ่งสามารถหลอก AI แต่ไม่ใช่มนุษย์หรือไม่?
มีเทคนิคใด ๆ ที่ทันสมัยในการสร้างตัวอักษร CAPTCHA (ดังนั้นผู้คนจำเป็นต้องพิมพ์ข้อความที่ถูกต้อง) ซึ่งสามารถหลอก AIได้อย่างง่ายดายด้วยวิธีการทำให้งงที่มองเห็นได้ แต่ในเวลาเดียวกันมนุษย์สามารถแก้ไขได้โดยไม่ต้องดิ้นรน? ตัวอย่างเช่นฉันกำลังพูดถึงความสามารถในการจดจำข้อความที่ฝังอยู่ในรูปภาพ (โดยไม่พิจารณาปลั๊กอินภายนอกใด ๆ เช่นแฟลชหรือจาวาการจำแนกภาพ ฯลฯ ) และพิมพ์ข้อความที่เขียนหรือคล้ายกันอีกครั้ง ฉันเดาว่าการเพิ่มเสียงการไล่ระดับสีการหมุนตัวอักษรหรือการเปลี่ยนสีไม่ใช่วิธีที่เชื่อถือได้อีกต่อไปเพราะมันอาจจะแตกได้อย่างรวดเร็ว มีข้อเสนอแนะหรือการวิจัยใดบ้าง?

1
มีปัญหาเท่าไหร่ที่เสียงสีขาวสำหรับการใช้งานจริงของ DNN?
ฉันอ่านว่าเครือข่ายประสาทลึกสามารถถูกหลอกได้ง่าย ( ลิงค์ ) เพื่อให้ความมั่นใจสูงในการรับรู้ภาพสังเคราะห์ / เทียมที่สมบูรณ์ (หรืออย่างน้อยส่วนใหญ่) จากเรื่องความมั่นใจ โดยส่วนตัวฉันไม่เห็นปัญหาใหญ่กับ DNN ที่ให้ความมั่นใจสูงกับภาพสังเคราะห์ / ประดิษฐ์เหล่านั้น แต่ฉันคิดว่าการให้ความมั่นใจสูงสำหรับสัญญาณรบกวนสีขาว ( ลิงก์ ) อาจเป็นปัญหาเนื่องจากนี่เป็นปรากฏการณ์ทางธรรมชาติอย่างแท้จริงที่กล้องอาจเห็น ในโลกแห่งความจริง มีปัญหาเท่าไหร่ที่เสียงสีขาวสำหรับการใช้งานจริงของ DNN? สามารถตรวจจับผลบวกผิดพลาดจากสัญญาณรบกวนธรรมดาได้หรือไม่?

1
เครือข่ายประสาทเดี่ยวสามารถจัดการกับวัตถุสองชนิดหรือไม่หรือควรแบ่งออกเป็นสองเครือข่ายขนาดเล็ก?
โดยเฉพาะอย่างยิ่งคอมพิวเตอร์ฝังตัว (ที่มีทรัพยากร จำกัด ) จะวิเคราะห์วิดีโอสตรีมสดจากกล้องจราจรพยายามเลือกเฟรมที่ดีที่มีหมายเลขทะเบียนรถยนต์ที่ผ่าน เมื่อแผ่นตั้งอยู่กรอบจะถูกส่งมอบให้กับห้องสมุด OCR เพื่อแยกการลงทะเบียนและใช้งานต่อไป ในประเทศของฉันมีป้ายทะเบียนสองแบบที่ใช้กันทั่วไป - สี่เหลี่ยม (ทั่วไป) และสี่เหลี่ยม - จริง ๆ แล้วค่อนข้างเป็นสี่เหลี่ยม แต่ "สูงกว่ากว้าง" โดยการลงทะเบียนแบ่งออกเป็นสองแถว (มีบางประเภทเพิ่มเติม แต่ให้เราไม่สนใจพวกเขาพวกเขาเป็นเพียงเล็กน้อยและมักจะเป็นยานพาหนะที่อยู่นอกความสนใจของเรา) เนื่องจากทรัพยากรมี จำกัด และต้องการการประมวลผลแบบเรียลไทม์ที่รวดเร็วขนาดสูงสุดของเครือข่าย (จำนวนเซลล์และการเชื่อมต่อ) ระบบสามารถจัดการได้ มันจะดีกว่าไหมที่จะแบ่งสิ่งนี้ออกเป็นสองเครือข่ายที่เล็กลงแต่ละอันรู้จักชนิดของแผ่นป้ายทะเบียนหนึ่งประเภทหรือเครือข่ายเดียวที่ใหญ่กว่าจะจัดการกับทั้งสองประเภทได้ดีขึ้นหรือไม่
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.