Convolutional Nets (CNN) พึ่งพาการคำนวณทางคณิตศาสตร์ (เช่น 2D หรือ 3D convolutions) ซึ่งใช้กันทั่วไปสำหรับการประมวลผลสัญญาณ รูปภาพเป็นสัญญาณประเภทหนึ่งและสามารถใช้การแปลงเสียงได้เช่นกันในการสั่นสะเทือนและอื่น ๆ ดังนั้นตามหลักการแล้ว CNN สามารถค้นหาแอปพลิเคชั่นกับสัญญาณใด ๆ และอาจมากกว่า
ในทางปฏิบัติมีการใช้งาน NLP อยู่แล้ว (ดังที่ Matthew Graves กล่าวไว้) ซึ่งบางคนประมวลผลข้อความด้วย CNN แทนที่จะเป็นเครือข่ายแบบเรียกซ้ำ มีงานอื่นที่ใช้กับการประมวลผลเสียง (ไม่มีการอ้างอิงที่นี่ แต่ฉันยังไม่ได้เผยแพร่งานต่อไป)
เนื้อหาต้นฉบับ: เพื่อตอบคำถามเดิมที่มีการเปลี่ยนแปลงแล้ว บางทีอาจจะต้องลบนี้
การวิจัยเกี่ยวกับเครือข่ายฝ่ายตรงข้าม (และที่เกี่ยวข้อง) แสดงให้เห็นว่าแม้กระทั่งเครือข่ายที่ลึกสามารถถูกหลอกได้อย่างง่ายดายทำให้พวกเขาเห็นสุนัข (หรือวัตถุใด ๆ ) ในสิ่งที่ดูเหมือนจะเป็นเสียงแบบสุ่มเมื่อมนุษย์มอง
ปัญหาอีกประการคือพลังการวางนัยของเครือข่ายประสาท อวนทำให้ผู้คนประหลาดใจในโลกใบนี้ที่มีความสามารถในการพูดคุยได้ดีกว่าเทคนิคอื่น ๆ แต่หากเครือข่ายเป็นเพียงภาพแมวเท่านั้นก็จะรับรู้ได้เฉพาะแมว (และอาจเห็นแมวทุกที่เช่นเดียวกับผลที่ได้จากเครือข่ายฝ่ายตรงข้าม) กล่าวอีกนัยหนึ่งแม้แต่ CNS ก็มีช่วงเวลาที่ยากลำบากในการสรุปไกลเกินกว่าที่พวกเขาเรียนรู้มา
ขีด จำกัด การรับรู้ยากที่จะกำหนดอย่างแม่นยำ ฉันเพียงแค่บอกว่าความหลากหลายของข้อมูลการเรียนรู้เพิ่มขีด จำกัด (ฉันถือว่ารายละเอียดเพิ่มเติมควรนำไปสู่สถานที่ที่เหมาะสมกว่าสำหรับการอภิปราย)