ความสามารถในการจดจำรูปแบบของ CNN จำกัด เฉพาะการประมวลผลภาพหรือไม่?


21

Convolutional Neural Network สามารถใช้ในการจดจำรูปแบบในโดเมนปัญหาที่ไม่มีภาพที่มีอยู่แล้วโดยการแสดงข้อมูลนามธรรมแบบกราฟิกหรือไม่? นั่นจะมีประสิทธิภาพน้อยกว่าเสมอหรือไม่?

นักพัฒนาซอฟต์แวร์รายนี้กล่าวว่าการพัฒนาในปัจจุบันสามารถดำเนินต่อไปได้ แต่จะไม่เกิดขึ้นหากมีการ จำกัด การจดจำภาพ


1
ฉันเห็นคำถามอย่างน้อยสองข้อที่นี่ คุณคิดว่าจะแยกตัวเองอย่างไร? นอกจากนี้คำถามจะมีคุณภาพสูงขึ้นหากคุณสามารถขยายสิ่งที่คุณค้นหาด้วยคำถามคำถาม
Eric Platon

@EricPlaton ทำให้แน่นขึ้นเล็กน้อย คำถามหลักของฉันคือเกี่ยวกับธรรมชาติของความสัมพันธ์ระหว่างซีเอ็นเอ็นและรูปภาพ คุณจะแนะนำอะไรสำหรับคำถามที่สอง
dynrepsys

ขอบคุณคำถามนี้ดีสำหรับฉัน (แม้ว่าฉันควรลบคำตอบตอนนี้ ~) สำหรับคำถามที่สองวิธีการเกี่ยวกับ "จับคืออะไร"? "มันมีประสิทธิภาพน้อยกว่าเสมอหรือไม่" ยังคงใช้ได้ถ้ามีคนมากับตัวอย่างเคาน์เตอร์
Eric Platon

โดย "สามารถใช้เครือข่ายประสาทเทียมสำหรับการจดจำรูปแบบในโดเมนปัญหาที่ไม่มีภาพที่มีอยู่แล้วพูดโดยแสดงข้อมูลนามธรรมแบบกราฟิกหรือไม่" คุณกำลังถามว่าเราสามารถแสดงข้อมูลใด ๆ ในฐานะภาพและใช้ CNN ได้หรือไม่? ชอบอ่านชุดข้อมูล 100 คุณสมบัติและแสดงเป็นภาพขนาด 10x10 หรือไม่
rcpinto

คำตอบ:


10

Convolutional Nets (CNN) พึ่งพาการคำนวณทางคณิตศาสตร์ (เช่น 2D หรือ 3D convolutions) ซึ่งใช้กันทั่วไปสำหรับการประมวลผลสัญญาณ รูปภาพเป็นสัญญาณประเภทหนึ่งและสามารถใช้การแปลงเสียงได้เช่นกันในการสั่นสะเทือนและอื่น ๆ ดังนั้นตามหลักการแล้ว CNN สามารถค้นหาแอปพลิเคชั่นกับสัญญาณใด ๆ และอาจมากกว่า

ในทางปฏิบัติมีการใช้งาน NLP อยู่แล้ว (ดังที่ Matthew Graves กล่าวไว้) ซึ่งบางคนประมวลผลข้อความด้วย CNN แทนที่จะเป็นเครือข่ายแบบเรียกซ้ำ มีงานอื่นที่ใช้กับการประมวลผลเสียง (ไม่มีการอ้างอิงที่นี่ แต่ฉันยังไม่ได้เผยแพร่งานต่อไป)


เนื้อหาต้นฉบับ: เพื่อตอบคำถามเดิมที่มีการเปลี่ยนแปลงแล้ว บางทีอาจจะต้องลบนี้

การวิจัยเกี่ยวกับเครือข่ายฝ่ายตรงข้าม (และที่เกี่ยวข้อง) แสดงให้เห็นว่าแม้กระทั่งเครือข่ายที่ลึกสามารถถูกหลอกได้อย่างง่ายดายทำให้พวกเขาเห็นสุนัข (หรือวัตถุใด ๆ ) ในสิ่งที่ดูเหมือนจะเป็นเสียงแบบสุ่มเมื่อมนุษย์มอง

ปัญหาอีกประการคือพลังการวางนัยของเครือข่ายประสาท อวนทำให้ผู้คนประหลาดใจในโลกใบนี้ที่มีความสามารถในการพูดคุยได้ดีกว่าเทคนิคอื่น ๆ แต่หากเครือข่ายเป็นเพียงภาพแมวเท่านั้นก็จะรับรู้ได้เฉพาะแมว (และอาจเห็นแมวทุกที่เช่นเดียวกับผลที่ได้จากเครือข่ายฝ่ายตรงข้าม) กล่าวอีกนัยหนึ่งแม้แต่ CNS ก็มีช่วงเวลาที่ยากลำบากในการสรุปไกลเกินกว่าที่พวกเขาเรียนรู้มา

ขีด จำกัด การรับรู้ยากที่จะกำหนดอย่างแม่นยำ ฉันเพียงแค่บอกว่าความหลากหลายของข้อมูลการเรียนรู้เพิ่มขีด จำกัด (ฉันถือว่ารายละเอียดเพิ่มเติมควรนำไปสู่สถานที่ที่เหมาะสมกว่าสำหรับการอภิปราย)


5

คำตอบง่ายๆคือ "ไม่พวกเขาไม่ จำกัด เฉพาะภาพ": CNN ใช้เพื่อการประมวลผลภาษาธรรมชาติด้วย (ดูที่นี่สำหรับการแนะนำ)

ฉันยังไม่เห็นพวกเขานำไปใช้กับข้อมูลกราฟิก แต่ฉันยังไม่ได้ดู มีบางสิ่งที่ชัดเจนที่จะลองทำดังนั้นฉันจึงมองในแง่ดีว่ามันใช้ได้


3

เครือข่ายประสาทสับสนสามารถนำมาใช้ไม่เพียง แต่สำหรับการรับรู้ภาพ แต่ยังสำหรับการวิเคราะห์วิดีโอและการรับรู้, การประมวลผลภาษาธรรมชาติในการเล่นเกม (เช่นGo ) หรือแม้กระทั่งสำหรับการค้นพบยาเสพติดโดยการคาดคะเนการปฏิสัมพันธ์ระหว่างโมเลกุลและโปรตีนชีวภาพวิกิพีเดีย

ดังนั้นจึงสามารถใช้สำหรับปัญหาที่หลากหลายโดยใช้เลเยอร์ convolutional และ subsampling ที่เชื่อมต่อกับเลเยอร์ที่เชื่อมต่ออย่างเต็มที่ พวกมันง่ายกว่าในการฝึกเพราะมีพารามิเตอร์น้อยกว่าเครือข่ายที่เชื่อมต่ออย่างเต็มที่ด้วยจำนวนหน่วยที่ซ่อนอยู่เท่ากัน UFLDL


3

โครงข่ายประสาทเทียมสามารถใช้ในทุกที่ที่รูปแบบมีความสัมพันธ์ในระดับท้องถิ่นและสามารถแปลได้ นี่เป็นกรณีเนื่องจาก CNN มีตัวกรองที่มองหารูปแบบเฉพาะที่ทุกที่ในอินพุต คุณจะพบรูปแบบในท้องถิ่นและรูปแบบที่แปลได้ในรูปภาพข้อความอนุกรมเวลาและอื่น ๆ

มันไม่สมเหตุสมผลเท่าไหร่ที่จะใช้ CNN ถ้าข้อมูลของคุณเป็นเหมือนชุดของคุณสมบัติที่มีลำดับที่ไม่เกี่ยวข้อง ในกรณีดังกล่าวคุณอาจพบปัญหาในการตรวจหารูปแบบที่มีคุณสมบัติซึ่งเกิดขึ้นห่างไกลในเวกเตอร์อินพุตของคุณ คุณจะไม่พบรูปแบบโลคอลและรูปแบบที่แปลได้ในข้อมูลของคุณหากคุณสามารถเรียงลำดับจุดข้อมูลของพาหะนำเข้าใหม่ได้โดยไม่สูญเสียข้อมูล

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.