Convolutional ply แตกต่างจากเครือข่าย Convolutional ทั่วไปอย่างไร

ฉันกำลังทำงานเพื่อสร้างผลลัพธ์ของเอกสารนี้ใหม่ ในกระดาษพวกเขาอธิบายวิธีการใช้ CNN สำหรับการสกัดคุณลักษณะและมีรูปแบบอะคูสติกที่ Dnn-hmm และถูกฝึกโดยใช้ RBM

ส่วนย่อย III ระบุสถานะที่แตกต่างกันในการแสดงข้อมูลอินพุต ฉันตัดสินใจที่จะสแต็คพล็อตสเปกตรัมของสแตติกเดลต้าและเดลต้าในแนวตั้ง

ดังนั้นเช่น:

กระดาษจะอธิบายว่าเครือข่ายควรเป็นอย่างไร พวกเขาระบุว่าพวกเขาใช้เครือข่าย convolutional แต่ไม่มีอะไรเกี่ยวกับโครงสร้างของเครือข่าย? ยิ่งไปกว่านั้นเครือข่ายอ้างถึงเสมอว่าเป็นคนเร่ขายของ? ซึ่งฉันแน่ใจว่าฉันเห็นความแตกต่างใด ๆ เมื่อเทียบกับเครือข่ายประสาทเทียมธรรมดาเครือข่าย (cnn)

กระดาษระบุสิ่งนี้เกี่ยวกับความแตกต่าง:

(จากส่วนย่อย III B)

อย่างไรก็ตามการแปลงชั้นจะแตกต่างจากเลเยอร์มาตรฐานที่เชื่อมต่ออย่างสมบูรณ์ในสองส่วนที่สำคัญ ขั้นแรกหน่วย Convolutional แต่ละหน่วยจะรับอินพุตจากพื้นที่ท้องถิ่นของอินพุตเท่านั้น ซึ่งหมายความว่าแต่ละหน่วยแสดงถึงคุณสมบัติบางอย่างของภูมิภาคท้องถิ่นของอินพุต ประการที่สองหน่วยของการจัดเรียงสังวัตนาสามารถจัดเป็นแผนที่คุณลักษณะจำนวนหนึ่งซึ่งหน่วยทั้งหมดในแผนที่คุณลักษณะเดียวกันจะมีน้ำหนักเท่ากัน แต่รับข้อมูลจากสถานที่ต่าง ๆ ของชั้นล่าง

อีกสิ่งหนึ่งที่ฉันสงสัยคือว่ากระดาษระบุจำนวนเอาต์พุตพารามิเตอร์ที่จำเป็นในการป้อนข้อมูลแบบจำลองอะคูสติก dnn-hmm หรือไม่ ฉันดูเหมือนจะไม่สามารถถอดรหัสจำนวนตัวกรองขนาดตัวกรอง .. ในรายละเอียดทั่วไปของเครือข่ายได้หรือไม่

— Carlton Banks
แหล่งที่มา

ฉันก็สนใจสิ่งนี้เช่นกัน เดาฉันสามารถเริ่มรางวัลเพื่อเพิ่มความเร็วในกระบวนการ

— Lamda

ดูเหมือนว่าชั้น convolutional เหมือนกับชั้น convolutional ทั่วไป จากกระดาษของพวกเขาพวกเขายืนยันว่าคำว่า "ชั้น CNN" มักจะหมายถึงชั้นที่เป็นรูปธรรมตามมาด้วยชั้นที่รวมกำไรกัน ในความพยายามที่จะลดความสับสนพวกเขาตั้งชื่อให้เป็นส่วนที่ "การโน้มน้าวใจ" และส่วนที่เกี่ยวกับการรวมพลเป็น "การรวมพล":

ในคำศัพท์ของ CNN คู่ของ convolution และ pooling layer ในรูปที่ 2 ในการทดแทนมักจะเรียกว่า "layer" ของ CNN ซีเอ็นเอ็นที่ลึกล้ำจึงประกอบด้วยคู่เหล่านี้อย่างน้อยสองคู่ติดต่อกัน เพื่อหลีกเลี่ยงความสับสนเราจะอ้างถึง convolution และ pooling layer เป็น convolution และ pooling plies ตามลำดับ

แดกดันนี้ได้เพิ่มความสับสนนำไปสู่การโพสต์นี้ ในตอนนั้นฉันคิดว่ามันไม่ธรรมดาที่จะมีหลายชั้นของ convolutional ในแถวก่อนที่จะรวมกันเป็นชั้น แต่เราเห็นสิ่งนี้บ่อยครั้งในสถาปัตยกรรมสมัยใหม่

หากต้องการตอบคำถามอื่นเกี่ยวกับโครงสร้างเครือข่าย พวกเขาระบุโครงสร้างของเครือข่ายที่พวกเขาใช้ในส่วนการทดลอง (มาตรา VB) เพื่อหวังลดความสับสนฉันได้เปลี่ยนคำว่า "ply" เป็น "layer":

ในการทดลองเหล่านี้เราใช้หนึ่ง convolution [เลเยอร์], หนึ่ง pooling [เลเยอร์] และสองเลเยอร์ที่เชื่อมต่ออย่างสมบูรณ์ที่ซ่อนอยู่ด้านบน เลเยอร์ที่เชื่อมต่ออย่างสมบูรณ์มี 1,000 หน่วยในแต่ละ พารามิเตอร์ convolution และ pooling คือ: ขนาดการรวมกำไร 6, ขนาดกะ 2, ขนาดตัวกรอง 8, 150 ฟีเจอร์แมปสำหรับ FWS และ 80 ฟีเจอร์แมปต่อย่านความถี่สำหรับ LWS

— timleathart
แหล่งที่มา