ฉันกำลังทำงานเพื่อสร้างผลลัพธ์ของเอกสารนี้ใหม่ ในกระดาษพวกเขาอธิบายวิธีการใช้ CNN สำหรับการสกัดคุณลักษณะและมีรูปแบบอะคูสติกที่ Dnn-hmm และถูกฝึกโดยใช้ RBM
ส่วนย่อย III ระบุสถานะที่แตกต่างกันในการแสดงข้อมูลอินพุต ฉันตัดสินใจที่จะสแต็คพล็อตสเปกตรัมของสแตติกเดลต้าและเดลต้าในแนวตั้ง
กระดาษจะอธิบายว่าเครือข่ายควรเป็นอย่างไร พวกเขาระบุว่าพวกเขาใช้เครือข่าย convolutional แต่ไม่มีอะไรเกี่ยวกับโครงสร้างของเครือข่าย? ยิ่งไปกว่านั้นเครือข่ายอ้างถึงเสมอว่าเป็นคนเร่ขายของ? ซึ่งฉันแน่ใจว่าฉันเห็นความแตกต่างใด ๆ เมื่อเทียบกับเครือข่ายประสาทเทียมธรรมดาเครือข่าย (cnn)
กระดาษระบุสิ่งนี้เกี่ยวกับความแตกต่าง:
(จากส่วนย่อย III B)
อย่างไรก็ตามการแปลงชั้นจะแตกต่างจากเลเยอร์มาตรฐานที่เชื่อมต่ออย่างสมบูรณ์ในสองส่วนที่สำคัญ ขั้นแรกหน่วย Convolutional แต่ละหน่วยจะรับอินพุตจากพื้นที่ท้องถิ่นของอินพุตเท่านั้น ซึ่งหมายความว่าแต่ละหน่วยแสดงถึงคุณสมบัติบางอย่างของภูมิภาคท้องถิ่นของอินพุต ประการที่สองหน่วยของการจัดเรียงสังวัตนาสามารถจัดเป็นแผนที่คุณลักษณะจำนวนหนึ่งซึ่งหน่วยทั้งหมดในแผนที่คุณลักษณะเดียวกันจะมีน้ำหนักเท่ากัน แต่รับข้อมูลจากสถานที่ต่าง ๆ ของชั้นล่าง
อีกสิ่งหนึ่งที่ฉันสงสัยคือว่ากระดาษระบุจำนวนเอาต์พุตพารามิเตอร์ที่จำเป็นในการป้อนข้อมูลแบบจำลองอะคูสติก dnn-hmm หรือไม่ ฉันดูเหมือนจะไม่สามารถถอดรหัสจำนวนตัวกรองขนาดตัวกรอง .. ในรายละเอียดทั่วไปของเครือข่ายได้หรือไม่