มีเหตุผลทางคณิตศาสตร์สำหรับการโน้มน้าวใจในเครือข่ายประสาทเกินความได้เปรียบ?


14

ในโครงข่ายประสาทเทียม (CNN) เมทริกซ์ของตุ้มน้ำหนักในแต่ละขั้นตอนจะทำให้แถวและคอลัมน์พลิกเพื่อรับเมทริกซ์เคอร์เนลก่อนที่จะดำเนินการต่อไป นี่คือคำอธิบายในชุดวิดีโอของ Hugo Larochelle ที่นี่ :

คอมพิวเตอร์แผนที่ที่ซ่อนอยู่จะสอดคล้องกับการทำบิดต่อเนื่องกับช่องจากชั้นก่อนหน้านี้โดยใช้เมทริกซ์เคอร์เนล [ ... ] และเคอร์เนลที่คำนวณจากน้ำหนักเมทริกซ์ซ่อนWijที่เราพลิกแถวและ คอลัมน์

ป้อนคำอธิบายรูปภาพที่นี่

ถ้าเราจะเปรียบเทียบขั้นตอนการลดลงของการบิดคูณเมทริกซ์ปกติเช่นเดียวกับในประเภทอื่น ๆ NN, ความได้เปรียบจะเป็นคำอธิบายที่ชัดเจน อย่างไรก็ตามนี่อาจไม่ใช่การเปรียบเทียบที่ตรงประเด็นที่สุด ...

ในการถ่ายภาพดิจิตอลการประมวลผลแอพลิเคชันของบิดของตัวกรองเพื่อภาพ ( นี้เป็นวิดีโอ youtube ที่ดีสำหรับการปฏิบัติปรีชา ) ดูเหมือนว่าเกี่ยวข้องกับ:

  1. ความจริงที่ว่าการโน้มน้าวนั้นเชื่อมโยงกันในขณะที่ความสัมพันธ์(ข้าม -)ไม่ใช่
  2. ความเป็นไปได้ที่จะใช้ตัวกรองในโดเมนความถี่ของภาพเป็นการคูณเนื่องจากการสนทนาในโดเมนเวลาเทียบเท่ากับการคูณในโดเมนความถี่ ( ทฤษฎีบทการสนทนา )

ในสภาพแวดล้อมทางเทคนิคนี้โดยเฉพาะของ DSP correlationถูกกำหนดเป็น:

FI(x,y)=j=NNi=NNF(i,j)I(x+i,y+j)

ซึ่งเป็นผลรวมของเซลล์ทั้งหมดในผลิตภัณฑ์ Hadamard:

FI(x,y)=[F[N,N]I[xN,yN]F[N,0]I[xN,yN]F[N,N]I[xN,y+N]F[0,N]I[x,yN]F[0,0]I[x,y]F[0,N]I[x,y+N]F[N,N]I[x+N,yN]F[N,0]I[x+N,y]F[N,N]I[x+N,y+N]]

เมื่อเป็นฟังก์ชันตัวกรอง (แสดงเป็นเมทริกซ์) และI ( x , y )คือค่าพิกเซลของภาพที่ตำแหน่ง( x , y ) :F(i,j)I(x,y)(x,y)

ป้อนคำอธิบายรูปภาพที่นี่

วัตถุประสงค์ของการข้ามความสัมพันธ์คือการประเมินวิธีการที่คล้ายกันเป็นภาพที่มีการสอบสวนไปที่ภาพทดสอบ การคำนวณแผนที่ความสัมพันธ์ข้ามขึ้นอยู่กับทฤษฎีบทสังวัตนา


ในทางกลับกัน Convolution ถูกกำหนดเป็น:

FI(x,y)=j=NNi=NNF(i,j)I(xi,yj)

ซึ่งตราบใดที่ตัวกรองมีความสมมาตรก็จะเหมือนกับการดำเนินการสหสัมพันธ์กับแถวและคอลัมน์ของตัวกรองพลิก:

FI(x,y)=[F[N,N]I[xN,yN]F[N,0]I[xN,yN]F[N,N]I[xN,y+N]F[0,N]I[x,yN]F[0,0]I[x,y]F[0,N]I[x,y+N]F[N,N]I[x+N,yN]F[N,0]I[x+N,y]F[N,N]I[x+N,y+N]]

ป้อนคำอธิบายรูปภาพที่นี่


[1474141626164726412674162616414741]

ป้อนคำอธิบายรูปภาพที่นี่


คอมพิวเตอร์, การดำเนินงานของทั้งสองเป็นสินค้าภายใน Frobenius จํานวนการคำนวณร่องรอยของการคูณเมทริกซ์


คำถาม (ปฏิรูปหลังจากแสดงความคิดเห็นและคำตอบแรก):

  1. การใช้ convolutions ใน CNN เชื่อมโยงกับ FFT หรือไม่?

จากสิ่งที่ฉันรวบรวมจนถึงคำตอบคือไม่ FFT ถูกนำมาใช้เพื่อเพิ่มความเร็วในการปรับใช้ GPU เพื่อการโน้มน้าวใจ อย่างไรก็ตาม FFT มักจะไม่ได้เป็นส่วนหนึ่งของโครงสร้างหรือฟังก์ชั่นการเปิดใช้งานใน CNN แม้ว่าจะมีการใช้ Convolutions ในขั้นตอนการเปิดใช้งานล่วงหน้า

  1. การบิดและสหสัมพันธ์ในซีเอ็นเอ็นเทียบเท่ากันหรือไม่?

ใช่พวกเขาเทียบเท่า

  1. ถ้ามันง่ายเหมือน "ไม่มีความแตกต่าง" อะไรคือจุดพลิกน้ำหนักในเคอร์เนลเมทริกซ์?

ไม่สามารถใช้การเชื่อมโยงของการบิด (มีประโยชน์ในการพิสูจน์ทางคณิตศาสตร์) หรือการพิจารณาใด ๆ เกี่ยวกับ FTs และทฤษฎีบทการสนทนาได้ ในความเป็นจริงดูเหมือนว่าการพลิกไม่ได้เกิดขึ้น (ความสัมพันธ์ข้ามเป็นเพียงการติดฉลากผิด) (?)


อันโตคุณสามารถชี้ไปที่แหล่งใดที่พวกมันพลิกน้ำหนักได้บ้าง? @hossein ชี้ให้เห็นว่าคุณสามารถทำอะไรก็ได้ด้วย crosscorrelation ที่คุณสามารถทำได้ด้วยการโน้มน้าวใจเพียงแค่สั่งการพลิก ดังนั้นทุกสิ่งที่โดเมนความถี่นี้ไม่เกี่ยวข้อง
seanv507

@ seanv507 ฉันแก้ไข OP เพื่อรวมแหล่งที่มาสำหรับสิ่งที่ฉันเชื่อว่าคุณกำลังถามฉัน ฉันเข้าใจได้ว่าการบิดนั้นเป็นการทำงานแบบเดียวกับ cross-correlation กับ matrix filter ที่พลิก แต่ฉันไม่เข้าใจว่าทำไมเราถึง "เจ็บปวด" ของการบิดที่ไม่ต่อเนื่องหากไม่มีสิ่งใดที่ไม่สามารถทำได้ สำเร็จด้วยความสัมพันธ์ คำตอบที่ให้นั้นมีความรู้อย่างชัดเจน แต่มันสามารถนำมาดัดแปลงเป็นความคิดเห็นและไม่ได้อธิบายถึงเหตุผลเบื้องหลังการดำเนินการที่แตกต่างกันสองประการ (เป็น "ประเพณี" จาก DSP ที่นำไปสู่ ​​ML?) ความหมายที่เกี่ยวข้องกับกระบวนการเรียนรู้ และความสัมพันธ์กับ FT
Antoni Parellada

1
อันโตไม่จำเป็นต้องพลิก มันเป็นแบบแผนมากกว่า ในคน dsp พูดคุยเกี่ยวกับการโน้มน้าวใจมากกว่าการเชื่อมโยงข้ามและเครือข่ายประสาทข้ามสหสัมพันธ์ไม่ได้ปิดลิ้น แต่การดำเนินการที่เป็นธรรมชาติมากขึ้น (สำหรับมนุษย์ที่จะตีความ) คือความสัมพันธ์ข้าม (คุณกำลังจับคู่แม่แบบ) สำหรับ CNN (พิจารณาเช่นตัวกรองขอบแนวตั้งมากกว่าสมมาตรการหมุน) ดังนั้นฉันคิดว่า Hugo larochelle อาจกำลังพูดถึงห้องสมุดตัวเลขที่การสนทนามากกว่าการเชื่อมโยงข้ามเป็นฟังก์ชันมาตรฐาน (เขาพูดได้อย่างมีประสิทธิภาพว่าการเชื่อมโยงข้ามสามารถทำได้โดยการ
สนทนา

1
อันโตเห็นด้วยกับ 2 คำถามแรก / คำตอบและความคิดเห็นของฉันตอบคำถามที่ 3
seanv507

1
แม้ว่าจะไม่จำเป็นต้องมีการเชื่อมโยงโดยตรงระหว่างซีเอ็นเอ็นและ FFT แต่ก็มีหลักฐานที่แสดงว่าคุณสามารถรับความเร็วของซีเอ็นเอ็นได้โดยใช้ FFT เมื่อคุณยังคงมีผลรวมของการโน้มน้าวตามปกติ ดูที่นี่เช่น: arxiv.org/pdf/1312.5851.pdf
Alex R.

คำตอบ:


8

ไม่มีความแตกต่างในสิ่งที่เครือข่ายประสาทสามารถทำได้เมื่อพวกเขาใช้การบิดหรือสหสัมพันธ์ นี่เป็นเพราะตัวกรองได้รับการเรียนรู้และหากซีเอ็นเอ็นสามารถเรียนรู้ที่จะทำภารกิจเฉพาะโดยใช้การดำเนินงานแบบ Convolit มันก็สามารถเรียนรู้ที่จะทำภารกิจเดียวกันโดยใช้การทำงานแบบสหสัมพันธ์

หากต้องการค้นหารายละเอียดเพิ่มเติมเกี่ยวกับเหตุผลที่บางครั้งผู้คนพบว่าคิดได้ง่ายกว่าการมีความสัมพันธ์มากกว่าการโพสต์ข้อความนี้อาจมีประโยชน์

ยังมีคำถามนี้อีกว่าหากไม่มีความแตกต่างระหว่างการสังวัตนาและการสหสัมพันธ์ข้ามจุดของการพลิกน้ำหนักลงในเมทริกซ์เคอร์เนลคืออะไร? ฉันต้องการรวมประโยคบางส่วนจากหนังสือเรียนรู้ลึกโดยIan Goodfellow และคณะ เพื่อตอบคำถามนี้:

"เหตุผลเดียวที่จะพลิกเคอร์เนลคือการได้รับคุณสมบัติการสับเปลี่ยนในขณะที่คุณสมบัติการสับเปลี่ยนมีประโยชน์สำหรับการเขียนหลักฐานมันไม่ได้เป็นคุณสมบัติที่สำคัญของการใช้งานเครือข่ายประสาทเทียม ... ห้องสมุดการเรียนรู้ของเครื่องหลายเครื่องใช้ข้ามความสัมพันธ์ มันเป็นการโน้มน้าวใจ "

สิ่งที่ควรหลีกเลี่ยงคือแม้ว่าการบิดเป็นวิธีที่นิยมใช้ในแอพพลิเคชั่นวิชันซิสเต็มคลาสสิก แต่มันก็ถูกแทนที่ด้วยสหสัมพันธ์ในการใช้งานของโครงข่ายประสาทเทียมหลายแบบ


ขอขอบคุณ. ฉันอ่านด้วยความสนใจในบล็อกที่คุณเชื่อมโยงและดูเหมือนว่าการใช้สังวัตนาจะไม่เทียบเท่ากับสหสัมพันธ์และตอบสนองต่อการเลือกคุณสมบัติของโดเมนความถี่ ฉันกำลังมองหาคำตอบอย่างละเอียดเกี่ยวกับเรื่องนี้
Antoni Parellada

อย่างที่ฉันรู้พวกมันมีค่าเท่ากันในสิ่งที่พวกเขาสามารถทำได้เนื่องจากทั้งคู่ทำดอทโปรดัคของเมทริกซ์สองตัว แต่ Convolution จะเปิดเมทริกซ์ฟิลเตอร์ก่อนผลิตภัณฑ์ dot และเนื่องจาก CNNs เรียนรู้ตัวกรอง
Hossein

คำอธิบาย +1 ถึง Hosseins แต่ -1 สำหรับลิงก์บล็อก บล็อกส่วนใหญ่เน้นที่ฮาร์ดแวร์และเขาเป็นคนที่แต่งตัวประหลาด CS ที่ไม่มีพื้นฐานในการโน้มน้าวใจและแนวคิดการประมวลผลสัญญาณอื่น ๆ
seanv507

ฉันยังต้องการยืนยันที่จะมีย่อหน้าเพิ่มเติมบางส่วนเกี่ยวกับความสัมพันธ์ (หรือขาดมัน) ระหว่างการโน้มน้าวใจในซีเอ็นเอ็นและฟูริเยร์
Antoni Parellada

2

มีเหตุผลในทางปฏิบัติสำหรับการเชื่อมโยงระหว่าง FFT และการโน้มน้าวใจ

Convolution ช้าในโดเมนเวลา / รูปภาพ การสมัครn×nO(n2)N×Nn2N2

O(N2logN2)O(N2)O(n2N2). สิ่งนี้สามารถให้การเร่งความเร็วได้อย่างรวดเร็วแม้ว่ามันจะซับซ้อนกว่าการลงเส้นทาง FFT -> การคูณ -> ผกผัน FFT เพิ่มเติมที่นี่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.