เกี่ยวกับซีเอ็นเอ็นเมล็ดและความแปรปรวนของสเกล / การหมุน


18

ฉันมีคำถามสองสามข้อที่ทำให้ฉันสับสนเกี่ยวกับ CNN
1) ฟีเจอร์ที่สกัดโดยใช้ CNN คือค่าคงที่และการหมุน?
2) เมล็ดที่เราใช้ในการโน้มน้าวใจกับข้อมูลของเราได้ถูกกำหนดไว้แล้วในวรรณคดี? เมล็ดเหล่านี้เป็นอะไร? แตกต่างกันสำหรับทุกแอปพลิเคชันหรือไม่

คำตอบ:


17

1) ฟีเจอร์ที่สกัดโดยใช้ CNN คือค่าคงที่และการหมุน?

คุณลักษณะในตัวเองใน CNN ไม่ใช่ค่าคงที่หรือการหมุน สำหรับรายละเอียดเพิ่มเติมโปรดดูที่: การเรียนรู้ลึก Ian Goodfellow และ Yoshua Bengio และ Aaron Courville 2559: http://egrcc.github.io/docs/dl/deeplearningbook-convnets.pdf ; http://www.deeplearningbook.org/contents/convnets.html :

การบิดนั้นไม่เหมือนกับการแปลงอื่น ๆ เช่นการเปลี่ยนแปลงขนาดหรือการหมุนของรูปภาพ กลไกอื่น ๆ ที่จำเป็นสำหรับการจัดการการเปลี่ยนแปลงประเภทนี้

มันเป็นเลเยอร์รวมกำไรสูงสุดที่แนะนำค่าคงที่เช่น:

ป้อนคำอธิบายรูปภาพที่นี่

2) เมล็ดที่เราใช้ในการโน้มน้าวใจกับข้อมูลของเราได้ถูกกำหนดไว้แล้วในวรรณคดี? เมล็ดเหล่านี้เป็นอะไร? มันแตกต่างกันสำหรับทุกการใช้งานหรือไม่

เมล็ดจะถูกเรียนรู้ในระหว่างขั้นตอนการฝึกอบรมของ ANN


ฉันไม่สามารถพูดรายละเอียดในแง่ของสถานะปัจจุบันของศิลปะ แต่ในเรื่องของจุดที่ 1, ฉันพบนี้ที่น่าสนใจ
GeoMatt22

@Franck 1) นั่นหมายความว่าเราไม่ทำตามขั้นตอนพิเศษเพื่อแก้ไขการหมุนของระบบหรือไม่? และวิธีการเกี่ยวกับขนาดคงที่เป็นไปได้ที่จะได้รับขนาดคงที่จากการรวมกำไรสูงสุด
Aadnan Farooq

2) เมล็ดมีคุณสมบัติ ฉันไม่เข้าใจ [ที่นี่] ( wildml.com/2015/11/… ) พวกเขาได้กล่าวว่า "ตัวอย่างเช่นในการจัดประเภทรูปภาพซีเอ็นเอ็นอาจเรียนรู้การตรวจจับขอบจากพิกเซลดิบในเลเยอร์แรกจากนั้นใช้ขอบเพื่อตรวจจับรูปร่างที่เรียบง่ายใน เลเยอร์ที่สองแล้วใช้รูปร่างเหล่านี้เพื่อยับยั้งคุณลักษณะระดับสูงเช่นรูปร่างใบหน้าในเลเยอร์ที่สูงกว่าเลเยอร์สุดท้ายจะเป็นลักษณนามที่ใช้คุณสมบัติระดับสูงเหล่านี้ "
Aadnan Farooq

2
โปรดทราบว่าการรวมกำไรที่คุณกำลังพูดถึงถูกอ้างถึงเป็นการรวมกันข้ามช่องทางและไม่ใช่ประเภทของการรวมกำไรซึ่งโดยปกติจะอ้างถึงเมื่อพูดถึง "การรวมกำไรสูงสุด" ซึ่งจะรวมเฉพาะพูลผ่านมิติข้อมูลเชิงพื้นที่ )
Soltius

1
นี่หมายถึงรูปแบบที่ไม่มีเลเยอร์พูลสูงสุดหรือไม่ (สถาปัตยกรรม SOTA ปัจจุบันส่วนใหญ่ไม่ได้ใช้การรวมกำไร) ขึ้นอยู่กับขนาดทั้งหมดหรือไม่
shubhamgoel27

6

ฉันคิดว่ามีสองสิ่งที่ทำให้คุณสับสนดังนั้นอย่างแรกเลย

x[n]ชั่วโมง[n]x[n]ชั่วโมง[n]Y[n]=(xชั่วโมง)[n]

Y[n]=Σม.=-x[ม.] ชั่วโมง[n-ม.]

ด้านบนหากสัญญาณหนึ่งมิติ แต่สามารถพูดได้เหมือนกันสำหรับภาพซึ่งเป็นเพียงสัญญาณสองมิติ ในกรณีนั้นสมการจะกลายเป็น:

ผมnอีW[R,]=Σยู=-Σโวลต์=-ผมโอล.d[ยู,โวลต์] k[R-ยู,-โวลต์]

Pictorially นี่คือสิ่งที่เกิดขึ้น:

ป้อนคำอธิบายรูปภาพที่นี่

อย่างไรก็ตามสิ่งที่คุณควรคำนึงถึงก็คือเคอร์เนลที่ได้เรียนรู้จริง ๆระหว่างการฝึกอบรม Deep Neural Network (DNN) เคอร์เนลจะเป็นสิ่งที่คุณโน้มน้าวอินพุตของคุณด้วย DNN จะเรียนรู้เคอร์เนลเพื่อให้ได้ภาพบางส่วนของภาพ (หรือภาพก่อนหน้า) ซึ่งจะดีสำหรับการลดการสูญเสียเป้าหมายของคุณ

นี่เป็นจุดสำคัญแรกที่ต้องทำความเข้าใจ: ผู้คนในอดีตได้ออกแบบเมล็ด แต่ในการเรียนรู้ลึกเราให้เครือข่ายตัดสินว่าเคอร์เนลที่ดีที่สุดควรเป็นอะไร สิ่งหนึ่งที่เราระบุคือขนาดของเคอร์เนล (สิ่งนี้เรียกว่าไฮเปอร์พารามิเตอร์เช่น 5x5 หรือ 3x3 เป็นต้น)


คำอธิบายที่ดี คุณช่วยตอบส่วนแรกของคำถามได้ไหม เกี่ยวกับ CNN คือขนาด / การหมุนคงที่?
Aadnan Farooq A

1
@AadnanFarooqA ฉันจะทำเช่นนี้คืนนี้
Tarin Ziyaee

2

นักเขียนหลายคนรวมถึงเจฟฟรีย์ฮินตัน (ผู้เสนอสุทธิแคปซูล) พยายามที่จะแก้ปัญหา แต่ในเชิงคุณภาพ เราพยายามที่จะแก้ไขปัญหานี้ในเชิงปริมาณ โดยการทำให้เมล็ดทั้งหมดเป็นแบบสมมาตร (dihedral สมมาตรของลำดับที่ 8 [Dih4] หรือ 90 องศาการหมุนที่เพิ่มขึ้นสมมาตรและอื่น ๆ ) ใน CNN เราจะจัดให้มีแพลตฟอร์มสำหรับเวกเตอร์อินพุตและเวกเตอร์ผลลัพธ์ในแต่ละชั้นที่ซ่อนอยู่ พร้อมกันกับคุณสมบัติสมมาตรเดียวกัน (เช่น Dih4 หรือ 90- การหมุนเพิ่มขึ้นสมมาตรและอื่น ๆ ) นอกจากนี้การมีคุณสมบัติสมมาตรแบบเดียวกันสำหรับตัวกรองแต่ละตัว (เช่นเชื่อมต่ออย่างเต็มที่ แต่ชั่งน้ำหนักการแบ่งปันด้วยรูปแบบสมมาตรแบบเดียวกัน) บนชั้นแบนแรกค่าผลลัพธ์ที่ได้ในแต่ละโหนดจะเหมือนกันเชิงปริมาณและนำไปสู่เวกเตอร์เอาต์พุต CNN เดียวกัน เช่นกัน ฉันเรียกมันว่า CNN (หรือ TI-CNN-1) มีวิธีอื่นที่สามารถสร้าง CNN ที่เหมือนกันของการเปลี่ยนแปลงโดยใช้อินพุตแบบสมมาตรหรือการดำเนินการภายใน CNN (TI-CNN-2) ตาม TI-CNN สามารถสร้าง CNNs (GRI-CNN) ที่เหมือนเกียร์แบบหมุนได้โดย TI-CNN หลายตัวที่มีเวกเตอร์อินพุตหมุนโดยมุมที่มีขนาดเล็ก นอกจากนี้ยังสามารถสร้าง CNN ที่เหมือนกันในเชิงปริมาณได้โดยการรวม GRI-CNN หลายตัวเข้ากับเวกเตอร์อินพุตที่แปลงรูปแบบต่างๆ

  1. "เครือข่ายประสาทเทียมแบบคงที่และเปลี่ยนแปลงไม่แปรผันผ่านผู้ประกอบองค์ประกอบแบบสมมาตร" https://arxiv.org/abs/1806.03636 (มิถุนายน 2018)

  2. “ การเปลี่ยนแปลงโครงข่ายประสาทเทียมแบบคงที่และไม่เปลี่ยนแปลงเหมือนกันโดยรวมการดำเนินงานแบบสมมาตรหรืออินพุตอินพุท” https://arxiv.org/abs/1807.11156 (กรกฎาคม 2018)

  3. "ระบบเครือข่ายประสาทเทียมแบบหมุนที่มีเอกลักษณ์เฉพาะและไม่เปลี่ยนแปลง" https://arxiv.org/abs/1808.01280 (สิงหาคม 2561)


-1

ฉันคิดว่าการรวมกำไรสูงสุดสามารถสำรองการแปรปรวนและการหมุนได้เฉพาะสำหรับการแปลและการหมุนที่เล็กกว่าขนาดก้าวย่าง ถ้ายิ่งใหญ่กว่าจะไม่มีความแปรปรวน


1
คุณสามารถขยายเล็กน้อยได้ไหม เราขอแนะนำให้คำตอบในเว็บไซต์นี้มีรายละเอียดมากกว่านี้เล็กน้อย (ตอนนี้นี่ดูความคิดเห็นได้มากขึ้น) ขอขอบคุณ!
แอนทอน
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.