อะไรคือความแตกต่างระหว่าง“ การเปรียบเทียบกับการแปล” และ“ การแปรผันของการแปล”


38

ฉันมีปัญหาในการทำความเข้าใจความแตกต่างระหว่างequivariant กับการแปลและคงที่กับการแปล

ในหนังสือเรียนรู้ลึก MIT Press, 2016 (I. Goodfellow, A. Courville และ Y. Bengio) สามารถพบได้บนเครือข่าย convolutional:

  • [... ] รูปแบบเฉพาะของการใช้พารามิเตอร์ร่วมกันทำให้เลเยอร์มีคุณสมบัติที่เรียกว่าความสมดุลเพื่อการแปล
  • [... ] การรวมกำไรกันช่วยให้การแทนค่ากลายเป็นค่าประมาณที่ไม่แน่นอนกับการแปลขนาดเล็กของอินพุต

มีความแตกต่างระหว่างพวกเขาหรือเป็นคำที่ใช้สลับกันได้?


2
ในสมัยก่อนของสถิติเช่นเดียวกับในช่วงเวลาของพิตแมน, ค่าคงที่ถูกนำมาใช้ในความหมายของ Equivariant
ซีอาน

คำตอบ:


39

ความไม่เท่าเทียมกันและความไม่แปรเปลี่ยนบางครั้งใช้สลับกันได้ ในฐานะที่เป็นแหลมออกโดย@ ซีอานแล้วคุณจะพบการใช้งานในวรรณคดีทางสถิติเช่นในความคิดของประมาณการค่าคงที่และโดยเฉพาะอย่างยิ่งประมาณการ Pitman

อย่างไรก็ตามฉันอยากจะพูดถึงว่ามันจะดีกว่าถ้าทั้งสองคำแยกออกจากกันเนื่องจากคำนำหน้า" in- "ในinvariantเป็นแบบส่วนตัว (หมายถึง "ไม่มีความแปรปรวน" เลย) ในขณะที่" equi- "ในequivariantหมายถึง "ผันแปร" ในสัดส่วนที่คล้ายกันหรือเทียบเท่า " ในคำอื่น ๆ หนึ่งไม่ย้ายที่อื่น ๆ ไม่

Im(xm,ym)II(u,v)

mIm=m(xm,ym)=(xmu,ymv)

สูตรที่แม่นยำที่ให้ไว้ในคณิตศาสตร์เพื่อความเท่าเทียมกันขึ้นอยู่กับวัตถุและการเปลี่ยนแปลงที่เราพิจารณาดังนั้นฉันชอบความคิดที่นี่ที่ใช้บ่อยที่สุดในการปฏิบัติ (และฉันอาจได้รับการตำหนิจากจุดยืนทางทฤษฎี)

GgfGg

f(g(I))=f(I).

GG ggG

f(g(I))=g(f(I)).

ggG=G

อีกคำจำกัดความทั่วไปคือ:

f(g(I))=g(f(I)).

GGf(I)g(I)ggg

บ่อยครั้งที่ผู้คนใช้คำว่า invariance เพราะแนวคิดเรื่องความไม่เท่าเทียมกันนั้นไม่เป็นที่รู้จักหรือใคร ๆ ก็ใช้ความไม่แปรเปลี่ยน

สำหรับบันทึกความคิดอื่น ๆ ที่เกี่ยวข้อง (ESP. ในวิชาคณิตศาสตร์และฟิสิกส์) จะเรียกว่าความแปรปรวน , contravariance , ค่าแปรเปลี่ยน

นอกจากนี้การแปลความแปรปรวนซึ่งเป็นค่าประมาณอย่างน้อยหรือในซองจดหมายนั้นเป็นการแสวงหาเครื่องมือประมวลผลสัญญาณและภาพหลายอย่าง โดยเฉพาะอย่างยิ่งการเปลี่ยนแปลงแบบหลายอัตรา (ฟิลเตอร์ - แบ๊งส์) และการเปลี่ยนแปลงหลายระดับ (เวฟเล็ตหรือปิรามิด) ได้รับการออกแบบในช่วง 25 ปีที่ผ่านมาตัวอย่างเช่นภายใต้ประทุนของการเปลี่ยนแปลงแบบไม่แปรเปลี่ยน แปลงเวฟเล็ต (สำหรับการตรวจสอบเวฟเล็ต 2D, พาโนรามาเกี่ยวกับการแทนค่าทางเรขาคณิตแบบหลายชิ้น ) เวฟเล็ตสามารถดูดซับสเกลที่หลากหลายได้ วิทยานิพนธ์ทุกฉบับ (โดยประมาณ) มักจะมาพร้อมกับราคาของความซ้ำซ้อนในจำนวนของค่าสัมประสิทธิ์การแปลง แต่พวกเขามีแนวโน้มที่จะให้คุณสมบัติกะ - คงที่หรือกะ - equivariant


4
ที่ดี! ฉันชื่นชมความพยายามของคุณสำหรับการตอบอย่างละเอียด @Laurent Duval
Aamir

24

เงื่อนไขแตกต่างกัน:

  • การแปลที่เท่าเทียมกันกับการแปลหมายถึงการแปลคุณสมบัติอินพุตให้ผลลัพธ์เป็นผลลัพธ์การแปลที่เทียบเท่ากัน ดังนั้นหากรูปแบบของคุณ 0,3,2,0,0 ในผลลัพธ์ป้อนเข้าเป็น 0,1,0,0 ในผลลัพธ์จากนั้นรูปแบบ 0,0,3,2,0 อาจนำไปสู่ ​​0,0,1 0

  • ค่าคงที่ในการแปลหมายความว่าการแปลคุณสมบัติอินพุตไม่ได้เปลี่ยนผลลัพธ์เลย ดังนั้นหากรูปแบบของคุณ 0,3,2,0,0 ในผลลัพธ์ป้อนเข้าเป็น 0,1,0 ในผลลัพธ์จากนั้นรูปแบบ 0,0,3,2,0 ก็จะนำไปสู่ ​​0,1,0

สำหรับคุณสมบัติแผนที่ในเครือข่าย convolutional จะมีประโยชน์โดยทั่วไปพวกเขาต้องการคุณสมบัติทั้งสองอย่างในยอดคงเหลือบางส่วน ความสมดุลช่วยให้เครือข่ายสามารถทำการตรวจจับขอบพื้นผิวการตรวจจับรูปร่างในสถานที่ต่าง ๆ ความไม่แปรเปลี่ยนช่วยให้ตำแหน่งที่แม่นยำของคุณสมบัติที่ตรวจพบมีความสำคัญน้อยลง เหล่านี้เป็นลักษณะเสริมสองประเภทสำหรับงานการประมวลผลภาพมากมาย


คุณลักษณะที่แปลแล้วให้ผลลัพธ์ที่แปลแล้วที่บางเลเยอร์ โปรดอธิบายอย่างละเอียดเกี่ยวกับการตรวจพบวัตถุทั้งหมดที่แปลแล้วอย่างมาก ดูเหมือนว่ามันจะถูกตรวจจับแม้ว่า CNN จะไม่ได้รับการฝึกฝนด้วยภาพที่มีตำแหน่งต่างกัน? ความไม่เท่าเทียมกันในกรณีนี้ (ดูคล้ายกับ invariance) มากกว่าหรือไม่?
VladimirLenin

@ วลาดิเมียร์เลนิน: ฉันไม่คิดว่าจำเป็นต้องทำอย่างละเอียดสำหรับคำถามนี้มันไม่ใช่สิ่งที่ OP ขอมาที่นี่แน่นอน ฉันขอแนะนำให้คุณถามคำถามแยกต่างหากพร้อมตัวอย่างที่เป็นรูปธรรมหากเป็นไปได้ แม้ว่าจะแปลเป็น "วัตถุทั้งหมด" ทางสายตาแล้ว แต่นั่นไม่ได้หมายความว่าแผนที่คุณลักษณะใน CNN กำลังติดตามสิ่งเดียวกับที่คุณคาดไว้
Neil Slater

4

เพียงแค่เพิ่ม 2 เซ็นต์ของฉัน

f:ILIL

  • f:IL
  • f:LL

และจะดำเนินการโดยใช้คุณสมบัติดังต่อไปนี้

  • equatariant เชิงพื้นที่เกี่ยวกับ ConvLayer (Spatial 2D Convolution + NonLin เช่น ReLU) เป็นการเปลี่ยนใน Layer Input ทำให้เกิดการเปลี่ยนแปลงใน Layer Output (หมายเหตุ: มันเป็นเรื่องเกี่ยวกับ Layer ไม่ใช่ Convolution Operator)
  • ความไม่แปรเปลี่ยนเชิงพื้นที่ของผู้ประกอบการรวม (เช่น Max Pooling ส่งผ่านค่าสูงสุดในฟิลด์ที่เปิดกว้างโดยไม่คำนึงถึงตำแหน่งเชิงพื้นที่)

I

L

การใช้เลเยอร์ที่เชื่อมต่ออย่างสมบูรณ์ในส่วนหน้าทำให้ลักษณนามมีความอ่อนไหวต่อตำแหน่งคุณสมบัติในระดับหนึ่งขึ้นอยู่กับโครงสร้างของแบ็กเอนด์: ยิ่งมีความลึกมากเท่าใดและยิ่งใช้ตัวดำเนินการแปลงค่าคงที่มากขึ้น

มันแสดงให้เห็นในQuantifying Translation-Invariance ใน Convolutional Neural Networksเพื่อปรับปรุง CNN Classifier Translation Invariance แทนที่จะทำหน้าที่เกี่ยวกับอุปนัยแบบอคติ )

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.