อะไรคือความแตกต่างระหว่าง“ การเปรียบเทียบกับการแปล” และ“ การแปรผันของการแปล”

38

ฉันมีปัญหาในการทำความเข้าใจความแตกต่างระหว่างequivariant กับการแปลและคงที่กับการแปล

ในหนังสือเรียนรู้ลึก MIT Press, 2016 (I. Goodfellow, A. Courville และ Y. Bengio) สามารถพบได้บนเครือข่าย convolutional:

[... ] รูปแบบเฉพาะของการใช้พารามิเตอร์ร่วมกันทำให้เลเยอร์มีคุณสมบัติที่เรียกว่าความสมดุลเพื่อการแปล
[... ] การรวมกำไรกันช่วยให้การแทนค่ากลายเป็นค่าประมาณที่ไม่แน่นอนกับการแปลขนาดเล็กของอินพุต

มีความแตกต่างระหว่างพวกเขาหรือเป็นคำที่ใช้สลับกันได้?

neural-network deep-learning convolution

— Aamir
แหล่งที่มา

2

ในสมัยก่อนของสถิติเช่นเดียวกับในช่วงเวลาของพิตแมน, ค่าคงที่ถูกนำมาใช้ในความหมายของ Equivariant

— ซีอาน

39

ความไม่เท่าเทียมกันและความไม่แปรเปลี่ยนบางครั้งใช้สลับกันได้ ในฐานะที่เป็นแหลมออกโดย@ ซีอานแล้วคุณจะพบการใช้งานในวรรณคดีทางสถิติเช่นในความคิดของประมาณการค่าคงที่และโดยเฉพาะอย่างยิ่งประมาณการ Pitman

อย่างไรก็ตามฉันอยากจะพูดถึงว่ามันจะดีกว่าถ้าทั้งสองคำแยกออกจากกันเนื่องจากคำนำหน้า" in- "ในinvariantเป็นแบบส่วนตัว (หมายถึง "ไม่มีความแปรปรวน" เลย) ในขณะที่" equi- "ในequivariantหมายถึง "ผันแปร" ในสัดส่วนที่คล้ายกันหรือเทียบเท่า " ในคำอื่น ๆ หนึ่งไม่ย้ายที่อื่น ๆ ไม่

$I$ $m$ $(x_m,y_m)$ $I'$ $I$ $(u,v)$

$m'$ $I'$ $m'=m$ $(x'_m,y'_m)=(x_m-u,y_m-v)$

สูตรที่แม่นยำที่ให้ไว้ในคณิตศาสตร์เพื่อความเท่าเทียมกันขึ้นอยู่กับวัตถุและการเปลี่ยนแปลงที่เราพิจารณาดังนั้นฉันชอบความคิดที่นี่ที่ใช้บ่อยที่สุดในการปฏิบัติ (และฉันอาจได้รับการตำหนิจากจุดยืนทางทฤษฎี)

$G$ $g$ $f$ $G$ $g$

f (g (I)) = f (I) .

$f(g(I)) = f(I)\,.$

$G'$ $G$ $g$ $g' \in G'$

f (g (I)) = g^{'} (f (I)) .

$f(g(I)) = g'(f(I))\,.$

$g$ $g'$ $G'=G$

อีกคำจำกัดความทั่วไปคือ:

f (g (I)) = g (f (I)) .

$f(g(I)) = g(f(I))\,.$

$G$ $G'$ $f(I)$ $g(I)$ $g$ $g'$ $g$

บ่อยครั้งที่ผู้คนใช้คำว่า invariance เพราะแนวคิดเรื่องความไม่เท่าเทียมกันนั้นไม่เป็นที่รู้จักหรือใคร ๆ ก็ใช้ความไม่แปรเปลี่ยน

สำหรับบันทึกความคิดอื่น ๆ ที่เกี่ยวข้อง (ESP. ในวิชาคณิตศาสตร์และฟิสิกส์) จะเรียกว่าความแปรปรวน , contravariance , ค่าแปรเปลี่ยน

นอกจากนี้การแปลความแปรปรวนซึ่งเป็นค่าประมาณอย่างน้อยหรือในซองจดหมายนั้นเป็นการแสวงหาเครื่องมือประมวลผลสัญญาณและภาพหลายอย่าง โดยเฉพาะอย่างยิ่งการเปลี่ยนแปลงแบบหลายอัตรา (ฟิลเตอร์ - แบ๊งส์) และการเปลี่ยนแปลงหลายระดับ (เวฟเล็ตหรือปิรามิด) ได้รับการออกแบบในช่วง 25 ปีที่ผ่านมาตัวอย่างเช่นภายใต้ประทุนของการเปลี่ยนแปลงแบบไม่แปรเปลี่ยน แปลงเวฟเล็ต (สำหรับการตรวจสอบเวฟเล็ต 2D, พาโนรามาเกี่ยวกับการแทนค่าทางเรขาคณิตแบบหลายชิ้น ) เวฟเล็ตสามารถดูดซับสเกลที่หลากหลายได้ วิทยานิพนธ์ทุกฉบับ (โดยประมาณ) มักจะมาพร้อมกับราคาของความซ้ำซ้อนในจำนวนของค่าสัมประสิทธิ์การแปลง แต่พวกเขามีแนวโน้มที่จะให้คุณสมบัติกะ - คงที่หรือกะ - equivariant

— Laurent Duval
แหล่งที่มา

4

ที่ดี! ฉันชื่นชมความพยายามของคุณสำหรับการตอบอย่างละเอียด @Laurent Duval

— Aamir

24

เงื่อนไขแตกต่างกัน:

การแปลที่เท่าเทียมกันกับการแปลหมายถึงการแปลคุณสมบัติอินพุตให้ผลลัพธ์เป็นผลลัพธ์การแปลที่เทียบเท่ากัน ดังนั้นหากรูปแบบของคุณ 0,3,2,0,0 ในผลลัพธ์ป้อนเข้าเป็น 0,1,0,0 ในผลลัพธ์จากนั้นรูปแบบ 0,0,3,2,0 อาจนำไปสู่ 0,0,1 0
ค่าคงที่ในการแปลหมายความว่าการแปลคุณสมบัติอินพุตไม่ได้เปลี่ยนผลลัพธ์เลย ดังนั้นหากรูปแบบของคุณ 0,3,2,0,0 ในผลลัพธ์ป้อนเข้าเป็น 0,1,0 ในผลลัพธ์จากนั้นรูปแบบ 0,0,3,2,0 ก็จะนำไปสู่ 0,1,0

สำหรับคุณสมบัติแผนที่ในเครือข่าย convolutional จะมีประโยชน์โดยทั่วไปพวกเขาต้องการคุณสมบัติทั้งสองอย่างในยอดคงเหลือบางส่วน ความสมดุลช่วยให้เครือข่ายสามารถทำการตรวจจับขอบพื้นผิวการตรวจจับรูปร่างในสถานที่ต่าง ๆ ความไม่แปรเปลี่ยนช่วยให้ตำแหน่งที่แม่นยำของคุณสมบัติที่ตรวจพบมีความสำคัญน้อยลง เหล่านี้เป็นลักษณะเสริมสองประเภทสำหรับงานการประมวลผลภาพมากมาย

— Neil Slater
แหล่งที่มา

คุณลักษณะที่แปลแล้วให้ผลลัพธ์ที่แปลแล้วที่บางเลเยอร์ โปรดอธิบายอย่างละเอียดเกี่ยวกับการตรวจพบวัตถุทั้งหมดที่แปลแล้วอย่างมาก ดูเหมือนว่ามันจะถูกตรวจจับแม้ว่า CNN จะไม่ได้รับการฝึกฝนด้วยภาพที่มีตำแหน่งต่างกัน? ความไม่เท่าเทียมกันในกรณีนี้ (ดูคล้ายกับ invariance) มากกว่าหรือไม่?

— VladimirLenin

@ วลาดิเมียร์เลนิน: ฉันไม่คิดว่าจำเป็นต้องทำอย่างละเอียดสำหรับคำถามนี้มันไม่ใช่สิ่งที่ OP ขอมาที่นี่แน่นอน ฉันขอแนะนำให้คุณถามคำถามแยกต่างหากพร้อมตัวอย่างที่เป็นรูปธรรมหากเป็นไปได้ แม้ว่าจะแปลเป็น "วัตถุทั้งหมด" ทางสายตาแล้ว แต่นั่นไม่ได้หมายความว่าแผนที่คุณลักษณะใน CNN กำลังติดตามสิ่งเดียวกับที่คุณคาดไว้

— Neil Slater

4

เพียงแค่เพิ่ม 2 เซ็นต์ของฉัน

$f : I \rightarrow L$ $I$ $L$

$f : I \rightarrow \mathcal{L}$
$f : \mathcal{L} \rightarrow L$

และจะดำเนินการโดยใช้คุณสมบัติดังต่อไปนี้

equatariant เชิงพื้นที่เกี่ยวกับ ConvLayer (Spatial 2D Convolution + NonLin เช่น ReLU) เป็นการเปลี่ยนใน Layer Input ทำให้เกิดการเปลี่ยนแปลงใน Layer Output (หมายเหตุ: มันเป็นเรื่องเกี่ยวกับ Layer ไม่ใช่ Convolution Operator)
ความไม่แปรเปลี่ยนเชิงพื้นที่ของผู้ประกอบการรวม (เช่น Max Pooling ส่งผ่านค่าสูงสุดในฟิลด์ที่เปิดกว้างโดยไม่คำนึงถึงตำแหน่งเชิงพื้นที่)

$I$

$\mathcal{L}$

การใช้เลเยอร์ที่เชื่อมต่ออย่างสมบูรณ์ในส่วนหน้าทำให้ลักษณนามมีความอ่อนไหวต่อตำแหน่งคุณสมบัติในระดับหนึ่งขึ้นอยู่กับโครงสร้างของแบ็กเอนด์: ยิ่งมีความลึกมากเท่าใดและยิ่งใช้ตัวดำเนินการแปลงค่าคงที่มากขึ้น

มันแสดงให้เห็นในQuantifying Translation-Invariance ใน Convolutional Neural Networksเพื่อปรับปรุง CNN Classifier Translation Invariance แทนที่จะทำหน้าที่เกี่ยวกับอุปนัยแบบอคติ )

— Nicola Bernini
แหล่งที่มา