ทำความเข้าใจเกี่ยวกับกระบวนการคำนวณคุณสมบัติของ SURF


9

ดังนั้นฉันกำลังอ่านกระดาษบนSURF (Bay, Ess, Tuytelaars, Van Gool: คุณสมบัติที่แข็งแกร่งขึ้นอย่างรวดเร็ว (SURF) )และฉันไม่สามารถเข้าใจย่อหน้านี้ด้านล่าง:

เนื่องจากการใช้ตัวกรองกล่องและรูปภาพที่เป็นส่วนประกอบเราไม่จำเป็นต้องใช้ตัวกรองซ้ำกับผลลัพธ์ของเลเยอร์ที่กรองก่อนหน้านี้ แต่สามารถใช้ตัวกรองกล่องขนาดใดก็ได้ที่ความเร็วเดียวกันกับภาพต้นฉบับโดยตรงและ แม้ในแบบคู่ขนาน (แม้ว่าจะไม่ได้ใช้ประโยชน์ที่นี่) ดังนั้นการวิเคราะห์ขนาดพื้นที่โดยการปรับขนาดตัวกรองมากกว่าการลดขนาดภาพซ้ำรูปที่ 4

This is figure 4 in question.

รูปที่ 4

ป.ล. : บทความนี้มีคำอธิบายเกี่ยวกับภาพรวม แต่เนื้อหาทั้งหมดของบทความจะขึ้นอยู่กับย่อหน้าเฉพาะด้านบน หากใครอ่านบทความนี้คุณช่วยพูดสั้น ๆ ว่าเกิดอะไรขึ้นที่นี่ คำอธิบายทางคณิตศาสตร์ทั้งหมดนั้นค่อนข้างซับซ้อนที่จะเข้าใจก่อนดีดังนั้นฉันต้องการความช่วยเหลือ ขอบคุณ

แก้ไขสองประเด็น:

1

แต่ละคู่จะแบ่งออกเป็นระดับมาตราส่วนคงที่ เนื่องจากลักษณะที่ไม่ต่อเนื่องของภาพที่เป็นส่วนประกอบความแตกต่างของสเกลขั้นต่ำระหว่าง 2 สเกลที่ตามมานั้นขึ้นอยู่กับความยาวแท้จริงของ lobes บวกหรือลบของอนุพันธ์อันดับสองบางส่วนในทิศทางของการสืบทอด (x หรือ y) ซึ่งตั้งค่าเป็น สามของความยาวขนาดตัวกรอง สำหรับตัวกรอง 9x9 ความยาวแท้จริงคือ 3 สำหรับสองระดับต่อเนื่องเราจะต้องเพิ่มขนาดนี้อย่างน้อย 2 พิกเซล (หนึ่งพิกเซลทุกด้าน) เพื่อให้ขนาดไม่เท่ากันดังนั้นจึงมั่นใจได้ว่ามีพิกเซลกลาง . ส่งผลให้ขนาดหน้ากากเพิ่มขึ้นทั้งหมด 6 พิกเซล (ดูรูปที่ 5)

Figure 5

รูปที่ 5

ฉันไม่สามารถเข้าใจเส้นในบริบทที่กำหนด

สำหรับสองระดับที่ต่อเนื่องเราจะต้องเพิ่มขนาดนี้อย่างน้อย 2 พิกเซล (หนึ่งพิกเซลในทุกด้าน) เพื่อให้ขนาดไม่เท่ากันดังนั้นจึงมั่นใจได้ว่ามีพิกเซลกลาง

ฉันรู้ว่าพวกเขากำลังพยายามทำอะไรบางอย่างกับความยาวของภาพถ้าพวกมันกำลังพยายามทำให้มันแปลกดังนั้นจึงมีจุดศูนย์กลางพิกเซลซึ่งจะช่วยให้พวกเขาสามารถคำนวณจำนวนสูงสุดหรือต่ำสุดของการไล่ระดับพิกเซลได้ ฉันรู้สึกสับสนเล็กน้อยเกี่ยวกับความหมายตามบริบทของมัน

2

เพื่อที่จะคำนวณเวฟเล็ต descriptor Haar

Haar Wavelet

ภูมิภาคตอนกลางมีระดับต่ำเพียงใด  dx แต่สูง  |dx|.

3

อีกอันหนึ่ง

ความจำเป็นในการมีตัวกรองโดยประมาณคืออะไร

4. ฉันไม่มีปัญหากับวิธีที่พวกเขาพบขนาดของตัวกรอง พวกเขา "ทำ" สิ่งที่ประจักษ์ อย่างไรก็ตามฉันมีปัญหาที่จู้จี้กับชิ้นส่วนของบรรทัดนี้

ผลลัพธ์ของตัวกรอง 9x9 ที่นำเสนอในส่วนก่อนหน้านี้ถือเป็นเลเยอร์เริ่มต้นซึ่งเราจะอ้างถึงระดับ s = 1.2 (ใกล้เคียงกับอนุพันธ์ของเกาส์ที่มีσ = 1.2)

พวกเขาค้นพบเกี่ยวกับคุณค่าของσได้อย่างไร ยิ่งไปกว่านั้นการคำนวณการปรับสเกลทำได้ในภาพด้านล่างเหตุผลที่ฉันระบุเกี่ยวกับภาพนี้คือค่าของการs=1.2เก็บที่เกิดขึ้นโดยไม่ได้ระบุอย่างชัดเจนเกี่ยวกับที่มาของมัน ภาพสเกล

5. Hessian Matrix เป็นตัวแทนในแง่ของLการไล่ระดับลำดับที่สองของตัวกรองเกาส์เซียนและภาพ

อย่างไรก็ตามดีเทอร์มิแนนต์ "approximated" กล่าวว่ามีคำที่เกี่ยวข้องกับตัวกรอง Gaussian ลำดับที่สองเท่านั้น

ค่าของwคือ:

คำถามของฉันว่าทำไมดีเทอร์มิแนนต์ถูกคำนวณแบบนั้นด้านบนและอะไรคือความสัมพันธ์ระหว่าง Hessian โดยประมาณและเมทริกซ์ Hessian


เฮ้! ฉันเพิ่มชื่อผู้แต่งและชื่อบทความในคำถามของคุณฉันหวังว่าคุณจะไม่สนใจ ก่อนอื่นทำให้บทความสามารถค้นหาได้แม้ว่าลิงก์นั้นจะตาย ประการที่สองในฐานะคนที่ทำวิจัยฉันคิดว่าการให้เครดิตผู้แต่งด้วยชื่อและชื่อของสิ่งพิมพ์เป็นสิ่งที่เราสามารถทำได้เพื่อรับงานของพวกเขา :)
penelope

@ penelope: ฉันรู้สึกกลัวเพียงครึ่งเดียวที่ผู้คนจะโหวตให้ฉันให้อภัย
mototur

ฉันคิดว่ามันเป็นคำถามที่ดีจริงๆหนึ่งในคำถามที่น่าสนใจมากขึ้นเมื่อไม่นานมานี้ ฉันไม่เคยเข้าสู่ SURF แต่ฉันอาจลองดูวันพรุ่งนี้และดูว่าฉันสามารถมีส่วนร่วมได้หรือไม่คำถามที่ทำให้ฉันสนใจ :) และ PS: ถ้าคุณทำสิ่งนี้เป็นส่วนหนึ่งของโครงการ Uni "ทางการ" ฉันแน่ใจว่าหัวหน้างานของคุณยินดีช่วยเหลือคุณ (โดยเฉพาะถ้าคุณอยู่ในระดับปริญญาโท) ส่วนหนึ่งของงานคือสอนวิธีอ่านวรรณกรรมทางวิทยาศาสตร์
Penelope

PPS: คุณอาจต้องการแก้ไขคำถามของคุณเพื่อเพิ่มคำอธิบายสั้น ๆ ของคำภาพหนึ่งและตัวกรองกล่อง : ทำความเข้าใจสิ่งที่คุณเข้าใจอาจจะช่วยให้เราเข้าใจในสิ่งที่คุณไม่เข้าใจ;)
Penelope

@penelope: คุณเป็นผู้หญิง / ผู้ชายที่น่ารัก และไม่ต้องมีการทบทวนวรรณกรรมของบทความนี้ฉันอ่านบทความที่เขียนโดย David Lowe ทั้งปี 2004 และ 1999 สิ่งนั้นค่อนข้างเข้าใจได้ง่ายและมีการบรรยายบน YouTube ที่ดี ปัญหาคือมีคำศัพท์ทางคณิตศาสตร์มากมายที่ใช้ในบทความนี้อันที่มี SURF หากคุณไม่มีแบบจำลองทางคณิตศาสตร์ในหัวของคุณมันเป็นเรื่องยากที่จะเห็นความคิดหลัก
motiur

คำตอบ:


10

SURF คืออะไร

เพื่อที่จะเข้าใจสิ่งที่เกิดขึ้นอย่างถูกต้องคุณต้องคุ้นเคยกับSIFT : SURF นั้นโดยทั่วไปแล้วเป็นการประมาณของ SIFT ตอนนี้คำถามที่แท้จริงกลายเป็น: SIFT คืออะไร .

ร่อนเป็นทั้งเครื่องตรวจจับ Keypointและบ่ง Keypoint ในส่วนของตัวตรวจจับ SIFT นั้นเป็นตัวแปรหลายระดับของเครื่องตรวจจับมุมแบบคลาสสิคเช่นมุมของแฮร์ริส จากนั้นเมื่อกำหนดที่ตั้งและขนาดของแพตช์ (มาจากสเกล) ก็สามารถคำนวณส่วนของ descriptor ได้

SIFT ดีมากในการจับคู่ชิ้นเลียนแบบรูปภาพในท้องที่ แต่มีข้อเสียเปรียบเพียงอย่างเดียว: มันมีราคาแพง (เช่นยาว) ในการคำนวณ ใช้เวลาจำนวนมากในการคำนวณ Gaussian scale-space (ในส่วนตรวจจับ) จากนั้นในการคำนวณฮิสโตแกรมของทิศทางการไล่ระดับสี (สำหรับส่วน descriptor)

ทั้ง SIFT และ SURF สามารถมองเห็นได้ว่าเป็นความแตกต่างของ Gaussians ด้วยการเลือกขนาดอัตโนมัติ (เช่นขนาด Gaussian) สิ่งนี้คุณสร้างสเกลพื้นที่แรกที่ภาพอินพุตถูกกรองในระดับที่แตกต่างกัน สเกล - สเปซนั้นสามารถมองเห็นเป็นปิรามิดซึ่งภาพต่อเนื่องสองภาพเกี่ยวข้องกันโดยการเปลี่ยนสเกล (เช่นขนาดของกนอนต่ำผ่านกาลเวลาเปลี่ยนแบบเกาส์) และตาชั่งจะถูกจัดกลุ่มตามอ็อกเทฟ (เช่นการเปลี่ยนแปลงครั้งใหญ่ ในขนาดของตัวกรอง Gaussian)

  • ใน SIFT สิ่งนี้จะทำโดยการกรองอินพุตซ้ำกับ Gaussian ที่มีความกว้างคงที่จนกว่าจะถึงสเกลของอ็อกเทฟต่อไป
  • ใน SURF คุณไม่ต้องเสียค่าปรับใด ๆ กับขนาดของตัวกรองเกาส์เซียนเนื่องจากการใช้เคล็ดลับภาพรวม ดังนั้นคุณคำนวณภาพที่กรองในแต่ละสเกลโดยตรง (โดยไม่ใช้ผลลัพธ์ที่สเกลก่อนหน้านี้)

ส่วนที่ประมาณ

เนื่องจากการคำนวณพื้นที่เกาส์สเกลและฮิสโตแกรมของทิศทางการไล่ระดับสีนั้นยาวมันเป็นความคิดที่ดี (เลือกโดยผู้เขียนของ SURF) เพื่อแทนที่การคำนวณเหล่านี้ด้วยการประมาณที่รวดเร็ว

ผู้เขียนตั้งข้อสังเกตว่า Gaussians ขนาดเล็ก (เช่นที่ใช้ใน SIFT) สามารถประมาณได้ดีโดยอินทิกรัลสแควร์ (หรือที่เรียกว่ากล่องเบลอ ) ค่าเฉลี่ยสี่เหลี่ยมผืนผ้าเหล่านี้มีคุณสมบัติที่ดีที่จะได้อย่างรวดเร็วเพื่อให้ได้มาด้วยเคล็ดลับภาพรวม

นอกจากนี้เกาส์ขนาดพื้นที่ที่เป็นจริงไม่ได้ใช้ต่อ seแต่คาดคะเน Laplacian ของ Gaussians (คุณสามารถพบนี้ในกระดาษร่อน) ดังนั้นคุณไม่จำเป็นต้องเป็นแค่ภาพแบบเกาส์เท่านั้น แต่เป็นอนุพันธ์และความแตกต่างของภาพเหล่านั้น ดังนั้นคุณเพียงแค่เพิ่มความคิดเกี่ยวกับการประมาณ Gaussian โดยกล่อง: ก่อนได้รับ Gaussian หลาย ๆ ครั้งตามที่ต้องการจากนั้นประมาณแต่ละกลีบด้วยกล่องขนาดที่ถูกต้อง ในที่สุดคุณจะจบลงด้วยชุดของคุณสมบัติ Haar

เพิ่มขึ้น 2

นี่เป็นเพียงสิ่งประดิษฐ์ที่นำมาใช้ตามที่คุณคาดเดาได้ เป้าหมายคือการมีพิกเซลกลาง ตัวอธิบายคุณสมบัติคำนวณด้วยความเคารพต่อศูนย์กลางของแพทช์ภาพที่จะอธิบาย

ภาคกลาง

เมื่อไปจากเรย์สีดำไปเป็นเรย์สีขาวคุณมีอะไรที่คล้ายกัน all pix in columnx=A. จากนั้นจากสีขาวเป็นสีดำคุณจะได้ผลรวมตรงกันข้าม:all pix in columnx=A. ดังนั้นคุณมีขนาดเล็กx สำหรับหน้าต่าง แต่ผลรวมของขนาดที่สูงขึ้น

เลขกล

สเกลแรกนั้นได้มาจากการเบลอด้วย σ=1.2(หรือ 1.4 ในเอกสารบางฉบับ) นี่เป็นเพราะภาพที่คมชัดเป็นธรรมชาติ (จริง) ถือได้ว่าเป็นผลมาจากการบิดของภาพในอุดมคติ (โดยไม่มีนามแฝง) ที่มีความกว้างเบลอของเคอร์เนลσ=1.2. ฉันจำไม่ได้ว่ามันมาจากไหน แต่ก็มีการศึกษาอย่างชัดเจนในงานของ Guoshen Yu เกี่ยวกับ A-SIFT ดังนั้นคุณอาจตรวจสอบหน้านี้


ขอบคุณสำหรับคำอธิบายมันช่วยเคลียร์บางสิ่งให้ฉันดูว่าใครมีความเข้าใจที่ละเอียดกว่านี้ไหม
motiur

ฉันได้แก้ไขคำตอบสำหรับคำถามใหม่ของคุณแล้ว
sansuiso

โอ้ใช่ขอบคุณขอบคุณ กระดาษนั้นค่อนข้างยาวดังนั้นหลายสิ่งหลายอย่างพร้อมกัน
motiur

สนใจที่จะเห็นการแก้ไขล่าสุดของฉัน?
motiur

1
มันเป็นการผสมผสานของความรู้ที่ใช้ร่วมกันทั่วไป (Gaussians ขนาดเล็กมีการประมาณที่ดีโดยการทำกล่องแบล็ก) การทดลอง (ขนาดต่ำสุด / สูงสุดของวัตถุที่น่าสนใจในภาพโลกแห่งความเป็นจริง) และคณิตศาสตร์ (ขนาดแพทช์เริ่มต้น .
sansuiso

4

เพื่อระบุจุดสนใจที่อาจเกิดขึ้นฟังก์ชั่นความแตกต่างของเกาส์ (DOG)มักใช้ในการประมวลผลภาพจึงทำให้ค่าคงที่และการวางแนว

ใน SIFT ปิรามิดรูปภาพถูกสร้างขึ้นโดยการกรองแต่ละเลเยอร์ด้วย DOG เพื่อเพิ่มsigmaค่าและรับความแตกต่าง

ในทางตรงกันข้าม SURF ใช้การประมาณของอนุพันธ์อันดับสองส่วน Gaussian ลำดับที่สองที่เร็วกว่ามากกับLaplacian ของ Gaussian (LoG)และตัวกรองสี่เหลี่ยมที่มีขนาดแตกต่างกัน (9 * 9, 15 * 15, ... ) ค่าใช้จ่ายในการคำนวณนั้นไม่ขึ้นกับขนาดของตัวกรอง ไม่มีการสุ่มตัวอย่างลง (เปลี่ยนsigma) สำหรับระดับที่สูงขึ้นในปิรามิด แต่จะมีเพียงขนาดฟิลเตอร์ที่ใหญ่ขึ้นเท่านั้นทำให้ภาพมีความละเอียดเท่ากัน

แก้ไข

หนึ่งทราบเพิ่มเติม: ผู้เขียนในกระดาษของคุณต่อไปลดความซับซ้อนของอนุพันธ์ที่สองเสียนที่ 4 ทิศทาง (x, y, เซ็กซี่, YX) กับเคอร์เนล[1 -2 1], [1 -2 1]', และ[1 -1;-1 1] [-1 1;1 -1]เมื่อขนาดตัวกรองเพิ่มขึ้นคุณเพียงแค่ขยายขอบเขตเคอร์เนลที่เรียบง่ายเพื่อให้ได้ขนาดที่ใหญ่ขึ้น และเทียบเท่ากับ DOG ที่มีสเกลต่างกัน (LoG curve เป็นรูปร่างเดียวกับ DOG และขนาดตัวกรองทำให้ความกว้างเท่ากัน)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.