คำถามติดแท็ก image-processing

โดยทั่วไปแล้วการประมวลผลภาพเป็นรูปแบบของการประมวลผลสัญญาณใด ๆ ที่อินพุตเป็นรูปภาพเช่นกรอบรูปหรือวิดีโอ

8
DSP หรือ jokes ประมวลผลสัญญาณ / ภาพ / ข้อมูล
ไซต์ StackExchange / StackOverflowอื่น ๆ บางแห่งได้รับความบันเทิงด้วยอารมณ์ขันหรือความสนุกสนานในระดับหนึ่ง การ์ตูนเรื่อง "การวิเคราะห์ข้อมูล" ที่คุณชื่นชอบคืออะไร? เป็นสิ่งที่ควรค่าแก่การกล่าวถึง (IMHO) การ์ตูน xkcd เรื่องนี้เกี่ยวกับสาเหตุและความสัมพันธ์ (คน DSP รู้ว่าฉันหมายถึงอะไร): ดังนั้นเป็นเรื่องตลกที่ได้รับอนุญาตในคำตอบ? ฉันหวังว่าอย่างนั้นเช่น: StackOverflow: โปรแกรมเมอร์ตลกที่ดีที่สุดของคุณคืออะไร? MathOverflow: มีเรื่องตลกคณิตศาสตร์ที่ดีอยู่ SE.Stats (การตรวจสอบข้าม): เรื่องตลกสถิติ SE.Stats (การตรวจสอบข้าม): การ์ตูนเรื่อง "การวิเคราะห์ข้อมูล" ที่คุณชื่นชอบคืออะไร? SE.Maths คำถามเกี่ยวกับคณิตศาสตร์ตลก มีอารมณ์ขันในการประมวลผลสัญญาณหรือการประมวลผลภาพแม้จะตื้นและแคบ ฉันพบมันก่อน (ฉันไม่มีอารมณ์ขันมาก่อน) ที่นิทรรศการอารมณ์ขันICASSP 2000 DSP ในอิสตันบูลประเทศตุรกี ภาพด้านล่างมาจากHumor ใน DSP โดย EURASIP : ดังนั้นผมเชื่อว่าเราสมควรได้รับบางส่วนhumorและjokeแท็กและความสว่างที่เกิดขึ้นจริง ไปข้างหน้า!

2
วิธีการจำการเรียงตัวหกเหลี่ยมในเกมกระดาน?
ฉันต้องการทราบขอบเขตของการเรียงต่อหกเหลี่ยมในภาพถ่ายเหมือนในภาพด้านล่าง: สำหรับฉันแล้วดูเหมือนว่าวิธีการมาตรฐานที่กริดสแควร์คือการตรวจจับมุม (เช่นแสนอร่อย) ก่อนแล้วจึงแยกเส้นที่ยาวที่สุดผ่านการแปลง Houghหรือสิ่งที่คล้ายกัน นี่ไม่ใช่วิธีที่ดีที่สุดในการปูกระเบื้องด้วยเลขฐานสิบหกเนื่องจากความยาวของเส้นด้านนอกสั้นกว่าและเป็นการยากที่จะแยกพวกมันออกจากเส้นอื่น มีอัลกอริธึมที่จะแก้ไขปัญหานี้หรือไม่? มันเป็นเรื่องดีที่จะมีทางออกใน opencv แต่ฉันก็สนใจในความคิดทั่วไป อัปเดต: ด้วย python และ opencv ฉันสามารถรับผลลัพธ์นี้ได้: นี่คือรหัสของฉัน: import cv2 import numpy as np imgOrig = "test1"; img = cv2.imread(imgOrig+".jpg"); lap = cv2.Laplacian(img, cv2.IPL_DEPTH_32F, ksize = 3) imgray = cv2.cvtColor(lap,cv2.COLOR_BGR2GRAY) ret,thresh = cv2.threshold(imgray,127,255,0) contours, hierarchy = cv2.findContours(thresh,cv2.RETR_TREE,cv2.CHAIN_APPROX_NONE) size = img.shape m …

1
วิธีการแยกส่วนประกอบความถี่สูงและความถี่ต่ำโดยใช้ตัวกรองแบบทวิภาคี?
ส่วนประกอบความถี่สูงและความถี่ต่ำมีความหมายอะไรในภาพ วิธีแยกความถี่สูงและองค์ประกอบความถี่ต่ำของภาพโดยใช้ฟิลเตอร์ทวิภาคี

4
การตรวจจับคนจากด้านบน
ฉันกำลังพยายามหาวิธีตรวจจับคนที่ใช้กล้องเพียงแค่ 3 เมตรเหนือพื้นดิน นี่คือเฟรมที่กล้องคืนมา: อัปเดต: การทดสอบวิดีโอ -> http://dl.dropbox.com/u/5576334/top_head_shadow.avi ในการทำเช่นนั้นก่อนอื่นฉันต้องเข้าใจว่าฉันต้องทำการแบ่งส่วนหลังแบบพื้นหน้า นั่นคือส่วนที่ง่าย ด้วยหน้ากากเบื้องหน้าฉันสามารถทำงานง่ายๆเช่น Hough transform เพื่อค้นหาแวดวง แต่วิธีนี้ตรวจจับได้เพียง 60% ของหัวรวมถึงผลบวกที่ผิดพลาดมากมาย ฉันสามารถใช้เทคนิคง่ายๆอื่น ๆ เช่นการแบ่งส่วนสี แต่ฉันพบว่าคนหัวแตกต่างกันมากเห็นจากด้านบนเพราะทรงผมสีผมจำนวนของพวกเขา ... ตัวเลือกอื่นที่ฉันคิดไว้คือความเป็นไปได้ในการใช้ HOG Descriptors หรือคุณลักษณะที่คล้ายกับ Haar แต่ฉันต้องการฐานข้อมูลที่กว้างขวางของผู้คนที่เห็นจากด้านบนเพื่อฝึกฝนโมเดล ฉันไม่พบอะไรแบบนั้น ฉันคิดว่านี่จะเป็นปัญหาที่เกิดขึ้นอีกมาก แต่ฉันไม่สามารถพบได้มากในวรรณคดีหรืออินเทอร์เน็ต ความช่วยเหลือในการแก้ไขงานนี้จะได้รับการชื่นชม :-) ปรับปรุง: สำหรับข้อมูลเพิ่มเติมเป้าหมายคือการใช้วิธีการทั่วไปบางอย่างเพื่อให้การติดตามการเดินเท้า ต้นแบบตัวแรกจะถูกทดสอบใน Mall

4
การบังคับใช้ของการตรวจจับการบีบอัด
จากสิ่งที่ฉันเคยได้ยินการตรวจจับแบบบีบอัดสามารถใช้กับสัญญาณเบาบางเท่านั้น ถูกต้องหรือไม่ หากเป็นกรณีนี้สัญญาณกระจัดกระจายจะแยกความแตกต่างจากสัญญาณ band Band ใด ๆ ได้อย่างไร? สัญญาณทั้งหมดสามารถขยายได้เพื่อรวมส่วนสัญญาณหร็อมแหร็มหรือศูนย์ค่าสัมประสิทธิ์กว่ามันจะกลายเป็นสัญญาณหร็อมแหร็มในกรณีที่? การบีบอัดการตรวจจับตลอดเวลาดึงข้อมูลหรือสัญญาณได้อย่างสมบูรณ์แบบหรือไม่? เพิ่มเติม: โดยวิธีการที่ฉันเพิ่งเริ่มเรียนรู้สิ่งเหล่านี้ดังนั้นจุดประสงค์ของคำถามนี้คือการได้ลิ้มรสสิ่งเหล่านี้

2
ทางเลือกในการแปลงแบบ Hough สำหรับตรวจจับโครงสร้างแบบกริด
ฉันมีภาพที่ประกอบด้วย 'มุม' หลายอันซึ่งประกอบเป็นรูปร่างกริด: หลังจากการค้นหาบางอย่างดูเหมือนว่า Hough จะเป็นแบบที่ดีเพราะมันไม่ได้มีปัญหากับการแบ่งเป็นแถว อย่างไรก็ตามปัญหาที่ฉันมีคือเส้นของฉัน 'อ้วน' และการตรวจจับขอบใด ๆ ที่ฉันเรียกใช้ (Canny ในกรณีนี้) เลือกขอบของเส้นไม่ใช่เส้นตรง: ซึ่งหมายความว่าการแปลง Hough สิ้นสุดลงโดยเลือกหนึ่ง (หรือทั้งสองอย่าง) ของ 'ด้าน' ของเส้นกริดของฉันและไม่ใช่กึ่งกลาง เนื่องจากฉันรู้ว่าสิ่งที่ฉันกำลังมองหา (รูปร่างคล้ายกริดนี้มักจะอยู่ในแนวเดียวกันเสมอ) มีวิธีที่ดีกว่าในการทำส่วน 'การตรวจจับขอบ' เพื่อให้เส้นกึ่งกลางหรือให้ฉันดู ที่วิธีการที่แตกต่างกันโดยสิ้นเชิง?

2
การสร้างภาพ 3 มิติใหม่ตามความลึกของระดับความเข้มหรือไม่
อย่างไรก็ตามมีการแบ่งกลุ่มวัตถุตามระยะห่างจากผู้ดูหรือไม่ ค่าสีสามารถประเมินสิ่งเหล่านี้ได้หรือไม่? ระดับความเข้มจะช่วยในการกำหนดว่าวัตถุนั้นมาจากผู้ชมมากแค่ไหน ภาพอื่น:

2
มีโปรแกรมโอเพ่นซอร์ส (ดี, ฟรี) ที่เขียนด้วยลายมือดีหรือไม่?
ชื่อถามมันทั้งหมด ฉันมีงานการป้อนข้อมูลที่ฉันไม่กระตือรือร้นเกินไปเกี่ยวกับ: หน้า 50-100 หน้าของการเขียนด้วยลายมือออกจากระบบ / ลงชื่อเข้าใช้ในบันทึก รูปแบบของบันทึกอาจช่วยได้ หน้าจะถูกแบ่งออกเป็นแถวและคอลัมน์ที่กำหนดอย่างชัดเจน (13r x 6c พร้อมแถวส่วนหัวที่พิมพ์พิเศษ) การช่วยเหลือฉันเพิ่มเติมคือคอลัมน์ที่สามเกี่ยวข้องกับวันที่ / เวลา (วันที่หมดเวลาและเวลาเข้า) นอกจากนี้ข้อมูลในสองคอลัมน์ (ทรัพยากรและชื่อ) มีการแจกแจงมากหรือน้อยดังนั้นตัวอย่างเช่นชื่อ "Smith" อาจปรากฏขึ้นครั้งแล้วครั้งเล่าในคอลัมน์ชื่อแต่ละครั้งด้วยลายมือเดียวกัน คอลัมน์สุดท้าย "Notes" เป็นรูปแบบอิสระ แต่ถ้าฉันสามารถทำให้คอลัมน์ 6 คอลัมน์ก่อนหน้านี้เป็นแบบอัตโนมัติได้ฉันก็ไม่อยากป้อน Notes ด้วยมือเลย ข้อเสนอแนะใด ๆ (นอกจาก 'เริ่มพิมพ์') ป.ล. หากมีเว็บไซต์ SE ที่ดีกว่าให้ถามฉันรู้ว่าฉันจะถามที่นั่น

3
ตัวกรอง Gabor สามารถใช้สำหรับตรวจจับรอยบุบในรถยนต์ได้หรือไม่?
ฉันกำลังทำการวิจัยเกี่ยวกับตัวกรอง Gabor เพื่อตรวจจับรอยบุบในรถยนต์ ฉันรู้ว่าตัวกรอง Gabor มีการใช้อย่างกว้างขวางสำหรับการจดจำรูปแบบการจดจำลายนิ้วมือ ฯลฯ ฉันมีรูป ใช้รหัสจากเว็บไซต์ MathWorks File Exchange ฉันได้ผลลัพธ์ต่อไปนี้ ซึ่งอย่างใดไม่ใช่เอาท์พุทที่เราคาดหวัง นี่ไม่ใช่ผลลัพธ์ที่ดี สคริปต์ของฉันเป็นดังนี้: I = imread('dent.jpg'); I = rgb2gray(I); [G, gabout] = gaborfilter1(I, 2, 4, 16, pi/2); figure imshow(uint8(gabout)); แก้ไข: การใช้รหัสที่แตกต่างกับภาพต่อไปนี้: ภาพที่ส่งออกหลังจากทิศทางที่แตกต่างกันของตัวกรอง gabor: ฉันจะแยก DENT นี้ซึ่งตรวจพบได้อย่างถูกต้องได้อย่างไร

2
อะไรคือความแตกต่างระหว่างฟังก์ชันตัวกรอง Gabor ทั้งสองนี้
ฉันต้องปรับปรุงการมองเห็นของหลอดเลือดดำในภาพมือหลอดเลือดดำหลังในโครงการของฉัน ฉันใช้ตัวกรอง Gabor ที่สมดุลกันสองตัวที่ต่างกันปรับปรุงการมองเห็นเส้นเลือด ธนาคารแรกประกอบด้วยฟังก์ชัน gabor เหล่านี้: Gemk(x,y)=γ2πσ2exp{−12(xθ+γ2y2θσ2)}×(cos(2πf0xθ)−exp(−υ22))Gmke(x,y)=γ2πσ2exp⁡{−12(xθ+γ2yθ2σ2)}×(cos⁡(2πf0xθ)−exp⁡(−υ22))G^\mathit{e}_\mathit{mk}(x,y)=\dfrac{\gamma}{2\pi\sigma^2}\exp\Bigg\{-\frac{1}{2}\left(\dfrac{x_\mathit{\theta}+\gamma^2y_\mathit{\theta}^2}{\sigma^2}\right)\Bigg\}\times \left(\cos(2\pi f_\mathit{0}x_\mathit{\theta})-\exp(-\dfrac{\upsilon^2}{2})\right) ธนาคารที่สองประกอบด้วยสิ่งเหล่านี้: Gemk(x,y)=exp{−12(xθ+γ2y2θσ2)}×cos(2πf0xθ)Gmke(x,y)=exp⁡{−12(xθ+γ2yθ2σ2)}×cos⁡(2πf0xθ)G^\mathit{e}_\mathit{mk}(x,y)=\exp\Bigg\{-\frac{1}{2}\left(\dfrac{x_\mathit{\theta}+\gamma^2y_\mathit{\theta}^2}{\sigma^2}\right)\Bigg\}\times \cos(2\pi f_\mathit{0}x_\mathit{\theta}) โดยที่คือดัชนีสเกลkคือดัชนีการวางแนวf θคือความถี่ศูนย์ตัวกรองσคือค่าเบี่ยงเบนมาตรฐาน (มักเรียกว่าสเกล), γคืออัตราส่วนกว้างยาวของซองจดหมายเกาส์รูปไข่υคือปัจจัยที่กำหนดการตอบสนอง DC , x θ = ( x cos θ + y sin θ )และy θ = ( - x sin θ + y cos θ )เป็นรุ่นที่หมุนรอบของxmmmkkkfθfθf_\thetaσσ\sigmaγγ\gammaυυ\upsilonxθ=(xcosθ+ysinθ)xθ=(xcos⁡θ+ysin⁡θ)x_\theta=(x\cos\theta+y\sin\theta)yθ=(−xsinθ+ycosθ)yθ=(−xsin⁡θ+ycos⁡θ)y_\theta=(-x\sin\theta+y\cos\theta)xxxและพิกัดyyy ฉันเขียนรหัสตัวกรองเหล่านี้ใน MATLAB ฉันไม่มีปัญหาในการเขียนโค้ด แต่ฉันไม่เข้าใจความแตกต่างพื้นฐานระหว่างฟังก์ชัน gabor ทั้งสองนี้

3
เวกเตอร์การเคลื่อนไหวทำงานอย่างไรในการเข้ารหัสล่วงหน้าสำหรับ MPEG?
ใน MPEG มีกระบวนการที่ภาพแตกออกเป็น macroblocks และเวกเตอร์การเคลื่อนไหวถูกคำนวณสำหรับแต่ละบล็อกแมโครเหล่านั้น จากนั้นคุณส่งเวกเตอร์เหล่านี้พร้อมกับข้อผิดพลาดในการคาดการณ์เพื่อสร้างภาพถัดไปในลำดับวิดีโอ ฉันกำลังพยายามที่จะเข้าใจวิธีการทำงานนี้ macroblock แต่ละตัวมีเวกเตอร์แบบเคลื่อนไหวที่เกี่ยวข้องซึ่งถ้า (เวกเตอร์คือ [1,0]) กล่าวว่าall the pixels in this block move 1 in the x direction and 0 in the y direction for the next frame. หากเวกเตอร์การเคลื่อนไหวทั้งหมดไม่ได้จัดแนวอย่างถูกต้องสิ่งนี้จะไม่ทำให้พื้นที่ของภาพที่ไม่มีการนับ (เช่นพื้นที่ที่ macroblock นั้นเริ่มแรก)? ตัวอย่างเช่นฉันมีคำถามต่อไปนี้ที่ฉันพบ พิจารณาภาพต่อไปนี้ในเวลา t: 7 7 7 7 7 7 5 5 7 5 …

3
ฉันจะสร้างข้อความใหม่จากภาพโดยใช้การทำงานทางสัณฐานวิทยาได้อย่างไร
ฉันต้องการสร้างข้อความจากภาพต่อไปนี้ให้ดีที่สุดเท่าที่จะทำได้ ส่วนที่ยุ่งยากคือฉันต้องการทำโดยใช้การทำงานแบบสัณฐานวิทยากับภาพเท่านั้น ฉันลองใช้การกัดเซาะการขยายเปิดและปิด แต่ผลลัพธ์ไม่ดีมาก เป็นไปได้ไหม

2
Wiener Filter สำหรับลดสัญญาณรบกวนภาพ (Denoising ภาพ)
ฉันพยายามทำให้การทำงานของตัวกรอง Wiener เป็นไปโดยรอบเพื่อจุดประสงค์ในการลดสัญญาณรบกวนภาพ ในกรณีของฉันฉันจะใช้ตัวกรองลดเสียงรบกวนอื่นก่อนแล้วจึงจะใช้ผลลัพธ์ของสิ่งนี้เป็นการประมาณลักษณะเสียงของตัวกรอง Wiener เกี่ยวกับข้อมูลเกี่ยวกับตัวกรอง Wiener ฉันพบว่ารหัส Matlab และคำอธิบายต่อไปนี้มีประโยชน์: http://www.mathworks.co.uk/help/toolbox/images/f11-12251.html#f11-14272 และลิงก์ที่ดีอื่น ๆ เช่น http://blogs.mathworks.com/steve/2007/11/02/image-deblurring-wiener-filter/ ดังนั้นจากมุมมอง Matlab ฉันสามารถเห็นวิธีการใช้ฟังก์ชั่น inbuilt Matlab แต่ฉันต้องการความเข้าใจขั้นพื้นฐานมากกว่าแค่ใช้การเรียกใช้ฟังก์ชั่น แต่ในเวลาเดียวกันฉันต้องการค้นหาสิ่งที่ย่อยได้มากกว่ารายการวิกิพีเดีย Wiener กรอง ใครสนใจที่จะเสนอคำอธิบายสั้น ๆ เกี่ยวกับการกรอง Wiener

2
สุ่มตัวอย่างภาพด้วยปัจจัยจำนวนเต็ม
เมื่อสุ่มตัวอย่างภาพด้วยปัจจัยจำนวนเต็มวิธีที่ชัดเจนคือตั้งค่าพิกเซลของภาพที่ส่งออกเป็นค่าเฉลี่ยของบล็อกn × n ที่สอดคล้องกันในภาพอินพุตnnnn × nn×nn \times n ฉันจำได้ว่าเพิ่งอ่านบางแห่งว่าวิธีนี้ไม่เหมาะสม (ขออภัยฉันจำรายละเอียดไม่ได้) เป็นความจริงไหมว่ามีวิธีที่ดีกว่า (และถ้าเป็นเช่นนั้นวิธีการข้างต้นจะล้มเหลวแม้ว่าจะดูเหมือนว่า "ชัด" ถูกต้อง) ฉันไม่รู้มากเกี่ยวกับการประมวลผลสัญญาณคำถามนี้แค่สนใจฉัน

2
คุณวัด“ รายละเอียด” ของสัญญาณได้อย่างไร
ฉันมีภาพและฉันต้องการวัดรายละเอียดในนั้น อีกวิธีในการดูคือการวัดว่าภาพนั้นพร่ามัวอย่างไร วิธีหนึ่งคือการวิเคราะห์องค์ประกอบความถี่สูงในการแปลงฟูริเยร์ของภาพ มีวิธีอื่นใดหรือดีกว่า

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.