คำถามติดแท็ก computer-vision

ใช้แท็กนี้สำหรับคำถามที่เกี่ยวข้องกับ Computer Vision - ด้านใด ๆ ของซอฟต์แวร์ที่ช่วยให้คอมพิวเตอร์รับรู้เข้าใจและตอบสนองต่อสภาพแวดล้อมโดยใช้กล้องถ่ายรูป สำหรับคำถามที่เกี่ยวข้องกับการกรองภาพและการหาปริมาณให้ใช้แท็ก [image-processing] แทน

9
การเปรียบเทียบภาพ - อัลกอริทึมที่รวดเร็ว
ฉันกำลังมองหาการสร้างตารางพื้นฐานของรูปภาพแล้วเปรียบเทียบรูปภาพใหม่ใด ๆ กับที่เพื่อตรวจสอบว่ารูปภาพใหม่นั้นซ้ำกัน (หรือปิด) ที่แน่นอนของฐาน ตัวอย่างเช่น: หากคุณต้องการลดการจัดเก็บภาพ 100 เท่าของเวลาเดียวกันคุณสามารถจัดเก็บสำเนาหนึ่งชุดและให้ลิงค์อ้างอิง เมื่อป้อนรูปภาพใหม่คุณต้องการเปรียบเทียบกับรูปภาพที่มีอยู่เพื่อให้แน่ใจว่าไม่ใช่แนวคิดที่ซ้ำกันใช่หรือไม่ แนวคิดหนึ่งของฉันคือการลดขนาดย่อให้เล็กแล้วสุ่มเลือกตำแหน่ง 100 พิกเซลและเปรียบเทียบ

10
วิธีการตรวจสอบต้นคริสต์มาส [ปิด]
ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดเมื่อปีที่แล้ว เทคนิคการประมวลผลภาพใดที่สามารถใช้ในการใช้แอพพลิเคชั่นที่ตรวจจับต้นคริสต์มาสที่แสดงในภาพต่อไปนี้ ฉันกำลังค้นหาวิธีแก้ปัญหาที่จะทำงานกับภาพเหล่านี้ ดังนั้นวิธีการที่ต้องใช้ตัวแยกประเภทการฝึกอบรมหรือการจับคู่แม่แบบไม่น่าสนใจมาก ฉันกำลังมองหาบางอย่างที่สามารถเขียนได้ในภาษาการเขียนโปรแกรมใด ๆตราบใดที่มันใช้เทคโนโลยีโอเพนซอร์สเท่านั้น การแก้ปัญหาจะต้องทดสอบกับภาพที่ใช้ร่วมกันในคำถามนี้ มีภาพอินพุต 6 รูปและคำตอบควรแสดงผลลัพธ์ของการประมวลผลแต่ละภาพ ในที่สุดสำหรับแต่ละภาพออกจะต้องมีเส้นสีแดงลากเพื่อล้อมต้นไม้ที่ตรวจพบ คุณจะไปเกี่ยวกับการตรวจจับต้นไม้ในรูปแบบโดยทางโปรแกรมอย่างไร

3
OCR การรับรู้ตัวเลขอย่างง่ายใน OpenCV-Python
ฉันกำลังพยายามใช้ "OCR Recognition Digit" ใน OpenCV-Python (cv2) มันเป็นเพียงเพื่อการเรียนรู้ ฉันต้องการเรียนรู้ทั้งคุณสมบัติ KNearest และ SVM ใน OpenCV ฉันมี 100 ตัวอย่าง (เช่นภาพ) ของแต่ละหลัก ฉันต้องการฝึกกับพวกเขา มีตัวอย่างอยู่ letter_recog.pyที่มาพร้อมกับตัวอย่าง OpenCV แต่ฉันก็ยังนึกไม่ออกว่าจะใช้ยังไง ฉันไม่เข้าใจว่าตัวอย่างการตอบกลับคืออะไรและมันโหลดไฟล์ txt ในตอนแรกซึ่งฉันไม่เข้าใจก่อน ต่อมาในการค้นหาเล็กน้อยฉันสามารถหา letter_recognition.data ในตัวอย่าง cpp ฉันใช้มันและสร้างรหัสสำหรับ cv2.K ใกล้เคียงที่สุดในรูปแบบของ letter_recog.py (สำหรับการทดสอบ): import numpy as np import cv2 fn = 'letter-recognition.data' a = np.loadtxt(fn, np.float32, delimiter=',', …

6
วิธีลบข้อบกพร่องที่นูนออกมาในจตุรัส Sudoku?
ฉันกำลังทำโครงการสนุก: แก้ปัญหา Sudoku จากภาพอินพุตโดยใช้ OpenCV (เช่นใน Google goggles และอื่น ๆ ) และฉันก็ทำงานให้เสร็จ แต่ในที่สุดฉันก็พบปัญหาเล็กน้อยซึ่งมาที่นี่ ฉันเขียนโปรแกรมโดยใช้ Python API ของ OpenCV 2.3.1 ด้านล่างเป็นสิ่งที่ฉันทำ: อ่านภาพ ค้นหารูปทรง เลือกรายการที่มีพื้นที่สูงสุด (และยังเท่ากับสี่เหลี่ยม) ค้นหาจุดมุม เช่นรับด้านล่าง: ( โปรดสังเกตที่นี่ว่าเส้นสีเขียวนั้นสอดคล้องกับขอบเขตที่แท้จริงของ Sudoku อย่างถูกต้องดังนั้น Sudoku จึงสามารถวาร์ปได้อย่างถูกต้องตรวจสอบภาพถัดไป) บิดภาพเป็นสี่เหลี่ยมจัตุรัสที่สมบูรณ์แบบ เช่นรูปภาพ: ดำเนินการ OCR (ซึ่งฉันใช้วิธีที่ฉันให้ไว้ในSimple Digit OCR Recognition ใน OpenCV-Python ) และวิธีการทำงานได้ดี ปัญหา: ลองดูภาพนี้ การดำเนินการตามขั้นตอนที่ 4 ในภาพนี้จะให้ผลลัพธ์ด้านล่าง: เส้นสีแดงที่ลากเป็นเส้นชั้นความสูงดั้งเดิมซึ่งเป็นโครงร่างที่แท้จริงของขอบเขตซูโดกุ …

7
วิธีที่ง่ายและรวดเร็วในการเปรียบเทียบภาพสำหรับความคล้ายคลึงกัน
ฉันต้องการวิธีที่ง่ายและรวดเร็วในการเปรียบเทียบภาพสองภาพเพื่อความคล้ายคลึงกัน คือฉันต้องการได้รับมูลค่าสูงหากมีสิ่งเดียวกัน แต่อาจมีพื้นหลังแตกต่างกันเล็กน้อยและอาจถูกย้าย / ปรับขนาดด้วยพิกเซลไม่กี่ (มีรูปธรรมมากขึ้นหากเป็นสิ่งสำคัญ: รูปภาพหนึ่งเป็นไอคอนและอีกรูปภาพหนึ่งเป็นพื้นที่ย่อยของภาพหน้าจอและฉันต้องการทราบว่าพื้นที่ย่อยนั้นเป็นไอคอนหรือไม่) ฉันมีOpenCVในมือ แต่ก็ยังไม่คุ้นเคยกับมัน ความเป็นไปได้อย่างหนึ่งที่ฉันคิดเกี่ยวกับ: แบ่งภาพทั้งสองออกเป็น 10x10 เซลล์และสำหรับแต่ละ 100 เซลล์เหล่านั้นเปรียบเทียบฮิสโตแกรมสี จากนั้นฉันสามารถตั้งค่าขีด จำกัด ที่สร้างขึ้นบางส่วนและถ้าค่าที่ฉันได้รับนั้นสูงกว่าขีด จำกัด นั้นฉันถือว่ามันคล้ายกัน ฉันยังไม่ได้ลอง แต่ใช้งานได้ดี แต่ฉันคิดว่ามันจะดีพอ ภาพมีความคล้ายกันอยู่แล้ว (ในกรณีที่ใช้งาน) ดังนั้นฉันจึงสามารถใช้ค่าเกณฑ์ที่ค่อนข้างสูงได้ ฉันเดาว่ามีวิธีแก้ปัญหาที่เป็นไปได้อื่น ๆ อีกมากมายสำหรับสิ่งนี้ซึ่งจะทำงานได้มากหรือน้อย (เนื่องจากงานนั้นค่อนข้างง่ายเพราะฉันต้องการตรวจจับความเหมือนกันหากพวกมันคล้ายกันมากจริงๆ) คุณจะแนะนำอะไร มีคำถามที่เกี่ยวข้องมาก / คล้ายกันสองสามข้อเกี่ยวกับการขอรับลายเซ็น / ลายนิ้วมือ / แฮชจากรูปภาพ: OpenCV / SURF วิธีสร้างแฮชรูปภาพ / ลายนิ้วมือ / ลายเซ็นจากตัวอธิบาย? ภาพลายนิ้วมือเพื่อเปรียบเทียบความคล้ายคลึงกันของภาพจำนวนมาก การตรวจจับภาพที่ใกล้เคียงกัน OpenCV: ลายนิ้วมือภาพและเปรียบเทียบกับฐานข้อมูล …

6
OpenCV C ++ / Obj-C: การตรวจจับกระดาษ / การตรวจจับสี่เหลี่ยม
ฉันนำตัวอย่างการตรวจจับสี่เหลี่ยมจัตุรัส OpenCV ไปใช้ในแอปพลิเคชันทดสอบของฉันได้สำเร็จแล้ว แต่ตอนนี้ต้องกรองผลลัพธ์เนื่องจากมันค่อนข้างยุ่ง - หรือรหัสของฉันผิด ฉันสนใจในจุดสี่มุมของกระดาษเพื่อลดการเอียง (เช่นนั้น ) และการประมวลผลเพิ่มเติม ... อินพุตและเอาต์พุต: ภาพต้นฉบับ: คลิก รหัส: double angle( cv::Point pt1, cv::Point pt2, cv::Point pt0 ) { double dx1 = pt1.x - pt0.x; double dy1 = pt1.y - pt0.y; double dx2 = pt2.x - pt0.x; double dy2 = pt2.y - pt0.y; return …

11
การจดจำใบหน้าห้องสมุด [ปิด]
ปิด. คำถามนี้ไม่เป็นไปตามหลักเกณฑ์กองมากเกิน ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับ Stack Overflow ปิดให้บริการใน6 ปีที่ผ่านมา ปรับปรุงคำถามนี้ ฉันกำลังมองหาห้องสมุดจดจำใบหน้าฟรีสำหรับโครงการมหาวิทยาลัย ผมไม่ได้มองหาการตรวจหาใบหน้า ฉันกำลังมองหาการรับรู้ที่แท้จริง นั่นหมายถึงการค้นหารูปภาพที่มีใบหน้าหรือไลบรารีที่ระบุซึ่งคำนวณระยะทางระหว่างใบหน้าที่ระบุ ขณะนี้ฉันใช้OpenCVเพื่อตรวจจับใบหน้าและอัลกอริทึมEigenfaceคร่าวๆเพื่อการจดจำ แต่ฉันคิดว่าควรมีบางสิ่งบางอย่างที่นั่นพร้อมกับประสิทธิภาพที่ดีกว่าอัลกอริทึม Eigenface ที่เขียนขึ้นเอง ฉันไม่ได้พูดถึงความเร็วในการแสดงฉันกำลังมองหาห้องสมุดที่มีผลลัพธ์ที่ดีกว่าวิธี Eigenface อย่างง่าย ฉันดูจางๆ แต่ดูเหมือนว่าห้องสมุดจะไม่สามารถใช้ซ้ำได้สำหรับแอปพลิเคชันของฉันเอง ฉันมีความสุขกับห้องสมุดใน Python, Java, C ++, C หรืออะไรทำนองนั้น สิ่งที่ดีที่สุดก็คือถ้ามันสามารถทำงานบนเครื่อง Windows ได้เพราะฉันพึ่งใช้รหัสภายนอกของ Windows เท่านั้นในตอนนี้

7
จะตรวจสอบการติดตั้ง CuDNN ได้อย่างไร?
ฉันค้นหาสถานที่หลายแห่ง แต่สิ่งที่ฉันได้รับทั้งหมดคือวิธีติดตั้งไม่ใช่วิธีการตรวจสอบว่าติดตั้งแล้ว ฉันสามารถตรวจสอบว่าติดตั้งไดรเวอร์ NVIDIA แล้วและติดตั้ง CUDA แล้ว แต่ฉันไม่ทราบวิธีการตรวจสอบว่ามีการติดตั้ง CuDNN หรือไม่ ความช่วยเหลือจะได้รับการชื่นชมมากขอบคุณ! PS นี่คือสำหรับการใช้งาน caffe ขณะนี้ทุกอย่างทำงานโดยไม่เปิดใช้งาน CuDNN

7
วิธีการฝึกอบรมเครือข่ายประสาทเทียมเพื่อเล่น Diablo 2 โดยใช้การป้อนข้อมูลด้วยภาพ
ฉันกำลังพยายามรับ ANN เพื่อเล่นวิดีโอเกมและฉันหวังว่าจะได้รับความช่วยเหลือจากชุมชนที่ยอดเยี่ยมที่นี่ ฉันได้ตัดสินจาก Diablo 2 แล้วการเล่นเกมจึงเป็นแบบเรียลไทม์และจากมุมมองภาพวาดสามมิติโดยผู้เล่นสามารถควบคุมอวาตาร์ตัวเดียวที่กล้องมีศูนย์กลางอยู่ ในการสร้างสิ่งที่เป็นรูปธรรมภารกิจคือการได้รับคะแนนประสบการณ์ x โดยไม่ทำให้สุขภาพลดลงเหลือ 0 ซึ่งจะได้รับค่าประสบการณ์จากการฆ่ามอนสเตอร์ นี่คือตัวอย่างของการเล่นเกม: ตอนนี้เนื่องจากฉันต้องการให้เน็ตทำงานโดยอาศัยข้อมูลที่ได้รับจากพิกเซลบนหน้าจอเท่านั้นจึงต้องเรียนรู้การแสดงที่หลากหลายเพื่อที่จะเล่นได้อย่างมีประสิทธิภาพเนื่องจากสิ่งนี้น่าจะต้องการให้รู้ (โดยปริยาย) แบ่งโลกของเกมออกเป็นวัตถุและวิธีการโต้ตอบกับพวกเขา และข้อมูลทั้งหมดนี้จะต้องถูกสอนให้กับเครือข่ายอย่างใด ฉันทำไม่ได้สำหรับชีวิตของฉันคิดว่าจะฝึกเรื่องนี้อย่างไร ความคิดเดียวของฉันคือมีโปรแกรมแยกสิ่งที่มองเห็นสิ่งที่ดี / ไม่ดีโดยธรรมชาติในเกม (เช่นสุขภาพ, ทอง, ประสบการณ์) จากหน้าจอจากนั้นใช้สถิตินั้นในกระบวนการเรียนรู้การเสริมแรง ฉันคิดว่ามันจะเป็นส่วนหนึ่งของคำตอบ แต่ฉันคิดว่ามันจะไม่เพียงพอ มีเพียงนามธรรมในระดับที่มากเกินไปจากการป้อนข้อมูลแบบวิชวลไปจนถึงพฤติกรรมที่มุ่งเน้นเป้าหมายสำหรับข้อเสนอแนะที่ จำกัด เช่นนี้เพื่อฝึกฝนเน็ตภายในชีวิตของฉัน ดังนั้นคำถามของฉัน: คุณมีวิธีอื่นอย่างไรในการฝึกอบรมให้ทำอย่างน้อยส่วนหนึ่งของงานนี้ โดยไม่ต้องทำตัวอย่างหลายพันรายการ ขอทิศทางอีกเล็กน้อย: ฉันกำลังมองหาแหล่งการเรียนรู้การเสริมแรงอื่น ๆ และ / หรือวิธีการที่ไม่ได้รับการสนับสนุนสำหรับการดึงข้อมูลที่เป็นประโยชน์ในการตั้งค่านี้ หรืออัลกอริทึมการดูแลถ้าคุณสามารถคิดหาวิธีที่จะติดป้ายกำกับข้อมูลจากโลกของเกมโดยไม่ต้องติดป้ายกำกับด้วยตนเอง UPDATE (04/27/12): แปลกฉันยังคงทำงานนี้และดูเหมือนจะก้าวหน้า ความลับที่ใหญ่ที่สุดในการทำให้คอนโทรลเลอร์ ANN ทำงานได้คือใช้สถาปัตยกรรม ANN ที่ทันสมัยที่สุดที่เหมาะสมกับงาน ดังนั้นผมเคยใช้สุทธิความเชื่อลึกประกอบด้วยเอาเรื่องเงื่อนไข จำกัด …

8
การแปลง RGB เป็นระดับสีเทา / ความเข้ม
เมื่อแปลงจาก RGB เป็นโทนสีเทามีการกล่าวว่าควรใช้น้ำหนักเฉพาะสำหรับช่อง R, G และ B น้ำหนักเหล่านี้คือ 0.2989, 0.5870, 0.1140 ว่ากันว่าเหตุผลนี้คือการรับรู้ / ความรู้สึกของมนุษย์ที่แตกต่างกันต่อสีทั้งสามนี้ บางครั้งก็มีการกล่าวว่านี่คือค่าที่ใช้ในการคำนวณสัญญาณ NTSC อย่างไรก็ตามฉันไม่พบข้อมูลอ้างอิงที่ดีสำหรับเรื่องนี้บนเว็บ ที่มาของค่าเหล่านี้คืออะไร? ดูเพิ่มเติมคำถามก่อนหน้านี้: ที่นี่และที่นี่

2
ฉันจะแยกภาพ JPEG คุณภาพดีจากไฟล์วิดีโอ H264 ด้วย ffmpeg ได้อย่างไร
ขณะนี้ฉันกำลังใช้คำสั่งนี้เพื่อแยกภาพ: ffmpeg.exe -i 10fps.h264 -r 10 -f image2 10fps.h264_% 03d.jpeg แต่ฉันจะปรับปรุงคุณภาพของภาพ JPEG ได้อย่างไร?

3
“ การแบ่งส่วนความหมาย” คืออะไรเมื่อเทียบกับ“ การแบ่งส่วน” และ“ การติดป้ายกำกับฉาก”
การแบ่งส่วนความหมายเป็นเพียงความสุขใจหรือมีความแตกต่างระหว่าง "การแบ่งส่วนความหมาย" และ "การแบ่งส่วน" หรือไม่? "การติดป้ายกำกับฉาก" หรือ "การแยกวิเคราะห์ฉาก" แตกต่างกันอย่างไร อะไรคือความแตกต่างระหว่างการแบ่งส่วนระดับพิกเซลและพิกเซลตามลำดับ? (คำถามข้างเคียง: เมื่อคุณมีคำอธิบายประกอบที่ชาญฉลาดเกี่ยวกับพิกเซลแบบนี้คุณจะได้รับการตรวจจับวัตถุฟรีหรือยังมีบางอย่างที่ต้องทำ?) โปรดให้แหล่งที่มาสำหรับคำจำกัดความของคุณ แหล่งที่มาซึ่งใช้ "การแบ่งส่วนความหมาย" Jonathan Long, Evan Shelhamer, Trevor Darrell: เครือข่าย Convolutional ครบวงจรสำหรับการแบ่งส่วนความหมาย CVPR, 2015 และ PAMI, 2016 Hong, Seunghoon, Hyeonwoo Noh และ Bohyung Han: "Decoupled Deep Neural Network for Semi-supervised Semantic Segmentation" arXiv preprint arXiv: 1506.04924 , 2015 …

4
ฉันจะเลือกระหว่าง Tesseract และ OpenCV ได้อย่างไร [ปิด]
ปิด . คำถามนี้เป็นคำถามความคิดเห็นตาม ขณะนี้ยังไม่ยอมรับคำตอบ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้สามารถตอบพร้อมข้อเท็จจริงและการอ้างอิงได้โดยแก้ไขโพสต์นี้ ปิดให้บริการเมื่อปีที่แล้ว ปรับปรุงคำถามนี้ ฉันเพิ่งมาข้ามTesseractและOpenCV ดูเหมือนว่า Tesseract เป็นเอ็นจิ้น OCR เต็มรูปแบบและ OpenCV สามารถใช้เป็นเฟรมเวิร์กเพื่อสร้างแอปพลิเคชัน / บริการ OCR ฉันลองใช้ Tesseract กับภาพบางภาพและความแม่นยำของมันดูดี ต่อมาฉันเจอบทช่วยสอนง่ายๆเกี่ยวกับการใช้ OpenCV เพื่อดำเนินการ OCR โดยใช้ Python และรู้สึกประทับใจ ในไม่กี่นาทีฉันก็ฝึกระบบเสร็จแล้วและความแม่นยำก็ดี แต่แน่นอนว่าการใช้แนวทางนี้หมายความว่าฉันต้องฝึกระบบของฉันอย่างครอบคลุมโดยใช้ชุดการฝึกอบรมขนาดใหญ่ คำถามเฉพาะของฉันมีดังต่อไปนี้: เราจะเลือกระหว่าง Tesseract และการใช้ OpenCV เพื่อสร้างแอป OCR ที่กำหนดเองได้อย่างไร มีชุดข้อมูลการฝึกอบรมสำหรับ Tesseract สำหรับภาษาต่างๆ OpenCV มีบางอย่างที่คล้ายกันเพื่อที่ฉันจะได้ไม่ต้องเริ่มต้นใหม่เพื่อให้ได้ OCR หรือไม่ อันไหนดีกว่าสำหรับแอปพลิเคชันเชิงพาณิชย์ที่อยากเป็น ข้อเสนอแนะใด ๆ ?


2
ตรวจจับหลายสี่เหลี่ยมในภาพ
ฉันพยายามตรวจจับจำนวนท่อในภาพนี้ สำหรับสิ่งนี้ฉันใช้การตรวจจับที่ใช้ OpenCV และ Python จากคำตอบที่มีอยู่สำหรับคำถามที่คล้ายกันฉันสามารถทำตามขั้นตอนต่อไปนี้ เปิดภาพ กรองมัน ใช้การตรวจจับขอบ ใช้รูปทรง ตรวจสอบการนับ จำนวนท่อทั้งหมดคือ~ 909เมื่อเรานับให้ด้วยตนเองหรือรับ 4 หลังจากใช้ตัวกรอง import cv2 import matplotlib.pyplot as plt import numpy as np img = cv2.imread('images/input-rectpipe-1.jpg') blur_hor = cv2.filter2D(img[:, :, 0], cv2.CV_32F, kernel=np.ones((11,1,1), np.float32)/11.0, borderType=cv2.BORDER_CONSTANT) blur_vert = cv2.filter2D(img[:, :, 0], cv2.CV_32F, kernel=np.ones((1,11,1), np.float32)/11.0, borderType=cv2.BORDER_CONSTANT) mask = ((img[:,:,0]>blur_hor*1.2) | …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.