คำถามติดแท็ก image-processing

รูปแบบของการประมวลผลสัญญาณโดยที่อินพุตเป็นรูปภาพ โดยปกติจะถือว่าภาพดิจิทัลเป็นสัญญาณสองมิติ (หรือหลายมิติ) การประมวลผลนี้อาจรวมถึงการคืนค่าและการปรับปรุงภาพ (โดยเฉพาะการจดจำรูปแบบและการฉายภาพ)

8
การตรวจจับใบหน้าที่กำหนดในฐานข้อมูลของภาพใบหน้า
ฉันกำลังทำงานในโครงการเล็ก ๆ ที่เกี่ยวข้องกับใบหน้าของผู้ใช้ Twitter ผ่านรูปภาพโปรไฟล์ของพวกเขา ปัญหาที่ฉันพบคือหลังจากที่ฉันกรองออกทั้งหมดยกเว้นภาพที่เป็นภาพถ่ายแนวตั้งที่ชัดเจนผู้ใช้ทวิตเตอร์จำนวนเล็กน้อย แต่มีนัยสำคัญใช้รูปภาพของ Justin Bieber เป็นรูปภาพโปรไฟล์ของพวกเขา เพื่อที่จะกรองพวกเขาฉันจะบอกโปรแกรมได้อย่างไรว่ารูปภาพนั้นเป็นของ Justin Bieber?

4
เหตุใดจึงทำให้ภาพเป็นปกติด้วยการลบภาพของชุดข้อมูลหมายความว่าแทนที่จะเป็นรูปภาพปัจจุบันหมายถึงการเรียนรู้อย่างลึกซึ้ง?
มีความแตกต่างบางอย่างเกี่ยวกับวิธีทำให้รูปภาพเป็นปกติ แต่ส่วนใหญ่ดูเหมือนจะใช้สองวิธีนี้: ลบค่าเฉลี่ยต่อแชนเนลที่คำนวณเหนือรูปภาพทั้งหมด (เช่น VGG_ILSVRC_16_layers ) ลบตามพิกเซล / ช่องคำนวณเหนือภาพทั้งหมด (เช่นCNN_S , ดูเครือข่ายอ้างอิงของ Caffe ด้วย ) วิธีธรรมชาติของฉันจะทำให้ภาพแต่ละภาพเป็นปกติ รูปภาพที่ถ่ายในเวลากลางวันจะทำให้เซลล์ประสาทยิงมากกว่าภาพในเวลากลางคืนและในขณะที่มันอาจแจ้งให้เราทราบถึงเวลาที่เรามักจะสนใจเกี่ยวกับคุณสมบัติที่น่าสนใจอื่น ๆ ในขอบ ฯลฯ Pierre Sermanetอ้างถึงใน 3.3.3 ว่าการฟื้นฟูความคมชัดในท้องถิ่นนั้นน่าจะเป็นแบบต่อภาพ แต่ฉันไม่ได้เจอสิ่งนี้ในตัวอย่าง / แบบฝึกหัดที่ฉันเคยเห็น ฉันเคยเห็นคำถาม Quora ที่น่าสนใจและโพสต์ของ Xiu-Shen Weiแต่พวกเขาดูเหมือนจะไม่สนับสนุนแนวทางทั้งสองข้างต้น ฉันพลาดอะไรไปแน่ ๆ ? นี่เป็นปัญหาการปรับสีให้เป็นมาตรฐานหรือมีกระดาษที่อธิบายว่าทำไมคนจำนวนมากถึงใช้วิธีนี้?

1
แบบจำลองการถดถอยโลจิสติกอย่างง่ายบรรลุความแม่นยำในการจำแนกประเภท 92% สำหรับ MNIST อย่างไร
แม้ว่าภาพทั้งหมดในชุดข้อมูล MNIST จะอยู่กึ่งกลาง แต่มีขนาดใกล้เคียงกันและไม่มีการหมุน แต่ก็มีการเปลี่ยนแปลงของลายมือที่สำคัญที่ไขปริศนาว่าแบบจำลองเชิงเส้นบรรลุความแม่นยำในการจำแนกสูงอย่างไร เท่าที่ฉันสามารถมองเห็นได้เนื่องจากความแปรปรวนของลายมือที่สำคัญตัวเลขควรแยกกันไม่ออกเป็นเส้นตรงในพื้นที่มิติ 784 กล่าวคือควรมีความซับซ้อนเล็กน้อย (แม้ว่าจะไม่ซับซ้อนมาก) ไม่ใช่ขอบเขตเชิงเส้นที่แยกตัวเลขที่แตกต่างกัน คล้ายกับตัวอย่างอ้างถึงเป็นอย่างดีซึ่งคลาสบวกและลบไม่สามารถคั่นด้วยตัวแยกประเภทเชิงเส้นใด ๆ ดูเหมือนจะทำให้ฉันงงงวยว่าการถดถอยโลจิสติกหลายระดับนั้นให้ความแม่นยำสูงด้วยคุณลักษณะเชิงเส้นอย่างสิ้นเชิงได้อย่างไร (ไม่มีคุณสมบัติพหุนาม)XO RXORXOR ยกตัวอย่างเช่นเมื่อกำหนดพิกเซลในภาพความแตกต่างของตัวเลขและเขียนด้วยลายมือจะทำให้พิกเซลนั้นสว่างหรือไม่ ดังนั้นกับชุดของน้ำหนักเรียนรู้แต่ละพิกเซลสามารถทำให้ดูเป็นหลักเป็นเช่นเดียวกับ3เท่านั้นที่มีการรวมกันของค่าพิกเซลมันควรจะเป็นไปได้ที่จะบอกว่าไม่ว่าจะเป็นหลักเป็นหรือ3สิ่งนี้เป็นจริงสำหรับคู่หลักส่วนใหญ่ ดังนั้นการถดถอยแบบลอจิสติกเป็นอย่างไรซึ่งสุ่มเลือกการตัดสินใจของแต่ละพิกเซลอย่างอิสระ (โดยไม่พิจารณาการพึ่งพาระหว่างพิกเซลใด ๆ เลย) สามารถบรรลุความแม่นยำสูงได้222333222333222333 ฉันรู้ว่าฉันผิดที่ใดที่หนึ่งหรือแค่ประเมินความแปรปรวนของภาพมากเกินไป อย่างไรก็ตามมันจะดีมากถ้ามีคนช่วยฉันด้วยสัญชาตญาณว่าตัวเลขจะแยกออกเป็นเส้นตรงได้อย่างไร

2
อะไรคือความแตกต่างระหว่าง ZCA กับไวท์เทนนิ่ง PCA?
ฉันสับสนเกี่ยวกับการฟอกสีฟันแบบ ZCA และการฟอกสีฟันปกติ (ซึ่งได้มาจากการหารส่วนประกอบหลักด้วยค่ารากที่สองของค่าลักษณะ PCA) เท่าที่ฉันรู้, xZCAwhite=UxPCAwhite,xZCAwhite=UxPCAwhite,\mathbf x_\mathrm{ZCAwhite} = \mathbf U \mathbf x_\mathrm{PCAwhite},ที่เป็น PCA eigenvectorsUU\mathbf U ZCA Whitening มีประโยชน์อะไรบ้าง? อะไรคือความแตกต่างระหว่างการฟอกสีฟันปกติและการฟอกสีฟันแบบ ZCA?

2
ImageNet: อัตราข้อผิดพลาด top-1 และ top-5 คืออะไร?
ในเอกสารการจัดประเภท ImageNet อัตราความผิดพลาดอันดับ 1 และ top-5 เป็นหน่วยที่สำคัญสำหรับการวัดความสำเร็จของการแก้ปัญหาบางอย่าง แต่อัตราข้อผิดพลาดเหล่านั้นคืออะไร ในการจัดประเภท ImageNet ด้วย Deep Convolutional Networks โดย Krizhevsky et al. ทุกโซลูชันที่ใช้ CNN เดียว (หน้า 7) ไม่มีอัตราข้อผิดพลาด 5 อันดับแรกในขณะที่โซลูชันที่มี 5 และ 7 CNN มี (และอัตราข้อผิดพลาดสำหรับ 7 CNN นั้นดีกว่า 5 CNNs) นี่หมายความว่าอัตราความผิดพลาดอันดับ 1 เป็นอัตราข้อผิดพลาดเดียวที่ดีที่สุดสำหรับ CNN เดียวหรือไม่ อัตราข้อผิดพลาด 5 อันดับแรกเป็นเพียงอัตราความผิดพลาดสะสมของ CNN ห้าแห่งหรือไม่

3
วิธีที่ถูกต้องที่สุดในการกำหนดสีของวัตถุคืออะไร?
ฉันเขียนโปรแกรมคอมพิวเตอร์ที่สามารถตรวจจับเหรียญในรูปภาพนิ่ง (.jpeg, .png ฯลฯ ) โดยใช้เทคนิคมาตรฐานสำหรับการมองเห็นคอมพิวเตอร์ (Gaussian Blur, thresholding, Hough-Transform เป็นต้น) ด้วยการใช้อัตราส่วนของเหรียญที่หยิบขึ้นมาจากภาพที่กำหนดฉันสามารถสร้างด้วยความมั่นใจที่ดีว่าเหรียญใด อย่างไรก็ตามฉันต้องการเพิ่มระดับความมั่นใจของฉันและกำหนดด้วยว่าเหรียญที่ฉันอนุมานว่าเป็นประเภท A (จากอัตราส่วนรัศมี) ก็เป็นของ colo ที่ถูกต้องเช่นกัน ปัญหาคือว่าสำหรับเหรียญอังกฤษและคณะ (ทองแดง, เงิน, ทองคำ) สีที่เกี่ยวข้อง (โดยเฉพาะทองแดงกับทอง) มีความคล้ายคลึงกันมาก ฉันมีงานประจำที่แยกสีค่าเฉลี่ยของเหรียญที่กำหนดในรูปของ 'color-space' RedGreenBlue (RGB) และรูทีนการแปลงสีนี้เป็น HueSaturationBrightness (HSB หรือ HSV) 'color-space' RGB ไม่ค่อยดีในการพยายามแยกแยะความแตกต่างระหว่างสีเหรียญสามสี (ดูตัวอย่าง [พื้นฐาน] ที่แนบมา) ฉันมีช่วงต่อไปนี้และค่าทั่วไปสำหรับสีของเหรียญประเภทต่างๆ: หมายเหตุ: ค่าทั่วไปที่นี่คือค่าที่เลือกโดยใช้ 'พิกเซลที่ชาญฉลาด' หมายถึงภาพจริง **Copper RGB/HSB:** typicalRGB = (153, …

6
วิธีการประเมินความคล้ายคลึงกันของสองฮิสโทแกรมหรือไม่
ให้สองฮิสโตแกรมเราจะประเมินได้อย่างไรว่าพวกมันคล้ายกันหรือไม่ มันเพียงพอแล้วหรือไม่ที่จะดูสองฮิสโทแกรม การแมปแบบหนึ่งต่อหนึ่งอย่างง่ายมีปัญหาว่าหากฮิสโตแกรมแตกต่างกันเล็กน้อยและเปลี่ยนไปเล็กน้อยจากนั้นเราจะไม่ได้ผลลัพธ์ที่ต้องการ ข้อเสนอแนะใด ๆ


6
โครงข่ายใยประสาทรับรู้ภาพได้อย่างไร
คำถามนี้ถูกโยกย้ายจาก Stack Overflow เพราะสามารถตอบได้ในการตรวจสอบข้าม อพยพ 7 ปีที่ผ่านมา ฉันพยายามที่จะเรียนรู้ว่า Neural Network ทำงานอย่างไรกับการจดจำภาพ ฉันได้เห็นตัวอย่างและสับสนมากขึ้น ในตัวอย่างของการจดจำตัวอักษรของภาพขนาด 20x20 ค่าของแต่ละพิกเซลจะกลายเป็นเลเยอร์อินพุต ดังนั้น 400 เซลล์ประสาท จากนั้นเป็นชั้นที่ซ่อนอยู่ของเซลล์ประสาทและเซลล์ประสาทเอาท์พุท 26 จากนั้นฝึกเครือข่ายและใช้งานได้ไม่สมบูรณ์แบบ สิ่งที่ทำให้ฉันสับสนเกี่ยวกับ Neural Network คือมันเรียนรู้เกี่ยวกับสิ่งที่อยู่ในภาพได้อย่างไร คุณไม่จำเป็นต้องทำการกำหนดใหม่หรือการแบ่งส่วนหรือการวัดใด ๆ เครือข่ายเรียนรู้ที่จะเปรียบเทียบภาพและรับรู้ ตอนนี้มันเป็นเวทย์มนตร์สำหรับฉันแล้ว ที่จะเริ่มเรียนรู้เครือข่ายประสาท

3
รูปแบบของภาพ (png, jpg, gif) มีผลต่อวิธีการฝึกอบรมการรับรู้ภาพของโครงข่ายประสาทหรือไม่?
ฉันทราบว่ามีความก้าวหน้ามากมายเกี่ยวกับการจดจำรูปภาพการจำแนกภาพและอื่น ๆ ด้วยอวนประสาทที่ซับซ้อน แต่ถ้าฉันฝึกเน็ตให้บอกว่าภาพ PNG มันจะใช้ได้กับภาพที่เข้ารหัสเท่านั้นเหรอ? คุณสมบัติรูปภาพอื่น ๆมีผลกับสิ่งนี้อย่างไร (ช่องอัลฟาการพัวพันความละเอียด ฯลฯ )

4
เอนโทรปีของภาพ
ข้อมูล / ฟิสิกส์ - ทฤษฎีที่ถูกต้องที่สุดในการคำนวณเอนโทรปีของภาพคืออะไร? ตอนนี้ฉันไม่สนใจประสิทธิภาพการคำนวณฉันต้องการให้มันถูกต้องตามหลักเหตุผลเท่าที่จะทำได้ ให้เริ่มต้นด้วยภาพระดับสีเทา วิธีการหนึ่งที่ใช้งานง่ายคือการพิจารณาภาพเป็นถุงพิกเซลและคำนวณ ที่คือจำนวนของระดับสีเทาและเป็นความน่าจะเป็นที่เกี่ยวข้องกับระดับสีเทาkK p k kH= - ∑kพีkl o g2( หน้าk)H=−∑kpklog2(pk) H = - \sum_k p_k log_2(p_k) KKKพีkpkp_kkkk มีสองปัญหาเกี่ยวกับคำนิยามนี้: มันใช้งานได้กับวงดนตรีหนึ่งวง (เช่นระดับสีเทา) แต่จะขยายวงกว้างอย่างไรในวิธีที่ถูกต้องทางสถิติไปยังวงดนตรีหลายวง? ตัวอย่างเช่นสำหรับ 2 แบนด์ควรมีหนึ่งฐานตั้งอยู่บนและทำให้ PMF ใช้หรือไม่ หากมีวงดนตรีหลายวง( >> 2) ดังนั้นซึ่งดูเหมือนว่าผิดP ( X 1 = x 1 , X 2 = x 2 ) …

4
เปรียบเทียบฮิสโตแกรมสองภาพโดยใช้ระยะทาง Chi-Square
ฉันต้องการเปรียบเทียบภาพใบหน้าสองภาพ ฉันคำนวณ LBP-histograms ของพวกเขา ดังนั้นตอนนี้ฉันต้องเปรียบเทียบฮิสโตแกรมสองตัวนี้และรับบางสิ่งที่จะบอกว่าฮิสโทแกรมเหล่านี้เท่ากัน (0 - 100%) มีหลายวิธีในการแก้ปัญหานี้ แต่ผู้เขียนของวิธี LBP เน้น (คำอธิบายใบหน้าด้วยรูปแบบไบนารีท้องถิ่น: การประยุกต์ใช้การจดจำใบหน้า 2004) ที่ Chi-Square ระยะทางดีกว่าการแยกฮิสโทแกรมและสถิติความน่าจะเป็น ผู้เขียนยังแสดงสูตรของระยะทาง Chi-Square: ∑i=1n(xi−yi)2(xi+yi)∑i=1n(xi−yi)2(xi+yi) \sum_{i=1}^{n} \cfrac{(x_i - y_i)^2} {(x_i + y_i)} โดยที่คือจำนวนของถังขยะคือค่าของถังขยะแรกคือค่าของถังขยะที่สองx i y i innnxixix_iyiyiy_i ในงานวิจัยบางชิ้น (ตัวอย่างเช่นตระกูลระยะทางฮิสโตแกรม Quadratic-Chi) ฉันเห็นว่าสูตรของระยะทาง Chi-Square คือ: 12∑i=1n(xi−yi)2(xi+yi)12∑i=1n(xi−yi)2(xi+yi) \cfrac{1}{2}\sum_{i=1}^{n} \cfrac{(x_i - y_i)^2} {(x_i + y_i)} และมีhttp://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htmฉันเห็นสูตรของระยะทาง Chi-Square นั่นคือ: …

4
จะคำนวณจำนวนฟีเจอร์ตามความละเอียดของภาพได้อย่างไร?
เพิ่งครอบคลุมสมมุติฐานของ Neural Netowrks ที่ไม่ใช่เชิงเส้นของ Andrew Ng และเรามีคำถามแบบปรนัยสำหรับกำหนดจำนวนของคุณสมบัติสำหรับภาพความละเอียด100x100ของความเข้มระดับgrescale และคำตอบคือ 50 ล้าน, x10 755510710710^7 อย่างไรก็ตามก่อนหน้านี้สำหรับรูปภาพขนาด 50 x 50 พิกเซลสีเทา จำนวนคุณสมบัติคือ 50x50 (2500) ทำไมมันจะเป็น xแทน ?10 7 10 , 00055510710710^710,00010,00010,000 อย่างไรก็ตามเขาพูดว่ารวมถึงคำที่เป็นกำลังสองทั้งหมด ( xixjxixjx_ix_j ) เป็นคุณสมบัติ สมมติว่าคุณกำลังเรียนรู้ที่จะรับรู้รถยนต์จากภาพ 100 × 100 พิกเซล (โทนสีเทาไม่ใช่ RGB) ปล่อยให้คุณสมบัติเป็นค่าความเข้มของพิกเซล หากคุณฝึกการถดถอยโลจิสติกรวมถึงเงื่อนไขกำลังสองทั้งหมด ( ) เป็นฟีเจอร์คุณจะมีฟีเจอร์จำนวนเท่าใดxixjxixjx_ix_j และในสไลด์ก่อนหน้าเกี่ยวกับ 100x100 นั้นฟีเจอร์สมการกำลังสอง ( x ) …

2
อะไรคือความแตกต่างระหว่างอัลกอริทึม Baum-Welch และการฝึกอบรม Viterbi?
ฉันกำลังใช้การฝึกอบรม Viterbiสำหรับปัญหาการแบ่งส่วนภาพ ฉันต้องการทราบว่าข้อดี / ข้อเสียของการใช้อัลกอริทึม Baum-Welch แทนการฝึกอบรม Viterbi

1
ฝึกพื้นฐานการสุ่มมาร์คอฟสำหรับการจำแนกพิกเซลในรูปภาพ
ฉันพยายามเรียนรู้วิธีใช้ Markov Random Fields เพื่อแบ่งส่วนพื้นที่ในรูปภาพ ฉันไม่เข้าใจพารามิเตอร์บางอย่างใน MRF หรือเหตุใดการเพิ่มความคาดหวังสูงสุดที่ฉันดำเนินการจึงล้มเหลวในการรวมเข้ากับโซลูชันในบางครั้ง เริ่มต้นจากทฤษฎีบทของเบย์ฉันมีp(x|y)=p(y|x)p(x)/p(y)p(x|y)=p(y|x)p(x)/p(y)p(x|y) = p(y|x) p(x) / p(y)โดยที่yyyคือค่าระดับสีเทาของพิกเซลและxxxเป็นป้ายกำกับคลาส ฉันเลือกที่จะใช้การแจกแจงแบบเกาส์สำหรับp(y|x)p(y|x)p(y|x)ในขณะที่p(x)p(x)p(x)เป็นแบบจำลองโดยใช้ MRF ฉันใช้ฟังก์ชันที่เป็นไปได้สำหรับ MRF ที่มีทั้งศักยภาพ clique pairwise และค่าที่เป็นไปได้สำหรับเลเบลคลาสของพิกเซลที่ถูกจัดประเภท ค่าพิกเซลที่อาจเกิดขึ้นเพียงครั้งเดียวเป็นบางส่วนคงที่αα\alphaที่ขึ้นอยู่บนฉลากระดับxxxxฟังก์ชันที่มีโอกาสเป็นคู่ได้รับการประเมินสำหรับเพื่อนบ้านที่เชื่อมต่อกัน 4 รายการและส่งกลับค่าบวกββ\betaหากเพื่อนบ้านมีป้ายกำกับคลาสเดียวกันกับพิกเซลนี้และ−β−β-\betaหากป้ายกำกับแตกต่างกัน ที่จุดในการขยายความคาดหวังสูงสุดที่ฉันต้องค้นหาค่าของα(x)α(x)\alpha(x)และββ\betaที่เพิ่มค่าที่คาดหวังของความเป็นไปได้สูงสุดที่บันทึกไว้ฉันใช้วิธีการหาค่าเหมาะที่สุดเชิงตัวเลข พบว่าค่าของββ\betaจะกลายเป็นลบจะเพิ่มขึ้นอย่างมากและการวนซ้ำหรือสองครั้งหลังจากนั้นภาพทั้งหมดจะถูกกำหนดให้กับหนึ่งป้ายเท่านั้นเท่านั้น (พื้นหลัง: การกำหนดป้ายชื่อชั้นเรียนโดยใช้พารามิเตอร์ MRF นั้นใช้ ICM) หากฉันลบอัลฟ่านั่นคือการใช้ศักยภาพของกลุ่มคู่เท่านั้นแล้วการเพิ่มความคาดหวังจะทำได้ดีαα\alpha โปรดอธิบายจุดประสงค์ของอัลฟ่าสำหรับแต่ละชั้นเรียนคืออะไร? ฉันคิดว่าพวกเขาจะเกี่ยวข้องกับจำนวนของคลาสนั้นที่ปรากฏในรูปภาพ แต่ไม่ปรากฏ เมื่อฉันได้ MRF ทำงานด้วยศักยภาพแบบคู่เท่านั้นฉันเปรียบเทียบมันกับแบบจำลองส่วนผสมแบบเกาส์ตรงไปข้างหน้าและพบว่าพวกมันให้ผลลัพธ์ที่เหมือนกันเกือบทั้งหมด ฉันคาดหวังว่าศักยภาพในการจับคู่จะทำให้ชั้นเรียนราบรื่นขึ้นเล็กน้อย แต่นั่นไม่ได้เกิดขึ้น กรุณาแนะนำที่ฉันผิด

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.