คำถามติดแท็ก image-processing

รูปแบบของการประมวลผลสัญญาณโดยที่อินพุตเป็นรูปภาพ โดยปกติจะถือว่าภาพดิจิทัลเป็นสัญญาณสองมิติ (หรือหลายมิติ) การประมวลผลนี้อาจรวมถึงการคืนค่าและการปรับปรุงภาพ (โดยเฉพาะการจดจำรูปแบบและการฉายภาพ)

1
เลเยอร์คอขวดหมายถึงอะไรในเครือข่ายประสาทเทียม
ฉันกำลังอ่านกระดาษFaceNetและในย่อหน้าที่ 3 ของบทนำกล่าวว่า: วิธีการจดจำใบหน้าก่อนหน้านี้ที่ใช้เครือข่ายชั้นลึกใช้เลเยอร์การจัดหมวดหมู่ที่ได้รับการฝึกฝนผ่านชุดของใบหน้าที่รู้จักกันแล้วนำเลเยอร์คอขวดที่อยู่ตรงกลางมาเป็นตัวแทนที่ใช้ในการสรุปการจดจำนอกเหนือจาก ฉันสงสัยว่าพวกเขาหมายถึงอะไรโดยเลเยอร์คอขวดกลาง?

1
วิธีการจัดกลุ่ม U-Matrix อัตโนมัติ?
หลังจากฝึกแผนที่การจัดระเบียบตนเองแล้วสามารถคำนวณU-Matrixได้ มีเครื่องมือบางอย่างที่จะมองเห็นมันด้วยตนเองและระบุกลุ่ม แต่ฉันสงสัยว่ามีอัลกอริทึมใด ๆ ที่จะทำกระบวนการนี้ด้วยวิธีอัตโนมัติ (เช่นไม่มีคนดูรูปเพื่อระบุกลุ่ม) มีวิธีการทำเช่นนี้? ฉันกำลังเขียนรหัสของฉันในอาร์ฉันไม่พบสิ่งใดบนอินเทอร์เน็ตดังนั้นอาจมีคนช่วยฉันที่นี่

2
ตรวจจับรูปแบบวงกลมในข้อมูลคลาวด์แบบจุด
สำหรับอัลกอริธึมการสร้างโวลุ่มใหม่บางตัวที่ฉันกำลังทำอยู่ฉันต้องตรวจจับจำนวนรูปแบบวงกลมตามอำเภอใจในข้อมูลจุดสามมิติ รูปแบบที่สามารถมุ่งเน้นในพื้นที่โดยพลการและสันนิษฐานว่าจะโกหก (แม้ว่าจะไม่สมบูรณ์) ในเครื่องบิน 2d บาง ๆ นี่คือตัวอย่างที่มีวงกลมสองวงในระนาบเดียวกัน (แม้ว่าจะจำได้ว่านี่คือพื้นที่ 3 มิติ): ฉันพยายามหลายวิธี .. วิธีที่ง่ายที่สุด (แต่วิธีที่ดีที่สุดจนถึงตอนนี้) คือการจัดกลุ่มตามชุดกราฟกราฟเพื่อนบ้านที่อยู่ใกล้ที่สุด วิธีนี้ใช้งานได้ดีพอสมควรเมื่อรูปแบบอยู่ห่างกัน แต่น้อยกว่าเมื่อใช้กับแวดวงอย่างในตัวอย่างให้ใกล้กันมาก ฉันลองใช้วิธี K แต่ไม่ได้ผลดี: ฉันคิดว่าการจัดจุดแบบวงกลมอาจไม่เหมาะสำหรับมัน นอกจากนี้ฉันมีปัญหาเพิ่มเติมที่ไม่ทราบล่วงหน้าถึงคุณค่าของเค ฉันลองวิธีที่ซับซ้อนมากขึ้นโดยใช้การตรวจจับรอบในกราฟเพื่อนบ้านที่ใกล้เคียงที่สุด แต่สิ่งที่ฉันได้รับคือความเปราะบางหรือมีราคาแพงมาก ฉันยังอ่านเกี่ยวกับหัวข้อที่เกี่ยวข้องจำนวนมาก (การแปลง Hough เป็นต้น) แต่ดูเหมือนว่าไม่มีสิ่งใดที่จะนำไปใช้ได้อย่างสมบูรณ์แบบในบริบทเฉพาะนี้ ความคิดหรือแรงบันดาลใจใด ๆ ที่จะได้รับการชื่นชม

3
ฟังก์ชั่นการสูญเสียสำหรับการแบ่งส่วนความหมาย
ขอโทษสำหรับการใช้ผิดข้อกำหนดทางเทคนิค ฉันกำลังทำงานในโครงการของการแบ่งส่วนความหมายผ่านเครือข่ายประสาทเทียม (CNNs); พยายามใช้สถาปัตยกรรมประเภท Encoder-Decoder ดังนั้นเอาต์พุตจะมีขนาดเท่ากับอินพุต คุณออกแบบฉลากอย่างไร สิ่งที่ฟังก์ชั่นการสูญเสียควรใช้? โดยเฉพาะอย่างยิ่งในสถานการณ์ของความไม่สมดุลของคลาสหนัก (แต่อัตราส่วนระหว่างคลาสเป็นตัวแปรจากรูปภาพต่อภาพ) ปัญหาเกี่ยวข้องกับสองคลาส (วัตถุที่น่าสนใจและพื้นหลัง) ฉันกำลังใช้ Keras กับแบ็กเอนด์เทนโฟลว์ จนถึงตอนนี้ฉันกำลังออกแบบเอาท์พุทที่คาดหวังว่าจะมีขนาดเท่ากับภาพอินพุตโดยใช้การติดฉลากแบบพิกเซล เลเยอร์สุดท้ายของแบบจำลองมีการเปิดใช้งาน softmax อย่างใดอย่างหนึ่ง (สำหรับ 2 คลาส) หรือการเปิดใช้งาน sigmoid (เพื่อแสดงความน่าจะเป็นที่พิกเซลนั้นอยู่ในคลาสของออบเจ็กต์) ฉันมีปัญหาในการออกแบบฟังก์ชั่นวัตถุประสงค์ที่เหมาะสมสำหรับงานประเภท: function(y_pred,y_true), ในข้อตกลงกับKeras โปรดพยายามระบุขนาดของเทนเซอร์ที่เกี่ยวข้อง (อินพุต / เอาท์พุตของโมเดล) ความคิดและข้อเสนอแนะใด ๆ ที่ชื่นชมมาก ขอบคุณ !

1
รูปแบบการเรียนรู้แบบลึกใดที่สามารถจำแนกหมวดหมู่ที่ไม่ได้เกิดร่วมกัน
ตัวอย่าง: ฉันมีประโยคในรายละเอียดงาน: "วิศวกรอาวุโสของ Java ในสหราชอาณาจักร" ฉันต้องการที่จะใช้รูปแบบการเรียนรู้ที่ลึกที่จะคาดการณ์ว่ามันเป็น 2 ประเภทและEnglish IT jobsถ้าฉันใช้รูปแบบการจำแนกแบบดั้งเดิมมันสามารถทำนายได้เพียง 1 ฉลากที่มีsoftmaxฟังก์ชั่นที่ชั้นสุดท้าย ดังนั้นฉันสามารถใช้โครงข่ายประสาทเทียม 2 แบบในการทำนาย "ใช่" / "ไม่" กับทั้งสองหมวดหมู่ แต่ถ้าเรามีหมวดหมู่มากขึ้นมันก็แพงเกินไป ดังนั้นเราจึงมีรูปแบบการเรียนรู้หรือการเรียนรู้ด้วยเครื่องเพื่อคาดการณ์ 2 หมวดหมู่ขึ้นไปพร้อมกันหรือไม่ "แก้ไข": ด้วย 3 ป้ายกำกับโดยวิธีดั้งเดิมมันจะถูกเข้ารหัสโดย [1,0,0] แต่ในกรณีของฉันมันจะถูกเข้ารหัสโดย [1,1,0] หรือ [1,1,1] ตัวอย่าง: หากเรามี 3 ป้ายกำกับและประโยคอาจเหมาะกับป้ายกำกับเหล่านี้ทั้งหมด ดังนั้นถ้าผลลัพธ์จากฟังก์ชัน softmax คือ [0.45, 0.35, 0.2] เราควรแบ่งมันออกเป็น 3 label หรือ 2 label หรืออาจเป็นหนึ่ง? ปัญหาหลักเมื่อเราทำคือ: …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
วิธีการวัดจำนวนคนในภาพของฝูงชนหรือไม่?
พื้นหลัง : อิสราเอล (และตะวันออกกลางโดยทั่วไป) เต็มไปด้วยการประท้วง ฉันอยากรู้อยากเห็นเมื่อได้รับภาพเพื่อประเมินจำนวนคนที่อยู่ในภาพนั้น (มักจะเป็นภาพของฝูงชนขนาดใหญ่) การสร้างแบบจำลองใดที่สามารถเสนอวิธีแก้ไขปัญหานี้ได้บ้าง (และแน่นอนว่ามันสามารถทำได้กับแพ็คเกจโอเพนซอร์ซใด ๆ Say, R?)
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.