คำถามติดแท็ก computer-vision

คำถามที่เกี่ยวข้องกับการแสดงภาพการแบ่งกลุ่มการจัดประเภทวัตถุภาพและอัลกอริทึมการประมวลผลภาพโดยทั่วไป

7
การอ้างอิงเครือข่ายนิวรัล (ตำรา, หลักสูตรออนไลน์) สำหรับผู้เริ่มต้น
ฉันต้องการเรียนรู้โครงข่ายประสาท ฉันเป็นนักภาษาศาสตร์คอมพิวเตอร์ ฉันรู้วิธีการเรียนรู้ด้วยเครื่องเชิงสถิติและสามารถเขียนโค้ดใน Python ได้ ฉันกำลังมองหาที่จะเริ่มต้นด้วยแนวคิดของมันและรู้ว่าหนึ่งหรือสองรูปแบบที่นิยมซึ่งอาจเป็นประโยชน์จากมุมมองของภาษาศาสตร์เชิงคำนวณ ฉันเรียกดูเว็บเพื่อการอ้างอิงและพบหนังสือและเอกสารสองสามฉบับ Ripley, Brian D. (1996) การจดจำรูปแบบและ Neural Networks, Cambridge บิชอปซม. (2538) เครือข่ายประสาทรับรู้รูปแบบออกซ์ฟอร์ด: สำนักพิมพ์มหาวิทยาลัยออกซ์ฟอร์ด เชื่อมโยงบางอย่างเช่นวิทยานิพนธ์ฉบับนี้ , เหล่านี้บันทึกหลักสูตร (มหาวิทยาลัยโตรอนโตจิตวิทยากรม) เหล่านี้บันทึกหลักสูตร (มหาวิทยาลัยวิสคอนซินวิทยาการคอมพิวเตอร์) และสไลด์โชว์ (การวิจัย Facebook) โดยทั่วไปแล้วหลักสูตร Coursera นั้นดีถ้ามีใครรู้อะไรที่เกี่ยวข้องกับพวกเขา ฉันชอบวัสดุที่มีภาษาที่ชัดเจนและเป็นตัวอย่างที่กว้างขวาง

4
ค่าคงที่การแปลในคอมพิวเตอร์วิสัยทัศน์และเครือข่ายประสาทเทียมคืออะไร?
ฉันไม่ได้มีพื้นหลังคอมพิวเตอร์วิสัยทัศน์ แต่เมื่อผมอ่านการประมวลผลภาพและเครือข่ายประสาทสับสนบทความที่เกี่ยวข้องและเอกสารที่ผมต้องเผชิญคือคำหรือtranslation invariance หรือฉันอ่านมากว่าการดำเนินการสังวัตนาให้? !! สิ่งนี้หมายความว่า? ตัวผมเองมักจะแปลมันให้กับตัวเองราวกับว่ามันหมายความว่าถ้าเราเปลี่ยนภาพในรูปร่างใด ๆ แนวคิดที่แท้จริงของภาพจะไม่เปลี่ยน ตัวอย่างเช่นถ้าฉันหมุนรูปภาพของต้นไม้ที่บอกว่ามันเป็นต้นไม้อีกครั้งไม่ว่าฉันจะทำอย่างไรกับภาพนั้น และฉันเองก็พิจารณาการทำงานทั้งหมดที่สามารถเกิดขึ้นกับภาพและแปลงมันในทาง (ครอบตัด, ปรับขนาด, ปรับระดับสีเทา, ปรับสีและอื่น ๆ ... ) ให้เป็นแบบนี้ ฉันไม่รู้ว่านี่เป็นเรื่องจริงหรือไม่ดังนั้นฉันจะขอบคุณถ้าใครสามารถอธิบายเรื่องนี้ให้ฉันได้translation invarianttranslation invariance

5
วิธีจัดการกับข้อมูลแบบลำดับชั้น / ซ้อนในการเรียนรู้ของเครื่อง
ฉันจะอธิบายปัญหาด้วยตัวอย่าง สมมติว่าคุณต้องการที่จะทำนายรายได้ของแต่ละบุคคลที่มีคุณลักษณะบางอย่าง: {อายุ, เพศ, ประเทศ, ภูมิภาค, เมือง} คุณมีชุดข้อมูลการฝึกอบรมเช่นนั้น train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

4
เป็นไปได้หรือไม่ที่จะให้ภาพที่มีขนาดต่างกันเป็นข้อมูลเข้าสู่โครงข่ายประสาทเทียม?
เราสามารถให้ภาพที่มีขนาดตัวแปรเป็นอินพุตสำหรับเครือข่ายประสาทเทียมสำหรับการตรวจจับวัตถุได้หรือไม่? ถ้าเป็นไปได้เราจะทำอย่างไร แต่ถ้าเราพยายามที่จะครอบตัดภาพเราจะสูญเสียบางส่วนของภาพและถ้าเราพยายามที่จะปรับขนาดแล้วความคมชัดของภาพจะหายไป หมายความว่าการใช้คุณสมบัติเครือข่ายโดยธรรมชาติดีที่สุดถ้าความคมชัดของภาพเป็นประเด็นหลักในการพิจารณา?

2
การลดพลังงานในการเรียนรู้ของเครื่องคืออะไร
ฉันกำลังอ่านเกี่ยวกับการปรับให้เหมาะสมสำหรับปัญหาที่ไม่ถูกต้องในสายตาคอมพิวเตอร์และพบคำอธิบายด้านล่างเกี่ยวกับการปรับให้เหมาะสมใน Wikipedia สิ่งที่ฉันไม่เข้าใจคือทำไมพวกเขาเรียกการเพิ่มประสิทธิภาพนี้ "ลดพลังงาน " ใน Computer Vision ปัญหาการปรับให้เหมาะสมสามารถแสดงได้ด้วยวิธีต่อไปนี้: รับ: ฟังก์ชั่นจากบางชุดf:A→Rf:A→Rf: A \to Rเป็นจำนวนจริงAAA ขอ: องค์ประกอบในAที่f ( x 0 ) ≤ f ( x )สำหรับxทั้งหมดในA ("ย่อเล็กสุด") หรือเช่นนั้นf ( x 0 ) ≥ f ( x )สำหรับxทั้งหมดในA (" สูงสุด ")x0x0x_0AAAf(x0)≤f(x)f(x0)≤f(x)f(x_0) ≤ f(x)xxxAAAf(x0)≥f(x)f(x0)≥f(x)f(x_0) ≥ f(x)xxxAAA สูตรดังกล่าวเรียกว่าปัญหาการเพิ่มประสิทธิภาพหรือปัญหาการเขียนโปรแกรมทางคณิตศาสตร์ (คำที่ไม่เกี่ยวข้องโดยตรงกับการเขียนโปรแกรมคอมพิวเตอร์ แต่ยังคงใช้งานอยู่เช่นในการเขียนโปรแกรมเชิงเส้น - ดูประวัติด้านล่าง) ปัญหาที่เกิดขึ้นจริงในทางทฤษฎีและทางทฤษฎีหลายอย่างอาจเป็นแบบจำลองในกรอบทั่วไปนี้ ปัญหาที่เกิดขึ้นจากการใช้เทคนิคนี้ในสาขาฟิสิกส์และการมองเห็นด้วยคอมพิวเตอร์อาจหมายถึงเทคนิคที่เป็นการลดพลังงานโดยการพูดถึงค่าของฟังก์ชั่นแทนค่าพลังงานของระบบที่ถูกจำลองfff

3
บานพับขาดทุนและข้อดีและข้อเสีย / ข้อ จำกัด
การสูญเสียบานพับสามารถกำหนดใช้และการสูญเสียล็อกสามารถกำหนดเป็นล็อก( 1 + ประสบการณ์( - Y ฉันW T xฉัน ) )สูงสุด ( 0 , 1 - yผมWTxผม)สูงสุด(0,1-YผมWTxผม)\text{max}(0, 1-y_i\mathbf{w}^T\mathbf{x}_i)เข้าสู่ระบบ( 1 + ประสบการณ์( - yผมWTxผม) )เข้าสู่ระบบ(1+ประสบการณ์⁡(-YผมWTxผม))\text{log}(1 + \exp(-y_i\mathbf{w}^T\mathbf{x}_i)) ฉันมีคำถามต่อไปนี้: มีข้อเสียของการสูญเสียบานพับ (เช่นไวต่อค่าผิดปกติตามที่ระบุไว้ในhttp://www.unc.edu/~yfliu/papers/rsvm.pdf ) หรือไม่? อะไรคือความแตกต่างข้อดีข้อเสียของหนึ่งเมื่อเทียบกับที่อื่น

1
จะลดจำนวนผลบวกปลอมได้อย่างไร
ฉันกำลังพยายามที่จะแก้ปัญหางานที่เรียกว่าการตรวจจับคนเดินเท้าและฉันฝึก clasifer ไบนารีในสองประเภทบวก - คนลบ - พื้นหลัง ฉันมีชุดข้อมูล: จำนวนบวก = 3752 จำนวนลบ = 3800 ฉันใช้ train \ test split 80 \ 20% และRandomForestClassifier form scikit- เรียนรู้ ด้วยพารามิเตอร์: RandomForestClassifier(n_estimators=100, max_depth=50, n_jobs= -1) ฉันได้รับคะแนน: 95.896757% ทดสอบข้อมูลการฝึกอบรม (ทำงานได้อย่างสมบูรณ์): true positive: 3005 false positive: 0 false negative: 0 true negative: 3036 ทดสอบข้อมูลการทดสอบ: true positive: …

1
วิธีสร้างเส้นโค้ง Precision-Recall เมื่อฉันมีเพียงค่าเดียวสำหรับ PR?
ฉันมีการกำหนด data mining ที่ฉันทำระบบดึงภาพตามเนื้อหา ฉันมี 20 ภาพจาก 5 สัตว์ ดังนั้นทั้งหมด 100 ภาพ ระบบของฉันคืนค่า 10 ภาพที่เกี่ยวข้องมากที่สุดไปยังภาพอินพุต ตอนนี้ฉันต้องประเมินประสิทธิภาพของระบบของฉันด้วยเส้นโค้ง Precision-Recall อย่างไรก็ตามฉันไม่เข้าใจแนวคิดของเส้นโค้ง Precision-Recall สมมติว่าระบบของฉันส่งคืนรูปภาพ 10 ภาพสำหรับภาพลิงกอริลลา แต่มี 4 ภาพเท่านั้นเป็นภาพลิงกอริลลา อีก 6 รูปที่ส่งคืนเป็นสัตว์อื่น ' ดังนั้น, ความแม่นยำคือ4/10 = 0.4(กลับมาที่เกี่ยวข้อง) / (คืนทั้งหมด) การเรียกคืนคือ4/20 = 0.2(คืนที่เกี่ยวข้อง) / (ที่เกี่ยวข้องทั้งหมด) ดังนั้นฉันจึงมีเพียงจุด<0.2,0.4>ไม่ใช่เส้นโค้ง ฉันจะมีเส้นโค้งอย่างไร (เช่นชุดของคะแนน) ฉันควรเปลี่ยนจำนวนภาพที่ส่งคืน (กรณีนี้กำหนดไว้ที่ 10 ในกรณีของฉัน) หรือไม่

5
ฟังก์ชั่นการสูญเสียใดที่ฉันควรใช้สำหรับการตรวจจับแบบไบนารีในการตรวจจับใบหน้า / ไม่ใบหน้าใน CNN
ฉันต้องการใช้การเรียนรู้ลึกในการฝึกอบรมการตรวจจับใบหน้าไบนารี / ไม่ใช่ใบหน้าสิ่งที่สูญเสียฉันควรใช้ผมคิดว่ามันเป็นSigmoidCrossEntropyLossหรือบานพับการสูญเสีย ใช่แล้ว แต่ฉันสงสัยด้วยว่าฉันควรใช้ softmax แต่มีเพียงสองคลาสเท่านั้น?

3
ระดับความไวต่อขนาดเครือข่ายประสาทเทียม
เพื่อเป็นตัวอย่างลองสมมติว่าเรากำลังสร้างตัวประมาณอายุตามภาพของบุคคล ด้านล่างเรามีคนสองคนในชุดสูท แต่คนแรกอายุน้อยกว่าคนที่สองอย่างชัดเจน (ที่มา: tinytux.com ) มีคุณสมบัติมากมายที่บ่งบอกถึงสิ่งนี้เช่นโครงสร้างใบหน้า อย่างไรก็ตามคุณสมบัติที่บอกได้มากที่สุดคืออัตราส่วนของขนาดหัวต่อขนาดร่างกาย : (ที่มา: wikimedia.org ) สมมติว่าเราได้ฝึกการถดถอยของซีเอ็นเอ็นเพื่อทำนายอายุของบุคคล ในการทำนายอายุจำนวนมากที่ฉันได้ลองภาพข้างบนของเด็กดูเหมือนจะหลอกการคาดการณ์ในการคิดว่าเขาแก่กว่าเพราะเหมาะสมและน่าจะเป็นเพราะพวกเขาใช้ใบหน้าเป็นหลัก: ฉันสงสัยว่าสถาปัตยกรรมวานิลลาของซีเอ็นเอ็นจะมีอัตราส่วนที่ดีต่อร่างกายได้ดีแค่ไหน? เมื่อเปรียบเทียบกับ RCNN ระดับภูมิภาคซึ่งสามารถรับกล่องขอบเขตบนร่างกายและศีรษะวานิลลาซีเอ็นเอ็นจะทำงานแย่กว่านี้หรือไม่? ก่อนที่โลกจะแบนราบในวานิลลาซีเอ็นเอ็น (เช่นหลังจากการโน้มน้าวใจทั้งหมด) แต่ละเอาต์พุตมีเขตข้อมูลที่เปิดกว้างที่สอดคล้องกันซึ่งควรมีความรู้สึกของขนาด ฉันรู้ว่า RCNN ใช้ประโยชน์จากสิ่งนี้ได้เร็วขึ้นโดยการทำข้อเสนอกรอบขอบเขตในขั้นตอนนี้ดังนั้นตัวกรอง convolutional ก่อนหน้านี้จะทำการฝึกอบรมให้กับเครื่องชั่งทั้งหมดโดยอัตโนมัติ ดังนั้นฉันคิดว่า Vanilla CNN น่าจะสามารถอนุมานอัตราส่วนของหัวต่อขนาดลำตัวได้หรือไม่? ถูกต้องหรือไม่ ถ้าเป็นเช่นนั้นจะเป็นประโยชน์เพียงอย่างเดียวของการใช้กรอบ RCNN ที่เร็วขึ้นเพื่อใช้ประโยชน์จากความจริงที่ว่าอาจได้รับการฝึกฝนก่อนการตรวจจับคน

1
ฝึกอบรมโครงข่ายประสาทเทียม
ฉันกำลังทำงานกับซอฟต์แวร์จดจำใบหน้าที่ใช้เครือข่ายประสาทเทียมเพื่อจดจำใบหน้า จากการอ่านของฉันฉันได้รวบรวมว่าเครือข่ายประสาทเทียมได้แบ่งปันน้ำหนักเพื่อประหยัดเวลาในการฝึก แต่วิธีหนึ่งจะปรับการกระจายกลับเพื่อให้สามารถใช้ในโครงข่ายประสาทเทียม ในการแพร่กระจายย้อนกลับหนึ่งใช้สูตรที่คล้ายกับสิ่งนี้ในการฝึกอบรมน้ำหนัก New Weight = Old Weight + LEARNING_RATE * 1 * Output Of InputNeuron * Delta อย่างไรก็ตามเนื่องจากในเครือข่ายประสาทเทียมน้ำหนักที่ใช้ร่วมกันจึงมีการใช้น้ำหนักแต่ละเซลล์ร่วมกับเซลล์ประสาทหลายตัวดังนั้นฉันจะตัดสินใจได้อย่างไรว่าOutput of InputNeuronจะใช้อุปกรณ์ใด กล่าวอีกนัยหนึ่งเนื่องจากน้ำหนักถูกแชร์ฉันจะตัดสินใจได้อย่างไรว่าต้องเปลี่ยนน้ำหนักด้วย

2
เครือข่ายประสาทเทียมสามารถใช้เป็นภาพอินพุตที่มีขนาดต่างกันได้หรือไม่?
ฉันกำลังทำงานบนเครือข่ายการสนทนาเพื่อการจดจำรูปภาพและฉันสงสัยว่าฉันสามารถใส่ภาพที่มีขนาดต่างกันได้หรือไม่ ในโครงการนี้: https://github.com/harvardnlp/im2markup พวกเขาพูดว่า: and group images of similar sizes to facilitate batching ดังนั้นแม้หลังจากประมวลผลล่วงหน้าภาพยังคงมีขนาดแตกต่างกันซึ่งเหมาะสมเนื่องจากไม่ตัดบางส่วนของสูตร มีปัญหาในการใช้ขนาดที่แตกต่างกันหรือไม่? หากมีฉันจะแก้ไขปัญหานี้ได้อย่างไร (เนื่องจากสูตรจะไม่พอดีกับขนาดภาพเดียวกัน) การป้อนข้อมูลใด ๆ จะได้รับการชื่นชมมาก

1
วิธีการกำหนดจำนวนของผู้ประกอบการ convolutional ในซีเอ็นเอ็น?
ในงานด้านการมองเห็นคอมพิวเตอร์เช่นการจำแนกประเภทวัตถุด้วย Convolutional Neural Networks (CNN) เครือข่ายจะให้ประสิทธิภาพที่น่าดึงดูด แต่ฉันไม่แน่ใจว่าจะตั้งค่าพารามิเตอร์ในเลเยอร์ convolutional ได้อย่างไร ตัวอย่างเช่นรูปภาพระดับสีเทา ( 480x480) เลเยอร์ convolutional แรกอาจใช้โอเปอเรเตอร์ convolutional เช่น11x11x10ซึ่งหมายเลข10หมายถึงจำนวนของโอเปอเรเตอร์ convolutional คำถามคือวิธีการกำหนดจำนวนผู้ประกอบการ convolutional ใน CNN?

2
การทอดสมอได้เร็วขึ้น RCNN
ในกระดาษ Faster RCNN ที่เร็วขึ้นเมื่อพูดถึงการทอดสมอสิ่งที่พวกเขาหมายถึงอะไรโดยใช้ "ปิรามิดของกล่องอ้างอิง" และสิ่งนี้จะทำอย่างไร นี่หมายความว่าแต่ละจุดยึด W * H * k แต่ละจุดจะถูกสร้างขึ้นหรือไม่? โดยที่ W = ความกว้าง, H = ความสูง, และ k = จำนวนอัตราส่วนกว้างยาว * num scale เชื่อมโยงไปยังกระดาษ: https://arxiv.org/abs/1506.01497

3
วิธีการจำแนกชุดข้อมูลที่ไม่สมดุลโดย Convolutional Neural Networks (CNN)
ฉันมีชุดข้อมูลที่ไม่สมดุลในงานการจำแนกแบบไบนารีซึ่งจำนวนบวกกับจำนวนเชิงลบคือ 0.3% เทียบกับ 99.7% ช่องว่างระหว่างผลบวกและเชิงลบนั้นมีขนาดใหญ่มาก เมื่อฉันฝึก CNN ด้วยโครงสร้างที่ใช้ในปัญหา MNIST ผลการทดสอบจะแสดงอัตราลบติดลบสูง นอกจากนี้เส้นโค้งข้อผิดพลาดในการฝึกอบรมจะลดลงอย่างรวดเร็วในช่วงเวลาสองสามตอนที่เริ่มต้น แต่ยังคงเป็นค่าเดียวกันในยุคต่อไปนี้ คุณช่วยแนะนำวิธีแก้ไขปัญหานี้ให้ฉันได้ไหม? ขอบคุณ!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.