คำถามติดแท็ก convolution

Convolution เป็นการดำเนินการที่มีมูลค่าตามฟังก์ชันในสองฟังก์ชัน f และ g: f(τ)g(tτ)dτ. มักใช้เพื่อรับความหนาแน่นของผลรวมของตัวแปรสุ่มอิสระ ควรใช้แท็กนี้สำหรับการดำเนินการผกผันของ deconvolution อย่าใช้แท็กนี้สำหรับโครงข่ายประสาทเทียม

6
1x1 convolution หมายถึงอะไรในเครือข่ายประสาทเทียม
ขณะนี้ฉันกำลังสอน Udacity Deep Learning ในบทที่ 3 พวกเขาพูดถึงการโน้มน้าวใจ 1x1 การแปลง 1x1 นี้ใช้ในโมดูลการเริ่มต้นของ Google ฉันมีปัญหาในการทำความเข้าใจว่าอะไรคือการโน้มน้าวใจ 1x1 ฉันได้เห็นโพสต์นี้โดย Yann Lecun ด้วย ใครช่วยอธิบายเรื่องนี้ให้ฉันหน่อยได้ไหม

6
ความสำคัญของการฟื้นฟูท้องถิ่นใน CNN
ฉันพบว่า Imagenet และ CNN ขนาดใหญ่อื่น ๆ ใช้ประโยชน์จากเลเยอร์การทำให้เป็นมาตรฐานการตอบสนองในท้องถิ่น อย่างไรก็ตามฉันไม่พบข้อมูลมากมายเกี่ยวกับพวกเขา มีความสำคัญเพียงใดและควรใช้เมื่อใด จากhttp://caffe.berkeleyvision.org/tutorial/layers.html#data-layers : "เลเยอร์การปรับสภาพการตอบสนองแบบโลคอลดำเนินการ“ การยับยั้งด้านข้าง” โดยการทำให้เป็นมาตรฐานในพื้นที่อินพุตท้องถิ่นในโหมด ACROSS_CHANNELS ภูมิภาคภายในจะขยายผ่านช่องทางใกล้เคียง แต่ไม่มีขอบเขตเชิงพื้นที่ (เช่นมีรูปร่างเป็น local_size x 1 x 1) ในโหมด WITHIN_CHANNEL ภูมิภาคท้องถิ่นจะขยายพื้นที่ออกไป แต่อยู่ในช่องแยก (เช่นพวกเขามีรูปร่าง 1 x local_size x local_size) แต่ละค่าอินพุตจะถูกหารด้วย (1+ (α / n) ∑ix2i) βโดยที่ n คือขนาดของแต่ละพื้นที่ท้องถิ่นและผลรวมจะถูกยึดเหนือพื้นที่ที่อยู่กึ่งกลางที่ค่านั้น (เพิ่มการเติมศูนย์เป็นศูนย์หากจำเป็น) " แก้ไข: ดูเหมือนว่าชั้นเหล่านี้มีผลกระทบน้อยที่สุดและไม่ได้ใช้อีกต่อไป โดยทั่วไปบทบาทของพวกเขาได้รับการ outplayed โดยเทคนิคการทำให้เป็นมาตรฐานอื่น ๆ …

4
ค่าคงที่การแปลในคอมพิวเตอร์วิสัยทัศน์และเครือข่ายประสาทเทียมคืออะไร?
ฉันไม่ได้มีพื้นหลังคอมพิวเตอร์วิสัยทัศน์ แต่เมื่อผมอ่านการประมวลผลภาพและเครือข่ายประสาทสับสนบทความที่เกี่ยวข้องและเอกสารที่ผมต้องเผชิญคือคำหรือtranslation invariance หรือฉันอ่านมากว่าการดำเนินการสังวัตนาให้? !! สิ่งนี้หมายความว่า? ตัวผมเองมักจะแปลมันให้กับตัวเองราวกับว่ามันหมายความว่าถ้าเราเปลี่ยนภาพในรูปร่างใด ๆ แนวคิดที่แท้จริงของภาพจะไม่เปลี่ยน ตัวอย่างเช่นถ้าฉันหมุนรูปภาพของต้นไม้ที่บอกว่ามันเป็นต้นไม้อีกครั้งไม่ว่าฉันจะทำอย่างไรกับภาพนั้น และฉันเองก็พิจารณาการทำงานทั้งหมดที่สามารถเกิดขึ้นกับภาพและแปลงมันในทาง (ครอบตัด, ปรับขนาด, ปรับระดับสีเทา, ปรับสีและอื่น ๆ ... ) ให้เป็นแบบนี้ ฉันไม่รู้ว่านี่เป็นเรื่องจริงหรือไม่ดังนั้นฉันจะขอบคุณถ้าใครสามารถอธิบายเรื่องนี้ให้ฉันได้translation invarianttranslation invariance

10
ทำไมการรวมตัวกันของตัวแปรสุ่มสองตัวจึงทำให้เกิดการโน้มน้าว?
เป็นเวลานานฉันไม่เข้าใจว่าทำไม "ผลรวม" ของตัวแปรสุ่มสองตัวคือการบิดของพวกเขาในขณะที่ผลรวมความหนาแน่นของฟังก์ชั่นการผสมของและคือf(x)f(x)f(x)g(x)g(x)g(x)pf(x)+(1−p)g(x)pf(x)+(1−p)g(x)p\,f(x)+(1-p)g(x); ผลรวมเลขคณิตและไม่ใช่การแปลง วลีที่ถูกต้อง "ผลรวมของตัวแปรสุ่มสองตัว" ปรากฏใน google 146,000 ครั้งและเป็นรูปไข่ดังนี้ ถ้าใครคิดว่า RV ให้ผลเป็นค่าเดียวก็สามารถเพิ่มค่าเดียวให้กับค่า RV เดี่ยวอีกค่าหนึ่งซึ่งไม่มีส่วนเกี่ยวข้องกับการโน้มน้าวใจอย่างน้อยก็ไม่ใช่โดยตรงสิ่งที่เป็นผลรวมของตัวเลขสองจำนวน ผลลัพธ์ของสถิติใน RV นั้นเป็นชุดของค่าและดังนั้นวลีที่แน่นอนยิ่งกว่าจะเป็นอะไรบางอย่างเช่น "ชุดของผลรวมของคู่ของค่าของแต่ละบุคคลที่เชื่อมโยงกันจากสอง RV's คือความไม่ต่อเนื่องของพวกเขา" ... และสามารถประมาณโดย ความหนาแน่นของฟังก์ชั่นความหนาแน่นสอดคล้องกับ RV เหล่านั้น ภาษาที่เรียบง่ายยิ่งขึ้น: 2 RV's ofnnnตัวอย่างอยู่ในผลเวกเตอร์สองมิติ n ที่เพิ่มเป็นผลรวมเวกเตอร์ โปรดแสดงรายละเอียดว่าผลรวมของตัวแปรสุ่มสองตัวนั้นเป็นรูปแบบ convolution และผลรวมอย่างไร

2
เครือข่ายประสาทเทียม Convolutional: เซลล์ประสาทส่วนกลางไม่ได้แสดงออกมามากเกินไปในผลลัพธ์หรือไม่
[คำถามนี้ถูกวางที่กองล้นเช่นกัน] คำถามในระยะสั้น ฉันกำลังศึกษาโครงข่ายประสาทเทียมและฉันเชื่อว่าเครือข่ายเหล่านี้ไม่ได้ปฏิบัติต่อเซลล์ประสาทอินพุต (พิกเซล / พารามิเตอร์) ทุกตัวเท่ากัน ลองจินตนาการว่าเรามีเครือข่ายที่ลึก (หลายเลเยอร์) ที่ใช้การแปลงภาพอินพุตบางส่วน เซลล์ประสาทใน "ตรงกลาง" ของภาพมีทางเดินที่ไม่ซ้ำกันหลายไปยังเซลล์ประสาทชั้นลึกที่มากขึ้นซึ่งหมายความว่าการเปลี่ยนแปลงเล็ก ๆ ในเซลล์ประสาทกลางมีผลอย่างมากต่อการส่งออก อย่างไรก็ตามเซลล์ประสาทที่ขอบของภาพมีเพียงวิธี (หรือขึ้นอยู่กับการดำเนินการตามลำดับที่1 ) ของเส้นทางที่ข้อมูลไหลผ่านกราฟ ดูเหมือนว่าสิ่งเหล่านี้เป็น "ภายใต้การเป็นตัวแทน"111111 ฉันกังวลเกี่ยวกับเรื่องนี้เนื่องจากการเลือกปฏิบัติของเซลล์ประสาทขอบขนาดนี้ ตัวอย่างมากด้วยความลึก (จำนวนชั้น) ของเครือข่าย แม้การเพิ่มเลเยอร์แบบรวมกำไรสูงสุดจะไม่หยุดการเพิ่มแบบเอ็กซ์โพเนนเชียล แต่การเชื่อมต่อแบบเต็มทำให้เซลล์ประสาททั้งหมดมีฐานรากเท่ากัน ฉันไม่เชื่อว่าเหตุผลของฉันถูกต้องแล้วดังนั้นคำถามของฉันคือ: ฉันถูกต้องไหมว่าเอฟเฟกต์นี้เกิดขึ้นในเครือข่ายการสนทนาเชิงลึก? มีทฤษฎีใดบ้างเกี่ยวกับเรื่องนี้เคยถูกกล่าวถึงในวรรณคดีหรือไม่? มีวิธีที่จะเอาชนะผลกระทบนี้หรือไม่? เพราะฉันไม่แน่ใจว่านี่จะให้ข้อมูลที่เพียงพอหรือไม่ฉันจะอธิบายเพิ่มเติมเกี่ยวกับคำแถลงปัญหาอีกเล็กน้อยและทำไมฉันจึงเชื่อว่านี่เป็นข้อกังวล คำอธิบายโดยละเอียดเพิ่มเติม ลองนึกภาพเรามีเครือข่ายประสาทลึกที่ใช้ภาพเป็นอินพุท สมมติว่าเราใช้ฟิลเตอร์แบบ Convolutional เป็นตัวกรองขนาดพิกเซลเหนือภาพซึ่งเราจะทำการเปลี่ยนวินโดว์คอนวิชัน4พิกเซลในแต่ละครั้ง ซึ่งหมายความว่าเซลล์ประสาทในการป้อนข้อมูลทุกส่งยืนยันการใช้งานของมันไป16 × 16 = 265เซลล์ประสาทในชั้น2 แต่ละเซลล์เหล่านี้อาจส่งการเปิดใช้งานของพวกเขาไปยังอีก265เช่นเซลล์ประสาทสูงสุดของเราจะถูกแสดงใน265 264×6464×6464\times 6444416×16=26516×16=26516 \times 16 = 26522226526526526522652265^2เซลล์ประสาทการส่งออกและอื่น ๆ …

1
องศาอิสระเป็นหมายเลขที่ไม่ใช่จำนวนเต็มหรือไม่
เมื่อฉันใช้ GAM มันให้ DF ที่เหลือกับฉันคือ (บรรทัดสุดท้ายในรหัส) นั่นหมายความว่าอย่างไร? นอกเหนือไปจากตัวอย่างของ GAM โดยทั่วไปแล้วจำนวนองศาความเป็นอิสระจะเป็นจำนวนที่ไม่ใช่จำนวนเต็มหรือไม่26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

1
“ การประมาณความหนาแน่นของเคอร์เนล” คือการโน้มน้าวใจอะไร
ฉันพยายามทำความเข้าใจเกี่ยวกับการประมาณความหนาแน่นของเคอร์เนลให้ดีขึ้น ใช้คำจำกัดความจาก Wikipedia: https://en.wikipedia.org/wiki/Kernel_density_estimation#Definition ฉชั่วโมง^( x ) = 1nΣni = 1Kชั่วโมง( x - xผม)= 1n ชมΣni = 1K( x - xผมชั่วโมง)fh^(x)=1n∑i=1nKh(x−xi)=1nh∑i=1nK(x−xih) \hat{f_h}(x) = \frac{1}{n}\sum_{i=1}^n K_h (x - x_i) \quad = \frac{1}{nh} \sum_{i=1}^n K\Big(\frac{x-x_i}{h}\Big) ลองเอาไปเป็นฟังก์ชันรูปสี่เหลี่ยมผืนผ้าซึ่งให้1ถ้าxอยู่ระหว่าง- 0.5ถึง0.5และ0มิฉะนั้นและh (ขนาดหน้าต่าง) เป็น 1K( )K()K()111xxx- 0.5−0.5-0.50.50.50.5000hhh ฉันเข้าใจว่าความหนาแน่นนั้นเป็นหน้าที่ของทั้งสองฟังก์ชั่น แต่ฉันไม่แน่ใจว่าฉันรู้วิธีกำหนดฟังก์ชันทั้งสองนี้อย่างไร หนึ่งในนั้นควร (อาจ) เป็นฟังก์ชันของข้อมูลซึ่งสำหรับทุกจุดใน R บอกเราว่ามีจุดข้อมูลจำนวนเท่าใดในตำแหน่งนั้น (ส่วนใหญ่ ) และฟังก์ชั่นอื่น …

6
เลเยอร์ Convolutional: เพื่อ pad หรือไม่ pad?
สถาปัตยกรรม AlexNet ใช้การ zero-paddings ดังแสดงในรูป: อย่างไรก็ตามไม่มีคำอธิบายในกระดาษว่าทำไมการขยายตัวนี้ถูกนำมาใช้ หลักสูตร Standford CS 231n สอนให้เราใช้การขยายเพื่อรักษาขนาดเชิงพื้นที่: ฉันสงสัยว่ามันเป็นเหตุผลเดียวที่เราต้องการแพ็ดดิ้ง? ฉันหมายความว่าถ้าฉันไม่ต้องการรักษาขนาดเชิงพื้นที่ฉันสามารถลบการขยายได้หรือไม่ ฉันรู้ว่ามันจะทำให้ขนาดเชิงพื้นที่ลดลงอย่างรวดเร็วเมื่อเราไปถึงระดับที่ลึกกว่า อย่างไรก็ตามฉันสามารถแลกเปลี่ยนสิ่งนั้นได้โดยการลบเลเยอร์รวมกำไร ฉันจะมีความสุขมากถ้าใครสามารถให้เหตุผลกับฉันได้ ขอบคุณ!

2
ระบบพลวัตดูทฤษฎีบทขีด จำกัด กลางหรือไม่?
( โพสต์ครั้งแรกใน MSE) ฉันได้เห็นการอภิปรายแบบฮิวริสติกจำนวนมากของทฤษฎีบทขีด จำกัด กลางแบบคลาสสิกพูดถึงการแจกแจงแบบปกติ (หรือการแจกแจงแบบคงที่ใด ๆ ) เป็น "ตัวดึงดูด" ในพื้นที่ความหนาแน่นของความน่าจะเป็น ตัวอย่างเช่นพิจารณาประโยคเหล่านี้ที่ส่วนบนสุดของการรักษาของ Wikipedia : ในการใช้งานทั่วไปมากขึ้นทฤษฎีบทขีด จำกัด กลางคือชุดของทฤษฎีบทการลู่เข้าแบบอ่อนในทฤษฎีความน่าจะเป็น พวกเขาทั้งหมดแสดงความจริงที่ว่าผลรวมของตัวแปรสุ่มแบบอิสระและแบบกระจาย (iid) จำนวนมากหรือมิฉะนั้นตัวแปรสุ่มที่มีการพึ่งพาประเภทเฉพาะจะมีแนวโน้มที่จะกระจายไปตามชุดการกระจายตัวเล็ก ๆ ชุดหนึ่ง เมื่อความแปรปรวนของตัวแปร iid มีจำนวน จำกัด การกระจายตัวดึงดูดจะเป็นการแจกแจงแบบปกติ ภาษาของระบบพลวัตนี้มีการชี้นำอย่างมาก เฟลเลอร์ยังพูดถึง "การดึงดูด" ในการรักษา CLT ในเล่มที่สองของเขา (ฉันสงสัยว่านั่นคือที่มาของภาษา) และ Yuval Flimus ในบันทึกนี้ยังพูดถึง "อ่างแห่งการดึงดูด" (ฉันไม่คิดว่าเขาหมายถึง "รูปแบบที่แน่นอนของแหล่งท่องเที่ยวนั้นสามารถอนุมานได้ล่วงหน้า" แต่ค่อนข้าง "รูปแบบที่แน่นอนของตัวดึงดูดนั้นสามารถอนุมานได้ล่วงหน้า"; ยังมีภาษาอยู่) คำถามของฉันคือ: สามารถ การเปรียบเทียบแบบไดนามิกจะทำให้แม่นยำ?ฉันไม่รู้หนังสือที่พวกเขาเป็นอยู่ - แม้ว่าหนังสือหลายเล่มจะชี้ให้เห็นว่าการแจกแจงแบบปกตินั้นพิเศษสำหรับความมั่นคงภายใต้การบิด …

3
ขั้นตอนการบิดในเครือข่ายประสาทเทียมทำอะไร
ฉันกำลังศึกษาโครงข่ายประสาทเทียม (CNNs) เนื่องจากการใช้งานในคอมพิวเตอร์วิสัยทัศน์ ฉันคุ้นเคยกับเครือข่ายประสาทฟีดมาตรฐานแล้วฉันหวังว่าบางคนที่นี่สามารถช่วยฉันในการทำความเข้าใจกับ CNN นี่คือสิ่งที่ฉันคิดเกี่ยวกับซีเอ็นเอ็น: ใน feed-foward NNs แบบดั้งเดิมเรามีข้อมูลการฝึกอบรมที่แต่ละองค์ประกอบประกอบด้วยเวกเตอร์ฟีเจอร์ที่เราใส่เข้าไปใน NN ใน "เลเยอร์อินพุต" ดังนั้นด้วยการรับรู้ภาพเราสามารถมีแต่ละพิกเซลเป็นหนึ่งอินพุต นี่คือคุณสมบัติเวกเตอร์ของเรา หรืออีกวิธีหนึ่งเราสามารถสร้างเวกเตอร์คุณลักษณะอื่น ๆ ที่มีขนาดเล็กกว่าด้วยตนเอง ข้อดีของ CNN คือมันสามารถสร้างเวกเตอร์ฟีเจอร์ที่แข็งแกร่งกว่าซึ่งไม่แปรเปลี่ยนภาพและตำแหน่ง ตามภาพต่อไปนี้แสดงให้เห็นว่า (จากบทช่วยสอนนี้ ) ซีเอ็นเอ็นสร้างแผนที่คุณลักษณะที่ป้อนเข้าสู่เครือข่ายประสาทเทียมมาตรฐาน (จริงๆแล้วมันเป็นขั้นตอนก่อนประมวลผลขนาดใหญ่) วิธีที่เราได้คุณสมบัติเหล่านั้น "ดีกว่า" คือการสลับการแปลงตัวอย่างและการสุ่มตัวอย่าง ฉันเข้าใจว่าการสุ่มตัวอย่างย่อยทำงานอย่างไร สำหรับแผนที่คุณลักษณะแต่ละอันใช้เวลาเพียงเซตย่อยของพิกเซลหรือเราสามารถหาค่าเฉลี่ยของพิกเซล แต่สิ่งที่ฉันสับสนเป็นหลักคือวิธีการทำงานของขั้นตอนการโน้มน้าวใจ ฉันคุ้นเคยกับการโน้มน้าวใจจากทฤษฎีความน่าจะเป็น (ความหนาแน่นสำหรับผลรวมของตัวแปรสุ่มสองตัว) แต่พวกเขาทำงานใน CNN ได้อย่างไรและทำไมพวกเขาถึงมีประสิทธิภาพ คำถามของฉันคล้ายกับคำถามนี้แต่โดยเฉพาะอย่างยิ่งฉันไม่แน่ใจว่าทำไมขั้นตอนการแปลงข้อความแรกจึงใช้งานได้

2
มีเหตุผลทางคณิตศาสตร์สำหรับการโน้มน้าวใจในเครือข่ายประสาทเกินความได้เปรียบ?
ในโครงข่ายประสาทเทียม (CNN) เมทริกซ์ของตุ้มน้ำหนักในแต่ละขั้นตอนจะทำให้แถวและคอลัมน์พลิกเพื่อรับเมทริกซ์เคอร์เนลก่อนที่จะดำเนินการต่อไป นี่คือคำอธิบายในชุดวิดีโอของ Hugo Larochelle ที่นี่ : คอมพิวเตอร์แผนที่ที่ซ่อนอยู่จะสอดคล้องกับการทำบิดต่อเนื่องกับช่องจากชั้นก่อนหน้านี้โดยใช้เมทริกซ์เคอร์เนล [ ... ] และเคอร์เนลที่คำนวณจากน้ำหนักเมทริกซ์ซ่อนWijWijW_{ij}ที่เราพลิกแถวและ คอลัมน์ ถ้าเราจะเปรียบเทียบขั้นตอนการลดลงของการบิดคูณเมทริกซ์ปกติเช่นเดียวกับในประเภทอื่น ๆ NN, ความได้เปรียบจะเป็นคำอธิบายที่ชัดเจน อย่างไรก็ตามนี่อาจไม่ใช่การเปรียบเทียบที่ตรงประเด็นที่สุด ... ในการถ่ายภาพดิจิตอลการประมวลผลแอพลิเคชันของบิดของตัวกรองเพื่อภาพ ( นี้เป็นวิดีโอ youtube ที่ดีสำหรับการปฏิบัติปรีชา ) ดูเหมือนว่าเกี่ยวข้องกับ: ความจริงที่ว่าการโน้มน้าวนั้นเชื่อมโยงกันในขณะที่ความสัมพันธ์(ข้าม -)ไม่ใช่ ความเป็นไปได้ที่จะใช้ตัวกรองในโดเมนความถี่ของภาพเป็นการคูณเนื่องจากการสนทนาในโดเมนเวลาเทียบเท่ากับการคูณในโดเมนความถี่ ( ทฤษฎีบทการสนทนา ) ในสภาพแวดล้อมทางเทคนิคนี้โดยเฉพาะของ DSP correlationถูกกำหนดเป็น: F∘I(x,y)=∑j=−NN∑i=−NNF(i,j)I(x+i,y+j)F∘I(x,y)=∑j=−NN∑i=−NNF(i,j)I(x+i,y+j)F\circ I(x,y)=\sum_{j=-N}^{N}\sum_{i=-N}^N\, F(i,j)\,I(x+i, y+j) ซึ่งเป็นผลรวมของเซลล์ทั้งหมดในผลิตภัณฑ์ Hadamard: F∘I(x,y)=⎡⎣⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢F[−N,−N]I[x−N,y−N]⋮F[0,−N]I[x,y−N]⋮F[N,−N]I[x+N,y−N]⋯⋱⋯⋱⋯F[−N,0]I[x−N,y−N]⋮F[0,0]I[x,y]⋮F[N,0]I[x+N,y]⋯⋱⋯⋱⋯F[−N,N]I[x−N,y+N]⋮F[0,N]I[x,y+N]⋮F[N,N]I[x+N,y+N]⎤⎦⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥F∘I(x,y)=[F[−N,−N]I[x−N,y−N]⋯F[−N,0]I[x−N,y−N]⋯F[−N,N]I[x−N,y+N]⋮⋱⋮⋱⋮F[0,−N]I[x,y−N]⋯F[0,0]I[x,y]⋯F[0,N]I[x,y+N]⋮⋱⋮⋱⋮F[N,−N]I[x+N,y−N]⋯F[N,0]I[x+N,y]⋯F[N,N]I[x+N,y+N]]\small F\circ I(x,y)=\Tiny\begin{bmatrix}F[-N,-N]\,I[x-N,y-N]&\cdots&F[-N,0]\,I[x-N,y-N]&\cdots& F[-N,N]\,I[x-N,y+N]\\ \vdots&\ddots&\vdots&\ddots&\vdots\\ F[0,-N]\,I[x,y-N]&\cdots&F[0,0]\,I[x,y]&\cdots& F[0,N]\,I[x,y+N]\\ \vdots&\ddots&\vdots&\ddots&\vdots\\ …

2
การกระจายตัวของความแปรปรวนของตัวแปรกำลังสองและไคสแควร์?
ปัญหาต่อไปนี้เกิดขึ้นเมื่อเร็ว ๆ นี้ขณะวิเคราะห์ข้อมูล หากตัวแปรสุ่ม X ตามการแจกแจงปกติและ Y ตามการแจกแจงχ2nχn2\chi^2_n (ด้วย n dof) Z=X2+Y2Z=X2+Y2Z = X^2 + Y^2กระจายอย่างไร ถึงตอนนี้ฉันมากับ pdf ของY2Y2Y^2 : ψ2n(x)====∂F(x−−√)∂x(∫x√0tn/2−1⋅e−t/22n/2Γ(n/2)dt)′x12n/2Γ(n/2)⋅(x−−√)n/2−1⋅e−x√/2⋅(x−−√)′x12n/2−1Γ(n/2)⋅xn/4−1⋅e−x√/2ψn2(x)=∂F(x)∂x=(∫0xtn/2−1⋅e−t/22n/2Γ(n/2)dt)x′=12n/2Γ(n/2)⋅(x)n/2−1⋅e−x/2⋅(x)x′=12n/2−1Γ(n/2)⋅xn/4−1⋅e−x/2\begin{eqnarray} \psi^2_n(x) &=& \frac{\partial F(\sqrt{x})}{\partial x} \\ &=& \left( \int_0^{\sqrt{x}} \frac{t^{n/2-1}\cdot e^{-t/2}}{2^{n/2}\Gamma(n/2)} \mathrm{d}t \right)^\prime_x \\ &=& \frac{1}{2^{n/2}\Gamma(n/2)} \cdot \left( \sqrt{x} \right)^{n/2-1} \cdot e^{-\sqrt{x}/2} \cdot \left( \sqrt{x} \right)^\prime_x \\ &=& \frac{1}{2^{n/2-1}\Gamma(n/2)} …

3
โครงข่ายประสาทเทียมแบบ Convolutional ใช้วิธีการแบบ Convolitis แทนการคูณเมทริกซ์อย่างไร?
ฉันกำลังอ่านหนังสือของ Yoshua Bengio เกี่ยวกับการเรียนรู้ที่ลึกซึ้งและมันบอกไว้ในหน้า 224: เครือข่าย Convolutional เป็นเพียงเครือข่ายประสาทที่ใช้ convolution แทนการคูณเมทริกซ์ทั่วไปอย่างน้อยหนึ่งชั้น อย่างไรก็ตามฉันไม่แน่ใจ 100% ของวิธีการ "แทนที่การคูณเมทริกซ์ด้วยการโน้มน้าว" ในแง่ที่แม่นยำทางคณิตศาสตร์ สิ่งที่ฉันสนใจจริงๆคือการกำหนดสิ่งนี้สำหรับเวกเตอร์อินพุตใน 1D (เช่นใน ) ดังนั้นฉันจะไม่ป้อนข้อมูลเป็นภาพและพยายามหลีกเลี่ยงการบิดในแบบ 2Dx ∈ Rdx∈Rdx \in \mathbb{R}^d ตัวอย่างเช่นในเครือข่ายประสาท "ปกติ" การดำเนินการและรูปแบบของผู้ให้บริการอาหารสามารถแสดงให้เห็นได้อย่างชัดเจนดังที่บันทึกไว้ในบันทึกของ Andrew Ng: W( l )a( l )= z( l + 1 )W(l)a(l)=z(l+1) W^{(l)} a^{(l)} = z^{(l+1)} ฉ( z( l + 1 )) …

4
ผลรวมของตัวแปรสุ่ม lognormal อิสระปรากฏขึ้น lognormal?
ฉันพยายามที่จะเข้าใจว่าทำไมผลรวมของตัวแปรสุ่มสองตัว (หรือมากกว่า) เข้าสู่การแจกแจงแบบปกติขณะที่คุณเพิ่มจำนวนการสังเกต ฉันดูออนไลน์และไม่พบผลลัพธ์ใด ๆ ที่เกี่ยวข้องกับสิ่งนี้ เห็นได้ชัดว่าถ้าและเป็นตัวแปร lognormal ที่เป็นอิสระจากนั้นด้วยคุณสมบัติของ exponents และตัวแปรสุ่ม gaussianก็เป็น lognormal เช่นกัน อย่างไรก็ตามไม่มีเหตุผลที่จะแนะนำว่าเป็น lognormal เช่นกันY X × Y X + YXXXYYYX× YX×YX \times YX+ YX+YX+Y อย่างไรก็ตาม หากคุณสร้างตัวแปรสุ่มสุ่มอิสระ lognormalและและปล่อยให้และทำซ้ำขั้นตอนนี้หลายครั้งการกระจายของจะปรากฏขึ้น lognormal ดูเหมือนว่ามันจะเข้าใกล้การแจกแจงแบบปกติมากขึ้นเมื่อคุณเพิ่มจำนวนการสังเกตY Z = X + Y ZXXXYYYZ= X+ YZ=X+YZ=X+YZZZ ตัวอย่างเช่น: หลังจากสร้าง 1 ล้านคู่การแจกแจงบันทึกธรรมชาติของ Zจะได้รับในฮิสโตแกรมด้านล่าง สิ่งนี้มีความคล้ายคลึงกับการแจกแจงแบบปกติมากโดยชัดแจ้งว่าเป็น lognormal แน่นอนZZZ ใครบ้างมีความเข้าใจหรือการอ้างอิงถึงข้อความที่อาจใช้ในการทำความเข้าใจนี้

2
จะไม่กรองหลายตัวในเลเยอร์ convolutional เรียนรู้พารามิเตอร์เดียวกันในระหว่างการฝึกอบรม?
จากสิ่งที่ฉันได้เรียนรู้เราใช้ตัวกรองหลายตัวใน Conv Layer ของ CNN เพื่อเรียนรู้ตัวตรวจจับคุณสมบัติที่แตกต่างกัน แต่เนื่องจากตัวกรองเหล่านี้มีการใช้งานคล้ายกัน (เช่นเลื่อนและคูณกับพื้นที่ของอินพุต) พวกเขาจะไม่ได้เรียนรู้พารามิเตอร์เดียวกันในระหว่างการฝึกอบรมหรือไม่ ดังนั้นการใช้ตัวกรองหลายรายการจะซ้ำซ้อน?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.