คำถามติดแท็ก neural-networks

โครงข่ายประสาทเทียม (ANNs) เป็นรูปแบบการคำนวณในวงกว้างโดยยึดตามเครือข่ายประสาทชีววิทยาอย่างเข้มงวด พวกเขารวม NNs ของ feedforward (รวมถึง NN ที่ "ลึก"), NNs convolutional, NNs ที่เกิดซ้ำเป็นต้น

1
Cross-Entropy หรือ Log Likelihood ในเลเยอร์เอาต์พุต
ฉันอ่านหน้านี้: http://neuralnetworksanddeeplearning.com/chap3.html และมันบอกว่าชั้นเอาท์พุท sigmoid ที่มีการข้ามเอนโทรปีนั้นค่อนข้างจะคล้ายกับเลเยอร์เอาต์พุต softmax ที่มีความเป็นไปได้ในการบันทึก จะเกิดอะไรขึ้นถ้าฉันใช้ sigmoid กับ log-likelihood หรือ softmax กับ cross entropy ใน layer output มันดีไหม เพราะฉันเห็นว่ามีความแตกต่างเพียงเล็กน้อยในสมการระหว่างเอนโทรปีของครอส C= - 1nΣx( yLNa + ( 1 - y) ln( 1 - a ) )C=−1n∑x(yln⁡a+(1−y)ln⁡(1−a))C = -\frac{1}{n} \sum\limits_x (y \ln a + (1-y) \ln (1-a)) และบันทึกโอกาส (eq.80): C= - …

2
เครือข่ายประสาทของฉันเพิ่งเรียนรู้อะไร คุณลักษณะใดที่เกี่ยวกับและเพราะอะไร
ตาข่ายประสาทเรียนรู้คุณสมบัติของชุดข้อมูลเป็นวิธีการบรรลุเป้าหมายบางอย่าง เมื่อทำเสร็จแล้วเราอาจต้องการทราบว่าตาข่ายประสาทเรียนรู้อะไร ฟีเจอร์คืออะไรและทำไมมันถึงสนใจ ใครสามารถให้การอ้างอิงบางส่วนเกี่ยวกับร่างกายของงานที่เกี่ยวข้องกับปัญหานี้หรือไม่?

2
เครือข่ายประสาทเทียม Convolutional: เซลล์ประสาทส่วนกลางไม่ได้แสดงออกมามากเกินไปในผลลัพธ์หรือไม่
[คำถามนี้ถูกวางที่กองล้นเช่นกัน] คำถามในระยะสั้น ฉันกำลังศึกษาโครงข่ายประสาทเทียมและฉันเชื่อว่าเครือข่ายเหล่านี้ไม่ได้ปฏิบัติต่อเซลล์ประสาทอินพุต (พิกเซล / พารามิเตอร์) ทุกตัวเท่ากัน ลองจินตนาการว่าเรามีเครือข่ายที่ลึก (หลายเลเยอร์) ที่ใช้การแปลงภาพอินพุตบางส่วน เซลล์ประสาทใน "ตรงกลาง" ของภาพมีทางเดินที่ไม่ซ้ำกันหลายไปยังเซลล์ประสาทชั้นลึกที่มากขึ้นซึ่งหมายความว่าการเปลี่ยนแปลงเล็ก ๆ ในเซลล์ประสาทกลางมีผลอย่างมากต่อการส่งออก อย่างไรก็ตามเซลล์ประสาทที่ขอบของภาพมีเพียงวิธี (หรือขึ้นอยู่กับการดำเนินการตามลำดับที่1 ) ของเส้นทางที่ข้อมูลไหลผ่านกราฟ ดูเหมือนว่าสิ่งเหล่านี้เป็น "ภายใต้การเป็นตัวแทน"111111 ฉันกังวลเกี่ยวกับเรื่องนี้เนื่องจากการเลือกปฏิบัติของเซลล์ประสาทขอบขนาดนี้ ตัวอย่างมากด้วยความลึก (จำนวนชั้น) ของเครือข่าย แม้การเพิ่มเลเยอร์แบบรวมกำไรสูงสุดจะไม่หยุดการเพิ่มแบบเอ็กซ์โพเนนเชียล แต่การเชื่อมต่อแบบเต็มทำให้เซลล์ประสาททั้งหมดมีฐานรากเท่ากัน ฉันไม่เชื่อว่าเหตุผลของฉันถูกต้องแล้วดังนั้นคำถามของฉันคือ: ฉันถูกต้องไหมว่าเอฟเฟกต์นี้เกิดขึ้นในเครือข่ายการสนทนาเชิงลึก? มีทฤษฎีใดบ้างเกี่ยวกับเรื่องนี้เคยถูกกล่าวถึงในวรรณคดีหรือไม่? มีวิธีที่จะเอาชนะผลกระทบนี้หรือไม่? เพราะฉันไม่แน่ใจว่านี่จะให้ข้อมูลที่เพียงพอหรือไม่ฉันจะอธิบายเพิ่มเติมเกี่ยวกับคำแถลงปัญหาอีกเล็กน้อยและทำไมฉันจึงเชื่อว่านี่เป็นข้อกังวล คำอธิบายโดยละเอียดเพิ่มเติม ลองนึกภาพเรามีเครือข่ายประสาทลึกที่ใช้ภาพเป็นอินพุท สมมติว่าเราใช้ฟิลเตอร์แบบ Convolutional เป็นตัวกรองขนาดพิกเซลเหนือภาพซึ่งเราจะทำการเปลี่ยนวินโดว์คอนวิชัน4พิกเซลในแต่ละครั้ง ซึ่งหมายความว่าเซลล์ประสาทในการป้อนข้อมูลทุกส่งยืนยันการใช้งานของมันไป16 × 16 = 265เซลล์ประสาทในชั้น2 แต่ละเซลล์เหล่านี้อาจส่งการเปิดใช้งานของพวกเขาไปยังอีก265เช่นเซลล์ประสาทสูงสุดของเราจะถูกแสดงใน265 264×6464×6464\times 6444416×16=26516×16=26516 \times 16 = 26522226526526526522652265^2เซลล์ประสาทการส่งออกและอื่น ๆ …

6
ความแตกต่างระหว่างเครือข่าย Bayes, โครงข่ายประสาทเทียม, ต้นไม้ตัดสินใจและตาข่ายของ Petri
อะไรคือความแตกต่างระหว่างโครงข่ายประสาทเทียม , เครือข่ายแบบเบย์ , ต้นไม้ตัดสินใจและตาข่ายของ Petriถึงแม้ว่าพวกมันจะเป็นโมเดลกราฟิกทั้งหมดและแสดงให้เห็นถึงความสัมพันธ์เชิงเหตุ - ผล


2
คำที่ไม่อิ่มตัวเชิงเส้นที่มีความหมายถึงอะไร?
ฉันอ่านเอกสารการจำแนกประเภทของ ImageNet ด้วย Deep Convolutional Neural Networksและในส่วนที่ 3 พวกเขาอธิบายสถาปัตยกรรมของโครงข่ายประสาทเทียมของพวกเขาพวกเขาอธิบายว่าพวกเขาต้องการใช้อย่างไร: ไม่ใช่พอดิบพอดีไม่เป็นเชิงเส้นf(x)=max(0,x).f(x)=max(0,x).f(x) = max(0, x). เพราะมันเร็วกว่าในการฝึก ในกระดาษพวกนั้นดูเหมือนว่าจะหมายถึง saturating nonlinearities เป็นฟังก์ชันดั้งเดิมที่ใช้ใน CNNs, sigmoid และฟังก์ชันไฮเพอร์โบลิกแทนเจนต์ (เช่นและเป็น saturating)f(x)=tanh(x)f(x)=tanh(x)f(x) = tanh(x)f(x)=11+e−x=(1+e−x)−1f(x)=11+e−x=(1+e−x)−1f(x) = \frac{1}{1 + e^{-x}} = (1 + e^{-x})^{-1} ทำไมพวกเขาอ้างถึงฟังก์ชั่นเหล่านี้ว่า "saturating" หรือ "non-saturating"? ฟังก์ชันเหล่านี้มีความหมายว่าอะไร "saturating" หรือ "non-saturating"? คำเหล่านั้นมีความหมายอย่างไรในบริบทของโครงข่ายประสาทเทียม พวกเขาใช้ในด้านอื่น ๆ ของการเรียนรู้ของเครื่อง (และสถิติ) หรือไม่?

5
วิธีจัดการกับข้อมูลแบบลำดับชั้น / ซ้อนในการเรียนรู้ของเครื่อง
ฉันจะอธิบายปัญหาด้วยตัวอย่าง สมมติว่าคุณต้องการที่จะทำนายรายได้ของแต่ละบุคคลที่มีคุณลักษณะบางอย่าง: {อายุ, เพศ, ประเทศ, ภูมิภาค, เมือง} คุณมีชุดข้อมูลการฝึกอบรมเช่นนั้น train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

3
เหตุใดจึงมีการใช้โหนดอคติในเครือข่ายประสาท
เหตุใดจึงมีการใช้โหนดอคติในเครือข่ายประสาท คุณควรใช้เท่าไหร่ คุณควรใช้เลเยอร์ใด: เลเยอร์ที่ซ่อนอยู่ทั้งหมดและเลเยอร์เอาท์พุท

3
R: การสุ่มฟอเรสต์การโยน NaN / Inf ในข้อผิดพลาด“ การเรียกฟังก์ชันต่างประเทศ” แม้จะไม่มีชุดข้อมูลของ NaN [ปิด]
ฉันใช้คาเร็ตเพื่อรันฟอเรสต์แบบสุ่มที่ผ่านการตรวจสอบความถูกต้องข้ามชุดข้อมูล ตัวแปร Y เป็นปัจจัย ไม่มีชุดข้อมูลของ NaN, Inf's หรือ NA ในชุดข้อมูลของฉัน อย่างไรก็ตามเมื่อใช้ป่าสุ่มฉันได้รับ Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs …

3
ตอนนี้รูปแบบการเรียนรู้ที่ลึกล้ำไม่สามารถพูดได้ว่าตีความได้หรือ คุณสมบัติของโหนดคืออะไร
สำหรับโมเดลการเรียนรู้ทางสถิติและเครื่องมีหลายระดับของการตีความได้: 1) อัลกอริทึมโดยรวม, 2) ส่วนของอัลกอริทึมโดยทั่วไป 3) อัลกอริทึมส่วนต่างๆของอัลกอริทึมโดยเฉพาะอินพุตและสามระดับแบ่งออกเป็นสองส่วน หนึ่งสำหรับการฝึกอบรมและหนึ่งสำหรับฟังก์ชั่น eval สองส่วนสุดท้ายอยู่ใกล้กว่าชิ้นแรกมาก ฉันถามเกี่ยวกับ # 2 ซึ่งมักจะนำไปสู่ความเข้าใจที่ดีขึ้นของ # 3) (หากสิ่งเหล่านั้นไม่ใช่สิ่งที่ 'ตีความได้' หมายถึงอะไรฉันควรจะคิดอย่างไร) เท่าที่การตีความไปได้การถดถอยโลจิสติกส์เป็นหนึ่งในวิธีที่ง่ายที่สุดในการตีความ เหตุใดอินสแตนซ์นี้จึงผ่านเกณฑ์ เนื่องจากอินสแตนซ์ดังกล่าวมีคุณสมบัติเชิงบวกนี้โดยเฉพาะและมีค่าสัมประสิทธิ์สูงกว่าในโมเดล มันชัดเจนมาก! โครงข่ายประสาทเทียมเป็นตัวอย่างคลาสสิกของแบบจำลองที่ตีความได้ยาก สัมประสิทธิ์ทั้งหมดนั้นหมายความว่าอะไร? พวกเขาทั้งหมดรวมกันในวิธีที่ซับซ้อนอย่างบ้าคลั่งซึ่งเป็นการยากที่จะพูดในสิ่งที่สัมประสิทธิ์พิเศษกำลังทำอยู่ แต่เมื่อมีโครงข่ายประสาทที่หยั่งรากลึกออกมามันรู้สึกว่าสิ่งต่าง ๆ กำลังชัดเจนขึ้น แบบจำลอง DL (สำหรับการมองเห็น) ดูเหมือนว่าจะจับภาพสิ่งต่าง ๆ เช่นขอบหรือการวางแนวในชั้นแรก ๆ และในชั้นต่อมาดูเหมือนว่าบางโหนดมีความหมายจริง (เช่นเซลล์ยาย 'สุภาษิต' ) ตัวอย่างเช่น: ( จาก 'การเรียนรู้เกี่ยวกับการเรียนรู้ลึก' ) นี่เป็นภาพกราฟิก ( ของหลาย ๆ ภาพ …

4
เป็นไปได้อย่างไรที่การสูญเสียการตรวจสอบเพิ่มขึ้นในขณะที่ความแม่นยำในการตรวจสอบเพิ่มขึ้นเช่นกัน
ฉันกำลังฝึกโครงข่ายประสาทอย่างง่ายบนชุดข้อมูล CIFAR10 หลังจากเวลาผ่านไปการสูญเสียการตรวจสอบความถูกต้องก็เริ่มเพิ่มขึ้น การสูญเสียการทดสอบและความแม่นยำในการทดสอบยังคงปรับปรุง เป็นไปได้อย่างไร? ดูเหมือนว่าหากการสูญเสียการตรวจสอบเพิ่มขึ้นความแม่นยำควรลดลง ป.ล. มีคำถามที่คล้ายกันหลายประการ แต่ไม่มีใครอธิบายสิ่งที่เกิดขึ้นที่นั่น

2
ฟังก์ชั่นการสูญเสียค่าสัมประสิทธิ์ลูกเต๋าเทียบกับเอนโทรปี
เมื่อทำการฝึกอบรมการแบ่งส่วนพิกเซลของโครงข่ายประสาทเทียมเช่นเครือข่าย convolutional ทั้งหมดคุณจะตัดสินใจใช้ฟังก์ชั่นการสูญเสียข้ามเอนโทรปีกับฟังก์ชันการสูญเสียค่าสัมประสิทธิ์ Dice ได้อย่างไร? ฉันรู้ว่านี่เป็นคำถามสั้น ๆ แต่ไม่แน่ใจว่าจะให้ข้อมูลอื่นใดอีก ฉันดูเอกสารจำนวนมากเกี่ยวกับฟังก์ชั่นการสูญเสียสองอย่าง แต่ไม่สามารถเข้าใจได้ง่ายว่าจะใช้ฟังก์ชันใดฟังก์ชันหนึ่ง

5
ฟังก์ชั่นการคูณโดยประมาณของโครงข่ายใยประสาทเทียมโดยที่ไม่สามารถทำให้เป็นมาตรฐานได้หรือไม่?
สมมติว่าเราต้องการถดถอยอย่างง่ายf = x * yโดยใช้เครือข่ายโครงข่ายประสาทในระดับลึก ฉันจำได้ว่ามี reseraches ที่บอกว่า NN ที่มีหนึ่ง hiden layer สามารถ apoximate ฟังก์ชั่นใด ๆ ได้ แต่ฉันได้ลองและไม่มี normalization NN ก็ไม่สามารถประมาณได้แม้แต่การคูณง่าย ๆ นี้ บันทึกการทำข้อมูลให้เป็นมาตรฐานเท่านั้นช่วยm = x*y => ln(m) = ln(x) + ln(y). แต่ดูเหมือนว่าโกง NN สามารถทำสิ่งนี้โดยไม่ใช้บันทึกการทำให้เป็นมาตรฐานได้หรือไม่? เห็นได้ชัดว่า unswer (สำหรับฉัน) - ใช่แล้วดังนั้นคำถามคือสิ่งที่ควรเป็นประเภท / การกำหนดค่า / รูปแบบของ NN เช่นนั้น?

1
การศึกษาระเหยคืออะไร? และมีวิธีที่เป็นระบบในการแสดงหรือไม่?
การศึกษาระเหยคืออะไร? และมีวิธีที่เป็นระบบในการแสดงหรือไม่? ตัวอย่างเช่นฉันมีตัวทำนายในการถดถอยเชิงเส้นซึ่งฉันจะเรียกว่าเป็นแบบจำลองของฉันnnn ฉันจะทำการศึกษาระเหยด้วยวิธีนี้ได้อย่างไร? ฉันควรใช้การวัดใด แหล่งที่มาที่ครอบคลุมหรือตำราเรียนจะได้รับการชื่นชม

1
เหตุใดการเปิดใช้งานที่ไม่อยู่กึ่งกลางจึงไม่เกิดปัญหาในการกระจายข้อความ?
ฉันอ่านที่นี่ต่อไปนี้: เอาท์พุท sigmoid จะไม่เป็นศูนย์เป็นศูนย์กลาง สิ่งนี้ไม่เป็นที่พึงปรารถนาเนื่องจากเซลล์ประสาทในชั้นถัดไปของการประมวลผลในเครือข่ายประสาท (เพิ่มเติมในเร็ว ๆ นี้) จะได้รับข้อมูลที่ไม่ได้อยู่กึ่งกลาง เรื่องนี้มีผลกระทบต่อการเปลี่ยนแปลงในระหว่างการสืบเชื้อสายการไล่ระดับสีเพราะถ้าข้อมูลที่เข้ามาในเซลล์ประสาทเป็นบวกเสมอ (เช่นx > 0x>0x > 0 elementwise ใน )) จากนั้นการไล่ระดับน้ำหนักที่ จะระหว่าง backpropagation ทั้งหมดเป็นบวกหรือลบทั้งหมด (ขึ้นอยู่กับความชันของการแสดงออกทั้งหมด ฉ= wTx + bฉ=WTx+ขf = w^Tx + bWWwฉฉf) สิ่งนี้สามารถแนะนำพลวัตซิกซิกซิกที่ไม่พึงประสงค์ในการปรับปรุงการไล่ระดับสีสำหรับตุ้มน้ำหนัก อย่างไรก็ตามโปรดสังเกตว่าเมื่อมีการเพิ่มการไล่ระดับสีเหล่านี้ข้ามชุดข้อมูลการปรับปรุงขั้นสุดท้ายสำหรับตุ้มน้ำหนักอาจมีสัญญาณตัวแปรซึ่งจะช่วยบรรเทาปัญหานี้ได้บ้าง ดังนั้นนี่เป็นความไม่สะดวก แต่มีผลกระทบรุนแรงน้อยกว่าเมื่อเทียบกับปัญหาการเปิดใช้งานอิ่มตัวด้านบน ทำไมจะมีทั้งหมด (elementwise) นำไปสู่การบวกทั้งหมดหรือการไล่ระดับสีทั้งหมดในทางลบต่อ ?x > 0x>0x>0WWw

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.