คำถามติดแท็ก neural-networks

โครงข่ายประสาทเทียม (ANNs) เป็นรูปแบบการคำนวณในวงกว้างโดยยึดตามเครือข่ายประสาทชีววิทยาอย่างเข้มงวด พวกเขารวม NNs ของ feedforward (รวมถึง NN ที่ "ลึก"), NNs convolutional, NNs ที่เกิดซ้ำเป็นต้น

4
รูปแบบประวัติเหตุการณ์แบบไม่ต่อเนื่อง (การอยู่รอด) ใน R
ฉันกำลังพยายามปรับโมเดลที่ไม่ต่อเนื่องใน R แต่ฉันไม่แน่ใจว่าจะทำอย่างไร ฉันได้อ่านแล้วว่าคุณสามารถจัดระเบียบตัวแปรตามในแถวต่างกันหนึ่งตัวสำหรับแต่ละการสังเกตเวลาและการใช้glmฟังก์ชั่นที่มีลิงค์ logit หรือ cloglog ในแง่นี้ฉันมีสามคอลัมน์: ID, Event(1 หรือ 0 ในแต่ละช่วงเวลา) และTime Elapsed(ตั้งแต่จุดเริ่มต้นของการสังเกต) รวมทั้ง covariates อื่น ๆ ฉันจะเขียนรหัสเพื่อให้พอดีกับรุ่นได้อย่างไร ตัวแปรตามคืออะไร ฉันเดาว่าฉันสามารถใช้Eventเป็นตัวแปรตามและรวมTime Elapsedอยู่ใน covariates แต่สิ่งที่เกิดขึ้นกับID? ฉันต้องการมันไหม ขอบคุณ
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

1
R ตัวแปรเชิงเส้นถดถอยหมวดหมู่ "ซ่อน" ค่า
นี่เป็นเพียงตัวอย่างที่ฉันเจอหลายครั้งดังนั้นฉันจึงไม่มีข้อมูลตัวอย่าง ใช้แบบจำลองการถดถอยเชิงเส้นใน R: a.lm = lm(Y ~ x1 + x2) x1เป็นตัวแปรต่อเนื่อง x2เป็นหมวดหมู่และมีสามค่าเช่น "ต่ำ", "ปานกลาง" และ "สูง" อย่างไรก็ตามเอาต์พุตที่กำหนดโดย R จะเป็นดังนี้: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 ฉันเข้าใจว่า R แนะนำการเข้ารหัสแบบหลอกบางอย่างเกี่ยวกับปัจจัยดังกล่าว ( …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
เหตุใดข้อมูลเกี่ยวกับข้อมูลการตรวจสอบจึงรั่วไหลหากฉันประเมินประสิทธิภาพของแบบจำลองกับข้อมูลการตรวจสอบความถูกต้องเมื่อทำการปรับพารามิเตอร์ไฮเปอร์พารามิเตอร์
ในการเรียนรู้อย่างลึกซึ้งกับFrançois Chollet กับ Python มันบอกว่า: ดังนั้นการปรับการกำหนดค่าของโมเดลตามประสิทธิภาพของชุดการตรวจสอบความถูกต้องสามารถส่งผลให้ overfitting เป็นชุดการตรวจสอบได้อย่างรวดเร็วแม้ว่าโมเดลของคุณจะไม่ได้รับการฝึกฝนโดยตรง ศูนย์กลางของปรากฏการณ์นี้คือแนวคิดของการรั่วไหลของข้อมูล ทุกครั้งที่คุณปรับแต่ง hyperparameter ของรูปแบบของคุณขึ้นอยู่กับประสิทธิภาพของแบบจำลองในชุดการตรวจสอบ, ข้อมูลบางอย่างเกี่ยวกับการรั่วไหลของข้อมูลการตรวจสอบลงในรูปแบบ หากคุณทำสิ่งนี้เพียงครั้งเดียวสำหรับหนึ่งพารามิเตอร์ข้อมูลที่น้อยมากจะรั่วไหลและชุดการตรวจสอบของคุณจะยังคงเชื่อถือได้ในการประเมินรูปแบบ แต่ถ้าคุณทำซ้ำหลาย ๆ ครั้ง - ทำการทดสอบหนึ่งครั้งประเมินผลชุดการตรวจสอบความถูกต้องและแก้ไขแบบจำลองของคุณจากนั้นคุณก็จะรั่วไหลข้อมูลจำนวนมากเกี่ยวกับการตรวจสอบความถูกต้องที่ตั้งไว้ในแบบจำลอง เหตุใดข้อมูลเกี่ยวกับข้อมูลการตรวจสอบจึงรั่วไหลหากฉันประเมินประสิทธิภาพของแบบจำลองกับข้อมูลการตรวจสอบความถูกต้องเมื่อทำการปรับพารามิเตอร์ไฮเปอร์พารามิเตอร์


1
เครือข่ายประสาทของฉันไม่สามารถเรียนรู้ระยะทางแบบยุคลิด
ดังนั้นฉันจึงพยายามสอนตัวเองเกี่ยวกับโครงข่ายประสาทเทียม (สำหรับแอพพลิเคชั่นการถดถอยไม่แบ่งภาพแมว) การทดลองครั้งแรกของฉันคือการฝึกอบรมเครือข่ายเพื่อใช้ตัวกรอง FIR และการแปลงฟูริเยร์แบบไม่ต่อเนื่อง (การฝึกอบรมเรื่อง "ก่อน" และ "หลัง") เนื่องจากการดำเนินการเชิงเส้นทั้งสองนั้นสามารถใช้งานได้ในชั้นเดียว ทั้งสองทำงานได้ดี ดังนั้นฉันอยากดูว่าฉันสามารถเพิ่มabs()และทำให้เรียนรู้สเปกตรัมแอมพลิจูด ครั้งแรกที่ฉันคิดเกี่ยวกับจำนวนโหนดที่มันจะต้องอยู่ในชั้นที่ซ่อนอยู่และตระหนักว่า 3 ReLUs นั้นเพียงพอสำหรับการประมาณที่หยาบกabs(x+jy) = sqrt(x² + y²)ร้านดังนั้นฉันจึงทดสอบการทำงานด้วยตัวเองบนตัวเลขที่ซับซ้อนโดดเดี่ยว (2 อินพุต→ 3 ReLU โหนดที่ซ่อนชั้น→ 1 เอาท์พุท) มันทำงานเป็นครั้งคราว: แต่ส่วนใหญ่เวลาที่ฉันลองมันติดอยู่ในขั้นต่ำในท้องถิ่นและล้มเหลวในการหารูปร่างที่เหมาะสม: ฉันลองใช้เครื่องมือเพิ่มประสิทธิภาพและชุดรูปแบบ ReLU ทั้งหมดใน Keras แต่พวกเขาไม่ได้สร้างความแตกต่างมากนัก มีอะไรอีกบ้างที่ฉันสามารถทำได้เพื่อทำให้เครือข่ายง่าย ๆ เช่นนี้มาบรรจบกันอย่างน่าเชื่อถือ? หรือฉันกำลังเข้าใกล้สิ่งนี้ด้วยทัศนคติที่ไม่ถูกต้องและคุณควรจะทิ้งโหนดมากกว่าที่จำเป็นในปัญหาและถ้าครึ่งหนึ่งของพวกเขาตายมันไม่ถือว่าเป็นเรื่องใหญ่อะไร?

2
จะหารุ่นที่ได้รับการฝึกฝนมาก่อนแล้วสำหรับการเรียนรู้การถ่ายโอน [ปิด]
ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน2 ปีที่ผ่านมา ฉันยังใหม่กับสาขาการเรียนรู้ของเครื่อง แต่ฉันต้องการลองใช้อัลกอริธึมการจำแนกแบบง่าย ๆ กับ Keras น่าเสียดายที่ฉันมีชุดข้อมูลที่น้อยมากดังนั้นฉันจึงคิดว่าจะพยายามใช้การเรียนรู้การถ่ายโอนกับปัญหา อย่างไรก็ตามฉันไม่พบอะไรในโลกออนไลน์นี้ดังนั้นฉันจึงอยากเข้าใจว่าสถานที่ที่ดีที่สุดในการมองหาเครือข่ายประสาทที่ได้รับการฝึกฝนมาก่อน คุณมีข้อเสนอแนะในเรื่องนี้หรือไม่? เว็บไซต์ใดดีที่สุดในการรับแนวคิดเกี่ยวกับวิธีเริ่มโครงการเรียนรู้ของเครื่อง

1
รูปแบบการเรียนรู้แบบลึกใดที่สามารถจำแนกหมวดหมู่ที่ไม่ได้เกิดร่วมกัน
ตัวอย่าง: ฉันมีประโยคในรายละเอียดงาน: "วิศวกรอาวุโสของ Java ในสหราชอาณาจักร" ฉันต้องการที่จะใช้รูปแบบการเรียนรู้ที่ลึกที่จะคาดการณ์ว่ามันเป็น 2 ประเภทและEnglish IT jobsถ้าฉันใช้รูปแบบการจำแนกแบบดั้งเดิมมันสามารถทำนายได้เพียง 1 ฉลากที่มีsoftmaxฟังก์ชั่นที่ชั้นสุดท้าย ดังนั้นฉันสามารถใช้โครงข่ายประสาทเทียม 2 แบบในการทำนาย "ใช่" / "ไม่" กับทั้งสองหมวดหมู่ แต่ถ้าเรามีหมวดหมู่มากขึ้นมันก็แพงเกินไป ดังนั้นเราจึงมีรูปแบบการเรียนรู้หรือการเรียนรู้ด้วยเครื่องเพื่อคาดการณ์ 2 หมวดหมู่ขึ้นไปพร้อมกันหรือไม่ "แก้ไข": ด้วย 3 ป้ายกำกับโดยวิธีดั้งเดิมมันจะถูกเข้ารหัสโดย [1,0,0] แต่ในกรณีของฉันมันจะถูกเข้ารหัสโดย [1,1,0] หรือ [1,1,1] ตัวอย่าง: หากเรามี 3 ป้ายกำกับและประโยคอาจเหมาะกับป้ายกำกับเหล่านี้ทั้งหมด ดังนั้นถ้าผลลัพธ์จากฟังก์ชัน softmax คือ [0.45, 0.35, 0.2] เราควรแบ่งมันออกเป็น 3 label หรือ 2 label หรืออาจเป็นหนึ่ง? ปัญหาหลักเมื่อเราทำคือ: …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

4
ฉันจะตีความกราฟความอยู่รอดของโมเดลอันตราย Cox ได้อย่างไร
คุณจะตีความเส้นโค้งการอยู่รอดจากโมเดลอันตรายตามสัดส่วนของค็อกซ์ได้อย่างไร ในตัวอย่างของเล่นนี้สมมติว่าเรามีโมเดลอันตรายตามสัดส่วนในageตัวแปรในkidneyข้อมูลและสร้างเส้นโค้งการอยู่รอด library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() ตัวอย่างเช่น ณ เวลาคำสั่งใดเป็นจริง หรือทั้งสองอย่างผิดปกติ?200200200 คำแถลงที่ 1: เราจะเหลือวิชา 20% (เช่นถ้าเรามีคนโดยวันที่เราควรเหลืออีกประมาณ ) 100010001000200200200200200200 งบ 2: สำหรับคนที่ได้รับหนึ่งเขา / เธอมีมีโอกาสที่จะอยู่รอดได้ในวันที่20020%20%20\%200200200 ความพยายามของฉัน: ฉันไม่คิดว่าทั้งสองงบจะเหมือนกัน (แก้ไขฉันถ้าฉันผิด) เนื่องจากเราไม่ได้มีการสันนิษฐาน iid (เวลารอดสำหรับทุกคนไม่ได้มาจากการกระจายอย่างอิสระ) มันคล้ายกับการถดถอยโลจิสติกในคำถามของฉันที่นี่อัตราความเป็นอันตรายของแต่ละคนขึ้นอยู่กับสำหรับบุคคลนั้นβTxβTx\beta^Tx

4
การฝึกอบรมเครือข่ายประสาทเพื่อการถดถอยจะทำนายค่าเฉลี่ยเสมอ
ฉันกำลังฝึกอบรมเครือข่ายประสาทเทียมแบบง่ายสำหรับการถดถอยซึ่งงานนี้จะทำนายตำแหน่ง (x, y) ของกล่องในภาพเช่น: เอาต์พุตของเครือข่ายมีสองโหนดหนึ่งรายการสำหรับ x และอีกหนึ่งสำหรับ y ส่วนที่เหลือของเครือข่ายเป็นเครือข่ายประสาทเทียมมาตรฐาน การสูญเสียเป็นค่าเฉลี่ยความคลาดเคลื่อนกำลังสองระหว่างตำแหน่งที่ทำนายของกล่องและตำแหน่งจริงของพื้นดิน ฉันกำลังฝึกอบรมเกี่ยวกับ 10,000 ภาพเหล่านี้และการตรวจสอบในปี 2000 ปัญหาที่ฉันมีคือแม้ว่าหลังจากการฝึกอบรมที่สำคัญแล้วการสูญเสียไม่ลดลงจริงๆ หลังจากสังเกตเอาท์พุทของเครือข่ายฉันสังเกตว่าเครือข่ายมีแนวโน้มที่จะส่งออกค่าใกล้ศูนย์สำหรับทั้งสองเอาท์พุทโหนด ดังนั้นการทำนายตำแหน่งของกล่องจึงเป็นจุดศูนย์กลางของภาพเสมอ มีการเบี่ยงเบนบางอย่างในการคาดการณ์ แต่มักจะอยู่ที่ประมาณศูนย์ ด้านล่างแสดงให้เห็นถึงการสูญเสีย: ฉันใช้งานสิ่งนี้ได้หลายครั้งมากกว่าที่แสดงในกราฟนี้และการสูญเสียยังไม่ลดลง น่าสนใจที่นี่การสูญเสียเพิ่มขึ้น ณ จุดหนึ่ง ดังนั้นดูเหมือนว่าเครือข่ายจะทำนายค่าเฉลี่ยของข้อมูลการฝึกอบรมมากกว่าการเรียนรู้ที่เหมาะสม ความคิดเห็นใด ๆ เกี่ยวกับสาเหตุที่อาจเป็นเช่นนี้ ฉันใช้อดัมเป็นเครื่องมือเพิ่มประสิทธิภาพด้วยอัตราการเรียนรู้เริ่มต้นที่ 0.01 และการเปิดใช้งานใหม่ หากคุณมีความสนใจในบางรหัสของฉัน (Keras) มันเป็นด้านล่าง: # Create the model model = Sequential() model.add(Convolution2D(32, 5, 5, border_mode='same', subsample=(2, 2), activation='relu', input_shape=(3, image_width, …

1
ทำความเข้าใจกับโทโพโลยีของ LSTM
อย่างที่หลายคนมีฉันพบแหล่งข้อมูลที่นี่และที่นี่เพื่อเป็นประโยชน์อย่างมากสำหรับการทำความเข้าใจเซลล์ LSTM ฉันมั่นใจว่าฉันเข้าใจว่าการไหลของค่าและการปรับปรุงและฉันมั่นใจมากพอที่จะเพิ่ม "การเชื่อมต่อช่องมอง" ฯลฯ ในตัวอย่างของฉันฉันมีที่ในแต่ละครั้งขั้นตอนการป้อนข้อมูลเวกเตอร์ของความยาวiและเวกเตอร์การส่งออกของระยะเวลาที่oo < i สิ่งที่ไม่ได้กล่าวถึงในหน้านี้คือวิธีการจัดเรียงและฝึกอบรม ฉันมีคำถาม 2 ข้อ: ในข้อมูลการฝึกอบรมของฉันฉันมีเวกเตอร์อินพุต / เอาต์พุตจำนวนมากที่สอดคล้องกับหน่วยเวลาจำนวนมาก สมมติว่าฉันฝึก LSTM ด้วยข้อมูลทั้งหมด จากนั้นฉันจะเรียกใช้อินพุตที่กำหนดเองแบบยาว ๆ สิ่งที่ฉันหมายถึงคือถ้าฉันมีข้อมูลการฝึกอบรมสำหรับพูดทั้งหมดของปี 2558 และ 2559 ฉันจะสามารถเรียกใช้ข้อมูลผ่านเครือข่ายในปี 2560 ได้หรือไม่? หรืออาจ 2017 ถึง 2020 ตามที่ฉันได้อ่านมันรู้สึกเหมือนฉันมีเซลล์ LSTM หนึ่งเซลล์ต่อหน่วยเวลาดังนั้นถ้าฉันมีหน่วยเวลาหลายครั้งฉันก็มีเซลล์ LSTM ที่ถูกล่ามโซ่ไว้มากมาย เนื่องจากความยาวของสายโซ่นั้นขึ้นอยู่กับความยาวของข้อมูลที่ฉันต้องการเรียกใช้ผ่านเครือข่ายและนั่นเป็นเรื่องที่คาดเดาได้ยากฉันไม่สามารถเห็นได้ว่าฉันจะฝึกอบรมเรื่องนี้อย่างไรเว้นแต่ฉันจะฝึกเซลล์ LSTM เพียงเซลล์เดียว ครั้ง ดังนั้นดูเหมือนว่าฉันจะฝึกเซลล์ LSTM หนึ่งเซลล์จากนั้นnโยงมันเข้าด้วยกันเพื่อหารายการเวกเตอร์ความยาวที่กำหนดn? แม้ว่าเซลล์ LSTM หนึ่งเซลล์จะมีองค์ประกอบและฟังก์ชั่นจำนวนหนึ่ง แต่รู้สึกว่ามันไม่เพียงพอที่จะรวบรวมข้อมูลมากมายในบางสิ่งที่เล็กมาก? ขอบคุณ มีทรัพยากรอื่น ๆ …

1
การไล่ระดับสีสำหรับ skipgram word2vec
ฉันกำลังประสบปัญหาในปัญหาการมอบหมายการเรียนรู้อย่างลึกของ Stanford NLP http://cs224d.stanford.edu/assignment1/assignment1_soln ฉันพยายามที่จะเข้าใจคำตอบของ 3a ที่พวกเขากำลังหาอนุพันธ์ของเวกเตอร์สำหรับคำกลาง สมมติว่าคุณได้คำทำนายเวกเตอร์ตรงกับคำกลางcสำหรับ skipgram และการคาดคะเนคำจะทำกับฟังก์ชัน softmax ที่พบในรุ่น word2vecvcvcv_{c} y^o=p(o|c)=exp(uTovc)∑Ww=1exp(uTwvc)y^o=p(o|c)=exp(uoTvc)∑w=1Wexp(uwTvc)\hat{y}^{o} = p(o | c) = \frac {exp(u_{o}^{T} v_{c})}{\sum_{w=1}^{W}exp(u_{w}^{T} v_{c})} โดยที่wหมายถึงคำ w-th และ (w = 1,..., W) คือเวกเตอร์คำว่า "เอาท์พุท" สำหรับคำทั้งหมดในคำศัพท์ สมมติว่าค่าใช้จ่ายข้ามเอนโทรปีถูกนำไปใช้กับการทำนายนี้และคำoเป็นคำที่คาดหวังuwuwu_w โดยที่คือเมทริกซ์ของเวกเตอร์เอาต์พุตทั้งหมดและให้เป็นเวกเตอร์คอลัมน์ของการคาดคะเนคำ softmax และyเป็นป้ายกำกับที่ร้อนแรงที่สุดซึ่ง ยังเป็นเวกเตอร์คอลัมน์U=[u1,u2,⋅⋅⋅,uW]U=[u1,u2,···,uW]U = [u_1,u_2, · · · ,u_W ]y^y^\hat{y} ที่เอนโทรปีของการข้ามคือCE(y,y^)=−∑iyilog(y^i)CE(y,y^)=−∑iyilog⁡(y^i)CE(y, \hat{y}) = − \sum_iy_i\log(\hat{y}_i) …

3
จะใช้ Softmax เป็นฟังก์ชั่น Activation ใน Multi-layer Perceptron ใน scikit-Learn ได้อย่างไร? [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการในวันที่ 11 เดือนที่ผ่านมา ฉันจำเป็นต้องใช้ฟังก์ชั่นการเปิดใช้งาน Softmax กับ Perceptron หลายเลเยอร์ใน scikit Scikit documantationในหัวข้อของ Neural network models (ภายใต้การดูแล) กล่าวว่า"MLPClassifier รองรับการจำแนกประเภทหลายคลาสโดยใช้ Softmax เป็นฟังก์ชันเอาต์พุต" คำถามคือวิธีการใช้ฟังก์ชั่น? ในโค้ด snip ด้านล่างเมื่อฉันเพิ่ม Softmax ภายใต้พารามิเตอร์การเปิดใช้งานมันไม่ยอมรับ MLPClassifier(activation='Softmax', alpha=1e-05, batch_size='auto', beta_1=0.9, beta_2=0.999, early_stopping=False, epsilon=1e-08, hidden_layer_sizes=(15,), learning_rate='constant', learning_rate_init=0.001, max_iter=200, momentum=0.9, nesterovs_momentum=True, power_t=0.5, random_state=1, shuffle=True, solver='lbfgs', tol=0.0001, validation_fraction=0.1, verbose=False, …

1
เครือข่ายประสาทเทียมใช้การเข้ารหัสที่มีประสิทธิภาพหรือไม่
คำถามของฉันเกี่ยวข้องกับความสัมพันธ์ระหว่างสมมติฐานการเข้ารหัสที่มีประสิทธิภาพซึ่งแสดงไว้ในหน้า Wikipedia เกี่ยวกับการเข้ารหัสที่มีประสิทธิภาพและอัลกอริทึมการเรียนรู้เครือข่ายประสาท ความสัมพันธ์ระหว่างสมมติฐานการเข้ารหัสที่มีประสิทธิภาพกับเครือข่ายประสาทเทียมคืออะไร มีโครงข่ายประสาทเทียมใดที่ได้รับแรงบันดาลใจจากสมมติฐานการเข้ารหัสที่มีประสิทธิภาพหรือไม่ หรือมันจะยุติธรรมกว่าที่จะบอกว่าอัลกอริธึมการเรียนรู้โครงข่ายประสาททั้งหมดอย่างน้อยที่สุดก็ขึ้นอยู่กับการเข้ารหัสที่มีประสิทธิภาพ?

1
Q-learning มีประสิทธิภาพเพียงใดเมื่อใช้ Neural Networks เมื่อมีเอาต์พุตหนึ่งหน่วยต่อการกระทำ
ข้อมูลประกอบ: ฉันใช้การประมาณค่า Q ของโครงข่ายใยประสาทเทียมในงานการเรียนรู้การเสริมแรงของฉัน วิธีการนั้นเหมือนกับที่อธิบายไว้ในคำถามนี้แต่คำถามนั้นแตกต่างกัน ในแนวทางนี้จำนวนผลลัพธ์คือจำนวนการกระทำที่เราสามารถทำได้ และในคำง่ายขั้นตอนต่อไปนี้: กระทำ A, สำรวจรางวัลขอ NN ที่จะคาดการณ์ค่า Q สำหรับการกระทำที่เป็นไปได้ทั้งหมดให้เลือกค่า Q สูงสุดคำนวณ Q R + max(new_state_Q)สำหรับการดำเนินการโดยเฉพาะอย่างยิ่ง รุ่น Fit บนคาดการณ์ค่า Q R + max(new_state_Q)ที่มีเพียงหนึ่งของพวกเขาถูกแทนที่ด้วย คำถาม:วิธีการนี้มีประสิทธิภาพเพียงใดหากจำนวนผลผลิตมีขนาดใหญ่ ความพยายาม:สมมติว่ามี 10 การกระทำที่เราสามารถทำได้ ในแต่ละขั้นตอนเราขอให้แบบจำลองทำนายค่า 10 ค่าตั้งแต่อายุยังน้อยของแบบจำลองการทำนายนี้เป็นความยุ่งเหยิงโดยรวม จากนั้นเราปรับเปลี่ยนค่า 1 ของผลลัพธ์และปรับโมเดลให้เหมาะสมกับค่าเหล่านี้ ฉันมีความคิดที่ตรงกันข้ามสองประการเกี่ยวกับวิธีการที่ดี \ เลวคือวิธีการนี้และไม่สามารถตัดสินใจได้ว่าวิธีใดที่ถูกต้อง: จากมุมมองหนึ่งเรากำลังฝึกอบรมแต่ละเซลล์ประสาท 9 ครั้งในข้อมูลสุ่มและเพียงครั้งเดียวในข้อมูลที่ใกล้เคียงกับมูลค่าที่แท้จริง หาก NN ทำนายค่า 5 สำหรับการดำเนินการ A ในสถานะ …

2
ทำนายความมั่นใจของโครงข่ายประสาทเทียม
สมมติว่าฉันต้องการฝึกโครงข่ายประสาทลึกเพื่อทำการจำแนกหรือการถดถอย แต่ฉันต้องการที่จะรู้ว่าจะมีความมั่นใจในการทำนายอย่างไร ฉันจะบรรลุสิ่งนี้ได้อย่างไร ความคิดของฉันคือการคำนวณเอนโทรปีของการข้ามสำหรับข้อมูลการฝึกอบรมทุกครั้งซึ่งขึ้นอยู่กับประสิทธิภาพการทำนายของมันในมาตรวัดประสาทข้างต้น จากนั้นฉันจะฝึกโครงข่ายประสาทที่สองสำหรับการถดถอยซึ่งจะใช้แต่ละ datum เป็นอินพุตและมันข้ามเอนโทรปีเป็นเอาท์พุท (หนึ่งโหนดเอาต์พุต) จากนั้นคุณจะใช้ทั้งสองเครือข่ายในการปฏิบัติ - หนึ่งสำหรับการคาดการณ์ของฉลาก / ค่าและอื่น ๆ สำหรับการทำนายความมั่นใจของเครือข่ายแรก (.... แต่ฉันจะต้องมีเครือข่ายที่สามเพื่อทำนายความมั่นใจของเครือข่ายที่สองและอื่น ๆ ... ?!) นี่เป็นแนวคิดที่ถูกต้องหรือไม่? ยิ่งกว่านั้นมันเป็นความคิดมาตรฐานที่ใช้กันทั่วไปหรือไม่? ถ้าไม่คุณจะแนะนำอะไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.