คำถามติดแท็ก neural-network

โครงข่ายประสาทเทียม (ANN) ประกอบด้วย 'เซลล์ประสาท' - การสร้างโปรแกรมที่เลียนแบบคุณสมบัติของเซลล์ประสาทชีวภาพ ชุดของการเชื่อมต่อแบบถ่วงน้ำหนักระหว่างเซลล์ประสาททำให้สามารถเผยแพร่ข้อมูลผ่านเครือข่ายเพื่อแก้ปัญหาปัญญาประดิษฐ์โดยที่ผู้ออกแบบเครือข่ายมีแบบจำลองของระบบจริง

1
อคติควรเริ่มต้นและทำให้เป็นมาตรฐานได้อย่างไร?
ฉันได้อ่านเอกสารสองสามฉบับเกี่ยวกับการเริ่มต้นเคอร์เนลและเอกสารจำนวนมากพูดถึงว่าพวกเขาใช้เคอร์เนล L2 ปกติ (มักจะมี )λ=0.0001λ=0.0001\lambda = 0.0001 มีใครทำสิ่งที่แตกต่างจากการเริ่มต้นอคติด้วยศูนย์คงที่และไม่ทำให้เป็นปกติ? เอกสารการกำหนดค่าเริ่มต้นเคอร์เนล Mishkin และ Matas: สิ่งที่คุณต้องการคือการเริ่มต้นที่ดี Xavier Glorot และ Yoshua Bengio: ทำความเข้าใจกับความยากลำบากในการฝึกอบรมเครือข่ายประสาทที่มีการป้อนลึก เขาและอื่น ๆ : การเจาะลึกลงไปในวงจรเรียงกระแส: ประสิทธิภาพที่เหนือกว่าระดับมนุษย์ในการจำแนกประเภท ImageNet

3
โครงข่ายประสาทเทียมมีความสามารถอธิบายได้เหมือนต้นไม้ตัดสินใจหรือไม่?
ในต้นไม้การตัดสินใจเราสามารถเข้าใจผลลัพธ์ของโครงสร้างต้นไม้และเรายังสามารถเห็นภาพว่าต้นไม้การตัดสินใจตัดสินใจได้อย่างไร ต้นไม้การตัดสินใจมีความสามารถอธิบายได้ (สามารถอธิบายผลลัพธ์ได้อย่างง่ายดาย) เรามีคำอธิบายในโครงข่ายประสาทเทียมเหมือนกับต้นไม้ตัดสินใจหรือไม่?

1
ลืมเลเยอร์ในเครือข่ายประสาทกำเริบ (RNN) -
ฉันกำลังพยายามหามิติของตัวแปรแต่ละตัวใน RNN ในเลเยอร์ลืมอย่างไรก็ตามฉันไม่แน่ใจว่าฉันกำลังติดตามถูกหรือไม่ รูปภาพและสมการถัดไปมาจากบล็อกของ Colah "การทำความเข้าใจกับเครือข่าย LSTM" : ที่อยู่: xtxtx_tคืออินพุตของขนาดเวกเตอร์m∗1m∗1m*1 ht−1ht−1h_{t-1}เป็นสถานะที่ซ่อนขนาดเวกเตอร์n∗1n∗1n*1 [xt,ht−1][xt,ht−1][x_t, h_{t-1}]คือการต่อข้อมูล (ตัวอย่างเช่นถ้าจากนั้น )xt=[1,2,3],ht−1=[4,5,6]xt=[1,2,3],ht−1=[4,5,6]x_t=[1, 2, 3], h_{t-1}=[4, 5, 6][xt,ht−1]=[1,2,3,4,5,6][xt,ht−1]=[1,2,3,4,5,6][x_t, h_{t-1}]=[1, 2, 3, 4, 5, 6] wfwfw_fคือน้ำหนักของขนาดเมทริกซ์โดยที่คือจำนวนของสถานะเซลล์ (ถ้าและในตัวอย่างด้านบนและถ้าเรามี 3 สถานะของเซลล์จากนั้นเมทริกซ์)k∗(m+n)k∗(m+n)k*(m+n)kkkm=3m=3m=3n=3n=3n=3wf=3∗3wf=3∗3w_f=3*3 bfbfb_fเป็นอคติของขนาดเวกเตอร์โดยที่คือจำนวนของสถานะเซลล์ (เนื่องจากเป็นตัวอย่างด้านบนแล้วเป็น เวกเตอร์ )k∗1k∗1k*1kkkk=3k=3k=3bfbfb_f3∗13∗13*1 หากเราตั้งค่าเป็น: wfwfw_f⎡⎣⎢1532643754865976108⎤⎦⎥[1234565678910345678]\begin{bmatrix} 1 & 2 & 3 & 4 & 5 & 6 \\ 5 & …

3
NNs ที่เรียนรู้อย่างลึกซึ้งแตกต่างจากตอนที่ฉันเรียนเพียง 4 ปีที่แล้ว (2012) อย่างไร
มีการกล่าวในWikipediaและdeeplearning4jว่าการเรียนรู้ระดับลึก NN (DLNN) เป็น NN ที่มีเลเยอร์ที่ซ่อนอยู่> 1 NN ประเภทนี้เป็นมาตรฐานที่มหาวิทยาลัยสำหรับฉันในขณะที่ DLNN นั้นถูก hyped มากในตอนนี้ เคยไปทำแล้ว - เรื่องใหญ่อะไร ฉันได้ยินมาด้วยว่า NN ที่ซ้อนกันนั้นถือว่าเป็นการเรียนรู้อย่างลึกซึ้ง การเรียนรู้อย่างลึกซึ้งเป็นอย่างไร ภูมิหลังของฉันใน NN ส่วนใหญ่มาจากมหาวิทยาลัยไม่ใช่จากงาน: การศึกษาการใช้งานของ NN ในอุตสาหกรรม มีประมาณ 5 หลักสูตรเกี่ยวกับ artif Intel & จักร เรียน - แม้ว่าอาจจะมี 2 คนใน NN ใช้ NN สำหรับโครงการขนาดเล็กและเรียบง่ายเกี่ยวกับการจดจำภาพ - ใช้ NN-Feed Feed-Forward 3 ชั้น ไม่ได้ทำการวิจัยจริง (เหมือนในวิทยานิพนธ์ของแพทย์) …

2
มีการเปลี่ยนแปลงตัวชี้วัดที่ใช้โดยการโทรกลับก่อนหยุดใน Keras หรือไม่
เมื่อใช้การเรียกกลับก่อนหยุดในการฝึกซ้อมของ Keras จะหยุดเมื่อตัวชี้วัดบางตัว (โดยปกติสูญเสียการตรวจสอบ) ไม่เพิ่มขึ้น มีวิธีใช้ตัวชี้วัดอื่น (เช่นความแม่นยำการเรียกคืนการวัด f) แทนการสูญเสียการตรวจสอบหรือไม่ ตัวอย่างทั้งหมดที่ฉันเคยเห็นมีความคล้ายคลึงกับนี้: callbacks.EarlyStopping (monitor = 'val_loss', อดทน = 5, verbose = 0, mode = 'auto')

1
การเรียนรู้หลายงานใน Keras
ฉันกำลังพยายามใช้เลเยอร์ที่แชร์ใน Keras ฉันเห็นว่า Keras มีkeras.layers.concatenateแต่ฉันไม่แน่ใจจากเอกสารเกี่ยวกับการใช้งาน ฉันสามารถใช้มันเพื่อสร้างเลเยอร์ที่ใช้ร่วมกันหลายชั้นได้หรือไม่ อะไรจะเป็นวิธีที่ดีที่สุดในการติดตั้งเครือข่ายประสาทส่วนกลางอย่างง่ายดังที่แสดงด้านล่างโดยใช้ Keras โปรดทราบว่ารูปร่างทั้งหมดของอินพุทเอาท์พุทและเลเยอร์ที่แชร์สำหรับ 3 NN ทั้งหมดนั้นเหมือนกัน มีเลเยอร์ที่แชร์หลายอัน (และเลเยอร์ที่ไม่แชร์) ใน NN สามตัว เลเยอร์สีมีความเป็นเอกลักษณ์ของ NN แต่ละตัวและมีรูปร่างเหมือนกัน โดยทั่วไปรูปภาพแสดงถึง NNs ที่เหมือนกัน 3 รายการพร้อมกับเลเยอร์ที่ซ่อนอยู่หลายชั้นตามด้วยเลเยอร์ที่ซ่อนอยู่ที่ไม่แชร์หลายชั้น ฉันไม่แน่ใจว่าจะแชร์หลายเลเยอร์ได้อย่างไรในตัวอย่าง Twitter มีเลเยอร์ที่แชร์เพียงหนึ่งเลเยอร์ (ตัวอย่างใน API เอกสาร)

1
ดังนั้นสิ่งที่จับกับ LSTM?
ฉันกำลังขยายความรู้ของฉันเกี่ยวกับแพคเกจ Keras และฉันใช้เครื่องมือกับรุ่นที่มีอยู่ ฉันมีปัญหาการจำแนกเลขฐานสองแบบ NLP ที่ฉันพยายามแก้ไขและใช้โมเดลที่แตกต่างกัน หลังจากทำงานกับผลลัพธ์และอ่านเพิ่มเติมเกี่ยวกับ LSTM มากขึ้นดูเหมือนว่าวิธีการนี้ดีกว่าสิ่งอื่น ๆ ที่ฉันได้ลอง (ในชุดข้อมูลหลายชุด) ฉันคิดกับตัวเองอยู่เสมอว่า "ทำไม / เมื่อไหร่คุณจะไม่ใช้ LSTM" การใช้ประตูเพิ่มเติมซึ่งเป็นของ LSTM ทำให้ฉันมีความรู้สึกสมบูรณ์แบบหลังจากมีบางรุ่นที่ต้องทนทุกข์ทรมานจากการไล่ระดับสีที่หายไป ดังนั้นสิ่งที่จับกับ LSTM? พวกเขาไม่ทำดีที่ไหน ฉันรู้ว่าไม่มีสิ่งเช่นอัลกอริทึม "หนึ่งขนาดเหมาะกับทุกคน" ดังนั้นจึงต้องมีข้อเสียของ LSTM

5
สุดยอดห้องสมุด Julia สำหรับโครงข่ายประสาทเทียม
ฉันใช้ห้องสมุดนี้เพื่อการสร้างและวิเคราะห์โครงข่ายประสาทขั้นพื้นฐาน อย่างไรก็ตามมันไม่ได้รับการสนับสนุนสำหรับการสร้างโครงข่ายประสาทหลายชั้น ฯลฯ ดังนั้นฉันอยากจะรู้ว่ามีห้องสมุดที่ดีสำหรับการทำโครงข่ายประสาทขั้นสูงและการเรียนรู้ลึกในจูเลีย

2
เครือข่ายประสาทเทียมสามารถคำนวณ
ด้วยจิตวิญญาณของเรื่องตลกTensorflow Fizz Buzz ที่มีชื่อเสียงและปัญหา XOrฉันเริ่มคิดว่าถ้าเป็นไปได้ในการออกแบบเครือข่ายประสาทที่ใช้ฟังก์ชัน ?Y= x2y=x2y = x^2 เมื่อพิจารณาถึงการแสดงตัวเลข (เช่นเวกเตอร์ในรูปแบบไบนารี่เพื่อให้ตัวเลข5นั้นแทน[1,0,1,0,0,0,0,...]) เครือข่ายประสาทควรเรียนรู้ที่จะคืนค่าสแควร์ - 25 ในกรณีนี้ หากฉันสามารถใช้ได้ฉันอาจใช้และโดยทั่วไปชื่อพหุนามของ x แล้วกับชุดอนุกรมฉันสามารถประมาณซึ่งจะแก้ปัญหา Fizz Buzz - เครือข่ายประสาทที่สามารถหาส่วนที่เหลือของY= x2y=x2y=x^2Y= x3y=x3y=x^3Y= บาป( x )y=sin⁡(x)y=\sin(x) เห็นได้ชัดว่าส่วนเชิงเส้นตรงของ NN จะไม่สามารถทำงานนี้ได้ดังนั้นหากเราสามารถคูณมันจะเกิดขึ้นด้วยฟังก์ชั่นการเปิดใช้งาน คุณสามารถแนะนำไอเดียหรืออ่านเรื่องใดได้บ้าง?

3
มีกฎง่ายๆสำหรับการออกแบบโครงข่ายประสาทเทียมหรือไม่?
ฉันรู้ว่าสถาปัตยกรรมเครือข่ายประสาทส่วนใหญ่ขึ้นอยู่กับปัญหาของตัวเองและประเภทของอินพุต / เอาต์พุต แต่ก็ยังมี "ตารางหนึ่ง" เสมอเมื่อเริ่มต้นสร้าง ดังนั้นคำถามของฉันคือ - รับชุดข้อมูลอินพุตของMxN (M คือจำนวนเรคคอร์ด, N คือจำนวนของคุณสมบัติ) และคลาสเอาต์พุตที่เป็นไปได้ของ C - มีกฎง่ายๆเกี่ยวกับจำนวนเลเยอร์ / หน่วยที่เราควรเริ่มต้นด้วย?

4
จะรู้ได้อย่างไรว่าตัวแบบเริ่มขึ้นแล้ว?
ฉันหวังว่าข้อความที่ตัดตอนมาต่อไปนี้จะให้ข้อมูลเชิงลึกเกี่ยวกับสิ่งที่คำถามของฉันจะเป็น เหล่านี้มาจากhttp://neuralnetworksanddeeplearning.com/chap3.html การเรียนรู้จะค่อยๆช้าลง ในที่สุดเมื่อประมาณ 280 ยุคความแม่นยำในการจัดหมวดหมู่ก็ค่อนข้างดีขึ้น หลังจากนั้นก็เห็นความผันผวนเล็ก ๆ ใกล้เคียงกับค่าความถูกต้องที่ยุค 280 ตัดกันสิ่งนี้กับกราฟก่อนหน้าซึ่งค่าใช้จ่ายที่เกี่ยวข้องกับข้อมูลการฝึกอบรมยังคงลดลงอย่างราบรื่น หากเราเพียงแค่ดูค่าใช้จ่ายนั้นปรากฏว่าโมเดลของเรายังคง "ดีขึ้น" แต่ผลการทดสอบความแม่นยำแสดงว่าการปรับปรุงเป็นภาพลวงตา เช่นเดียวกับรุ่นที่ Fermi ไม่ชอบสิ่งที่เครือข่ายของเราเรียนรู้หลังจากยุค 280 ไม่ได้สรุปข้อมูลการทดสอบอีกต่อไป ดังนั้นการเรียนรู้จึงไม่มีประโยชน์ เราบอกว่าเครือข่ายกำลัง overfitting หรือ overtraining เกินยุค 280 เรากำลังฝึกอบรมเครือข่ายประสาทและค่าใช้จ่าย (จากข้อมูลการฝึกอบรม) ลดลงจนถึงยุค 400 แต่ความถูกต้องของการจัดหมวดหมู่กลายเป็นแบบคงที่ (ยกเว้นความผันผวนสุ่มเล็กน้อย) หลังจากยุค 280 ดังนั้นเราจึงสรุปได้ว่า เราสามารถเห็นได้ว่าค่าใช้จ่ายในข้อมูลการทดสอบเพิ่มขึ้นจนถึงราว ๆ ยุค 15 แต่หลังจากนั้นมันก็เริ่มแย่ลงถึงแม้ว่าค่าใช้จ่ายในข้อมูลการฝึกอบรมจะดีขึ้นเรื่อย ๆ นี่เป็นอีกสัญญาณว่าโมเดลของเรากำลัง overfitting มันเป็นปริศนาที่ว่าเราควรพิจารณายุค 15 หรือยุค 280 ว่าเป็นจุดที่ overfitting กำลังเข้าครอบงำการเรียนรู้หรือไม่ …

2
จำนวนภาพต่อชั้นเรียนเพียงพอสำหรับการฝึกอบรม CNN
ฉันเริ่มต้นโครงการที่มีหน้าที่ระบุประเภทรองเท้าผ้าใบจากรูปภาพ ฉันกำลังอ่านเกี่ยวกับการใช้งานTensorFlowและTorch คำถามของฉันคือต้องมีกี่ภาพต่อชั้นเพื่อให้ได้ประสิทธิภาพการจำแนกประเภทที่เหมาะสม

2
อนุกรมเวลาแบบไม่สม่ำเสมอ
ฉันมีตัวแปรต่อเนื่องสุ่มตัวอย่างในช่วงเวลาหนึ่งปีในช่วงเวลาที่ผิดปกติ บางวันมีมากกว่าหนึ่งการสังเกตต่อชั่วโมงในขณะที่ช่วงเวลาอื่นไม่มีอะไรเป็นวัน สิ่งนี้ทำให้ยากต่อการตรวจสอบรูปแบบในอนุกรมเวลาเนื่องจากบางเดือน (ตัวอย่างเช่นเดือนตุลาคม) มีการสุ่มตัวอย่างสูงในขณะที่คนอื่นไม่ได้ คำถามของฉันคืออะไรจะเป็นวิธีที่ดีที่สุดในการสร้างแบบจำลองเวลานี้ ฉันเชื่อว่าเทคนิคการวิเคราะห์อนุกรมเวลาส่วนใหญ่ (เช่น ARMA) ต้องการความถี่คงที่ ฉันสามารถรวมข้อมูลเพื่อให้มีตัวอย่างคงที่หรือเลือกชุดย่อยของข้อมูลที่มีรายละเอียดมาก ด้วยตัวเลือกทั้งสองฉันจะพลาดข้อมูลบางส่วนจากชุดข้อมูลดั้งเดิมที่สามารถเปิดเผยรูปแบบที่แตกต่าง แทนที่จะย่อยสลายซีรีส์ในรอบฉันสามารถป้อนข้อมูลโมเดลด้วยชุดข้อมูลทั้งหมดและคาดว่าจะรับรูปแบบ ตัวอย่างเช่นฉันแปลงชั่วโมงวันทำงานและเดือนเป็นตัวแปรเด็ดขาดและลองการถดถอยหลายครั้งด้วยผลลัพธ์ที่ดี (R2 = 0.71) ฉันมีความคิดว่าเทคนิคการเรียนรู้ด้วยเครื่องจักรเช่น ANN สามารถเลือกรูปแบบเหล่านี้ได้จากอนุกรมเวลาที่ไม่สม่ำเสมอ แต่ฉันสงสัยว่ามีใครลองดูบ้างและสามารถให้คำแนะนำเกี่ยวกับวิธีที่ดีที่สุดในการแสดงรูปแบบเวลาในเครือข่ายประสาท

1
ฉันควรใช้เซลล์ LSTM กี่เซลล์
มีกฎของหัวแม่มือ (หรือกฎจริง) ที่เกี่ยวข้องกับจำนวน LSTM ขั้นต่ำ, สูงสุดและ "สมเหตุสมผล" ที่ฉันควรใช้หรือไม่? โดยเฉพาะฉันเกี่ยวข้องกับBasicLSTMCellจาก TensorFlow และnum_unitsคุณสมบัติ โปรดสมมติว่าฉันมีปัญหาการจำแนกที่กำหนดโดย: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples ตัวอย่างจริงหรือไม่ที่จำนวนตัวอย่างการฝึกอบรมควรมากกว่า: 4*((n+1)*m + m*m)*c ที่cเป็นจำนวนของเซลล์? ฉันใช้สิ่งนี้: จะคำนวณจำนวนพารามิเตอร์ของเครือข่าย …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

2
การเข้ารหัสแบบฮ็อตเดียวในเทนเซอร์คืออะไร
ขณะนี้ฉันกำลังทำหลักสูตรเป็นเมตริกซ์ซึ่งพวกเขาใช้ tf.one_hot (ดัชนีความลึก) ตอนนี้ฉันไม่เข้าใจว่าดัชนีเหล่านี้เปลี่ยนเป็นลำดับไบนารีได้อย่างไร ใครช่วยอธิบายกระบวนการที่แน่นอนให้ฉันได้ไหม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.