คำถามติดแท็ก deep-learning

พื้นที่ของการเรียนรู้ของเครื่องที่เกี่ยวข้องกับการเรียนรู้การเป็นตัวแทนของข้อมูลแบบลำดับชั้นส่วนใหญ่ทำกับเครือข่ายประสาทลึก

2
การทอดสมอได้เร็วขึ้น RCNN
ในกระดาษ Faster RCNN ที่เร็วขึ้นเมื่อพูดถึงการทอดสมอสิ่งที่พวกเขาหมายถึงอะไรโดยใช้ "ปิรามิดของกล่องอ้างอิง" และสิ่งนี้จะทำอย่างไร นี่หมายความว่าแต่ละจุดยึด W * H * k แต่ละจุดจะถูกสร้างขึ้นหรือไม่? โดยที่ W = ความกว้าง, H = ความสูง, และ k = จำนวนอัตราส่วนกว้างยาว * num scale เชื่อมโยงไปยังกระดาษ: https://arxiv.org/abs/1506.01497

1
SVMs = การจับคู่เทมเพลตเป็นอย่างไร
ฉันอ่านเกี่ยวกับ SVM และเรียนรู้ว่าพวกเขากำลังแก้ไขปัญหาการปรับให้เหมาะสมและแนวคิดของกำไรขั้นต้นนั้นสมเหตุสมผลมาก ตอนนี้การใช้เมล็ดพวกเขาสามารถค้นหาขอบเขตการแยกแบบไม่เป็นเชิงเส้นได้ซึ่งยอดเยี่ยม จนถึงตอนนี้ฉันไม่รู้จริงๆเลยว่า SVM (เครื่องเคอร์เนลพิเศษ) และเครื่องเคอร์เนลเกี่ยวข้องกับเครือข่ายประสาทอย่างไร พิจารณาความคิดเห็นโดยYann Lecun => ที่นี่ : kernel methods were a form of glorified template matching และที่นี่ด้วย : ตัวอย่างเช่นบางคนตื่นตากับวิธีเคอร์เนลเพราะคณิตศาสตร์น่ารักที่เข้ากับมัน แต่อย่างที่ฉันเคยพูดไปแล้วในตอนท้ายในที่สุดเครื่องเคอร์เนลเป็นเครือข่ายที่ตื้น ไม่มีอะไรผิดปกติ (SVM เป็นวิธีที่ยอดเยี่ยม) แต่มีข้อ จำกัด ที่น่ากลัวซึ่งเราทุกคนควรทราบ ดังนั้นคำถามของฉันคือ: SVM เกี่ยวข้องกับเครือข่ายประสาทอย่างไร มันเป็นเครือข่ายตื้นอย่างไร SVM แก้ปัญหาการเพิ่มประสิทธิภาพด้วยฟังก์ชั่นวัตถุประสงค์ที่กำหนดไว้อย่างดีมันทำการจับคู่แม่แบบอย่างไร? เทมเพลตที่นี่ตรงกับข้อมูลใด ฉันเดาว่าความคิดเห็นเหล่านี้ต้องการความเข้าใจอย่างถ่องแท้เกี่ยวกับช่องว่างมิติสูงอวนประสาทและเครื่องเคอร์เนล แต่จนถึงตอนนี้ฉันได้ลองแล้วและไม่สามารถเข้าใจตรรกะที่อยู่เบื้องหลัง แต่ก็เป็นเรื่องที่น่าสนใจอย่างยิ่งที่จะต้องทราบความเชื่อมโยงระหว่างเทคนิค ml ที่แตกต่างกันสองอย่าง แก้ไข: ฉันคิดว่าการเข้าใจ SVM จากมุมมองของระบบประสาทจะดีมาก ฉันกำลังมองหาคำตอบที่ได้รับการสนับสนุนทางคณิตศาสตร์อย่างละเอียดสำหรับคำถามสองข้อข้างต้นเพื่อที่จะเข้าใจการเชื่อมโยงระหว่าง SVM …

1
RNN พร้อมการทำให้เป็นมาตรฐาน L2 หยุดเรียนรู้
ฉันใช้สองทิศทาง RNN เพื่อตรวจสอบเหตุการณ์ที่เกิดขึ้นไม่สมดุลกัน ชั้นบวกเป็น 100 ครั้งน้อยกว่าชั้นลบ ในขณะที่ไม่มีการใช้งานแบบปกติฉันสามารถได้รับความถูกต้อง 100% ในชุดรถไฟและ 30% สำหรับชุดการตรวจสอบ ฉันเปิดใช้งานการทำให้เป็นปกติ l2 และผลลัพธ์นั้นมีความแม่นยำเพียง 30% ในชุดรถไฟแทนการเรียนรู้ที่ยาวนานขึ้นและความแม่นยำ 100% ในชุดการตรวจสอบความถูกต้อง ฉันคิดว่าข้อมูลของฉันอาจเล็กเกินไปดังนั้นสำหรับการทดลองฉันรวมชุดรถไฟกับชุดทดสอบซึ่งฉันไม่เคยใช้มาก่อน สถานการณ์เหมือนกันกับฉันจะใช้การทำให้เป็นมาตรฐาน l2 ซึ่งฉันไม่ได้ตอนนี้ ฉันได้รับความแม่นยำ 30% สำหรับรถไฟ + การทดสอบและการตรวจสอบ ในการใช้หน่วยที่ถูกซ่อน 128 และ 80 เวลาในการทดลองที่กล่าวถึงเมื่อฉันเพิ่มจำนวนหน่วยที่ซ่อนอยู่เป็น 256 ฉันสามารถ overfit บนรถไฟ + ชุดทดสอบอีกครั้งเพื่อให้ได้ความถูกต้อง 100% แต่ยังคงมีเพียง 30% ในชุดการตรวจสอบ ฉันลองตัวเลือกมากมายสำหรับพารามิเตอร์และเกือบจะไม่มีผลลัพธ์ บางทีเอนโทรปีของการถ่วงน้ำหนักอาจทำให้เกิดปัญหาในการทดลองที่กำหนดน้ำหนักของชั้นบวกคือ 5 ในขณะที่การลองตุ้มน้ำหนักขนาดใหญ่ผลลัพธ์มักจะแย่ลงประมาณ 20% ของความแม่นยำ ฉันลองเซลล์ LSTM …

2
การทำนายความต้องการหน่วยความจำ CPU และ GPU ของการฝึกอบรม DNN
สมมติว่าฉันมีสถาปัตยกรรมรูปแบบการเรียนรู้เชิงลึกเช่นเดียวกับขนาดมินิแบทช์ที่เลือก ฉันจะได้รับความต้องการหน่วยความจำที่คาดหวังสำหรับการฝึกอบรมรุ่นนั้นได้อย่างไร เป็นตัวอย่างให้พิจารณาโมเดล (ไม่เกิดขึ้นอีก) กับอินพุตของมิติ 1000, เลเยอร์ซ่อนเร้นเชื่อมต่อเต็ม 100 มิติ 4 และเลเยอร์เอาต์พุตเพิ่มเติมของมิติ 10 ขนาดมินิแบทช์คือ 256 ตัวอย่าง วิธีการหนึ่งกำหนดรอยเท้าหน่วยความจำโดยประมาณ (RAM) ของกระบวนการฝึกอบรมบน CPU และ GPU ถ้ามันสร้างความแตกต่างลองสมมติว่ารุ่นนั้นได้รับการฝึกฝนบน GPU ด้วย TensorFlow (เช่นใช้ cuDNN)

1
มีข้อมูลมากน้อยเพียงใดสำหรับการเรียนรู้เชิงลึก
ฉันกำลังเรียนรู้เกี่ยวกับการเรียนรู้เชิงลึก (โดยเฉพาะอย่างยิ่ง CNNs) และวิธีการที่ต้องใช้ข้อมูลจำนวนมากเพื่อป้องกันไม่ให้ข้อมูลมากเกินไป อย่างไรก็ตามฉันยังได้รับแจ้งว่ามีความจุสูงกว่า / พารามิเตอร์เพิ่มเติมที่แบบจำลองมีข้อมูลเพิ่มเติมจำเป็นต้องมีเพื่อป้องกันการ overfitting ดังนั้นคำถามของฉันคือ: ทำไมคุณไม่สามารถลดจำนวนเลเยอร์ / โหนดต่อเลเยอร์ในเครือข่ายนิวรัลลึกและทำให้มันทำงานกับข้อมูลจำนวนน้อยลงได้ มี "จำนวนพารามิเตอร์ขั้นต่ำ" ขั้นพื้นฐานหรือไม่ที่เครือข่ายประสาทต้องการจนกว่าจะถึง "kicks" ด้านล่างของเลเยอร์จำนวนหนึ่งดูเหมือนว่าเครือข่ายประสาทจะไม่ทำงานเช่นเดียวกับคุณสมบัติที่เขียนด้วยมือ

3
วิธีการจำแนกชุดข้อมูลที่ไม่สมดุลโดย Convolutional Neural Networks (CNN)
ฉันมีชุดข้อมูลที่ไม่สมดุลในงานการจำแนกแบบไบนารีซึ่งจำนวนบวกกับจำนวนเชิงลบคือ 0.3% เทียบกับ 99.7% ช่องว่างระหว่างผลบวกและเชิงลบนั้นมีขนาดใหญ่มาก เมื่อฉันฝึก CNN ด้วยโครงสร้างที่ใช้ในปัญหา MNIST ผลการทดสอบจะแสดงอัตราลบติดลบสูง นอกจากนี้เส้นโค้งข้อผิดพลาดในการฝึกอบรมจะลดลงอย่างรวดเร็วในช่วงเวลาสองสามตอนที่เริ่มต้น แต่ยังคงเป็นค่าเดียวกันในยุคต่อไปนี้ คุณช่วยแนะนำวิธีแก้ไขปัญหานี้ให้ฉันได้ไหม? ขอบคุณ!


2
เป็นจริงหรือไม่ที่ Bayesians ไม่ต้องการชุดทดสอบ?
ฉันเพิ่งดูการพูดคุยนี้โดยเอริคเจ Maและการตรวจสอบของเขารายการบล็อกที่เขาพูดราดโอนีลว่ารูปแบบเบส์ไม่ overfit ( แต่พวกเขาสามารถ overfit ) และเมื่อใช้พวกเขาเราไม่จำเป็นต้องใช้ชุดทดสอบสำหรับการตรวจสอบพวกเขา (สำหรับ ฉันพูดดูเหมือนจะพูดค่อนข้างเกี่ยวกับการใช้ชุดการตรวจสอบเพื่อปรับพารามิเตอร์) ความจริงแล้วข้อโต้แย้งนั้นไม่ทำให้ฉันและฉันไม่สามารถเข้าถึงหนังสือได้ดังนั้นคุณจะให้ข้อโต้แย้งที่ละเอียดและเข้มงวดมากขึ้นหรือคัดค้านข้อความดังกล่าวหรือไม่? ในขณะเดียวกัน Eric Ma ได้ชี้ให้ฉันสนทนาในหัวข้อเดียวกัน

1
รูปแบบการเรียนรู้แบบลึกใดที่สามารถจำแนกหมวดหมู่ที่ไม่ได้เกิดร่วมกัน
ตัวอย่าง: ฉันมีประโยคในรายละเอียดงาน: "วิศวกรอาวุโสของ Java ในสหราชอาณาจักร" ฉันต้องการที่จะใช้รูปแบบการเรียนรู้ที่ลึกที่จะคาดการณ์ว่ามันเป็น 2 ประเภทและEnglish IT jobsถ้าฉันใช้รูปแบบการจำแนกแบบดั้งเดิมมันสามารถทำนายได้เพียง 1 ฉลากที่มีsoftmaxฟังก์ชั่นที่ชั้นสุดท้าย ดังนั้นฉันสามารถใช้โครงข่ายประสาทเทียม 2 แบบในการทำนาย "ใช่" / "ไม่" กับทั้งสองหมวดหมู่ แต่ถ้าเรามีหมวดหมู่มากขึ้นมันก็แพงเกินไป ดังนั้นเราจึงมีรูปแบบการเรียนรู้หรือการเรียนรู้ด้วยเครื่องเพื่อคาดการณ์ 2 หมวดหมู่ขึ้นไปพร้อมกันหรือไม่ "แก้ไข": ด้วย 3 ป้ายกำกับโดยวิธีดั้งเดิมมันจะถูกเข้ารหัสโดย [1,0,0] แต่ในกรณีของฉันมันจะถูกเข้ารหัสโดย [1,1,0] หรือ [1,1,1] ตัวอย่าง: หากเรามี 3 ป้ายกำกับและประโยคอาจเหมาะกับป้ายกำกับเหล่านี้ทั้งหมด ดังนั้นถ้าผลลัพธ์จากฟังก์ชัน softmax คือ [0.45, 0.35, 0.2] เราควรแบ่งมันออกเป็น 3 label หรือ 2 label หรืออาจเป็นหนึ่ง? ปัญหาหลักเมื่อเราทำคือ: …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

4
ฉันจะตีความกราฟความอยู่รอดของโมเดลอันตราย Cox ได้อย่างไร
คุณจะตีความเส้นโค้งการอยู่รอดจากโมเดลอันตรายตามสัดส่วนของค็อกซ์ได้อย่างไร ในตัวอย่างของเล่นนี้สมมติว่าเรามีโมเดลอันตรายตามสัดส่วนในageตัวแปรในkidneyข้อมูลและสร้างเส้นโค้งการอยู่รอด library(survival) fit <- coxph(Surv(time, status)~age, data=kidney) plot(conf.int="none", survfit(fit)) grid() ตัวอย่างเช่น ณ เวลาคำสั่งใดเป็นจริง หรือทั้งสองอย่างผิดปกติ?200200200 คำแถลงที่ 1: เราจะเหลือวิชา 20% (เช่นถ้าเรามีคนโดยวันที่เราควรเหลืออีกประมาณ ) 100010001000200200200200200200 งบ 2: สำหรับคนที่ได้รับหนึ่งเขา / เธอมีมีโอกาสที่จะอยู่รอดได้ในวันที่20020%20%20\%200200200 ความพยายามของฉัน: ฉันไม่คิดว่าทั้งสองงบจะเหมือนกัน (แก้ไขฉันถ้าฉันผิด) เนื่องจากเราไม่ได้มีการสันนิษฐาน iid (เวลารอดสำหรับทุกคนไม่ได้มาจากการกระจายอย่างอิสระ) มันคล้ายกับการถดถอยโลจิสติกในคำถามของฉันที่นี่อัตราความเป็นอันตรายของแต่ละคนขึ้นอยู่กับสำหรับบุคคลนั้นβTxβTx\beta^Tx

4
การฝึกอบรมเครือข่ายประสาทเพื่อการถดถอยจะทำนายค่าเฉลี่ยเสมอ
ฉันกำลังฝึกอบรมเครือข่ายประสาทเทียมแบบง่ายสำหรับการถดถอยซึ่งงานนี้จะทำนายตำแหน่ง (x, y) ของกล่องในภาพเช่น: เอาต์พุตของเครือข่ายมีสองโหนดหนึ่งรายการสำหรับ x และอีกหนึ่งสำหรับ y ส่วนที่เหลือของเครือข่ายเป็นเครือข่ายประสาทเทียมมาตรฐาน การสูญเสียเป็นค่าเฉลี่ยความคลาดเคลื่อนกำลังสองระหว่างตำแหน่งที่ทำนายของกล่องและตำแหน่งจริงของพื้นดิน ฉันกำลังฝึกอบรมเกี่ยวกับ 10,000 ภาพเหล่านี้และการตรวจสอบในปี 2000 ปัญหาที่ฉันมีคือแม้ว่าหลังจากการฝึกอบรมที่สำคัญแล้วการสูญเสียไม่ลดลงจริงๆ หลังจากสังเกตเอาท์พุทของเครือข่ายฉันสังเกตว่าเครือข่ายมีแนวโน้มที่จะส่งออกค่าใกล้ศูนย์สำหรับทั้งสองเอาท์พุทโหนด ดังนั้นการทำนายตำแหน่งของกล่องจึงเป็นจุดศูนย์กลางของภาพเสมอ มีการเบี่ยงเบนบางอย่างในการคาดการณ์ แต่มักจะอยู่ที่ประมาณศูนย์ ด้านล่างแสดงให้เห็นถึงการสูญเสีย: ฉันใช้งานสิ่งนี้ได้หลายครั้งมากกว่าที่แสดงในกราฟนี้และการสูญเสียยังไม่ลดลง น่าสนใจที่นี่การสูญเสียเพิ่มขึ้น ณ จุดหนึ่ง ดังนั้นดูเหมือนว่าเครือข่ายจะทำนายค่าเฉลี่ยของข้อมูลการฝึกอบรมมากกว่าการเรียนรู้ที่เหมาะสม ความคิดเห็นใด ๆ เกี่ยวกับสาเหตุที่อาจเป็นเช่นนี้ ฉันใช้อดัมเป็นเครื่องมือเพิ่มประสิทธิภาพด้วยอัตราการเรียนรู้เริ่มต้นที่ 0.01 และการเปิดใช้งานใหม่ หากคุณมีความสนใจในบางรหัสของฉัน (Keras) มันเป็นด้านล่าง: # Create the model model = Sequential() model.add(Convolution2D(32, 5, 5, border_mode='same', subsample=(2, 2), activation='relu', input_shape=(3, image_width, …

3
การเลือกคุณสมบัติโดยใช้การเรียนรู้ลึก?
ฉันต้องการคำนวณความสำคัญของคุณลักษณะอินพุตแต่ละรายการโดยใช้ตัวแบบลึก แต่ผมพบว่าเพียงหนึ่งกระดาษเกี่ยวกับการเลือกใช้คุณลักษณะการเรียนรู้ลึก - เลือกคุณลักษณะลึก พวกเขาแทรกเลเยอร์ของโหนดที่เชื่อมต่อกับแต่ละคุณสมบัติโดยตรงก่อนเลเยอร์ที่ซ่อนอยู่เป็นครั้งแรก ฉันได้ยินมาว่าเครือข่ายความเชื่อลึก (DBN) สามารถใช้กับงานประเภทนี้ได้เช่นกัน แต่ฉันคิดว่า DBN นำเสนอคุณลักษณะที่เป็นนามธรรม (กลุ่ม) เช่น PCA เท่านั้นแม้ว่าจะสามารถลดขนาดได้อย่างมีประสิทธิภาพฉันสงสัยว่าถ้าเป็นไปได้ในการคำนวณความสำคัญ (น้ำหนัก) ของแต่ละคุณลักษณะ เป็นไปได้หรือไม่ที่จะคำนึงถึงความสำคัญของคุณลักษณะด้วย DBN และมีวิธีการอื่นที่รู้จักกันในการเลือกคุณสมบัติโดยใช้การเรียนรู้อย่างลึกซึ้งหรือไม่?

1
อินพุตการทำให้เป็นมาตรฐานสำหรับเซลล์ประสาท ReLU
ตาม"Efficient Backprop" โดย LeCun et al (1998)เป็นวิธีปฏิบัติที่ดีในการทำให้มาตรฐานอินพุตทั้งหมดเป็นปกติดังนั้นพวกเขาจะอยู่กึ่งกลางรอบ 0 และอยู่ในช่วงของอนุพันธ์อันดับสองสูงสุด ตัวอย่างเช่นเราจะใช้ [-0.5,0.5] สำหรับฟังก์ชั่น "Tanh" นี่คือการช่วยให้ความคืบหน้าในการเผยแผ่กลับไปในขณะที่รัฐ Hessian มีเสถียรภาพมากขึ้น อย่างไรก็ตามฉันไม่แน่ใจว่าจะทำอย่างไรกับเซลล์ประสาท Rectifier ซึ่งมีค่าสูงสุด (0, x) (เช่นเดียวกันกับฟังก์ชั่นลอจิสติกตั้งแต่นั้นเราก็ต้องการ [0.1,0.9] แต่ไม่ได้อยู่ตรงกลางประมาณ 0)

2
ใช้ LSTM ที่ดีที่สุดสำหรับการทำนายเหตุการณ์ตามลำดับ
สมมติลำดับ 1 มิติต่อไปนี้: A, B, C, Z, B, B, #, C, C, C, V, $, W, A, % ... ตัวอักษรA, B, C, ..ที่นี่เป็นตัวแทนของเหตุการณ์ 'ธรรมดา' สัญลักษณ์#, $, %, ...ที่นี่แสดงถึงกิจกรรม 'พิเศษ' การเว้นวรรคชั่วคราวระหว่างเหตุการณ์ทั้งหมดนั้นไม่เหมือนกัน (ทุกอย่างจากไม่กี่วินาทีไปจนถึงหลายวัน) แม้ว่าเหตุการณ์ในอดีตที่ผ่านมามีความเป็นไปได้น้อยที่จะมีอิทธิพลต่อเหตุการณ์ในอนาคต เป็นการดีที่ฉันสามารถคำนึงถึงความล่าช้าเหล่านี้อย่างชัดเจน มีคำสั่งของประเภทเหตุการณ์ปกติ 10,000 ประเภทและลำดับเหตุการณ์พิเศษ 100 ชนิด จำนวนของกิจกรรมทั่วไปก่อนหน้ากิจกรรมพิเศษจะแตกต่างกันไป แต่ไม่น่าจะมากกว่า 100-300 โดยพื้นฐานฉันสนใจที่จะมองหารูปแบบในลำดับเหตุการณ์ปกติที่จบลงด้วยการทำนายเหตุการณ์พิเศษ ตอนนี้คุณสามารถเข้าถึงสิ่งนี้ได้หลายวิธี: การสร้างคุณสมบัติเวกเตอร์ + การจำแนกมาตรฐานการเรียนรู้กฎการเชื่อมโยง HMM ฯลฯ ในกรณีนี้ฉันอยากรู้ว่าเครือข่ายที่ใช้ LSTM …

2
คอขวดของการใช้การเรียนรู้อย่างลึกซึ้งในการปฏิบัติ
หลังจากอ่านบทความการเรียนรู้ลึก ๆ แล้วความรู้สึกคร่าวๆคือมีเทคนิคมากมายในการฝึกอบรมเครือข่ายเพื่อให้ได้ประสิทธิภาพที่ดีกว่าปกติ จากมุมมองของแอปพลิเคชันอุตสาหกรรมมันยากมากที่จะพัฒนาเทคนิคนี้ยกเว้นกลุ่มการวิจัยชั้นยอดใน บริษัท เทคโนโลยีขนาดใหญ่เช่น google หรือ facebook แล้ววิธีที่ดีที่สุดในการใช้อัลกอริทึมการเรียนรู้เชิงลึกในทางปฏิบัติคืออะไร ความคิดและข้อเสนอแนะใด ๆ จะได้รับการชื่นชมอย่างมาก

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.