คำถามติดแท็ก deep-learning

พื้นที่ใหม่ของการเรียนรู้ของการเรียนรู้ด้วยเครื่องจักรที่เกี่ยวข้องกับเทคโนโลยีที่ใช้สำหรับการเรียนรู้การเป็นตัวแทนของข้อมูลแบบลำดับชั้นส่วนใหญ่ทำด้วยเครือข่ายนิวรัลลึก (เช่นเครือข่ายที่มีเลเยอร์ที่ซ่อนสองชั้นหรือมากกว่า)

3
Multi GPU เป็น keras
คุณสามารถโปรแกรมในไลบรารี keras (หรือเทนเซอร์โฟลว) เพื่อแบ่งพาร์ติชันการฝึกอบรมใน GPU หลาย ๆ ตัวได้อย่างไร สมมติว่าคุณอยู่ในอินสแตนซ์ Amazon ec2 ที่มี 8 GPU และคุณต้องการที่จะใช้ทั้งหมดในการฝึกอบรมได้เร็วขึ้น แต่รหัสของคุณเป็นเพียงสำหรับ CPU หรือ GPU เดียว

4
คำอธิบายที่ใช้งานง่ายของการสูญเสียการประมาณค่าเสียงรบกวน (NCE)?
ฉันอ่านเกี่ยวกับ NCE (รูปแบบของการสุ่มตัวอย่างผู้สมัคร) จากทั้งสองแหล่ง: การเขียน Tensorflow กระดาษต้นฉบับ ใครสามารถช่วยฉันด้วยสิ่งต่อไปนี้: คำอธิบายง่ายๆเกี่ยวกับวิธีการทำงานของ NCE (ฉันพบว่าข้างต้นยากที่จะแยกวิเคราะห์และทำความเข้าใจเกี่ยวกับดังนั้นสิ่งที่ใช้งานง่ายที่นำไปสู่คณิตศาสตร์ที่นำเสนอจะมีมาก) หลังจากจุดที่ 1 ด้านบนคำอธิบายที่ใช้งานง่ายตามธรรมชาติของสิ่งนี้แตกต่างจากการสุ่มตัวอย่างเชิงลบ ฉันเห็นว่ามีการเปลี่ยนแปลงเล็กน้อยในสูตร แต่ไม่สามารถเข้าใจคณิตศาสตร์ได้ ฉันมีความเข้าใจที่เข้าใจง่ายเกี่ยวกับการสุ่มตัวอย่างเชิงลบในบริบทของword2vec- เราสุ่มเลือกตัวอย่างจากคำศัพท์Vและอัปเดตเฉพาะสิ่งเหล่านั้นเนื่องจาก|V|มีขนาดใหญ่และนี่เป็นการเพิ่มความเร็ว โปรดแก้ไขหากผิด เมื่อใดควรใช้สิ่งใดและจะตัดสินใจอย่างไร มันจะดีถ้าคุณมีตัวอย่าง (อาจเข้าใจได้ง่ายเกี่ยวกับแอปพลิเคชัน) NCE ดีกว่าการสุ่มตัวอย่างเชิงลบหรือไม่ ดีกว่าในลักษณะใด ขอขอบคุณ.

1
Paper: อะไรคือความแตกต่างระหว่างการปรับสภาพเลเยอร์, ​​การทำซ้ำเป็นชุดงานประจำ (2016), และการวางเป็นบรรทัดฐานปกติ RNN (2015)?
ดังนั้นเมื่อเร็ว ๆ นี้มีกระดาษมาตรฐานการทำให้เป็นปกติ นอกจากนี้ยังมีการนำไปใช้กับ Keras แต่ฉันจำได้ว่ามีเอกสารชื่อRecurrent Batch Normalization (Cooijmans, 2016) และBatch Normalized Recurrent Neural Networks (Laurent, 2015) ความแตกต่างระหว่างสามสิ่งนี้คืออะไร? มีส่วนงานที่เกี่ยวข้องนี้ฉันไม่เข้าใจ: การทำให้เป็นมาตรฐานของกลุ่มได้ถูกขยายไปยังเครือข่ายประสาทที่เกิดขึ้นอีกครั้ง [Laurent et al., 2015, Amodei et al., 2015, Cooijmans et al., 2016] งานก่อนหน้านี้ [Cooijmans et al., 2016] แสดงให้เห็นถึงประสิทธิภาพที่ดีที่สุดของการทำให้เป็นมาตรฐานการเกิดซ้ำที่เกิดขึ้นจากการรักษาสถิติการทำให้ปกติเป็นอิสระสำหรับแต่ละขั้นตอน ผู้เขียนแสดงให้เห็นว่าการกำหนดค่าเริ่มต้นของพารามิเตอร์ gain ในเลเยอร์การทำให้เป็นปกติของแบตช์กลับเป็น 0.1 ทำให้เกิดความแตกต่างอย่างมีนัยสำคัญในประสิทธิภาพสุดท้ายของตัวแบบ งานของเรายังเกี่ยวข้องกับการทำให้น้ำหนักปกติ [Salimans and Kingma, 2016] ในการทำให้น้ำหนักเป็นมาตรฐานแทนที่จะเป็นความแปรปรวนค่า L2 …

5
Deep Learning vs gradient boosting: เมื่อไรที่จะใช้อะไร
ฉันมีปัญหาข้อมูลขนาดใหญ่กับชุดข้อมูลขนาดใหญ่ (ใช้เวลา 50 ล้านแถวและ 200 คอลัมน์) ชุดข้อมูลประกอบด้วยคอลัมน์ตัวเลขประมาณ 100 คอลัมน์และคอลัมน์หมวด 100 คอลัมน์และคอลัมน์ตอบกลับที่แสดงถึงปัญหาระดับไบนารี ความสำคัญของแต่ละคอลัมน์ที่มีค่าน้อยกว่า 50 ฉันต้องการรู้เบื้องต้นว่าฉันควรจะไปเรียนรู้วิธีการเรียนรู้แบบลึกหรือวิธีการเรียนรู้ด้วยต้นไม้ทั้งมวล (เช่นการไล่ระดับสีไล่ระดับ, adaboost หรือป่าสุ่ม) มีการวิเคราะห์ข้อมูลเชิงสำรวจหรือเทคนิคอื่น ๆ ที่สามารถช่วยฉันตัดสินใจเลือกวิธีหนึ่งมากกว่าวิธีอื่นได้หรือไม่?

3
ในตัวแยกประเภท softmax ทำไมต้องใช้ฟังก์ชั่น exp เพื่อทำให้เป็นมาตรฐาน?
เหตุใดจึงต้องใช้ softmax เมื่อเทียบกับการปรับมาตรฐาน ในพื้นที่แสดงความคิดเห็นของคำตอบยอดนิยมของคำถามนี้ @Kilian Batzner ยกคำถาม 2 ข้อซึ่งทำให้ฉันสับสนมาก ดูเหมือนว่าไม่มีใครให้คำอธิบายยกเว้นผลประโยชน์เชิงตัวเลข ฉันได้รับเหตุผลในการใช้ Cross-Entropy Loss แต่นั่นเกี่ยวข้องกับ softmax อย่างไร คุณกล่าวว่า "ฟังก์ชั่น softmax สามารถมองเห็นได้ว่าพยายามลดการข้ามเอนโทรปีระหว่างการทำนายและความจริง" สมมติว่าฉันจะใช้การทำให้เป็นมาตรฐาน / เชิงเส้น แต่ยังคงใช้การสูญเสียข้าม จากนั้นฉันก็จะพยายามลด Cross-Entropy ดังนั้น softmax จะเชื่อมโยงกับ Cross-Entropy อย่างไรเพื่อประโยชน์ด้านตัวเลข? สำหรับมุมมองความน่าจะเป็น: อะไรคือแรงจูงใจในการดูความน่าจะเป็นของบันทึก เหตุผลดูเหมือนจะเป็นแบบ "เราใช้ e ^ x ใน softmax เพราะเราตีความว่า x เป็นความน่าจะเป็นบันทึก" ด้วยเหตุผลเดียวกับที่เราสามารถพูดได้เราใช้ e ^ e ^ e ^ …

7
ทำไมข้อมูลควรถูกสับสำหรับการเรียนรู้ของเครื่อง
ในงานการเรียนรู้ของเครื่องเป็นเรื่องปกติที่จะสับเปลี่ยนข้อมูลและทำให้เป็นมาตรฐาน วัตถุประสงค์ของการทำให้เป็นมาตรฐานมีความชัดเจน (สำหรับการมีช่วงของค่าคุณลักษณะเดียวกัน) แต่หลังจากที่ต้องดิ้นรนมากฉันไม่พบเหตุผลที่มีค่าสำหรับการสับข้อมูล ฉันได้อ่านบทความนี้ที่นี่พูดคุยเมื่อเราต้องการสับเปลี่ยนข้อมูล แต่ไม่ชัดเจนว่าทำไมเราควรสลับข้อมูล นอกจากนี้ฉันเห็นบ่อยในอัลกอริธึมเช่น Adam หรือ SGD ที่เราต้องการการไล่ระดับแบทช์ (ควรแยกข้อมูลออกเป็นชุดย่อยและต้องระบุขนาดแบทช์) มันมีความสำคัญตามโพสต์นี้เพื่อสลับข้อมูลสำหรับแต่ละยุคเพื่อให้มีข้อมูลที่แตกต่างกันสำหรับแต่ละชุด ดังนั้นข้อมูลอาจถูกสับเปลี่ยนและมีการเปลี่ยนแปลงที่สำคัญกว่า ทำไมเราทำเช่นนี้?

1
ทำไม xgboost จึงเร็วกว่า GradientBoostingClassifier ของ sklearn มาก?
ฉันพยายามที่จะฝึกอบรมการยกระดับความลาดชันของตัวอย่างมากกว่า 50k ด้วยคุณสมบัติตัวเลข 100 ตัว XGBClassifierจัดการ 500 ต้นภายใน 43 วินาทีบนเครื่องของฉันในขณะที่GradientBoostingClassifierจัดการเพียง 10 ต้น (!) ใน 1 นาทีและ 2 วินาที :( ฉันไม่ได้พยายามที่จะเติบโต 500 ต้นเพราะจะใช้เวลาหลายชั่วโมงฉันใช้แบบเดียวกันlearning_rateและmax_depthการตั้งค่า ดูด้านล่าง อะไรทำให้ XGBoost เร็วขึ้นมาก? มันใช้การปรับแต่งแบบใหม่เพื่อส่งเสริมการไล่ระดับสีที่พวก sklearn ไม่รู้หรือไม่? หรือว่า "ตัดมุม" และปลูกต้นไม้ที่ตื้นขึ้น? ป.ล. ฉันตระหนักถึงการสนทนานี้: https://www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyแต่ไม่สามารถหาคำตอบได้ที่นั่น ... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

2
ความจริงจากพื้นดินคืออะไร
ในบริบทของการเรียนรู้ของเครื่องจักรฉันได้เห็นคำว่าGround Truthใช้บ่อยมาก ฉันค้นหามากและพบคำจำกัดความต่อไปนี้ในWikipedia : ในการเรียนรู้ของเครื่องจักรคำว่า "ความจริงพื้นฐาน" หมายถึงความแม่นยำของการจัดหมวดหมู่ของชุดฝึกอบรมสำหรับเทคนิคการเรียนรู้แบบมีผู้สอน สิ่งนี้ใช้ในแบบจำลองทางสถิติเพื่อพิสูจน์หรือพิสูจน์สมมติฐานการวิจัย คำว่า "ความจริงพื้นฐาน" หมายถึงกระบวนการรวบรวมข้อมูลที่เหมาะสม (พิสูจน์ได้) สำหรับการทดสอบนี้ เปรียบเทียบกับมาตรฐานทองคำ การกรองสแปมแบบเบย์เป็นตัวอย่างทั่วไปของการเรียนรู้แบบมีผู้สอน ในระบบนี้อัลกอริทึมได้รับการสอนด้วยตนเองถึงความแตกต่างระหว่างสแปมและไม่ใช่สแปม ทั้งนี้ขึ้นอยู่กับความจริงพื้นฐานของข้อความที่ใช้ในการฝึกอบรมอัลกอริทึม - ความไม่ถูกต้องในความจริงภาคพื้นดินจะสัมพันธ์กับความไม่ถูกต้องในการตัดสินผลสแปม / ไม่ใช่สแปม ประเด็นก็คือฉันไม่สามารถเข้าใจความหมายได้ นั่นคือเลเบลที่ใช้สำหรับแต่ละออบเจ็กต์ข้อมูลหรือฟังก์ชั่นเป้าหมายที่ให้เลเบลกับออบเจ็กต์ข้อมูลแต่ละอันหรืออาจเป็นอย่างอื่นหรือไม่?

3
การเลือกระหว่าง CPU และ GPU สำหรับการฝึกอบรมเครือข่ายประสาท
ฉันเคยเห็นการอภิปรายเกี่ยวกับ 'ค่าใช้จ่าย' ของ GPU และสำหรับเครือข่าย 'เล็ก' จริง ๆ แล้วมันอาจจะเร็วกว่าในการฝึกอบรมบน CPU (หรือเครือข่ายของ CPU) กว่า GPU 'เล็ก' มีความหมายว่าอะไร? ตัวอย่างเช่น MLP แบบชั้นเดียวที่มี 100 หน่วยที่ซ่อนอยู่จะเล็กหรือไม่ คำจำกัดความของเราเกี่ยวกับการเปลี่ยนแปลง 'เล็ก' สำหรับสถาปัตยกรรมที่เกิดขึ้นซ้ำหรือไม่? มีเกณฑ์อื่น ๆ ที่ควรพิจารณาเมื่อตัดสินใจว่าจะฝึกใช้งาน CPU หรือ GPU หรือไม่? แก้ไข 1: ฉันเพิ่งพบโพสต์บล็อก (อาจล้าสมัยหรือไม่มันมาจาก 2014): "... การ์ดเครือข่ายส่วนใหญ่จะใช้งานได้เฉพาะกับหน่วยความจำที่ลงทะเบียนกับ CPU เท่านั้นดังนั้น GPU กับ GPU ที่ถ่ายโอนระหว่างสองโหนดจะเป็นเช่นนี้: GPU 1 ถึง CPU 1 ไปยังการ์ดเครือข่าย …

7
มีบริการคลาวด์ฟรีสำหรับฝึกโมเดลการเรียนรู้ของเครื่องหรือไม่
ฉันต้องการฝึกอบรมโมเดลที่ลึกล้ำด้วยข้อมูลการฝึกอบรมจำนวนมาก แต่เดสก์ท็อปของฉันไม่มีพลังในการฝึกอบรมโมเดลที่ลึกล้ำดังกล่าวด้วยข้อมูลมากมายเหล่านี้ ฉันต้องการทราบว่ามีบริการคลาวด์ฟรีใด ๆ ที่สามารถใช้สำหรับการฝึกอบรมการเรียนรู้ของเครื่องและแบบจำลองการเรียนรู้ลึกได้หรือไม่ ฉันต้องการทราบว่ามีบริการคลาวด์หรือไม่ซึ่งฉันสามารถติดตามผลการฝึกอบรมได้และการฝึกอบรมจะดำเนินต่อไปแม้ว่าฉันจะไม่ได้เชื่อมต่อกับคลาวด์ก็ตาม

1
Keras คำนวณความแม่นยำอย่างไร
Keras คำนวณความแม่นยำจากความน่าจะเป็นแบบคลาสสิกอย่างไร ตัวอย่างเช่นเรามี 100 ตัวอย่างในชุดทดสอบซึ่งสามารถเป็นหนึ่งในสองคลาส เรายังมีรายการของความน่าจะเป็นแบบคลาสสิก Keras ใช้เกณฑ์อะไรในการกำหนดตัวอย่างให้กับหนึ่งในสองคลาสนี้

1
PyTorch vs. Tensorflow Fold
ทั้งPyTorchและTensorflow Foldเป็นเฟรมเวิร์กการเรียนรู้ลึกซึ่งหมายถึงการจัดการกับสถานการณ์ที่ข้อมูลอินพุตมีความยาวหรือขนาดที่ไม่สม่ำเสมอ (นั่นคือสถานการณ์ที่กราฟแบบไดนามิกมีประโยชน์หรือจำเป็น) ฉันต้องการรู้ว่าพวกเขาเปรียบเทียบอย่างไรในแง่ของกรอบความคิดที่พวกเขาพึ่งพา (เช่นการแบตช์แบบไดนามิก) และความหมายของสิ่งต่าง ๆ ที่สามารถ / ไม่สามารถนำไปใช้ในแต่ละจุดอ่อน / จุดแข็ง ฯลฯ ฉันตั้งใจจะใช้ข้อมูลนี้เพื่อเลือกหนึ่งในนั้นเพื่อเริ่มสำรวจกราฟการคำนวณแบบไดนามิก แต่ฉันไม่มีงานเฉพาะในใจ หมายเหตุ 1: กรอบกราฟการคำนวณแบบไดนามิกอื่น ๆ เช่นDyNetหรือChainerก็ยินดีต้อนรับในการเปรียบเทียบ แต่ฉันต้องการมุ่งเน้นไปที่ PyTorch และ Tensorflow Fold เพราะฉันคิดว่าพวกเขา / จะเป็นคนที่ใช้มากที่สุด หมายเหตุ 2: ฉันได้พบแฮ็คข่าวนี้ใน PyTorchด้วยข้อมูลที่กระจัดกระจาย แต่ไม่มากนัก หมายเหตุ 3: หัวข้อแฮ็กข่าวใหม่ที่เกี่ยวข้องเกี่ยวกับ Tensorflow Fold ที่มีข้อมูลบางอย่างเกี่ยวกับวิธีการเปรียบเทียบ หมายเหตุ 4: ที่เกี่ยวข้องด้าย Reddit หมายเหตุ 5: ข้อผิดพลาดที่เกี่ยวข้องใน Github ของ Tensorflow Foldที่ระบุข้อ …

7
การเรียนรู้ของเครื่องสามารถเรียนรู้ฟังก์ชั่นเช่นการหาค่าสูงสุดจากรายการได้หรือไม่?
ฉันมีอินพุตซึ่งเป็นรายการและเอาต์พุตคือองค์ประกอบสูงสุดของอินพุต - รายการ การเรียนรู้ของเครื่องสามารถเรียนรู้ฟังก์ชันที่เลือกค่าสูงสุดขององค์ประกอบอินพุตที่มีอยู่ในอินพุตได้หรือไม่? นี่อาจดูเหมือนเป็นคำถามพื้นฐานที่สวย แต่อาจทำให้ฉันเข้าใจในสิ่งที่การเรียนรู้ของเครื่องสามารถทำได้โดยทั่วไป ขอบคุณ!

5
วิธีการตั้งค่าจำนวนของเซลล์ประสาทและเลเยอร์ในเครือข่ายประสาท
ฉันเป็นผู้เริ่มต้นสำหรับเครือข่ายประสาทและมีปัญหาในการเข้าใจแนวคิดที่สอง: หนึ่งจะตัดสินใจจำนวนของเลเยอร์กลางเครือข่ายประสาทที่กำหนดได้อย่างไร 1 กับ 10 หรืออะไรก็ตาม หนึ่งจะตัดสินใจจำนวนของเซลล์ประสาทในแต่ละชั้นกลางได้อย่างไร ขอแนะนำให้มีเซลล์ประสาทจำนวนเท่ากันในแต่ละชั้นกลางหรือแตกต่างกันไปตามการใช้งาน?

2
ผสานสองรุ่นที่แตกต่างกันใน Keras
ฉันกำลังพยายามรวมโมเดล Keras สองแบบเป็นแบบจำลองเดียวและฉันไม่สามารถทำสิ่งนี้ให้สำเร็จ ตัวอย่างเช่นในรูปที่แนบมาฉันต้องการดึงชั้นกลางของมิติ 8 และใช้สิ่งนี้เป็นอินพุตไปยังชั้น (จากมิติ 8 อีกครั้ง) ในรุ่นแล้วรวมทั้งแบบและแบบเป็นหนึ่งเดียว แบบA 2A2A2B 1B1B1BBBAAABBB ฉันใช้โมดูลการทำงานเพื่อสร้าง Modelและ Modelอย่างอิสระ ฉันจะทำงานนี้ให้สำเร็จได้อย่างไรAAABBB หมายเหตุ :เป็นชั้นที่ป้อนเข้ากับรูปแบบและเป็นชั้นป้อนข้อมูลไปยังรุ่นBA 1A1A1AAAB 1B1B1BBB

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.