คำถามติดแท็ก machine-learning

อัลกอริทึมการเรียนรู้ของเครื่องสร้างโมเดลของข้อมูลการฝึกอบรม คำว่า "การเรียนรู้ของเครื่อง" มีการกำหนดอย่างคลุมเครือ มันรวมถึงสิ่งที่เรียกว่าการเรียนรู้ทางสถิติการเรียนรู้เสริมการเรียนรู้แบบไม่สำรอง ฯลฯ มักเพิ่มแท็กเฉพาะเพิ่มเติม

4
ฟังก์ชันการเปิดใช้งาน rectilinear ช่วยแก้ปัญหาการไล่ระดับสีที่หายไปในเครือข่ายประสาทได้อย่างไร
ฉันพบหน่วยการเชิงเส้นที่ถูกต้อง (ReLU) ยกย่องในหลาย ๆ ที่เพื่อแก้ปัญหาการไล่ระดับสีที่หายไปสำหรับเครือข่ายประสาท นั่นคือหนึ่งใช้สูงสุด (0, x) เป็นฟังก์ชั่นการเปิดใช้งาน เมื่อการเปิดใช้งานเป็นบวกจะเห็นได้ชัดว่านี่เป็นสิ่งที่ดีกว่าพูดว่าฟังก์ชั่นการเปิดใช้งาน sigmoid เนื่องจากการสืบทอดมาเป็น 1 เสมอแทนที่จะเป็นค่าเล็ก ๆ โดยพลการสำหรับ x ขนาดใหญ่ ในทางกลับกันการได้มานั้นคือ 0 เมื่อ x น้อยกว่า 0 ในกรณีที่แย่ที่สุดเมื่อหน่วยไม่เคยถูกเปิดใช้งานน้ำหนักของหน่วยนี้จะไม่เปลี่ยนแปลงอีกต่อไปและหน่วยจะไม่มีประโยชน์ตลอดไป - ซึ่งดูเหมือนว่า เลวร้ายยิ่งกว่าการไล่ระดับสีขนาดเล็กที่หายไปมาก อัลกอริทึมการเรียนรู้จะจัดการกับปัญหานั้นอย่างไรเมื่อพวกเขาใช้ ReLU

2
การวัดความสำคัญของตัวแปรในป่าสุ่ม
ฉันเล่นกับป่าที่สุ่มเพื่อการถดถอยและฉันก็ลำบากที่จะหาว่าค่าเฉลี่ยความสำคัญสองอย่างนี้เป็นอย่างไรและควรตีความอย่างไร importance()ฟังก์ชั่นให้สองค่าสำหรับแต่ละตัวแปรและ%IncMSE IncNodePurityมีการตีความง่าย ๆ สำหรับค่า 2 ค่านี้หรือไม่? สำหรับIncNodePurityโดยเฉพาะอย่างยิ่งเป็นแบบนี้เพียงแค่จำนวนเงินที่ RSS เพิ่มขึ้นต่อไปนี้การกำจัดของตัวแปรที่หรือไม่

5
LDA กับ word2vec
ฉันพยายามที่จะเข้าใจความคล้ายคลึงกันระหว่างLatent Dirichlet Allocationและword2vecสำหรับการคำนวณความคล้ายคลึงกันของคำ ดังที่ฉันเข้าใจ LDA จับคู่คำกับเวกเตอร์ของความน่าจะเป็นของหัวข้อแฝงในขณะที่ word2vec จับคู่คำกับเวกเตอร์ของจำนวนจริง (เกี่ยวข้องกับการสลายตัวตามตัวอักษรเอกพจน์ของข้อมูลร่วมกันแบบพอยต์ดูO. Levy, Y. Goldberg) ตามตัวประกอบเมทริกซ์โดยนัย " ; ดูเพิ่มเติมที่word2vec ทำงานอย่างไร? ) ฉันสนใจทั้งในด้านความสัมพันธ์ทางทฤษฎี (สามารถพิจารณาได้ว่าเป็นลักษณะทั่วไปหรือการเปลี่ยนแปลงอื่น ๆ ) และในทางปฏิบัติ (เมื่อใช้อย่างใดอย่างหนึ่ง แต่ไม่ใช่แบบอื่น) ที่เกี่ยวข้อง: อะไรคือวิธีมาตรฐานในการคำนวณระยะห่างระหว่างเอกสาร - DataScience.SE

7
การทำข้อมูลให้เป็นมาตรฐานและมาตรฐานในเครือข่ายประสาทเทียม
ฉันพยายามทำนายผลลัพธ์ของระบบที่ซับซ้อนโดยใช้โครงข่ายประสาท (ANN's) ค่าผลลัพธ์ขึ้นอยู่กับช่วงระหว่าง 0 ถึง 10,000 ตัวแปรอินพุตที่ต่างกันมีช่วงที่แตกต่างกัน ตัวแปรทั้งหมดมีการแจกแจงแบบปกติประมาณ ฉันพิจารณาตัวเลือกต่าง ๆ เพื่อปรับขนาดข้อมูลก่อนการฝึกอบรม ทางเลือกหนึ่งคือการปรับขนาดตัวแปรอินพุต (อิสระ) และเอาต์พุต (ขึ้นอยู่กับ) เป็น [0, 1] โดยการคำนวณฟังก์ชันการแจกแจงสะสมโดยใช้ค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานของแต่ละตัวแปรอย่างอิสระ ปัญหาของวิธีนี้คือถ้าฉันใช้ฟังก์ชั่นการเปิดใช้งาน sigmoid ที่เอาต์พุตฉันจะพลาดข้อมูลมากโดยเฉพาะที่ไม่ได้เห็นในชุดฝึกอบรม อีกทางเลือกหนึ่งคือใช้คะแนน z ในกรณีนี้ฉันไม่มีปัญหาข้อมูลมาก อย่างไรก็ตามฉัน จำกัด ฟังก์ชั่นการเปิดใช้งานเชิงเส้นที่เอาต์พุต เทคนิคการทำให้เป็นมาตรฐานที่ยอมรับอื่น ๆ ที่ใช้กับ ANN คืออะไร ฉันพยายามค้นหาคำวิจารณ์ในหัวข้อนี้ แต่ไม่พบสิ่งที่มีประโยชน์

6
เหตุใดฉันจึงได้รับแผนผังการตัดสินใจที่มีความแม่นยำ 100%
ฉันได้รับความแม่นยำ 100% สำหรับแผนภูมิการตัดสินใจของฉัน ผมทำอะไรผิดหรือเปล่า? นี่คือรหัสของฉัน: import pandas as pd import json import numpy as np import sklearn import matplotlib.pyplot as plt data = np.loadtxt("/Users/Nadjla/Downloads/allInteractionsnum.csv", delimiter=',') x = data[0:14] y = data[-1] from sklearn.cross_validation import train_test_split x_train = x[0:2635] x_test = x[0:658] y_train = y[0:2635] y_test = y[0:658] from sklearn.tree import …

3
ความแตกต่างระหว่างป่าสุ่มและต้นไม้ที่สุ่มมาก
ฉันเข้าใจว่าป่าสุ่มและต้นไม้ที่สุ่มมากที่สุดนั้นแตกต่างกันในแง่ที่ว่าต้นไม้ในป่าสุ่มนั้นแตกต่างกันไปในขณะที่พวกมันสุ่มในกรณีของต้นไม้ที่สุ่มมาก ๆ (เพื่อความแม่นยำมากขึ้น ท่ามกลางการแยกแบบสุ่มในตัวแปรที่เลือกสำหรับต้นไม้ปัจจุบัน) แต่ฉันไม่เข้าใจถึงผลกระทบของการแบ่งแยกที่แตกต่างกันนี้ในสถานการณ์ต่างๆ พวกเขาเปรียบเทียบในแง่ของอคติ / ความแปรปรวนได้อย่างไร พวกเขาจะเปรียบเทียบต่อหน้าตัวแปรที่ไม่เกี่ยวข้องได้อย่างไร? พวกเขาจะเปรียบเทียบในที่ที่มีตัวแปรที่สัมพันธ์กันอย่างไร?

3
แนวทางในการเลือกพารามิเตอร์ในการเรียนรู้ลึก
ฉันกำลังมองหากระดาษที่สามารถช่วยในการให้แนวทางเกี่ยวกับวิธีการเลือกไฮเปอร์พารามิเตอร์ของสถาปัตยกรรมลึกเช่นตัวเข้ารหัสอัตโนมัติแบบเรียงซ้อนหรือเครือข่ายที่เชื่ออย่างลึกซึ้ง มีพารามิเตอร์หลายตัวและฉันสับสนมากเกี่ยวกับวิธีเลือกพวกเขา การใช้การตรวจสอบข้ามไม่ได้เป็นตัวเลือกเนื่องจากการฝึกอบรมใช้เวลานานมาก!

3
การเรียนรู้ออฟไลน์ออนไลน์หรือไม่
การเรียนรู้แบบออฟไลน์และออนไลน์แตกต่างกันอย่างไร มันเป็นเพียงเรื่องของการเรียนรู้มากกว่าชุดข้อมูลทั้งหมด (ออฟไลน์) กับการเรียนรู้ที่เพิ่มขึ้น (ครั้งละหนึ่งตัวอย่าง)? ตัวอย่างของอัลกอริทึมที่ใช้ในทั้งสองคืออะไร

3
ความแปรปรวนของการประเมินการตรวจสอบความถูกต้องข้าม
TL, DR:ดูเหมือนว่าตรงกันข้ามกับคำแนะนำซ้ำ ๆ การตรวจสอบความถูกต้องแบบข้ามครั้งเดียว (LOO-CV) - นั่นคือKKK -fold CV กับKKK (จำนวนเท่า) เท่ากับยังไม่มีข้อความยังไม่มีข้อความN (จำนวนเท่า)ของการสังเกตการฝึกอบรม) - ให้ค่าประมาณของข้อผิดพลาดในการวางนัยทั่วไปซึ่งเป็นตัวแปรที่น้อยที่สุดสำหรับใด ๆKKKไม่ใช่ตัวแปรมากที่สุดโดยสมมติว่ามีความมั่นคงในรูปแบบ / อัลกอริทึมชุดข้อมูลหรือทั้งสองอย่าง ถูกต้องเนื่องจากฉันไม่เข้าใจเงื่อนไขความมั่นคงนี้จริงๆ) บางคนสามารถอธิบายได้อย่างชัดเจนว่าเงื่อนไขความมั่นคงนี้คืออะไร? มันเป็นความจริงหรือไม่ที่การถดถอยเชิงเส้นเป็นหนึ่งในอัลกอริทึม "เสถียร" ซึ่งหมายความว่าในบริบทนั้น LOO-CV เป็นทางเลือกที่ดีที่สุดของ CV อย่างเคร่งครัดเท่าที่ความลำเอียงและความแปรปรวนของความคลาดเคลื่อนของการประมาณ ภูมิปัญญาดั้งเดิมคือทางเลือกของKKKในKKK -fold CV ตามการแลกเปลี่ยนความแปรปรวนแบบอคติเช่นค่าที่ต่ำกว่าของKKK (ใกล้ถึง 2) นำไปสู่การประมาณการข้อผิดพลาดของการวางนัยทั่วไปที่มีอคติในแง่ร้ายมากขึ้น ของKKK (ใกล้ยังไม่มีข้อความยังไม่มีข้อความN ) นำไปสู่การประมาณการที่มีอคติน้อยกว่า แต่มีความแปรปรวนมากขึ้น คำอธิบายทั่วไปสำหรับปรากฏการณ์ของความแปรปรวนที่เพิ่มขึ้นด้วยKKKอาจได้รับความเด่นชัดที่สุดในองค์ประกอบของการเรียนรู้ทางสถิติ (หัวข้อ 7.10.1): ด้วย K = N ตัวประมาณค่าการตรวจสอบความถูกต้องไขว้กันนั้นมีความเป็นกลางโดยประมาณสำหรับข้อผิดพลาดการคาดการณ์ที่แท้จริง (คาดว่า) แต่อาจมีความแปรปรวนสูงเนื่องจาก N …

6
ปรับปรุงการจัดหมวดหมู่ด้วยตัวแปรเด็ดขาดมากมาย
ฉันกำลังทำงานกับชุดข้อมูลที่มี 200,000 ตัวอย่างและประมาณ 50 คุณสมบัติต่อตัวอย่าง: 10 ตัวแปรต่อเนื่องและอีก 40 รายการเป็นตัวแปรเด็ดขาด (ประเทศ, ภาษา, สาขาวิทยาศาสตร์ ฯลฯ ) สำหรับตัวแปรจัดหมวดหมู่เหล่านี้คุณมี 150 ประเทศที่แตกต่างกัน 50 ภาษา 50 สาขาวิทยาศาสตร์ ฯลฯ ... จนถึงแนวทางของฉันคือ: สำหรับตัวแปรเด็ดขาดแต่ละตัวที่มีค่าที่เป็นไปได้มากให้ใช้เพียงอันเดียวที่มีตัวอย่างมากกว่า 10,000 ตัวอย่างที่รับค่านี้ ซึ่งจะลดลงเหลือ 5-10 หมวดหมู่แทนที่จะเป็น 150 สร้างตัวแปรดัมมี่สำหรับแต่ละหมวดหมู่ (ถ้า 10 ประเทศจากนั้นสำหรับแต่ละตัวอย่างเพิ่มเวกเตอร์ไบนารีขนาด 10) ป้อนฟอเรสต์ฟอเรสต์แบบสุ่ม (ตรวจสอบความถูกต้องของพารามิเตอร์และอื่น ๆ ... ) ด้วยข้อมูลนี้ ขณะนี้ด้วยวิธีนี้ฉันจัดการเพื่อให้ได้ความแม่นยำ 65% เท่านั้นและฉันรู้สึกว่าสามารถทำได้มากกว่านี้ โดยเฉพาะอย่างยิ่งฉันไม่พอใจกับ 1) เนื่องจากฉันรู้สึกว่าฉันไม่ควรลบ "ค่าที่เกี่ยวข้องน้อยที่สุด" ตามจำนวนตัวอย่างที่พวกเขามีโดยพลการเนื่องจากค่าที่แสดงน้อยกว่าเหล่านี้อาจเป็นการเลือกปฏิบัติมากกว่า …

4
ภูมิหลังที่แข็งแกร่งในวิชาคณิตศาสตร์เป็นสิ่งจำเป็นสำหรับ ML หรือไม่?
ฉันเริ่มต้องการพัฒนาทักษะของฉันเองและฉันก็รู้สึกทึ่งกับการเรียนรู้ของเครื่องจักร อย่างไรก็ตามเมื่อหกปีที่แล้วแทนที่จะทำตามนี้ฉันตัดสินใจที่จะศึกษาระดับปริญญาที่ไม่เกี่ยวข้องกับวิทยาศาสตร์คอมพิวเตอร์ ฉันได้พัฒนาซอฟต์แวร์และแอพพลิเคชั่นมาประมาณ 8-10 ปีแล้วดังนั้นฉันจึงมีความสามารถที่ดี แต่ฉันก็ไม่สามารถเจาะด้านคณิตศาสตร์ของการเรียนรู้ของเครื่อง / ความน่าจะเป็น / สถิติ ฉันเริ่มมองหาสื่อการเรียนรู้และในหน้าแรกอาจมีสิ่งที่ทำให้ฉันสับสนและตั้งอุปสรรคในการเรียนรู้ของฉันทันที ภูมิหลังที่แข็งแกร่งในวิชาคณิตศาสตร์เป็นสิ่งจำเป็นสำหรับ ML หรือไม่? ฉันควรลองและเติมคำในช่องว่างของคณิตศาสตร์ก่อนที่จะเรียนต่อกับ ML หรือไม่? การเรียนรู้ด้วยตนเองสามารถใช้ได้กับนักพัฒนาที่ไม่มีพื้นฐานด้านวิทยาศาสตร์คอมพิวเตอร์หรือไม่? คำถามที่เกี่ยวข้อง: หนังสือสำหรับอ่านก่อนองค์ประกอบของการเรียนรู้ทางสถิติ?

3
การประยุกต์ใช้วิธีการเรียนรู้ของเครื่องในเว็บไซต์ StackExchange
ฉันมีหลักสูตรการเรียนรู้ของเครื่องภาคการศึกษานี้และอาจารย์ขอให้เราหาปัญหาในโลกแห่งความจริงและแก้ปัญหาโดยหนึ่งในวิธีการเรียนรู้ของเครื่องที่เปิดตัวในชั้นเรียนเป็น: ต้นไม้ตัดสินใจ โครงข่ายประสาทเทียม รองรับ Vector Machines การเรียนรู้ตามอินสแตนซ์ ( kNN , LWL ) เครือข่าย Bayesian เสริมการเรียนรู้ ฉันเป็นหนึ่งในแฟน ๆ ของstackoverflowและstackexchangeและทราบว่าการทิ้งฐานข้อมูลของเว็บไซต์เหล่านี้ถูกเปิดเผยต่อสาธารณะเพราะมันยอดเยี่ยม! ฉันหวังว่าฉันจะได้พบกับความท้าทายในการเรียนรู้ของเครื่องที่ดีเกี่ยวกับฐานข้อมูลเหล่านี้และแก้ไขมัน ความคิดของฉัน แนวคิดหนึ่งที่อยู่ในใจของฉันคือการทำนายแท็กสำหรับคำถามตามคำที่ป้อนในเนื้อหาของคำถาม ฉันคิดว่าเครือข่ายแบบเบย์เป็นเครื่องมือที่เหมาะสมสำหรับการเรียนรู้แท็กสำหรับคำถาม แต่ต้องการการวิจัยเพิ่มเติม อย่างไรก็ตามหลังจากขั้นตอนการเรียนรู้เมื่อผู้ใช้เสร็จสิ้นการป้อนคำถามแท็กบางอย่างควรจะแนะนำให้เขา กรุณาบอกฉัน : ฉันต้องการถามชุมชนสถิติในฐานะคนที่มีประสบการณ์เกี่ยวกับ ML สองคำถาม: คุณคิดว่าคำแนะนำแท็กเป็นปัญหาที่มีโอกาสแก้ไขได้หรือไม่? คุณมีคำแนะนำเกี่ยวกับเรื่องนี้หรือไม่? ฉันกังวลเล็กน้อยเพราะ stackexchange ยังไม่ได้ใช้คุณสมบัติดังกล่าว คุณมีความคิดอื่น / ดีกว่าสำหรับโครงการ ML ที่ยึดตามฐานข้อมูล stackexchange หรือไม่ ฉันพบว่ามันยากที่จะเรียนรู้จากฐานข้อมูล stackexchange การพิจารณาเกี่ยวกับข้อผิดพลาดของฐานข้อมูล: ฉันต้องการที่จะชี้ให้เห็นว่าถึงแม้ว่าฐานข้อมูลจะมีขนาดใหญ่และมีหลายกรณี แต่ก็ไม่สมบูรณ์และตัดให้ผิดพลาด สิ่งที่ชัดเจนคืออายุของผู้ใช้ที่ไม่น่าเชื่อถือ แม้กระทั่งแท็กที่เลือกไว้สำหรับคำถามนั้นไม่ถูกต้อง 100% อย่างไรก็ตามเราควรพิจารณาถึงเปอร์เซ็นต์ความถูกต้องของข้อมูลในการเลือกปัญหา …

5
วิธีจัดการกับแบบจำลองการทำนาย "เอาชนะตนเอง" ได้อย่างไร
ฉันกำลังดูการนำเสนอโดยผู้เชี่ยวชาญ ML จากผู้ค้าปลีกรายใหญ่ซึ่งพวกเขาได้พัฒนาแบบจำลองเพื่อทำนายเหตุการณ์ที่เกิดขึ้นในสต็อก สมมติว่าสักครู่หนึ่งเมื่อเวลาผ่านไปโมเดลของพวกเขาจะแม่นยำมากไม่ว่าจะ "เอาชนะตนเอง" นั่นคือถ้าโมเดลทำงานได้ดีจริง ๆ แล้วพวกเขาจะสามารถคาดการณ์เหตุการณ์ที่เกิดขึ้นในสต็อกและหลีกเลี่ยงพวกเขาในที่สุดก็มาถึงจุดที่พวกเขามีเหตุการณ์สต็อกน้อยหรือไม่มีเลยเลย แต่ถ้าเป็นเช่นนั้นจะไม่มีข้อมูลทางประวัติศาสตร์เพียงพอที่จะเรียกใช้โมเดลหรือโมเดลของพวกเขาได้รับการตกรางเนื่องจากปัจจัยเชิงสาเหตุแบบเดียวกับที่ใช้เพื่อระบุเหตุการณ์หมดสต็อกจะไม่ทำเช่นนั้นอีกต่อไป อะไรคือกลยุทธ์ในการจัดการกับสถานการณ์เช่นนี้? นอกจากนี้เราสามารถคาดการณ์สถานการณ์ตรงข้ามได้ตัวอย่างเช่นระบบผู้แนะนำอาจกลายเป็น "การตอบสนองด้วยตนเอง" ด้วยการเพิ่มยอดขายของคู่สินค้าที่ได้แรงหนุนจากการส่งออกของระบบผู้แนะนำแม้ว่าทั้งสองรายการจะไม่จริง ๆ ที่เกี่ยวข้อง สำหรับฉันดูเหมือนว่าทั้งสองเป็นผลลัพธ์ของลูปข้อเสนอแนะที่เกิดขึ้นระหว่างผลลัพธ์ของตัวทำนายและการดำเนินการที่ยึดตามนั้น เราจะจัดการกับสถานการณ์เช่นนี้ได้อย่างไร?

4
ค่าคงที่การแปลในคอมพิวเตอร์วิสัยทัศน์และเครือข่ายประสาทเทียมคืออะไร?
ฉันไม่ได้มีพื้นหลังคอมพิวเตอร์วิสัยทัศน์ แต่เมื่อผมอ่านการประมวลผลภาพและเครือข่ายประสาทสับสนบทความที่เกี่ยวข้องและเอกสารที่ผมต้องเผชิญคือคำหรือtranslation invariance หรือฉันอ่านมากว่าการดำเนินการสังวัตนาให้? !! สิ่งนี้หมายความว่า? ตัวผมเองมักจะแปลมันให้กับตัวเองราวกับว่ามันหมายความว่าถ้าเราเปลี่ยนภาพในรูปร่างใด ๆ แนวคิดที่แท้จริงของภาพจะไม่เปลี่ยน ตัวอย่างเช่นถ้าฉันหมุนรูปภาพของต้นไม้ที่บอกว่ามันเป็นต้นไม้อีกครั้งไม่ว่าฉันจะทำอย่างไรกับภาพนั้น และฉันเองก็พิจารณาการทำงานทั้งหมดที่สามารถเกิดขึ้นกับภาพและแปลงมันในทาง (ครอบตัด, ปรับขนาด, ปรับระดับสีเทา, ปรับสีและอื่น ๆ ... ) ให้เป็นแบบนี้ ฉันไม่รู้ว่านี่เป็นเรื่องจริงหรือไม่ดังนั้นฉันจะขอบคุณถ้าใครสามารถอธิบายเรื่องนี้ให้ฉันได้translation invarianttranslation invariance

3
อะไรคือความแตกต่างระหว่าง 'ยุค' 'แบทช์' และ 'มินิบัส'
เท่าที่ฉันรู้เมื่อใช้ Stochastic Gradient Descent เป็นอัลกอริทึมการเรียนรู้ใครบางคนใช้ 'ยุค' สำหรับชุดข้อมูลแบบเต็มและ 'ชุด' สำหรับข้อมูลที่ใช้ในขั้นตอนการอัปเดตเดียวในขณะที่อีกชุดใช้ 'ชุด' และ 'minibatch' ตามลำดับ คนอื่นใช้ 'ยุค' และ 'minibatch' สิ่งนี้ทำให้เกิดความสับสนมากขณะพูดคุย ดังนั้นคำพูดที่ถูกต้องคืออะไร? หรือพวกเขาเป็นเพียงภาษาถิ่นที่ยอมรับได้ทั้งหมด?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.