คำถามติดแท็ก machine-learning

อัลกอริทึมการเรียนรู้ของเครื่องสร้างโมเดลของข้อมูลการฝึกอบรม คำว่า "การเรียนรู้ของเครื่อง" มีการกำหนดอย่างคลุมเครือ มันรวมถึงสิ่งที่เรียกว่าการเรียนรู้ทางสถิติการเรียนรู้เสริมการเรียนรู้แบบไม่สำรอง ฯลฯ มักเพิ่มแท็กเฉพาะเพิ่มเติม

5
เทคนิคการจัดกลุ่มที่เหมาะสมสำหรับข้อมูลชั่วคราวหรือไม่
ฉันมีข้อมูลชั่วคราวของความถี่กิจกรรม ฉันต้องการระบุกลุ่มในข้อมูลที่ระบุช่วงเวลาที่แตกต่างกับระดับกิจกรรมที่คล้ายกัน เป็นการดีที่ฉันต้องการระบุกลุ่มโดยไม่ต้องระบุจำนวนกลุ่มก่อน เทคนิคการจัดกลุ่มที่เหมาะสมคืออะไร หากคำถามของฉันมีข้อมูลไม่เพียงพอที่จะตอบชิ้นส่วนของข้อมูลที่ฉันต้องจัดหาเพื่อกำหนดเทคนิคการจัดกลุ่มที่เหมาะสมคืออะไร ด้านล่างนี้เป็นภาพประกอบของชนิดข้อมูล / การจัดกลุ่มที่ฉันจินตนาการ:

6
แหล่งข้อมูลสำหรับการเรียนรู้วิธีการใช้วิธีการทั้งมวล
ฉันเข้าใจในทางทฤษฎี (เรียงลำดับ) ว่าพวกเขาจะทำงานอย่างไร แต่ฉันไม่แน่ใจว่าจะดำเนินการอย่างไรโดยใช้วิธีการรวมกลุ่ม (เช่นการออกเสียงลงคะแนนการผสมน้ำหนัก ฯลฯ ) แหล่งข้อมูลที่ดีสำหรับการใช้วิธีการทั้งมวลคืออะไร มีทรัพยากรเฉพาะเกี่ยวกับการนำไปใช้ใน Python หรือไม่? แก้ไข: เพื่อให้ชัดเจนขึ้นจากการอภิปรายในความคิดเห็นฉันไม่ได้มองหาอัลกอริทึมทั้งมวลเช่น randomForest เป็นต้น แต่ฉันสงสัยว่าคุณจะรวมการจำแนกประเภทที่แตกต่างจากอัลกอริทึมที่แตกต่างกันได้อย่างไร ตัวอย่างเช่นสมมติว่ามีคนใช้การถดถอยแบบลอจิสติก SVM และวิธีการอื่นในการทำนายระดับการสังเกตการณ์ เป็นวิธีที่ดีที่สุดในการไปเกี่ยวกับการประเมินที่ดีที่สุดของชั้นเรียนตามการคาดการณ์เหล่านี้คืออะไร?

3
วารสารที่ดีและมีอิสระสำหรับการติดตามการพัฒนาล่าสุดในการเรียนรู้ของเครื่องคืออะไร
อย่าลังเลที่จะแทนที่ 'วารสาร' สำหรับพอร์ทัลความรู้ที่มีประโยชน์อื่น ๆ ฉันสนใจที่จะจับตาดูการพัฒนาใหม่ในการเรียนรู้ของเครื่องด้วยมุมมองของการใช้งานจริง ฉันไม่ใช่นักวิชาการที่ต้องการเผยแพร่ผลงานของตัวเอง (อย่างน้อยไม่ได้อยู่ในสาขานี้) แต่ฉันต้องการที่จะตระหนักถึงอัลกอริทึมหรือลูกเล่นใหม่ ๆ ที่อาจเป็นประโยชน์ในระดับปฏิบัติ ข้อแม้เดียวก็คือว่าการดำเนินการวารสาร / การประชุมหรือสิ่งที่จะต้องมีอยู่อย่างอิสระโดยไม่ต้องสมัครสมาชิก

4
ทางเลือกที่รวดเร็วสำหรับอัลกอริทึม EM
มีทางเลือกอื่น ๆ สำหรับอัลกอริทึม EM สำหรับการเรียนรู้รูปแบบที่มีตัวแปรแฝง (โดยเฉพาะ pLSA) หรือไม่? ฉันโอเคกับการเสียสละความแม่นยำเพื่อความเร็ว

4
มีแบบฝึกหัดใดบ้างเกี่ยวกับทฤษฎีความน่าจะเป็นแบบเบย์หรือแบบจำลองกราฟิกโดยใช้ตัวอย่าง?
ฉันเคยเห็นการอ้างอิงถึงการเรียนรู้ทฤษฎีความน่าจะเป็นแบบเบย์ใน R และฉันสงสัยว่ามีอะไรมากกว่านี้บางทีใน Python โดยเฉพาะ มุ่งสู่การเรียนรู้ทฤษฎีความน่าจะเป็นแบบเบย์การอนุมานการประมาณความน่าจะเป็นสูงสุดแบบจำลองกราฟิกและการเรียงลำดับ?

2
เป็นวิธีที่ดีที่สุดในการเรียนรู้พื้นฐานของความน่าจะเป็นที่จำเป็นสำหรับอัลกอริทึมการเรียนรู้เครื่องคืออะไร?
ฉันเข้าเรียนหลักสูตรความน่าจะเป็นที่มหาวิทยาลัยเมื่อไม่กี่ปีที่ผ่านมา แต่ตอนนี้ฉันต้องผ่านขั้นตอนวิธีการเรียนรู้ด้วยเครื่องตอนนี้และคณิตศาสตร์บางอย่างก็ยุ่งเหยิง โดยเฉพาะตอนนี้ฉันกำลังเรียนรู้อัลกอริทึม EM (การเพิ่มความคาดหวังสูงสุด) และดูเหมือนว่ามีการตัดการเชื่อมต่อขนาดใหญ่ระหว่างสิ่งที่จำเป็นกับสิ่งที่ฉันมี ฉันไม่ได้ขอหนังสือหรือเว็บไซต์ แต่เป็นวิธีการเรียนรู้หัวข้อเหล่านี้ให้มากพอที่จะเข้าใจอัลกอริทึมที่ใช้พวกเขาได้อย่างไร จำเป็นหรือไม่ที่จะต้องอ่านหนังสือและออกกำลังกายนับร้อย ๆ ครั้ง? หรือว่าเกินขนาดในแง่นี้ แก้ไข: หากนี่เป็นตำแหน่งที่ไม่ถูกต้องสำหรับคำถามนี้โปรดลงคะแนนเพื่อโยกย้าย :)

1
อัลกอริทึมที่เหมาะสมที่สุดสำหรับการแก้ปัญหาโจรติดอาวุธ?
ฉันได้อ่านเกี่ยวกับอัลกอริทึมจำนวนมากสำหรับการแก้ปัญหาโจรติดอาวุธเช่น -greedy, softmax และ UCB1 แต่ฉันมีปัญหาในการเรียงลำดับวิธีที่ดีที่สุดสำหรับการลดความเสียใจεε\epsilon มีอัลกอริธึมที่เหมาะสมที่สุดที่รู้จักกันดีในการแก้ปัญหาโจรติดอาวุธหรือไม่? มีทางเลือกของอัลกอริทึมที่ดูเหมือนว่าจะทำงานได้ดีที่สุดในทางปฏิบัติหรือไม่?

2
การเรียนรู้ภายใต้การดูแลภายใต้เหตุการณ์“ หายาก” เมื่อความหายากเกิดขึ้นเนื่องจากเหตุการณ์ที่เกิดขึ้นจริงจำนวนมาก
สมมติว่าคุณได้รับการ "จับคู่" ระหว่างผู้ซื้อและผู้ขายในตลาด คุณจะได้สังเกตลักษณะของทั้งผู้ซื้อและผู้ขายซึ่งคุณต้องการใช้ในการทำนายการแข่งขันในอนาคต & ให้คำแนะนำกับทั้งสองด้านของตลาด เพื่อความง่ายให้สมมติว่ามีผู้ซื้อ N รายและผู้ขาย N คนและแต่ละคนพบการแข่งขัน มีการแข่งขัน N รายการและ (N-1) (N-1) ไม่ใช่การแข่งขัน ชุดข้อมูลการฝึกแบบรวมทุกอย่างมีการสังเกตแบบ N + (N-1) * (N-1) ซึ่งอาจมีขนาดใหญ่มาก ดูเหมือนว่าการสุ่มตัวอย่างจาก (N-1) (N-1) ไม่ตรงและการฝึกอบรมอัลกอริทึมเกี่ยวกับข้อมูลที่ลดลงอาจมีประสิทธิภาพมากขึ้น คำถามของฉันคือ: (1) การสุ่มตัวอย่างจากผู้ไม่ตรงกันเพื่อสร้างชุดข้อมูลการฝึกอบรมเป็นวิธีที่เหมาะสมในการจัดการกับปัญหานี้หรือไม่ (2) ถ้า (1) เป็นจริงมีวิธีการที่เข้มงวดในการตัดสินใจว่าชิ้นใหญ่ (N-1) (N-1) รวมหรือไม่

3
GLMNET หรือ LARS สำหรับการคำนวณโซลูชัน LASSO?
ฉันต้องการรับค่าสัมประสิทธิ์สำหรับปัญหา LASSO | | Y- Xβ| | +λ | | β| |1.||Y−Xβ||+λ||β||1.||Y-X\beta||+\lambda ||\beta||_1. ปัญหาคือฟังก์ชั่น glmnet และ lars ให้คำตอบที่ต่างกัน สำหรับฟังก์ชั่น glmnet ฉันขอสัมประสิทธิ์ของλ / | | Y| |λ/||Y||\lambda/||Y||แทนที่จะเป็นλλ\lambdaแต่ฉันยังได้คำตอบที่ต่างออกไป คาดหวังหรือไม่ ความสัมพันธ์ระหว่างลาร์สλλ\lambdaและ glmnet λλ\lambdaคืออะไร? ฉันเข้าใจว่า glmnet นั้นเร็วกว่าสำหรับปัญหา LASSO แต่ฉันอยากจะรู้ว่าวิธีใดที่มีประสิทธิภาพมากกว่า deps_stats ฉันกลัวว่าขนาดของชุดข้อมูลของฉันมีขนาดใหญ่มากจน LARS ไม่สามารถจัดการได้ในขณะที่ glmnet สามารถจัดการกับชุดข้อมูลขนาดใหญ่ของฉันได้ mpiktas ฉันต้องการหาคำตอบของ (Y-Xb) ^ 2 + L \ sum …

5
การลดขนาด SVD สำหรับอนุกรมเวลาที่มีความยาวต่างกัน
ฉันกำลังใช้การลดค่าเอกพจน์เป็นเทคนิคการลดขนาด ให้Nเวกเตอร์ของมิติDความคิดคือการแสดงคุณสมบัติในพื้นที่แปลงของมิติ uncorrelated ซึ่งรวมส่วนใหญ่ของข้อมูลของข้อมูลใน eigenvector ของพื้นที่นี้ในลำดับความสำคัญลดลง ตอนนี้ฉันกำลังพยายามใช้ขั้นตอนนี้กับข้อมูลอนุกรมเวลา ปัญหาคือว่าบางส่วนไม่ได้มีความยาวเท่ากันดังนั้นฉันจึงไม่สามารถสร้างnum-by-dimเมทริกซ์และใช้ SVD ได้ ความคิดแรกของฉันคือการวางเมทริกซ์ด้วยเลขศูนย์ด้วยการสร้างnum-by-maxDimเมทริกซ์และเติมช่องว่างด้วยศูนย์ แต่ฉันไม่แน่ใจว่านั่นเป็นวิธีที่ถูกต้องหรือไม่ คำถามของฉันคือคุณจะใช้วิธี SVD ในการลดมิติข้อมูลเป็นอนุกรมเวลาที่มีความยาวต่างกันได้อย่างไร หรือมีวิธีการอื่นที่คล้ายคลึงกันของการเป็นตัวแทน eigenspace มักจะใช้กับอนุกรมเวลา? ด้านล่างเป็นส่วนหนึ่งของรหัส MATLAB เพื่อแสดงแนวคิด: X = randn(100,4); % data matrix of size N-by-dim X0 = bsxfun(@minus, X, mean(X)); % standarize [U S V] = svd(X0,0); % SVD variances = diag(S).^2 / (size(X,1)-1); % …

5
ทำไมการไล่ระดับสีที่ไม่มีประสิทธิภาพสำหรับชุดข้อมูลขนาดใหญ่?
สมมติว่าชุดข้อมูลของเรามีตัวอย่าง 1 ล้านตัวอย่างเช่นและเราต้องการใช้การไล่ระดับสีแบบไล่ระดับเพื่อทำการโลจิสติกหรือการถดถอยเชิงเส้นบนชุดข้อมูลเหล่านี้x1,…,x106x1,…,x106x_1, \ldots, x_{10^6} อะไรคือวิธีการไล่ระดับสีที่ทำให้มันไม่มีประสิทธิภาพ? จำได้ว่าขั้นตอนการไล่ระดับสีในเวลามอบให้โดย:ttt wt+1=wt+ηt∇f(x)wt+1=wt+ηt∇f(x)w_{t+1} = w_{t} + \eta_t \nabla f(x) โดยที่คือฟังก์ชันการสูญเสียfff ฉันไม่เห็นอะไรผิดปกติกับขั้นตอนข้างต้นที่ทำให้อัลกอริทึมไม่มีประสิทธิภาพ มันเป็นการคำนวณของหรือไม่? การดำเนินการนี้ไม่สามารถคำนวณได้ล่วงหน้าเช่นคำนวณแล้วและประเมินได้ที่แต่ละจุดข้อมูล∂ f∇f(x)∇f(x)\nabla f(x) xฉัน?∂f∂x∂f∂x\frac{\partial f}{\partial x}xi?xi?x_i?

3
การเพิ่มประสิทธิภาพ PCA นูนหรือไม่
ฟังก์ชั่นวัตถุประสงค์ของการวิเคราะห์องค์ประกอบหลัก (PCA) จะลดการผิดพลาดในการฟื้นฟูใน L2 บรรทัดฐาน (ดูหัวข้อ 2.12 นี่อีกมุมมองหนึ่งพยายามที่จะเพิ่มความแปรปรวนในการฉายนอกจากนี้เรายังมีการโพสต์ที่ยอดเยี่ยมที่นี่:.. เป็นฟังก์ชันวัตถุประสงค์ของ PCA อะไร ? ) คำถามของฉันคือการเพิ่มประสิทธิภาพ PCA นูนหรือไม่ (ฉันพบการสนทนาที่นี่แต่หวังว่าใครบางคนสามารถให้หลักฐานที่ดีเกี่ยวกับ CV)

1
ทำไมตัวจําแนกแบบไร้เดียงสาเบย์จึงเหมาะสมที่สุดสําหรับการสูญเสีย 0-1
ตัวจําแนก Naive Bayes เป็นตัวจําแนกซึ่งกําหนดรายการให้กับคลาสCโดยใช้การเพิ่มหลังP ( C | x )สําหรับสมาชิกระดับสูงสุดและถือว่าคุณสมบัติของรายการนั้นเป็นอิสระxxxคCCP( C| x)P(C|x)P(C|x) การสูญเสีย 0-1 คือการสูญเสียซึ่งกำหนดให้การสูญเสียประเภทใด ๆ ของการจำแนก "1" และการสูญเสีย "0" ไปยังการจำแนกประเภทที่ถูกต้อง ฉันมักจะอ่าน (1) ว่าลักษณนาม "Naive Bayes" ดีที่สุดสำหรับการสูญเสีย 0-1 ทำไมเรื่องนี้ถึงเป็นจริง? (1) แหล่งที่เป็นแบบอย่างหนึ่งแหล่ง: ตัวจําแนกBayes และข้อผิดพลาด Bayes

2
ฟังก์ชั่นความแปรปรวนร่วมหรือเมล็ด - พวกมันคืออะไรกันแน่?
ฉันค่อนข้างใหม่กับกระบวนการเกาส์เซียนและวิธีการใช้ในการเรียนรู้ของเครื่อง ฉันอ่านและฟังเกี่ยวกับฟังก์ชันความแปรปรวนร่วมซึ่งเป็นจุดดึงดูดหลักของวิธีการเหล่านี้ ดังนั้นทุกคนสามารถอธิบายด้วยวิธีที่เข้าใจง่ายว่าเกิดอะไรขึ้นในฟังก์ชันความแปรปรวนร่วมเหล่านี้? มิฉะนั้นหากคุณสามารถชี้ไปที่บทช่วยสอนหรือเอกสารอธิบาย

3
ผลทางทฤษฎีหลังโครงข่ายประสาทเทียม
ฉันเพิ่งครอบคลุมโครงข่ายประสาทเทียมในหลักสูตรการเรียนรู้ของเครื่อง Coursera และฉันต้องการทราบทฤษฎีเพิ่มเติมเบื้องหลังพวกเขา ฉันพบว่าแรงจูงใจที่พวกเขาเลียนแบบชีววิทยาค่อนข้างน่าพอใจ บนพื้นผิวปรากฏว่าในแต่ละระดับเราแทนที่ covariates ด้วยการรวมกันเชิงเส้นของพวกเขา ด้วยการทำซ้ำ ๆ เราอนุญาตให้มีการปรับโมเดลที่ไม่ใช่เชิงเส้น สิ่งนี้ทำให้เกิดคำถาม: ทำไมบางครั้งเครือข่ายประสาทจึงต้องการที่จะปรับโมเดลที่ไม่ใช่เชิงเส้น โดยทั่วไปแล้วฉันอยากจะรู้ว่าโครงข่ายประสาทเทียมนั้นอยู่ในกรอบของการอนุมานแบบเบย์ซึ่งอธิบายไว้ในรายละเอียดในหนังสือของ ET Jaynes "ทฤษฎีความน่าจะเป็น: ตรรกะของวิทยาศาสตร์" หรือพูดง่ายๆทำไมเครือข่ายประสาทเทียมทำงานเมื่อทำงาน และแน่นอนความจริงที่ว่าพวกเขาทำนายผลสำเร็จนั้นแสดงว่าพวกเขาทำตามกรอบดังกล่าวข้างต้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.