สถิติและข้อมูลขนาดใหญ่ machine-learning

5

ฉันต้องการจัดหมวดหมู่ข้อมูลข้อความของฉัน ฉันมี300 classes200 เอกสารการฝึกอบรมต่อชั้นเรียน (ดังนั้น60000 documents in total) และนี่น่าจะส่งผลให้ข้อมูลมิติสูงมาก (เราอาจมองเกินกว่า1 ล้านมิติ ) ฉันต้องการดำเนินการตามขั้นตอนต่อไปนี้ในไปป์ไลน์ (เพื่อให้คุณได้ทราบถึงความต้องการของฉัน): การแปลงแต่ละเอกสารเป็นฟีเจอร์เวกเตอร์ ( tf-idfหรือvector space model) Feature selection( Mutual Informationโดยเฉพาะอย่างยิ่งหรือมาตรฐานอื่น ๆ ) การฝึกอบรมลักษณนาม ( SVM, Naive Bayes, Logistic RegressionหรือRandom Forest) การทำนายข้อมูลที่มองไม่เห็นตามตัวจําแนกรุ่นที่ผ่านการฝึกอบรม ดังนั้นคำถามคือฉันใช้เครื่องมือ / กรอบการทำงานสำหรับจัดการข้อมูลมิติสูงเช่นนี้หรือไม่ ฉันตระหนักถึงผู้ต้องสงสัยตามปกติ (R, WEKA ... ) แต่เท่าที่ความรู้ของฉันไป (ฉันอาจผิด) อาจไม่มีใครสามารถจัดการข้อมูลขนาดใหญ่นี้ได้ มีเครื่องมือเก็บของอื่น ๆ ที่ฉันสามารถดูได้หรือไม่? ถ้าฉันต้องขนานมันฉันควรจะดูApache Mahoutหรือไม่? …

18 machine-learning classification text-mining

2

เรียนรู้อย่างลึกซึ้งเทียบกับต้นไม้ตัดสินใจและวิธีการส่งเสริม

ฉันกำลังมองหาเอกสารหรือข้อความที่เปรียบเทียบและพูดคุย (ทั้งสังเกตุหรือในทางทฤษฎี): การเพิ่มและตัดสินใจอัลกอริธึมทรีของต้นไม้เช่นป่าสุ่มหรือAdaBoostและ GentleBoost นำไปใช้กับต้นไม้ตัดสินใจ กับ วิธีการเรียนรู้อย่างลึกซึ้งเช่นเครื่องจักร Boltzmann ที่ จำกัด , หน่วยความจำชั่วคราวลำดับชั้น , เครือข่ายประสาทเทียม , ฯลฯ มีใครรู้หรือไม่ว่าข้อความที่กล่าวถึงหรือเปรียบเทียบสองช่วงตึกของวิธีการ ML ในแง่ของความเร็วความแม่นยำหรือการลู่เข้า นอกจากนี้ฉันกำลังมองหาข้อความที่อธิบายหรือสรุปความแตกต่าง (เช่นข้อดีและข้อเสีย) ระหว่างแบบจำลองหรือวิธีการในบล็อกที่สอง คำแนะนำหรือคำตอบใด ๆ เกี่ยวกับการเปรียบเทียบดังกล่าวโดยตรงจะได้รับการชื่นชมอย่างมาก

18 machine-learning deep-learning cart rbm adaboost

2

มีการใช้วิธีการค้นหาสายในการเรียนรู้อย่างลึกซึ้งหรือไม่? ทำไมจะไม่ล่ะ?

บทเรียนออนไลน์มากมายพูดคุยเกี่ยวกับการไล่ระดับสีและเกือบทั้งหมดใช้ขนาดขั้นตอนคงที่ (อัตราการเรียนรู้ ) เหตุใดจึงไม่มีการใช้การค้นหาบรรทัด (เช่นการค้นหาบรรทัดย้อนรอยหรือการค้นหาเส้นตรง)αα\alpha

18 machine-learning neural-networks optimization deep-learning

3

ขนาดของชุดงานมีผลต่อการรวมกันของ SGD และทำไม?

ฉันได้เห็นข้อสรุปที่คล้ายกันจากการพูดคุยหลายครั้งว่าเมื่อขนาดของรถมินิบัสเพิ่มขึ้นการบรรจบกันของ SGD จะยากขึ้น / แย่ลงตัวอย่างเช่นบทความนี้และคำตอบนี้ นอกจากนี้ฉันเคยได้ยินคนใช้เทคนิคเช่นอัตราการเรียนรู้ขนาดเล็กหรือขนาดชุดในระยะแรกเพื่อแก้ไขปัญหานี้ด้วยขนาดชุดใหญ่ อย่างไรก็ตามดูเหมือนว่าเคาน์เตอร์ - สัญชาตญาณขณะที่การสูญเสียเฉลี่ยของรถมินิบัสอาจจะคิดว่าเป็นการประมาณการสูญเสียข้อมูลที่คาดว่าจะกระจายข้อมูล ยิ่งขนาดแบทช์ยิ่งมีความแม่นยำมากขึ้นทำไมในทางปฏิบัติไม่เป็นเช่นนั้น?1|X|∑x∈Xl(x,w)≈Ex∼pdata[l(x,w)]1|X|∑x∈Xl(x,w)≈Ex∼pdata[l(x,w)]\frac{1}{|X|}\sum_{x\in X} l(x,w)\approx E_{x\sim p_{data}}[l(x,w)] นี่คือความคิด (อาจผิด) ของฉันที่พยายามอธิบาย พารามิเตอร์ของแบบจำลองขึ้นอยู่กับแต่ละอื่น ๆ เมื่อชุดมีขนาดใหญ่เกินไปมันจะส่งผลกระทบต่อพารามิเตอร์มากเกินไปในคราวเดียวมันยากสำหรับพารามิเตอร์ที่จะไปถึงการพึ่งพาที่มั่นคง? (เช่นปัญหากะกะแปรสภาพภายในที่กล่าวถึงในเอกสารการทำให้เป็นมาตรฐานชุด ) หรือเมื่อพารามิเตอร์เกือบทั้งหมดมีความรับผิดชอบในการวนซ้ำทุกครั้งพวกเขาจะมีแนวโน้มที่จะเรียนรู้รูปแบบที่ซ้ำซ้อนโดยนัยจึงลดความสามารถของตัวแบบ? (ฉันหมายถึงว่าสำหรับปัญหาการจำแนกเลขหลักบางรูปแบบควรมีความรับผิดชอบสำหรับจุดบางส่วนสำหรับขอบ แต่เมื่อสิ่งนี้เกิดขึ้นทุกรูปแบบพยายามที่จะรับผิดชอบรูปร่างทั้งหมด) หรือเป็นเพราะเมื่อขนาดของแบตช์ใกล้เคียงกับขนาดของชุดฝึกอบรมมินิบัสอาจไม่สามารถมองเห็นได้เหมือนไอดอลจากการกระจายข้อมูลอีกต่อไปเนื่องจากมีความน่าจะเป็นมากสำหรับมินิบัสที่สัมพันธ์กันหรือไม่ การปรับปรุง ตามที่ระบุไว้ในคำตอบของเบอนัวต์ซานเชซเหตุผลสำคัญอย่างหนึ่งคือมินิบัสขนาดใหญ่ต้องการการคำนวณที่มากขึ้นเพื่อทำให้การอัปเดตเสร็จสมบูรณ์หนึ่งครั้งและการวิเคราะห์ส่วนใหญ่ใช้จำนวนเงินที่แน่นอนของการฝึก อย่างไรก็ตามบทความนี้ (Wilson และ Martinez, 2003) แสดงให้เห็นว่าขนาดของชุดที่ใหญ่กว่านั้นยังคงเป็นข้อเสียเปรียบเล็กน้อย เป็นเช่นนั้นหรือไม่

18 machine-learning neural-networks optimization gradient-descent sgd

2

ควรมีการสุ่มตัวอย่างตัวอย่างการฝึกอบรมสำหรับโครงข่ายประสาทการฝึกอบรมขนาดเล็กแบบสุ่มโดยไม่ต้องเปลี่ยนใหม่หรือไม่?

เรากำหนดยุคเมื่อผ่านตัวอย่างการฝึกอบรมที่มีทั้งหมดและขนาดมินิ - แบทช์เป็นจำนวนตัวอย่างที่เราเฉลี่ยเพื่อค้นหาการอัปเดตสำหรับน้ำหนัก / อคติที่จำเป็นในการไล่ระดับสี คำถามของฉันคือเราควรวาดโดยไม่เปลี่ยนจากชุดตัวอย่างการฝึกอบรมเพื่อสร้าง mini-batch แต่ละชุดภายในยุค ฉันรู้สึกว่าเราควรหลีกเลี่ยงการแทนที่เพื่อให้แน่ใจว่าเรา "ดึงตัวอย่างทั้งหมด" เพื่อตอบสนองความต้องการในตอนท้ายของยุค แต่มีปัญหาในการหาคำตอบที่ชัดเจนไม่ทางใดก็ทางหนึ่ง ฉันได้ลองใช้ Google และอ่าน Ch 1 ในเครือข่ายประสาทและการเรียนรู้เชิงลึกของ Nielsen แต่ไม่พบคำตอบที่ชัดเจน ในข้อความนั้น Nielsen ไม่ได้ระบุว่าการสุ่มตัวอย่างจะทำได้โดยไม่ต้องเปลี่ยน แต่ดูเหมือนจะบอกเป็นนัยว่า การฝึกอบรมอย่างเป็นทางการที่ชัดเจนในยุคนี้สามารถดูได้ที่นี่หากต้องการ - /stats//a/141265/131630 แก้ไข: คำถามนี้ดูเหมือนกับฉัน แต่มันก็ไม่ชัดเจนว่าจะใช้ความจริงที่ว่าความเป็นเส้นตรงของความคาดหวังไม่แยแสกับความเป็นอิสระกับสถานการณ์นี้ - ควรสุ่มตัวอย่างเกิดขึ้นโดยมีหรือไม่มีการเปลี่ยน

18 machine-learning neural-networks optimization deep-learning

2

วิธีการสร้างฟังก์ชั่นตอบแทนในการเรียนรู้เสริม

ในขณะที่เรียนเสริมการเรียนรู้ฉันได้พบฟังก์ชั่นของรางวัลหลายรูปแบบ: , R ( s , a , s ′ )และแม้แต่ฟังก์ชั่นของรางวัลที่ขึ้นอยู่กับสถานะปัจจุบันเท่านั้น ต้องบอกว่าฉันรู้ว่ามันไม่ใช่เรื่องง่ายที่จะ 'สร้าง' หรือ 'กำหนด' ฟังก์ชั่นของรางวัลR(s,a)R(s,a)R(s,a)R(s,a,s′)R(s,a,s′)R(s,a,s') นี่คือคำถามของฉัน: มีกฎเกี่ยวกับวิธีการทำฟังก์ชั่นของรางวัลหรือไม่ มีฟังก์ชั่นของรางวัลในรูปแบบอื่น ๆ หรือไม่? ตัวอย่างเช่นรูปแบบพหุนามที่อาจขึ้นอยู่กับรัฐหรือไม่

18 machine-learning reinforcement-learning

2

การตรวจจับความผิดปกติพร้อมคุณสมบัติหลอกตา

TL; DR เป็นวิธีที่แนะนำให้จัดการกับอะไร discreteข้อมูลเมื่อทำการตรวจจับความผิดปกติคืออะไร? เป็นวิธีที่แนะนำให้จัดการกับอะไร categoricalข้อมูลเมื่อทำการตรวจจับความผิดปกติคืออะไร? คำตอบนี้แนะนำให้ใช้ข้อมูลแบบไม่ต่อเนื่องเพื่อกรองผลลัพธ์ อาจแทนที่ค่าหมวดหมู่ด้วยโอกาสในการสังเกต Intro นี่เป็นครั้งแรกที่ฉันโพสต์ที่นี่ดังนั้นโปรดหากมีสิ่งใดที่ดูเหมือนว่าไม่ถูกต้องทางเทคนิคไม่ว่าจะเป็นการจัดรูปแบบหรือการใช้คำจำกัดความที่ถูกต้องฉันสนใจที่จะรู้ว่าควรใช้สิ่งใดแทน ต่อมา เมื่อเร็ว ๆ นี้ฉันได้เป็นส่วนหนึ่งของการเรียนรู้ของMachine Learningโดย Andrew Ng สำหรับการตรวจจับความผิดปกติเราได้รับการสอนให้พิจารณาว่าพารามิเตอร์การกระจายแบบปกติ / แบบเกาส์เซียนคืออะไรสำหรับคุณสมบัติ / ตัวแปรที่กำหนดภายในชุดข้อมูลจากนั้นพิจารณาความน่าจะเป็นของชุดการฝึกอบรม / ตัวอย่างการสังเกต การกระจายแบบเกาส์จากนั้นนำผลคูณของความน่าจะเป็นของฟีเจอร์xixi{x_i} วิธี เลือกมี / ตัวแปรที่เราคิดว่าอธิบายกิจกรรมในคำถาม: { x 1 , x 2 , ... , x ฉัน }xixix_i{x1,x2,…,xi}{x1,x2,…,xi}\{x_1, x_2,\dots,x_i\} พอดีกับพารามิเตอร์ของ Gaussian สำหรับแต่ละคุณลักษณะ: σ2=1μj=1m∑i=1mx(i)jμj=1m∑i=1mxj(i)\mu_j = \frac{1}{m}\sum_{i = 1}^m …

18 machine-learning categorical-data outliers discrete-data anomaly-detection

3

การสร้างตัวแยกประเภทมัลติคลาสดีกว่าไบนารีหลายตัวหรือไม่?

ฉันต้องการจัดหมวดหมู่ URL เป็นหมวดหมู่ สมมติว่าฉันมี 15 หมวดหมู่ที่ฉันวางแผนจะลดศูนย์ทุก URL ลงให้ ตัวจําแนกแบบ 15 ทางดีกว่าหรือไม่ ที่ฉันมี 15 ป้ายกำกับและสร้างคุณสมบัติสำหรับแต่ละจุดข้อมูล หรือการสร้างตัวแยกประเภทไบนารี 15 ตัวบอกว่า: ภาพยนตร์หรือไม่ใช่ภาพยนตร์และใช้ตัวเลขที่ฉันได้รับจากการจำแนกประเภทเหล่านี้เพื่อสร้างอันดับเพื่อเลือกหมวดหมู่ที่ดีที่สุด

18 machine-learning classification categorical-data svm feature-selection

1

ข้อดีและข้อเสียของ SVM

ใครสามารถอธิบายให้ฉันข้อดีและข้อเสียของการจัดหมวดหมู่ SVM ที่แตกต่างจากตัวแยกประเภทอื่น ๆ ?

18 machine-learning svm

2

วิธีที่ดีที่สุดในการดำเนินการ SVM แบบหลายคลาส

ฉันรู้ว่า SVM เป็นตัวจําแนกไบนารี ฉันต้องการขยายไปยัง SVM แบบหลายชั้น วิธีไหนที่ดีที่สุดและอาจจะง่ายที่สุดในการดำเนินการ รหัส: ใน MATLAB u=unique(TrainLabel); N=length(u); if(N>2) itr=1; classes=0; while((classes~=1)&&(itr<=length(u))) c1=(TrainLabel==u(itr)); newClass=double(c1); tst = double((TestLabel == itr)); model = svmtrain(newClass, TrainVec, '-c 1 -g 0.00154'); [predict_label, accuracy, dec_values] = svmpredict(tst, TestVec, model); itr=itr+1; end itr=itr-1; end จะปรับปรุงได้อย่างไร?

18 machine-learning matlab svm multi-class

2

ทำไมตัวแยกประเภทการถดถอยของริดจ์ทำงานได้ค่อนข้างดีสำหรับการจัดประเภทข้อความ

ในระหว่างการทดสอบการจำแนกข้อความฉันพบว่าตัวจําแนกประเภทสันเขาสร้างผลลัพธ์ที่ยอดการทดสอบอย่างต่อเนื่องระหว่างตัวจําแนกเหล่านั้นซึ่งถูกกล่าวถึงมากขึ้นและถูกนําไปใช้ในงานการขุดข้อความเช่น SVM, NB, kNN เป็นต้น ในการเพิ่มประสิทธิภาพลักษณนามแต่ละตัวในงานการจัดหมวดหมู่ข้อความเฉพาะนี้ยกเว้นการปรับแต่งง่าย ๆ เกี่ยวกับพารามิเตอร์ ผลดังกล่าวยังได้กล่าวถึงDikran กระเป๋า ไม่ได้มาจากภูมิหลังทางสถิติหลังจากอ่านผ่านสื่อออนไลน์ฉันยังไม่สามารถหาสาเหตุหลักของเรื่องนี้ได้ มีใครให้ข้อมูลเชิงลึกเกี่ยวกับผลลัพธ์ดังกล่าวบ้าง

18 machine-learning classification text-mining ridge-regression

2

อะไรคือความแตกต่างระหว่างอัลกอริทึม Baum-Welch และการฝึกอบรม Viterbi?

ฉันกำลังใช้การฝึกอบรม Viterbiสำหรับปัญหาการแบ่งส่วนภาพ ฉันต้องการทราบว่าข้อดี / ข้อเสียของการใช้อัลกอริทึม Baum-Welch แทนการฝึกอบรม Viterbi

18 machine-learning hidden-markov-model image-processing viterbi-algorithm baum-welch

4

ถ้าฉันต้องการโมเดลที่ตีความได้มีวิธีอื่นนอกเหนือจาก Linear Regression หรือไม่?

ฉันพบนักสถิติบางคนที่ไม่เคยใช้แบบจำลองอื่นนอกจากการถดถอยเชิงเส้นเพื่อการทำนายเพราะพวกเขาเชื่อว่า "โมเดล ML" เช่นฟอเรสต์แบบสุ่มหรือการเพิ่มระดับความลาดชันนั้นยากที่จะอธิบายหรือ "ไม่สามารถตีความได้" ในการถดถอยเชิงเส้นเนื่องจากชุดของสมมติฐานได้รับการตรวจสอบแล้ว (ความเป็นปกติของข้อผิดพลาด, homoskedasticity, ไม่มีหลาย collinearity), การทดสอบ t มีวิธีการทดสอบความสำคัญของตัวแปร, การทดสอบที่ความรู้ของฉันไม่สามารถใช้ได้ใน ฟอเรสต์แบบสุ่มหรือการส่งเสริมการไล่ระดับสี ดังนั้นคำถามของฉันคือถ้าฉันต้องการสร้างแบบจำลองตัวแปรตามด้วยชุดของตัวแปรอิสระเพื่อประโยชน์ในการตีความฉันควรใช้การถดถอยเชิงเส้นเสมอ?

18 regression machine-learning multiple-regression model-interpretation

1

อ่างครัวแบบสุ่มทำงานอย่างไร

เมื่อปีที่แล้วที่ NIPS 2017 Ali Rahimi และ Ben Recht ได้รับรางวัลการทดสอบเวลาสำหรับกระดาษของพวกเขา"คุณสมบัติการสุ่มสำหรับเคอร์เนลขนาดใหญ่"ที่พวกเขาแนะนำคุณสมบัติแบบสุ่มประมวลผลในภายหลังเป็นอัลกอริทึม sinks ครัวแบบสุ่ม ในฐานะที่เป็นส่วนหนึ่งของการเผยแพร่รายงานของพวกเขาพวกเขาแสดงให้เห็นว่าแบบจำลองของพวกเขาสามารถนำไปใช้ใน 5 บรรทัดของ matlab % Approximates Gaussian Process regression % with Gaussian kernel of variance gamma^2 % lambda: regularization parameter % dataset: X is dxN, y is 1xN % test: xtest is dx1 % D: dimensionality of random feature …

18 machine-learning svm gaussian-process approximation

3

ROC vs Curve ความแม่นยำในการจำบนชุดข้อมูลที่ไม่สมดุล

ฉันเพิ่งอ่านการสนทนานี้เสร็จแล้ว พวกเขายืนยันว่า PR AUC นั้นดีกว่า ROC AUC ในชุดข้อมูลที่ไม่สมดุล ตัวอย่างเช่นเรามี 10 ตัวอย่างในชุดข้อมูลทดสอบ 9 ตัวอย่างเป็นค่าบวกและ 1 เป็นค่าลบ เรามีโมเดลที่น่ากลัวซึ่งทำนายทุกอย่างในเชิงบวก ดังนั้นเราจะมีการวัดที่ TP = 9, FP = 1, TN = 0, FN = 0 จากนั้นความแม่นยำ = 0.9, เรียกคืน = 1.0 ความแม่นยำและการเรียกคืนมีทั้งสูงมาก แต่เรามีลักษณนามไม่ดี ในทางกลับกัน TPR = TP / (TP + FN) = 1.0, FPR = FP …

18 machine-learning model-selection roc unbalanced-classes precision-recall

คำถามติดแท็ก machine-learning