คำถามติดแท็ก machine-learning

อัลกอริทึมการเรียนรู้ของเครื่องสร้างโมเดลของข้อมูลการฝึกอบรม คำว่า "การเรียนรู้ของเครื่อง" มีการกำหนดอย่างคลุมเครือ มันรวมถึงสิ่งที่เรียกว่าการเรียนรู้ทางสถิติการเรียนรู้เสริมการเรียนรู้แบบไม่สำรอง ฯลฯ มักเพิ่มแท็กเฉพาะเพิ่มเติม

3
อะไรคือความแตกต่างระหว่างเครือข่ายฟีดไปข้างหน้าและเกิดขึ้นอีก?
อะไรคือความแตกต่างระหว่างเครือข่ายการส่งต่อและการเกิดซ้ำของเส้นประสาท? ทำไมคุณถึงใช้อันอื่น? ทอพอโลยีเครือข่ายอื่นมีอยู่จริงหรือไม่?

17
เครื่องเรียนรู้ตำราอาหาร / บัตรอ้างอิง / สูตรชีท?
ฉันค้นหาทรัพยากรเช่นตำราความน่าจะเป็นและสถิติและบัตรอ้างอิง R สำหรับการขุดข้อมูลมีประโยชน์อย่างเหลือเชื่อ เห็นได้ชัดว่าพวกเขาทำหน้าที่เป็นข้อมูลอ้างอิง แต่ยังช่วยฉันในการจัดระเบียบความคิดของฉันในเรื่องและได้รับการวางของแผ่นดิน ถาม: มีสิ่งใดเช่นทรัพยากรเหล่านี้สำหรับวิธีการเรียนรู้ของเครื่องหรือไม่? ฉันจินตนาการบัตรอ้างอิงซึ่งสำหรับวิธีการ ML แต่ละอันจะรวมถึง: คุณสมบัติทั่วไป เมื่อวิธีการทำงานได้ดี เมื่อวิธีการทำไม่ดี จากวิธีการใดหรือวิธีอื่นใดที่วิธีการทั่วไป มันถูกแทนที่ส่วนใหญ่? เอกสารเชื้อเกี่ยวกับวิธีการ ปัญหาเปิดที่เกี่ยวข้องกับวิธีการ ความเข้มในการคำนวณ ทุกสิ่งเหล่านี้สามารถพบได้ด้วยการขุดน้อยที่สุดผ่านตำราเรียนฉันแน่ใจ มันจะสะดวกจริง ๆ มีไว้ในไม่กี่หน้า

10
ข้อผิดพลาดในการตรวจสอบความถูกต้องน้อยกว่าข้อผิดพลาดการฝึกอบรม?
ฉันพบคำถามสองข้อที่นี่และที่นี่เกี่ยวกับปัญหานี้ แต่ยังไม่มีคำตอบหรือคำอธิบายที่ชัดเจนฉันบังคับใช้ปัญหาเดียวกันที่ข้อผิดพลาดในการตรวจสอบความถูกต้องน้อยกว่าข้อผิดพลาดการฝึกอบรมในเครือข่าย Convolution Neural นั่นหมายความว่าอย่างไร?


5
ใช้การเรียนรู้เชิงลึกสำหรับการทำนายอนุกรมเวลา
ฉันใหม่ในด้านการเรียนรู้อย่างลึกซึ้งและสำหรับฉันขั้นตอนแรกคือการอ่านบทความที่น่าสนใจจากเว็บไซต์ deeplearning.net ในเอกสารเกี่ยวกับการเรียนรู้อย่างลึกซึ้งฮินตันและคนอื่น ๆ ส่วนใหญ่พูดถึงการใช้มันกับปัญหาภาพ ใครบางคนพยายามที่จะตอบฉันว่ามันสามารถนำไปใช้กับปัญหาของการทำนายค่าอนุกรมเวลา (การเงินการจราจรทางอินเทอร์เน็ต ... ) และสิ่งที่สำคัญที่ฉันควรมุ่งเน้นถ้าเป็นไปได้?

10
การตรวจสอบความถูกต้องโฮลด์กับการตรวจสอบข้าม
สำหรับฉันดูเหมือนว่าการตรวจสอบความถูกต้องของการระงับไม่ได้ผล นั่นคือการแบ่งชุดข้อมูลเดิมออกเป็นสองส่วน (การฝึกอบรมและการทดสอบ) และการใช้คะแนนการทดสอบเป็นมาตรการทั่วไปนั้นค่อนข้างไร้ประโยชน์ การตรวจสอบความถูกต้องไขว้ของ K-fold ดูเหมือนจะให้การประมาณที่ดีขึ้นของการวางนัยทั่วไป (ในขณะที่มันฝึกฝนและทดสอบทุกจุด) ดังนั้นทำไมเราจะใช้การตรวจสอบความถูกต้องของมาตรฐาน หรือแม้กระทั่งพูดคุยเกี่ยวกับมัน

5
เกี่ยวกับความสำคัญของการตั้งสมมติฐานในการเรียนรู้ทางสถิติ
ในการเรียนรู้ทางสถิติโดยปริยายหรืออย่างชัดเจนเรามักจะสันนิษฐานว่าชุดการฝึกอบรมD={X,y}D={X,y}\mathcal{D} = \{ \bf {X}, \bf{y} \}ประกอบด้วยการป้อนข้อมูลNNN / ตอบสนอง tuples (Xi,yi)(Xi,yi)({\bf{X}}_i,y_i)ที่มาจากการกระจายข้อต่อเดียวกัน ด้วยP(X,y)P(X,y)\mathbb{P}({\bf{X}},y) p(X,y)=p(y|X)p(X)p(X,y)=p(y|X)p(X) p({\bf{X}},y) = p( y \vert {\bf{X}}) p({\bf{X}}) และความสัมพันธ์ที่เราพยายามรวบรวมผ่านอัลกอริทึมการเรียนรู้เฉพาะ ในทางคณิตศาสตร์สมมติฐาน iid นี้เขียน:p(y|X)p(y|X)p( y \vert {\bf{X}}) (Xi,yi)∼P(X,y),∀i=1,...,N(Xi,yi) independent of (Xj,yj),∀i≠j∈{1,...,N}(Xi,yi)∼P(X,y),∀i=1,...,N(Xi,yi) independent of (Xj,yj),∀i≠j∈{1,...,N}\begin{gather} ({\bf{X}}_i,y_i) \sim \mathbb{P}({\bf{X}},y), \forall i=1,...,N \\ ({\bf{X}}_i,y_i) \text{ independent of } ({\bf{X}}_j,y_j), \forall i \ne j …

10
การเรียนรู้ของเครื่องโดยใช้ Python
ฉันกำลังพิจารณาที่จะใช้ห้องสมุด Python เพื่อทำการทดลองการเรียนรู้ของเครื่อง จนถึงตอนนี้ฉันพึ่ง WEKA แล้ว แต่ก็ไม่พอใจในภาพรวมทั้งหมด นี่เป็นหลักเพราะฉันพบว่า WEKA ไม่ได้รับการสนับสนุนที่ดี (ตัวอย่างน้อยมากเอกสารน้อยมากและการสนับสนุนจากชุมชนน้อยกว่าที่ต้องการในประสบการณ์ของฉัน) และพบว่าตัวเองตกอยู่ในสถานการณ์ที่ลำบากโดยไม่มีความช่วยเหลือ อีกเหตุผลหนึ่งที่ฉันคิดว่าท่านี้เป็นเพราะฉันชอบ Python จริงๆ (ฉันใหม่กับ Python) และไม่ต้องการกลับไปเขียนโปรแกรมใน Java ดังนั้นคำถามของฉันคืออะไรเพิ่มเติม ครอบคลุม ปรับขนาดได้ (คุณสมบัติ 100k, ตัวอย่าง 10k) และ ห้องสมุดที่รองรับการทำ ML ใน Python นั้นดีหรือไม่ ฉันสนใจเป็นพิเศษในการจัดหมวดหมู่ข้อความและต้องการใช้ไลบรารีที่มีตัวแยกประเภทที่ดีวิธีการเลือกคุณสมบัติ (Information Gain, Chi-Sqaured ฯลฯ ) และความสามารถในการประมวลผลข้อความล่วงหน้า (การหยุดการลบคำหยุด , tf-idf เป็นต้น) จากหัวข้ออีเมลที่ผ่านมาที่นี่และที่อื่น ๆ ฉันได้ดู PyML, scikits-learn และ Orange …

3
ทำการปรับสภาพคุณลักษณะก่อนหรือภายในการตรวจสอบรุ่นหรือไม่
แนวปฏิบัติที่ดีทั่วไปในการเรียนรู้ของเครื่องคือการทำคุณลักษณะการทำให้เป็นมาตรฐานหรือมาตรฐานข้อมูลของตัวแปรตัวทำนายนั่นคือทำให้ข้อมูลอยู่กึ่งกลางการแทนที่ค่าเฉลี่ยและทำให้มันเป็นมาตรฐานโดยการหารด้วยความแปรปรวน สำหรับการควบคุมตนเองและเพื่อความเข้าใจของฉันเราทำสิ่งนี้เพื่อให้บรรลุสองสิ่งสำคัญ: หลีกเลี่ยงน้ำหนักรุ่นเล็กพิเศษเพื่อจุดประสงค์ในการรักษาเสถียรภาพของตัวเลข ตรวจสอบให้แน่ใจว่าการรวมกันของอัลกอริธึมการปรับให้เหมาะสมอย่างรวดเร็วเช่น Conjugate Gradient เพื่อให้ขนาดอันใหญ่ของมิติตัวทำนายหนึ่งมิติที่อื่นไม่นำไปสู่การลู่เข้าที่ช้า เรามักจะแบ่งข้อมูลออกเป็นชุดฝึกอบรมตรวจสอบและทดสอบ ในวรรณกรรมเรามักจะเห็นว่าการทำคุณลักษณะให้เป็นมาตรฐานพวกมันใช้ค่าเฉลี่ยและความแปรปรวน (หรือส่วนเบี่ยงเบนมาตรฐาน) เหนือชุดตัวแปรทำนายทั้งชุด ข้อบกพร่องใหญ่ ๆ ที่ฉันเห็นที่นี่คือถ้าคุณทำเช่นนั้นคุณกำลังแนะนำข้อมูลในอนาคตให้กับตัวแปรทำนายการฝึกอบรมซึ่งเป็นข้อมูลในอนาคตที่มีอยู่ในค่าเฉลี่ยและความแปรปรวน ดังนั้นฉันจึงทำการปรับสภาพให้เป็นมาตรฐานบนข้อมูลการฝึกอบรมและบันทึกค่าเฉลี่ยและความแปรปรวน จากนั้นฉันจะนำคุณสมบัติการทำให้เป็นมาตรฐานมาใช้กับตัวแปรทำนายของชุดข้อมูลการตรวจสอบความถูกต้องและการทดสอบโดยใช้ค่าเฉลี่ยการฝึกอบรมและผลต่าง มีข้อบกพร่องพื้นฐานกับสิ่งนี้หรือไม่? ใครสามารถแนะนำทางเลือกที่ดีกว่าได้ไหม

5
โครงข่ายประสาทเทียมเทียบกับเครื่องเวกเตอร์สนับสนุน: เป็นอันดับสองที่เหนือกว่าอย่างแน่นอนหรือไม่
ผู้เขียนบทความจำนวนมากที่ฉันอ่านยืนยันว่า SVM เป็นเทคนิคที่เหนือกว่าในการเผชิญกับปัญหาการถดถอย / การจำแนกประเภทของพวกเขาทราบว่าพวกเขาไม่สามารถรับผลลัพธ์ที่คล้ายกันผ่าน NNs บ่อยครั้งที่การเปรียบเทียบระบุว่า SVM แทน NNs มีทฤษฎีการก่อตั้งที่แข็งแกร่ง เข้าถึงโลกที่เหมาะสมเนื่องจากการเขียนโปรแกรมสมการกำลังสอง ไม่มีปัญหาในการเลือกพารามิเตอร์ที่เหมาะสม มีความเสี่ยงที่จะเกิดการแพ้น้อยกว่า ต้องการหน่วยความจำน้อยลงเพื่อจัดเก็บแบบจำลองการทำนาย ให้ผลลัพธ์ที่อ่านง่ายขึ้นและการตีความทางเรขาคณิต มันเป็นความคิดที่ยอมรับกันอย่างกว้างขวางหรือไม่? อย่าอ้างทฤษฎีบทอาหารกลางวันแบบไม่มีข้อความหรือข้อความที่คล้ายกันคำถามของฉันคือการใช้เทคนิคเหล่านั้นในทางปฏิบัติ ในอีกด้านหนึ่งปัญหาเชิงนามธรรมประเภทใดที่คุณจะต้องเผชิญกับ NN อย่างแน่นอน

6
การจำแนกไบนารีด้วยคลาสที่ไม่สมดุลอย่างยิ่ง
ฉันมีชุดข้อมูลในรูปแบบของ (ฟีเจอร์, เอาต์พุตไบนารี 0 หรือ 1), แต่ 1 เกิดขึ้นน้อยมาก, ดังนั้นโดยการคาดการณ์เสมอ 0, ฉันได้รับความแม่นยำระหว่าง 70% ถึง 90% (ขึ้นอยู่กับข้อมูลเฉพาะที่ฉันดู ) วิธีการ ML ให้ความถูกต้องเหมือนกันและฉันรู้สึกว่าควรมีวิธีมาตรฐานที่จะใช้ในสถานการณ์นี้ซึ่งจะปรับปรุงความแม่นยำมากกว่ากฎการทำนายที่ชัดเจน

5
จำเป็นหรือไม่ที่จะต้องขยายขนาดมูลค่าเป้าหมายนอกเหนือจากคุณสมบัติการปรับขนาดสำหรับการวิเคราะห์การถดถอย
ฉันกำลังสร้างแบบจำลองการถดถอย ในขั้นตอนก่อนการประมวลผลฉันปรับขนาดคุณสมบัติของฉันให้มีค่าเฉลี่ย 0 และส่วนเบี่ยงเบนมาตรฐาน 1 จำเป็นต้องทำให้ค่าเป้าหมายเป็นมาตรฐานด้วยหรือไม่

5
ข้อมูลไม่สมดุลจริง ๆ แล้วเกิดปัญหาในการเรียนรู้ของเครื่องเมื่อใด
เรามีคำถามหลายข้อเกี่ยวกับข้อมูลที่ไม่สมดุลเมื่อใช้การถดถอยโลจิสติก , SVM , ต้นไม้ตัดสินใจ , การใส่ถุงและคำถามอื่นที่คล้ายกันจำนวนหนึ่งสิ่งที่ทำให้มันเป็นหัวข้อยอดนิยม! น่าเสียดายที่คำถามแต่ละข้อดูเหมือนจะเป็นแบบเฉพาะอัลกอริทึมและฉันไม่พบแนวทางทั่วไปใด ๆ ในการจัดการกับข้อมูลที่ไม่สมดุล การอ้างคำตอบอย่างใดอย่างหนึ่งโดย Marc Claesenโดยจัดการกับข้อมูลที่ไม่สมดุล (... ) ขึ้นอยู่กับวิธีการเรียนรู้เป็นอย่างมาก วิธีการทั่วไปส่วนใหญ่มีวิธีหนึ่ง (หรือหลายวิธี) ในการจัดการกับสิ่งนี้ แต่เมื่อไหร่เราควรกังวลเกี่ยวกับข้อมูลที่ไม่สมดุล? อัลกอริทึมใดที่ได้รับผลกระทบส่วนใหญ่และสามารถจัดการกับมันได้? อัลกอริทึมใดที่จะทำให้เราต้องรักษาสมดุลของข้อมูล ฉันรู้ว่าการพูดถึงอัลกอริธึมแต่ละอย่างเป็นไปไม่ได้ในเว็บไซต์ถาม - ตอบเช่นนี้ฉันค่อนข้างมองหาแนวทางทั่วไปเมื่อมันอาจมีปัญหา

4
ทำไมไม่จัดหมวดหมู่ผ่านการถดถอย?
เนื้อหาบางอย่างที่ฉันเห็นในการเรียนรู้ของเครื่องบอกว่าเป็นความคิดที่ไม่ดีที่จะเข้าถึงปัญหาการจัดหมวดหมู่ผ่านการถดถอย แต่ฉันคิดว่าเป็นไปได้เสมอที่จะทำการถดถอยอย่างต่อเนื่องเพื่อให้พอดีกับข้อมูลและตัดทอนการทำนายอย่างต่อเนื่องเพื่อให้ได้การจำแนกประเภทที่ไม่ต่อเนื่อง เหตุใดจึงเป็นความคิดที่ไม่ดี

5
ฟอเรสต์แบบสุ่มเป็นอัลกอริธึมการส่งเสริมหรือไม่
คำนิยามสั้น ๆ ของการส่งเสริม : ชุดผู้เรียนที่อ่อนแอสามารถสร้างผู้เรียนที่เข้มแข็งเพียงคนเดียวได้หรือไม่? ผู้เรียนที่อ่อนแอถูกกำหนดให้เป็นตัวจําแนกซึ่งมีความสัมพันธ์เพียงเล็กน้อยกับการจัดหมวดหมู่ที่แท้จริง (มันสามารถติดป้ายตัวอย่างที่ดีกว่าการคาดเดาแบบสุ่ม) คำจำกัดความโดยย่อของRandom Forest : ป่าสุ่มเติบโตต้นไม้จัดประเภทจำนวนมาก ในการจัดประเภทวัตถุใหม่จากอินพุตเวกเตอร์ให้ใส่เวกเตอร์อินพุตลงต้นไม้แต่ละต้นในป่า ต้นไม้แต่ละต้นให้การจำแนกประเภทและเราพูดว่าต้นไม้ "โหวต" สำหรับชั้นเรียนนั้น ป่าเลือกการจำแนกที่มีคะแนนมากที่สุด (เหนือต้นไม้ทั้งหมดในป่า) อีกคำนิยามสั้น ๆ ของป่าสุ่ม : ฟอเรสต์แบบสุ่มเป็นตัวประมาณเมตาที่เหมาะกับตัวจัดประเภทต้นไม้ตัดสินใจจำนวนมากบนตัวอย่างย่อยต่างๆของชุดข้อมูลและใช้ค่าเฉลี่ยเพื่อปรับปรุงความแม่นยำในการทำนายและควบคุมการปรับให้เหมาะสม ตามที่ฉันเข้าใจ Random Forest เป็นอัลกอริธึมการเพิ่มประสิทธิภาพซึ่งใช้ต้นไม้เป็นตัวแยกประเภทที่อ่อนแอ ฉันรู้ว่ามันยังใช้เทคนิคอื่น ๆ และปรับปรุงให้ดีขึ้น มีใครบางคนแก้ไขฉันว่า Random Forest ไม่ใช่อัลกอริธึมการส่งเสริมใช่หรือไม่ ใครบางคนสามารถอธิบายอย่างละเอียดเกี่ยวกับเรื่องนี้ทำไม Random Forest ไม่ได้เป็นอัลกอริทึมการส่งเสริม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.