การเรียนรู้กลไกการเรียนรู้ของเครื่อง: ความลึกของความเข้าใจเทียบกับจำนวนอัลกอริทึม


13

เมื่อเร็ว ๆ นี้ฉันได้รับการแนะนำให้รู้จักกับสาขาวิทยาศาสตร์ข้อมูล (ประมาณ 6 เดือน) และ Ii เริ่มต้นการเดินทางด้วยหลักสูตรการเรียนรู้ด้วยเครื่องโดย Andrew Ng และโพสต์ที่เริ่มทำงานกับผู้เชี่ยวชาญด้านข้อมูลวิทยาศาสตร์โดย JHU

ในส่วนของการใช้งานจริงฉันได้พยายามสร้างแบบจำลองการทำนายที่จะทำนายการขัดสี จนถึงตอนนี้ฉันได้ใช้ glm, bayesglm, rf ในความพยายามที่จะเรียนรู้และใช้วิธีการเหล่านี้ แต่ฉันพบช่องว่างจำนวนมากในการทำความเข้าใจอัลกอริธึมเหล่านี้

ภาวะที่กลืนไม่เข้าคายไม่ออกพื้นฐานของฉันคือ:

ไม่ว่าฉันจะควรมุ่งเน้นที่การเรียนรู้ความซับซ้อนของอัลกอริธึมน้อยลงหรือฉันควรใช้วิธีการที่จะรู้ว่าพวกมันเป็นจำนวนเท่าไรและเมื่อใดและเท่าที่จำเป็น?

โปรดแนะนำฉันในทิศทางที่ถูกต้องอาจแนะนำหนังสือหรือบทความหรือสิ่งที่คุณคิดว่าจะช่วย

ฉันจะขอบคุณถ้าคุณจะตอบด้วยความคิดที่จะแนะนำคนที่เพิ่งเริ่มต้นอาชีพของเขาในสาขาวิทยาศาสตร์ข้อมูลและต้องการเป็นคนที่แก้ปัญหาในทางปฏิบัติสำหรับโลกธุรกิจ

ฉันจะอ่านทรัพยากร (หนังสือบทความ) ที่แนะนำในโพสต์นี้มากที่สุดเท่าที่จะเป็นไปได้และจะจัดหาฟีดส่วนตัวกลับมาให้กับข้อดีข้อเสียของสิ่งเดียวกัน ในอนาคตและฉันคิดว่าคงจะดีถ้ามีคนแนะนำหนังสือเหล่านี้ก็สามารถทำได้เหมือนกัน

คำตอบ:


9

ฉันขอแนะนำให้ จำกัด ตัวคุณเองกับอัลกอริทึมที่ได้รับการทดลองและเชื่อถือได้ ฉันจะไม่แนะนำองค์ประกอบของการเรียนรู้ทางสถิติ (เป็นหนังสือเล่มแรก) มันเป็นทฤษฎีที่มุ่งเป้าไปที่นักศึกษาระดับบัณฑิตศึกษาโดยมีแบบฝึกหัดถามวิธีการพิสูจน์ X หรือ Y ... ฉันคิดว่าISLเหมาะสมกว่าพร้อมคำแนะนำการใช้งานจริงมากขึ้น (ไม่ว่าในกรณีใด

นอกจากสถิติแล้วฉันจะทำให้แน่ใจว่าคุณพอใจกับการทดสอบการออกแบบ / การทดสอบ AB และด้วย Business Intelligence / Visualization


จะขอบคุณถ้าคุณสามารถแนะนำอัลกอริทึมบางอย่างที่ไม่ควรพลาดหรือดีกว่าที่จะพูดว่ามีประโยชน์มากที่สุดสำหรับการแก้ปัญหาทางธุรกิจในทางปฏิบัติ ถ้าเป็นไปได้โปรดพูดถึงวิธีที่ดีที่สุดในการเรียนรู้พวกเขา (หนังสือเฉพาะบทความช่วยเหลือตนเองหรืออาจจะลองผิดลองถูก)

2
ฉันจะบอกว่า algos ทั้งหมดใน ISL: การถดถอยเชิงเส้น, การถดถอยโลจิสติก, วิธีการตามต้นไม้, SVM; การลดการจัดกลุ่มและมิติเช่น PCA อ่านหนังสือและดูหลักสูตรออนไลน์ที่เกี่ยวข้อง ( online.stanford.edu/course/statistical-learning-winter-2014 - อาจจะอยู่ใน youtube?)
seanv507

ทรัพยากรที่ดีเยี่ยมมีหนังสือและวิดีโอเหมือนกันโดยผู้แต่งเองขอบคุณมาก ๆ สำหรับลิงก์ไม่รู้ตัวเลย
Vinay Tiwari

ฉันขอโทษ แต่นี่เป็นคำแนะนำอันยิ่งใหญ่ นักวิทยาศาสตร์ข้อมูลไม่ควรพึ่งพาอัลกอริทึมสองสามตัว คุณต้องพึ่งพาความสามารถของข้อมูลและการวิเคราะห์ของตัวเองและไม่มีปัญหาข้อมูลสองอย่างที่เหมือนกัน บางคนจะถูกแก้ไขด้วย X และ Y อีกด้วยมันไม่สมเหตุสมผลที่จะคาดหวังว่าจักรวาลข้อมูลจะรวมเข้ากับอัลกอริธึมของคุณ อยากรู้อยากเห็นมีความยืดหยุ่นมีความรู้และใช้เครื่องมือที่เหมาะสมสำหรับงานไม่ใช่แค่สิ่งที่คุณรู้
I_Play_With_Data

5

บางคนเรียกตัวเองว่าเป็นนักวิทยาศาสตร์ด้านข้อมูลควรรู้เพิ่มเติมเกี่ยวกับความซับซ้อนของอัลกอริธึมที่เขาใช้เช่นสิ่งที่ส่งผลต่ออัตราการรวมกันของอัลกอริทึมการให้คะแนน Fisher ใน GLM มากกว่าสถิติทั่วไปหรือในสวน วิธีแก้ปัญหาความน่าจะเป็นสูงสุดจะพบ (บางทีหลังจากที่พวกเขาทำกาแฟหนึ่งถ้วย) ไม่ว่าในกรณีใดก็ตามการทำความเข้าใจแนวคิดทั่วไปของสถิติและการเรียนรู้ของเครื่องนั้นมีความสำคัญนอกเหนือจากความคุ้นเคยกับวิธีการที่คุณใช้ทฤษฎีที่อยู่เบื้องหลังสมมติฐานที่พวกเขาทำการตรวจสอบวินิจฉัยที่คุณควรทำ หลีกเลี่ยงการล้อเลียนนี้

คุณน่าจะเพลิดเพลินกับการอ่านHastie และคณะ (2009),องค์ประกอบของการเรียนรู้ทางสถิติ


แน่นอนจะอ่านมัน! ชอบบรรทัดสุดท้าย ... ฉันคิดว่ากระตุ้นและบางครั้งความกดดันที่จะได้ผลลัพธ์โดยเร็วมักนำไปสู่การล้อเลียนดังกล่าว และมีความสำคัญเท่าเทียมกันในการหลีกเลี่ยงสิ่งที่ตรงกันข้ามกับสิ่งนี้ซึ่งลึกลงไปในการเรียนรู้ว่ามันไร้ประโยชน์สำหรับปัญหาโลกแห่งความจริง ในขณะที่การเติบโต / การเรียนรู้บางครั้งมันสำคัญกว่าที่จะรู้ว่าจะไม่ทำอะไรขอบคุณมากสำหรับคำแนะนำที่หวังว่าจะเห็นข้อมูลเชิงลึกที่จะทำให้ฉันและผู้อื่นในการเดินทางที่คล้ายกันดีขึ้น

"สิ่งที่มีผลต่ออัตราการรวมกันของอัลกอรึทึมเกณฑ์การให้คะแนนแบบฟิชเชอร์ใน GLM" - ฉันคิดว่าคุณสูญเสีย 99% ของนักวิทยาศาสตร์ข้อมูลที่นี่

@Momo: "นักวิทยาศาสตร์ข้อมูล" เป็นหนึ่งในคำที่ไม่ติดดาวที่ได้รับเงินแทบจะไม่ก่อนที่จะเริ่มลดค่า
Scortchi - Reinstate Monica

2

ฉันบอกได้เลยว่าการรู้รายละเอียดของความซับซ้อนของอัลกอริทึม 1 หรือ 2 (เช่นการทำงานภายในของพารามิเตอร์) นั้นดีกว่าการรู้วิธีใช้กลุ่มของพวกเขา

ฉันอยู่ในพื้นที่ Analytics มาประมาณ 11 ปีและเป็นนักวิทยาศาสตร์ด้านข้อมูลเป็นเวลา 2.5 ปีและฉันพูดจากประสบการณ์ ในทางกลับกันคุณควรตระหนักถึงสิ่งอื่น ๆ อย่างแน่นอน (อัลกอริทึมล่าสุดเช่นการเรียนรู้ลึก SVM, XGboost ฯลฯ ) ซึ่งอาจเหมาะสมกับปัญหาของคุณมากขึ้น

ฉันคิดว่าหลักสูตรของดร. แอนดรูว์อึ้งมีรายละเอียดค่อนข้างน้อยเกี่ยวกับอัลกอริธึมและเป็นการเริ่มต้นที่ดี อย่างที่คนอื่น ๆ ชี้ไว้http://statweb.stanford.edu/~tibs/ElemStatLearn/เป็นหนังสือที่ดีและมีวิดีโอที่จะนำไปด้วย

นี่คือความเห็นส่วนตัวของฉันอัลกอริทึมที่คุณไม่ควรพลาดคือ: (รู้รายละเอียดเหล่านี้):

1) การถดถอยเชิงเส้นหลาย ๆ เส้น 2) การถดถอยโลจิสติก 3) เทคนิคทั่วไปของการลดขนาดเช่น PCA 4) การจัดกลุ่ม K- หมายถึง 5) การถดถอยเชิงเส้นไม่ใช่ 6) วิธีการหาค่าเหมาะที่สุด: วิธีการค้นหาแบบไล่ระดับ ในคุณสมบัติวิศวกรรม 8) วิธีการพยากรณ์อนุกรมเวลาอย่างง่าย

อัลกอริทึมลึกลับเพิ่มเติม:

1) ป่าสุ่ม 2) SVM 3) การเรียนรู้ลึก 4) วิธีอื่น ๆ ของการลดขนาดเช่น LDA 5) วิธีอื่น ๆ ที่ใช้เคอร์เนล 6) อัลกอริทึมทางพันธุกรรม 7) XgBoost 8) การถดถอยแบบไดนามิก 9) GARCH / ARCH 10) การสร้างแบบจำลองสมการโครงสร้าง 11) วิธี Box Jenkins ในการพยากรณ์อนุกรมเวลา 12) ทฤษฎีสารสนเทศ: การได้รับสารสนเทศการได้รับร่วมกันเป็นต้น


0

ฉันเคยอยู่ในสถานการณ์ที่คล้ายคลึงกัน ฉันเริ่มด้วยอัลกอริธึมทุกครั้งที่นี่ (และในรายละเอียดมาก)

ป้อนคำอธิบายรูปภาพที่นี่

อย่างไรก็ตามในไม่ช้าฉันก็พบว่าสถาบันการศึกษาในเครื่องจักร / การเรียนรู้เชิงลึกกำลังเคลื่อนที่อย่างรวดเร็วจริง ๆ และมักจะเกิดขึ้นกับอัลกอริทึมที่เร็วขึ้น / state-of-the-art . ดังนั้นจึงเป็นที่นิยมเสมอที่จะอัปเดตด้วยแนวโน้มล่าสุด ฉันขอแนะนำ (ตามปกติแล้วฉันจะทำเอง) เพื่อสมัครรับฟีดข่าวที่ดี (เช่น Medium) หรือวารสารการวิจัยที่ล้ำสมัยและน่าติดตาม อัลกอริทึมที่น่าทึ่งหลายครั้งมาจากงานวิจัยที่แก้ปัญหาเฉพาะ (อาจคล้ายกับของคุณ)

ประเด็นก็คือการเป็นนักวิทยาศาสตร์ข้อมูลที่ดี (หรือวิศวกร ML) คุณต้องมีทั้งความลึกและความกว้าง โดยส่วนตัวแล้วฉันพบว่ามันมีประโยชน์ที่จะทราบอัลกอริทึมมากมายบนพื้นผิวของพวกเขา (สิ่งที่พวกเขาทำเมื่อพวกเขาใช้ข้อดีและข้อเสีย) ฉันกลับไปที่พวกเขาเมื่อฉันรู้สึก (รู้สึกเท่านั้น ) พวกเขาอาจช่วยฉันแก้ปัญหาเฉพาะ ฉันอ่านรายละเอียดแล้วดูว่าเหมาะสมหรือไม่ พวกเขาอาจหรือพวกเขาอาจจะไม่ แต่การคิดเกี่ยวกับรายละเอียดเป็นสิ่งสำคัญเพื่อให้แน่ใจว่าคุณจะไม่พลาดแนวทางที่น่าทึ่งสำหรับปัญหาของคุณเนื่องจากขาดความเข้าใจในวิธีการดังกล่าว ตัวอย่างเช่นเมื่อฉันทำงานในสิ่งที่ต้องการการตรวจจับวัตถุ (ง่ายมากแม้ว่า) ฉันอ่านเกี่ยวกับ R-CNN, Fast-CNN, YOLO ฉันหันไปหาพวกเขาทันทีเพื่อดูว่าเหมาะสมหรือไม่ วันนั้นฉันรู้รายละเอียดเพิ่มเติม

ไม่ว่าฉันจะควรมุ่งเน้นที่การเรียนรู้ความซับซ้อนของอัลกอริธึมน้อยลงหรือฉันควรใช้วิธีการที่จะรู้ว่าพวกมันเป็นจำนวนเท่าไรและเมื่อใดและเท่าที่จำเป็น?

การเรียนรู้ความซับซ้อนนั้นน่าทึ่งมาก อย่างไรก็ตามโลกเคลื่อนไหวอย่างรวดเร็วจริง ๆ อาจมีอัลกอริธึมใหม่ที่เอาชนะคนที่คุณเรียนรู้อย่างละเอียด ถึงเวลาแล้วที่จะล้างการใช้งานและดูว่าสิ่งใหม่ที่คุณทำดีกว่านี้หรือไม่

เรียนรู้สิ่งต่าง ๆ เมื่อจำเป็น และเมื่อต้องการเรียนรู้พวกเขาในรายละเอียด คุณควรจะสามารถนำสิ่งต่าง ๆ มาใช้ถ้าคุณคิดว่าพวกเขาอาจจะทำงานได้ และความเข้าใจนี้มาจากความรู้

โชคดี.

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.