อัลกอริทึมการเรียนรู้ของเครื่องใดที่สามารถปรับขนาดได้โดยใช้ hadoop / map-ลด


9

อัลกอริทึมการเรียนรู้ของเครื่องที่ปรับขนาดได้ดูเหมือนจะเป็นที่นิยมในทุกวันนี้ ทุก บริษัท มีการจัดการอะไรสั้น ๆ ของข้อมูลขนาดใหญ่ มีหนังสือเรียนเล่มหนึ่งหรือไม่ที่พูดถึงสิ่งที่กลไกการเรียนรู้ของเครื่องสามารถปรับขนาดโดยใช้สถาปัตยกรรมแบบขนานเช่น Map-Reduce และอัลกอริทึมใดที่ไม่สามารถทำได้? หรือเอกสารที่เกี่ยวข้อง?

คำตอบ:



4

Vowpal Wabbit เป็นโปรแกรมการเรียนรู้ด้วยเครื่องจักรที่รวดเร็วมากซึ่งเน้นการเรียนรู้การไล่ลงทางลาดแบบออนไลน์สามารถใช้กับ Hadoop: http://arxiv.org/abs/1110.4198 ถึงแม้ว่าฉันไม่เคยใช้วิธีนี้เลย ถ้าฉันเข้าใจถูกต้องจริง ๆ แล้วมันใช้ Hadoop เพื่อความน่าเชื่อถือเท่านั้นและให้ข้อมูลกับกระบวนการ Vowpal Wabbit มันใช้บางอย่างเช่น AllReduce ของ MPI ในการสื่อสารส่วนใหญ่


4

เมื่อจิมมี่หลินและคริสไดเยอร์ชี้ให้เห็นในบทแรกของหนังสือเรื่องData-Intensive Text Mining กับ MapReduceในระดับข้อมูลขนาดใหญ่ประสิทธิภาพของอัลกอริธึมที่แตกต่างกันมาบรรจบกัน ซึ่งหมายความว่าเมื่อได้รับชุดข้อมูลที่มีขนาดใหญ่เพียงพออัลกอริทึมที่คุณต้องการใช้คือชุดข้อมูลที่มีราคาถูกกว่าในการคำนวณ มีเพียงข้อมูลขนาดเล็กเท่านั้นที่ความแตกต่างของประสิทธิภาพระหว่างอัลกอริทึมสำคัญ

ที่ถูกกล่าวว่าหนังสือของพวกเขา (เชื่อมโยงด้านบน) และการขุดชุดข้อมูลขนาดใหญ่โดย Anand Rajaraman, Jure Leskovec และ Jeffrey D. Ullman อาจเป็นหนังสือสองเล่มที่คุณต้องการดูเช่นกันโดยเฉพาะอย่างยิ่งพวกเขาเกี่ยวข้องโดยตรงกับ MapReduce เพื่อการขุดข้อมูล


1
".. ที่ขนาดใหญ่ประสิทธิภาพของอัลกอริทึมที่แตกต่างกันมาบรรจบกัน ... " ฉันไม่รู้เรื่องนี้ ขอบคุณสำหรับข้อมูลเชิงลึกที่เป็นประโยชน์นี้ นอกจากนี้ฉันยังสะดุดกับ "การขุดชุดข้อมูลขนาดใหญ่" และพบว่ามันมีประโยชน์มาก จะดูที่หนังสือเล่มอื่นด้วย
Nik

2

หากคุณมีการเข้าถึงคลัสเตอร์ Hadoop ฉันจะให้ Spark ดู https://spark.apache.org/


MLlib มีอัลกอริทึมการเรียนรู้ของเครื่องแบบกระจายสำหรับ Spark พร้อมตัวอย่างใน Scala, Java, Python และ R: spark.apache.org/docs/latest/ml-guide.html
Vadim Smolyakov

1

ไม่มีใครพูดถึงกระดาษต่อไปนี้ - http://papers.nips.cc/paper/3150-map-reduce-for-machine-learning-on-multicore.pdf (Andrew Ng เป็นหนึ่งในผู้แต่ง)

กระดาษนั้นมีไว้สำหรับเครื่องที่มีหลายคอร์ แต่มันเป็นเรื่องเกี่ยวกับการรีไซเคิลปัญหาการเรียนรู้ของเครื่องเพื่อให้พอดีกับรูปแบบการลดแผนที่และสามารถใช้สำหรับกลุ่มคอมพิวเตอร์ (สำหรับการดูสาเหตุที่ไม่ใช่ความคิดที่ดีโดยทั่วไปคุณอาจต้องการอ่านเอกสารนี้ - http://arxiv.org/pdf/1006.4990v1.pdfมีภาพรวมที่ดี)


นอกจากนี้ควาญยังเป็นความพยายามที่จะนำแอนดรูว์อึ้งกระดาษที่ฉันพูดถึง
user48654

0

Scaling Up Machine Learning : แนวทางการเรียนรู้แบบขนานและแบบกระจายเป็นหนังสือที่ยอดเยี่ยมโดย John Langford และ อัล ที่กล่าวถึงการใช้งานแบบขนานของอัลกอริทึมภายใต้การดูแลและไม่ได้รับการดูแล มันพูดคุยเกี่ยวกับ MapReduce, ต้นไม้การตัดสินใจตระการตา, K-mean แบบขนาน, SVM แบบขนาน, การเผยแผ่ความเชื่อและ AD-LDA

https://www.amazon.com/Scaling-Machine-Learning-Distributed-Approaches/dp/0521192242

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.