การมีส่วนร่วมในโครงการโอเพ่นซอร์สนั้นเป็นวิธีที่ดีในการฝึกหัดสำหรับมือใหม่และลองใช้พื้นที่ใหม่สำหรับนักวิทยาศาสตร์และนักวิเคราะห์ข้อมูลที่มีประสบการณ์
คุณมีส่วนร่วมในโครงการใด โปรดระบุลิงก์แนะนำ + บางส่วนใน Github
การมีส่วนร่วมในโครงการโอเพ่นซอร์สนั้นเป็นวิธีที่ดีในการฝึกหัดสำหรับมือใหม่และลองใช้พื้นที่ใหม่สำหรับนักวิทยาศาสตร์และนักวิเคราะห์ข้อมูลที่มีประสบการณ์
คุณมีส่วนร่วมในโครงการใด โปรดระบุลิงก์แนะนำ + บางส่วนใน Github
คำตอบ:
โครงการจูเลียเป็นหนึ่งซึ่งผมแข็งขันนำไปสู่การรวมทั้งการประมวลผลขั้นสูงและห้องสมุด XGBoost ดังนั้นฉันสามารถรับรองสำหรับการบำรุงรักษาและคุณภาพของชุมชน
โครงการวิทยาศาสตร์ข้อมูลโอเพ่นซอร์สที่ดีจริงๆซึ่งแม้แต่ผู้เริ่มต้นสามารถมีส่วนร่วมก็คือ:
นี่คือการอภิปราย Quoraในโครงการดังกล่าวและบางส่วนที่ไม่ได้กล่าวถึงในคำตอบนี้
นี่คือการสนทนาที่ดีอีกอย่างเกี่ยวกับโอเพ่นซอร์ส Data Data และ ML ใน Python
มีให้เลือกมากมาย ฉันไม่ทราบว่าฉันได้รับอนุญาตให้ทำสิ่งนี้หรือไม่ (โปรดแจ้งให้เราทราบหากมันผิด) แต่ฉันพัฒนาขึ้นมาหนึ่งปีแล้วและมันก็มีอยู่มากกว่า 2 ปีแล้วบนศูนย์กลาง git โครงการที่เรียกว่า rapaio อยู่บนศูนย์กลางการคอมไพล์ที่นี่และเมื่อเร็ว ๆ นี้ผมเริ่มที่จะเขียนคู่มือสำหรับมัน (บางส่วนของเพื่อนของฉันถามฉันเกี่ยวกับที่) คู่มือสามารถพบได้ที่นี่
เหมาะกับความต้องการของคุณหากคุณยินดีที่จะพัฒนาใน Java 8 หากคุณต้องการทำเครื่องมือด้วยตัวเองและหากคุณต้องการทดลองใช้ มีเพียงสองหลักการเท่านั้นที่ฉันบังคับใช้ คนแรกคือการเขียนบางสิ่งบางอย่างก็ต่อเมื่อคุณต้องการมัน นั่นเป็นเพราะฉันเชื่อมั่นอย่างยิ่งว่าเมื่อคุณต้องการเครื่องมือที่คุณรู้ว่าสิ่งที่คุณต้องการจากมันในแง่ของการส่งออกประสิทธิภาพการทำงานข้อมูล หลักการที่สองคือคุณขึ้นอยู่เฉพาะใน JDK ถ้าคุณต้องการสิ่งที่คุณจะเขียนมัน ฉันยอมรับว่าฉันแก่แล้ว แต่คุณสามารถปรับแต่งฟีเจอร์ใด ๆ เพื่อจุดประสงค์ของคุณในลักษณะนี้
หากฉันไม่ได้รับอนุญาตให้ทำเช่นนี้ในฐานะแอสเวิร์กโปรดแจ้งให้เราทราบอีกครั้ง แม้ว่ามันจะเป็นความคิดริเริ่มโอเพนซอร์สการมอบบางสิ่งบางอย่างให้กับคนที่ไม่มีประเภทของผลกำไรของโครงการฉันไม่เห็นเหตุผลว่าทำไมฉันไม่สามารถทำได้
ELKI (บนGitHub ) เป็นโครงการขุดข้อมูลและวิทยาศาสตร์ข้อมูล มันมีเอกลักษณ์เฉพาะด้วยสถาปัตยกรรมแบบแยกส่วน: คุณสามารถรวมอัลกอริธึม, ฟังก์ชั่นระยะทางและดัชนีสำหรับการเร่งความเร็วด้วยข้อ จำกัด น้อยมาก (แน่นอนอัลกอริทึมที่ไม่ได้ใช้ระยะทางไม่สามารถใช้ร่วมกับระยะทาง) ไม่ใช่รหัสที่ง่ายที่สุดเนื่องจากประสิทธิภาพ สำหรับการขุดข้อมูลคุณจำเป็นต้องระมัดระวังเกี่ยวกับหน่วยความจำ - การใช้ArrayList<Integer>
เป็นสิ่งที่ไม่ต้องทำหากคุณต้องการความยืดหยุ่น
เนื่องจากสถาปัตยกรรมแบบโมดูลจึงง่ายต่อการสนับสนุนโมดูลขนาดเล็กเช่นฟังก์ชันระยะทางเดียวหรืออัลกอริทึม
เราเก็บรายการของ แนวคิดการทำเหมืองข้อมูลโดยจัดกลุ่มตามความยากลำบาก โครงการส่วนใหญ่เป็นการใช้งานชุดตัวเลือกบางตัว ELKI มีจุดประสงค์เพื่อให้การศึกษาเปรียบเทียบอัลกอริทึมดังนั้นเราจึงพยายามอนุญาตการรวมกันใด ๆ และครอบคลุมถึงอัลกอริธึมที่หลากหลาย ตัวอย่างเช่นด้วย k-mean เราไม่เพียง แต่มีอัลกอริทึม Lloyds เท่านั้น แต่ยังมีอีก 10 รูปแบบของธีม k-mean ทั่วไป มีบทความมากกว่า 220 รายการ (อย่างน้อยบางส่วน) นำไปใช้ใหม่ใน ELKI
การใช้ทุกอย่างในเครื่องมือเดียวกันทำให้เราได้ผลลัพธ์ที่เปรียบเทียบได้มากขึ้น หากคุณใช้ R เพื่อการเปรียบเทียบคุณมักจะเปรียบเทียบแอปเปิ้ลและส้ม k-mean ใน R นั้นแท้จริงแล้วเป็นโปรแกรม Fortran รุ่นเก่าและรวดเร็วมาก k-mean ใน R แต่ในแพ็คเกจ "flexclust" ช้ากว่า 100 เท่าเพราะเขียนด้วยรหัส R จริง ดังนั้นอย่าเชื่อเกณฑ์มาตรฐานใน R ... ด้วยโมดูล R มักจะไม่เข้ากันดังนั้นคุณมักจะไม่สามารถใช้ระยะทาง A จากโมดูล A กับอัลกอริทึม B จากโมดูล B ใน ELKI เราพยายามแบ่งปันรหัสมากที่สุด ความเป็นไปได้ในการติดตั้งใช้งานเพื่อลดสิ่งประดิษฐ์ (แน่นอนว่ามันจะไม่มีทางเป็นไปได้ที่จะมีเกณฑ์มาตรฐานที่เป็นธรรม 100% - มีพื้นที่สำหรับเพิ่มประสิทธิภาพเสมอ) แต่ยังอนุญาตให้รวมโมดูลได้อย่างง่ายดาย
คุณสามารถเริ่มต้นด้วยสิ่งเล็ก ๆ เช่นตัวแปร Hartigan & Wong และจากนั้นดำเนินการต่อในรูปแบบ k หมายถึง (ซึ่งมีความหมายสำหรับข้อมูลแบบเบาบางซึ่งอาจจำเป็นต้องมีการเพิ่มประสิทธิภาพที่แตกต่างกัน) และเพิ่มการสนับสนุนที่ดีกว่า หรือเพิ่มฟังก์ชั่นการจัดทำดัชนี
ฉันชอบที่จะเห็น UI ที่ดีกว่าสำหรับ ELKIแต่นั่นก็เป็นความพยายามครั้งสำคัญ