เมื่อพิจารณาถึงเกณฑ์อื่นฉันคิดว่าในบางกรณีการใช้ Python อาจเหนือกว่า R สำหรับ Big Data มาก ฉันรู้ว่ามีการใช้ R อย่างกว้างขวางในสื่อการศึกษาวิทยาศาสตร์ข้อมูลและห้องสมุดการวิเคราะห์ข้อมูลที่ดีที่มีให้ แต่บางครั้งมันก็ขึ้นอยู่กับทีม
จากประสบการณ์ของฉันสำหรับผู้ที่คุ้นเคยกับการเขียนโปรแกรมการใช้ Python ให้ความยืดหยุ่นและเพิ่มประสิทธิภาพการทำงานมากกว่าเมื่อเปรียบเทียบกับภาษาอย่าง R ซึ่งไม่ได้ออกแบบมาอย่างดีและทรงพลังเมื่อเทียบกับ Python ในแง่ของภาษาการเขียนโปรแกรม เป็นหลักฐานในหลักสูตรการทำเหมืองข้อมูลในมหาวิทยาลัยของฉันโครงการสุดท้ายที่ดีที่สุดถูกเขียนใน Python แม้ว่าคนอื่น ๆ สามารถเข้าถึงไลบรารีการวิเคราะห์ข้อมูลที่หลากหลายของ R ได้ นั่นคือบางครั้งประสิทธิภาพโดยรวม (พิจารณาจากสื่อการเรียนรู้เอกสารประกอบ ฯลฯ ) สำหรับ Python อาจดีกว่า R แม้จะไม่มีไลบรารี่การวิเคราะห์ข้อมูลที่มีวัตถุประสงค์พิเศษสำหรับ Python นอกจากนี้ยังมีบทความดีๆที่อธิบายถึงการก้าวไปอย่างรวดเร็วของ Python ในศาสตร์ข้อมูล: Python แทนที่ Rและโครงสร้างข้อมูลทางวิทยาศาสตร์ที่หลากหลายใน Python ที่อาจเติมเต็มช่องว่างของไลบรารีที่มีอยู่สำหรับ R ในไม่ช้า
อีกเหตุผลที่สำคัญสำหรับการไม่ใช้ R คือเมื่อทำงานกับปัญหาบิ๊กดาต้าจริงในทางตรงกันข้ามกับปัญหาทางวิชาการเท่านั้นมีความจำเป็นมากสำหรับเครื่องมือและเทคนิคอื่น ๆ เช่นการแยกวิเคราะห์ข้อมูล ง่ายกว่ามากโดยใช้ภาษาโปรแกรมทั่วไป นี่อาจเป็นเหตุผลว่าทำไมภาษาเริ่มต้นที่ใช้ในหลักสูตร Hadoop หลายแห่ง (รวมถึงหลักสูตรออนไลน์ของ Udacity ) คือ Python
แก้ไข:
เมื่อเร็ว ๆ นี้ DARPA ยังลงทุน 3 ล้านเหรียญเพื่อช่วยสนับสนุนการประมวลผลข้อมูลของ Python และการสร้างภาพข้อมูลสำหรับงานข้อมูลขนาดใหญ่ซึ่งเป็นสัญญาณบ่งบอกถึงอนาคตของ Python ใน Big Data อย่างชัดเจน ( รายละเอียด )