ทำไม บริษัท อินเทอร์เน็ตถึงชอบ Java / Python สำหรับนักวิทยาศาสตร์ข้อมูล?


53

ฉันเห็นรายละเอียดงานหลายครั้งสำหรับนักวิทยาศาสตร์ข้อมูลที่ขอประสบการณ์ Python / Java และไม่สนใจอาร์ด้านล่างเป็นอีเมลส่วนตัวที่ฉันได้รับจากหัวหน้านักวิทยาศาสตร์ข้อมูลของ บริษัท ที่ฉันสมัครผ่าน LinkedIn

X ขอขอบคุณที่เชื่อมต่อและแสดงความสนใจ คุณมีทักษะการวิเคราะห์ที่ดี อย่างไรก็ตามนักวิทยาศาสตร์ด้านข้อมูลของเราทุกคนต้องมีทักษะการเขียนโปรแกรมที่ดีใน Java / Python เนื่องจากเราเป็นองค์กรอินเทอร์เน็ต / มือถือและทุกอย่างที่เราทำออนไลน์อยู่

ในขณะที่ฉันเคารพการตัดสินใจของหัวหน้านักวิทยาศาสตร์ด้านข้อมูล แต่ฉันไม่สามารถเข้าใจได้อย่างชัดเจนว่าอะไรคืองานที่ Python สามารถทำสิ่งที่ R ไม่สามารถทำได้ ใครบ้างที่สามารถใส่ใจในรายละเอียด? จริง ๆ แล้วฉันกระตือรือร้นที่จะเรียนรู้ Python / Java หากฉันได้รับรายละเอียดเพิ่มเติม

แก้ไข: ฉันพบการสนทนาที่น่าสนใจเกี่ยวกับ Quora ทำไม Python เป็นภาษาที่ถูกเลือกสำหรับนักวิทยาศาสตร์ด้านข้อมูล?

แก้ไข 2: บล็อกจาก Udacity เกี่ยวกับภาษาและไลบรารีสำหรับการเรียนรู้ของเครื่อง


8
Python เป็นระบบประนีประนอมที่ดี: มีห้องสมุด (ที่ไม่ได้มาตรฐาน) จำนวนมากสำหรับดาต้าดาต้า (pandas, scikit, ... ) และกระบวนการทางอุตสาหกรรมจำนวนมากได้ถูกเข้ารหัสไว้ในไพ ธ อนแล้ว
มนู H

4
"นักวิทยาศาสตร์ด้านข้อมูลของเราต้องมีทักษะการเขียนโปรแกรมที่ดีใน Java / Python เนื่องจากเราเป็นองค์กรอินเทอร์เน็ต / มือถือและทุกอย่างที่เราทำคือออนไลน์" นั้นเป็นงานที่ไม่ได้เกิดขึ้นจริง - ข้อสรุปไม่ได้เป็นไปตามข้อสรุป ฉันสงสัยว่า CDS กำลังพยายามกำจัดคุณ
Spacedman

5
@ManuH หาก "ไม่ใช่มาตรฐาน" คุณหมายถึง "ไม่อยู่ในไลบรารีมาตรฐาน" คุณถูกต้อง แต่เครื่องมือเหล่านั้นมีการใช้งานที่กว้างขวางและพวกเขาก็ใช้ภาษาเป็นหลัก ขณะนี้มีจำนวน numpy มากกว่า 100k คำถามบน pandas มี 74k ฉันคิดว่าคุณสามารถสร้างกรณีที่เป็นมาตรฐานอุตสาหกรรมได้ (อย่างน้อยในด้านการพัฒนาซอฟต์แวร์ฉันแทบจะเรียกตัวเองว่า "นักวิทยาศาสตร์ด้านข้อมูลไม่ได้")
jpmc26

2
"นักวิทยาศาสตร์ข้อมูล" ไม่ได้เป็นคำที่กำหนดไว้อย่างชัดเจน นักวิทยาศาสตร์ด้านข้อมูลนั้นเป็นคนที่สามารถทำสิ่งที่มีประโยชน์กับข้อมูลได้ พวกเขาไม่จำเป็นต้องใช้การเรียนรู้ของเครื่องหรือแพ็คเกจทางสถิติ บางคนอาจกำลังใช้ Java / Scala / Spark / อะไรก็ตามที่จัดการข้อมูลจำนวนมากและรับข้อมูลเชิงลึกที่เป็นประโยชน์โดยไม่ต้องเรียนรู้ด้วยเครื่อง
Akavall

2
@ jpmc26 ใช่ฉันหมายถึงอย่างนั้น ตอนนี้ฉันรู้แล้วว่าแม้กระทั่งห้องสมุดที่ยังไม่ได้มาตรฐานอุตสาหกรรมก็สามารถกล่าวถึงได้ (ข้อโต้แย้งอีกข้อหนึ่งสำหรับไพ ธ อน)
Manu H

คำตอบ:


67

ดังนั้นคุณสามารถทำงานร่วมกับส่วนที่เหลือของฐานรหัส ดูเหมือนว่า บริษัท ของคุณใช้ Java และ Python ผสมกัน คุณจะทำอย่างไรถ้ามุมเล็ก ๆ ของเว็บไซต์ต้องการการเรียนรู้ของเครื่อง ส่งผ่านข้อมูลโดยใช้ฐานข้อมูลหรือแคชให้ไปที่ R และอื่น ๆ ทำไมไม่ทำทุกอย่างในภาษาเดียวกัน? มันเร็วกว่าสะอาดกว่าและบำรุงรักษาง่ายกว่า

รู้จัก บริษัท ออนไลน์ใดบ้างที่ทำงานบน R แต่เพียงผู้เดียว ฉันก็ไม่ ...

ทุกอย่างที่กล่าวว่า Java เป็นภาษาสุดท้ายที่ฉันต้องการทำวิทยาศาสตร์ข้อมูล


1
ฉันกำลังจะบอกว่าสถาปัตยกรรมที่มุ่งเน้นบริการยังช่วยเทคโนโลยีสะพาน PMML เป็นคำสั่งเล็กน้อย ฉันไม่ได้ใช้มัน แต่คุณเป็นร้านค้า Java, ภาษาแม่ขององค์กรเพื่อให้คุณไม่เคยรู้ ...
เอ็ม

3
@ ผู้ที่ชื่นชอบอย่าลืมว่าคุณสามารถรัน R ภายใต้ python โดยใช้ RPy2 (ตัวอย่าง) ดังนั้นคุณอาจจะจบลง (เหมือนที่เคยทำในงานก่อนหน้านี้) ที่รันโมเดลที่เขียนด้วย R ผ่าน python เพื่อให้สามารถนำเสนอผ่านเว็บอินเตอร์เฟส ผ่าน django
MD-Tech

2
เราสร้างแบบจำลองในไฟล์. r แบบข้อความล้วนที่โหลดลงในล่าม R เพื่อทดสอบ (และเพื่อความสะดวกในการสร้าง) ขณะที่สิ่งนี้กำลังถูกสร้างและทดสอบเราได้สร้างโครงการ django หลามด้วยส่วนที่อ้างอิง RPy2 และสร้างวัตถุ RPy2 จากนั้นวัตถุเหล่านี้จะถูกใช้เพื่อโหลดไฟล์ R ในลักษณะเดียวกับที่คุณโหลดในล่ามเพื่อให้เราสามารถเข้าถึงฟังก์ชั่นที่ห่อหุ้มโมเดล จากนั้นเราสามารถส่งผ่านข้อมูลจากฐานข้อมูลไปยัง R ผ่าน python ชั้นหลามให้ส่วนหน้าเว็บกับ django และควบคุมฐานข้อมูลอื่น ๆ
MD-Tech

1
@ Enthusiast ผลลัพธ์ของโมเดลถูกส่งคืนโดย R ภายใน RPy2 และนำเสนอในส่วนหน้าในรูปแบบต่าง ๆ ซึ่งส่วนใหญ่เป็นกราฟ
MD-Tech

2
@ Enthusiast มันเป็นเครือข่าย Bayesian สำหรับการเงิน แต่ฉันไม่สามารถพูดได้มากกว่านั้น ตัวแบบถูกเขียนในรูปแบบอาร์ตรงข้อความธรรมดา ฉันแก้ไขมันเป็นกลุ่มเมื่อใดก็ตามที่ฉันต้องการและมันก็ "นำไปใช้งาน" โดยการโหลดรหัส R เป็นข้อความลงใน RPy2 โดยใช้แหล่งที่มา ("our_code.r") บนวัตถุ RPy2 มันถูกทำแบบนี้เพื่อให้เราสามารถแก้ไขโมเดลได้ นี่ไม่ใช่คำตอบสำหรับคำถามนี้ คำตอบสำหรับคนที่ยังไม่ได้ถาม;)
MD-Tech

24

อาจมีหลายเหตุผลเช่น:

  1. ความยืดหยุ่นของพนักงาน: โปรแกรมเมอร์ Java / Python หนึ่งคนสามารถย้ายไปทำงานอื่นหรือโครงการอื่น ๆ ได้อย่างง่ายดาย

  2. ความพร้อมใช้งานของผู้สมัคร: มีโปรแกรมเมอร์ Java / Python อยู่มากมาย คุณไม่ต้องการแนะนำภาษาการเขียนโปรแกรมใหม่เพื่อค้นหาภายหลังว่าไม่มีพนักงานที่มีคุณสมบัติหรือพวกเขามีราคาแพงเกินไป

  3. การรวมและ ETL: บางครั้งการรับข้อมูลด้วยคุณภาพที่เหมาะสมเป็นส่วนที่ยากที่สุดของโครงการ ดังนั้นจึงเป็นเรื่องปกติที่จะใช้ภาษาเดียวกับระบบอื่น ๆ

  4. คำจำกัดความรูปแบบธุรกิจ: กฎธุรกิจและรูปแบบธุรกิจส่วนใหญ่เขียนไว้แล้วในภาษานี้

  5. เพียงแค่ทำให้สิ่งต่าง ๆ เป็นเรื่องง่าย มันยากพอที่จะทันสมัยกับเทคโนโลยี ฐานภาษาที่หลากหลายอาจไม่เป็นระเบียบ R สำหรับเรื่องนี้ Ruby สำหรับสิ่งนั้น Scala, Clojure, F #, Swift, Dart ... พวกเขาอาจต้องการเซิร์ฟเวอร์ที่แตกต่างกันเส้นทางที่แตกต่างกันนรกในการจัดการ ทุกคนมี IDEs ของตัวเองพร้อมเครื่องมือและปลั๊กอิน (ไม่ฟรีเสมอ) ดูบางประเด็นของลุงบ็อบเกี่ยวกับการเลือกภาษาและเทคโนโลยีใหม่

ดังนั้นแม้ว่าคุณจะมีความได้เปรียบในการผลิต 5% - 15% โดยใช้ R สำหรับงานเฉพาะพวกเขาอาจต้องการเครื่องมือที่ทำงานได้แม้ว่าจะไม่ใช่วิธีที่มีประสิทธิภาพที่สุดก็ตาม


แม้ว่าจริงไม่มีคำตอบข้างต้นจริงตอบคำถาม การรับข้อมูลลด 99% ของจำนวนครั้งในการสืบค้นฐานข้อมูลหรืออ่าน.csvไฟล์ซึ่งจุดประสงค์ของ R เป็นเครื่องมือที่เหมาะสมที่สุดในตลาด ความพร้อมใช้งานของผู้สมัคร: มีโปรแกรมเมอร์ Java มากกว่าโปรแกรมเมอร์ R ไม่ได้หมายความว่าคุณต้องยกเลิกตัวเลือก R หากคุณมี ไม่สำคัญว่านักวิทยาศาสตร์จะทำแบบฝึกหัดของพวกเขาตราบเท่าที่พวกเขาปรับใช้โค้ดที่อ่านได้ซึ่งสามารถเรียกใช้โดยเซิร์ฟเวอร์บางตัว (หรือสิ่งอื่นใดที่ บริษัท กำลังทำงานอยู่)
เริ่ม

แน่นอนคุณไม่ควรละทิ้งผู้สมัคร บุคคลนั้นมีความสำคัญมากกว่าเครื่องมือ ทีมของพวกเขาอาจเรียนรู้ R และผู้สมัครสามารถเรียนรู้ Java / Python แต่มันจะใช้เวลาซึ่งหมายถึงเงิน
borjab

ประเด็นที่ฉันไม่เห็นด้วยอย่างแน่นอนก็คือมันไม่ได้สนใจภาษา เมื่อสมาชิกคนเดียวในทีมที่รู้ว่า R ไม่มีวันหยุดและพวกเขาจำเป็นต้องทำการเปลี่ยนแปลงเจ้านายจะไม่มีความสุข หรือเพียงแค่ถามทีมว่า "เยี่ยมมากเราต้องเรียนรู้ภาษาใหม่เพราะภาษาใหม่ทำสิ่งนี้ด้วยวิธี" อาจเป็นการดูแลเซิร์ฟเวอร์เป็นแผนกอื่นและเซิร์ฟเวอร์ประเภทใหม่ต้องการการวิเคราะห์ใหม่ขั้นตอนและอื่น ๆ บางทีคุณอาจต้องการไฟเขียวจากความปลอดภัยด้านไอทีเพื่อใช้ภาษาใหม่
borjab

@GennaroTedesco โค้ดที่เขียนโดยผู้สมัครจะต้องได้รับการดูแลรักษาโดยโปรแกรมเมอร์คนอื่น ๆในขณะที่ทำงานร่วมกันและในอนาคตเมื่อผู้เขียนต้นฉบับจะย้ายไป ยังไม่เพียงพอที่จะมีผู้สมัครที่รู้จักเทคโนโลยีดี แต่ก็ยังเป็นเรื่องสำคัญที่จะต้องพิจารณาว่าการจ้างผู้สมัครคนอื่นที่รู้เทคโนโลยีดีนั้นง่ายเพียงใดเมื่อคุณต้องการ แน่นอนว่าสามารถนำเสนอเทคโนโลยีเฉพาะกลุ่มชิ้นใหม่ได้หากมีเหตุผลที่ดี แต่ต้องมีเหตุผลที่ดีที่จะมีค่าเกินความเสี่ยงทางธุรกิจดังกล่าว
Peteris

คุณอาจมีการปรับปรุงประสิทธิภาพการทำงานของ $ x โดยใช้ R แต่จะไม่มีประโยชน์หากพวกเขาต้องใช้ความพยายาม$ 2x ในการเปลี่ยนแปลงเวิร์กโฟลว์ของพวกเขา ทำไมพวกเขาถึงทำอย่างนั้นโดยเฉพาะถ้าพวกเขาสามารถจ้างคนอื่นซึ่งอาจไม่คุ้มกับราคา $ 2x
user1908704

14

โดยทั่วไปแล้วสำหรับวิทยาศาสตร์ข้อมูลและการฝึกหัดทางสถิติล้วนเสนอdata.tableเครื่องมือและวิธีการที่ดีที่สุดและเร็วที่สุด (โดยเฉพาะถ้าใช้แพคเกจ) ซึ่งมิฉะนั้นจะหนักกว่าที่จะนำไปใช้ใน Python (ฉันถือว่า Python ) ในความเป็นจริงแล้วนักวิทยาศาสตร์ด้านข้อมูลส่วนใหญ่ใช้ R เพื่อทำแบบจำลองและการคำนวณหรือเพื่อดูว่าข้อมูลทำงานอย่างไร

เมื่อการฝึกเสร็จสมบูรณ์ก็เป็นเวลาที่จะให้บริการแก่คนที่เหลือที่ต้องใช้ (เช่นการปรับใช้) เพื่อจุดประสงค์นี้มันมักจะต้องการส่งรหัสใน Python ด้วยเหตุผลสองประการ:

  1. สถาปัตยกรรมส่วนใหญ่เขียนด้วยภาษา Python หรือเป็นมิตรกับ Python ดังนั้นจะเป็นการง่ายกว่าที่จะใช้ตัวแบบที่เขียนด้วยภาษานั้น
  2. ไวยากรณ์และไวยากรณ์อาร์มีความซับซ้อนมาก ฉันเองชอบอาร์มากกว่าอย่างอื่น แต่ต้องยอมรับว่าไวยากรณ์ไม่ตรงไปตรงมาและมีช่วงการเรียนรู้ที่เลือกมาก

ข้างต้นกล่าวว่ายังคงเป็นความจริงที่ว่าเราสามารถแปลรหัส R เป็นภาษาอื่น ๆ ได้อย่างง่ายดายมีวิธีการไลบรารีและแพ็คเกจที่พร้อมใช้งาน (ใน Python ส่วนใหญ่เป็นดังนั้นจึงไม่มีปัญหาเลย) โครงสร้างพื้นฐานและฐานข้อมูลจำนวนมากรองรับโค้ด R พื้นฐานดังนั้นความสะดวกในการพกพาจึงไม่ใช่ปัญหาโดยเฉพาะอย่างยิ่งหากมีเพียงแค่ต้องส่งผลลัพธ์ของการคำนวณ (เพื่อที่จะขยายออกไปจะไม่มีใครเห็นโค้ดอ้างอิงจริง ๆ )

Java นั้นแทบจะไม่ใช้กับวิทยาศาสตร์ข้อมูลล้วนๆ (แม้ว่า Stanford University จะมีชุดของการเรียนรู้เครื่อง NLP ไลบรารี่ที่เขียนด้วยภาษาจาวาเท่าที่ผมจำได้ - แต่โปรดตรวจสอบ) เหตุผลเดียวที่ทำให้ต้องมีก็คือส่วนที่เหลือของ บริษัท ใช้เพื่อขยายขอบเขตขนาดใหญ่และพวกเขาไม่ต้องการแทนที่ด้วยสิ่งใหม่


ขอบคุณสำหรับการแบ่งปันมุมมองและประสบการณ์ของคุณ !! สิ่งนี้มีประโยชน์ จากย่อหน้าที่สองของคุณฉันคิดว่าคุณกำลังพูดถึง scikit เรียนรู้? หรือคุณหมายถึง RPy? สนใจที่จะทำอย่างละเอียด?
คนที่กระตือรือร้น

1
ฉันแค่หมายถึงว่าสิ่งที่คุณทำใน R มีโอกาสมากที่สุดแพ็คเกจ Python ที่คล้ายกันที่ทำงานเดียวกัน Pandas ครอบคลุมส่วนใหญ่ของสิ่งที่data.tableเสนอ; scikit เรียนรู้ตามที่คุณกล่าวถึงเป็นอีกตัวอย่าง แต่มีอีกมากมายตามกรณีที่อยู่ในมือ
เริ่ม

1
สิ่งที่ฉันทำ ทำการวิจัยใน R เมื่อเสร็จแล้วให้แปลเป็นไพ ธ อนเพื่อรวมเข้ากับ codebase แต่ @Enthusiast ไม่ว่าคุณจะทำแบบเดียวกันใน บริษัท นั้นขึ้นอยู่กับวัฒนธรรมของมันหรือไม่ คนส่วนใหญ่ใช้ภาษาโปรแกรมที่เจ้านายใช้ และ Python ก็ไม่ยากที่จะเรียนรู้
jf328

1
@GennaroTedesco: "ฉันแค่หมายถึงว่าสิ่งที่คุณทำใน R มีโอกาสมากที่สุดที่คล้ายกับแพ็คเกจ Python ที่ทำงานเหมือนกัน" จริงๆแล้วฉันไม่เห็นด้วยอย่างยิ่งกับข้อความนี้ ข้อได้เปรียบที่ใหญ่ที่สุดของ R คือ 90% ของนักสถิติเผยแพร่ผลงานล่าสุดและ "ยิ่งใหญ่" ใน R แทนที่จะเป็น Python หากวิธีการเหล่านี้จับพวกเขาในที่สุดก็อาจทำให้วิธีการของหลาม แต่นั่นก็เป็นข้อดีสำหรับ Python เช่นกัน มีแพ็กเกจสถิติ R มากมายที่เป็นเพียงขยะในขณะที่ฉันคิดว่าแพคเกจสถิติ Python มีแนวโน้มที่จะเป็นวิธีการทดลองและจริง
หน้าผา AB

"ไวยากรณ์และไวยากรณ์อาร์ซับซ้อนมากฉันเองชอบอาร์มากกว่าอย่างอื่น แต่ต้องยอมรับว่าไวยากรณ์นั้นไม่ตรงไปตรงมาและมีช่วงการเรียนรู้ที่เลือกมาก" ทั้งสองอย่างนี้ดูเหมือนจะเป็นความคิดเห็น แต่คนหนึ่งแต่งตัวเป็นคำแถลงที่มีวัตถุประสงค์และอีกฝ่ายต่อต้านมัน ฉันงงงัน ฉันก็รู้สึกว่าไวยากรณ์และสำนวนของไพ ธ อนนั้นซับซ้อนกว่า (เน้น OOP สำหรับข้อใดข้อหนึ่ง) ดังนั้นฉันจึงสับสนเป็นสองเท่าโดยคำตอบนี้
ดาวรุ่ง

7

ฉันเห็นหลาย บริษัท ที่ใช้ชื่อ Data Scientist สำหรับบทบาทประเภท "Data Engineer" โดยเฉพาะอย่างยิ่งในพื้นที่ข้อมูลขนาดใหญ่

หาก บริษัท กำลังใช้ Hadoop หรือกรอบงานแบบกระจายเช่น Spark เพื่อทำการวิเคราะห์ใน Java หรือ Python (หรืออาจเป็น Scala) จะเป็นภาษาที่เหมาะสมที่สุด


ในกรณีนี้ฉันรู้ว่าบทบาทนั้นมีไว้สำหรับการสร้างแบบจำลองตามที่ขอทักษะการเรียนรู้ของเครื่องและรายการเทคนิคที่ระบุ
ผู้ที่กระตือรือร้น

พวกเขายังคงสามารถทำสิ่งนั้นได้ในเทคโนโลยีเหล่านั้นแม้ว่าจะใช้ไลบรารี Java / Python อะไรบางอย่างที่เหมือนกับ H20 หรือ MLlib ก็เป็นสิ่งที่ควรจดจำ
greenpenguin

4

ชวา

ฉันต้องไม่เห็นด้วยกับโปสเตอร์อื่น ๆ ในคำถาม java มีฐานข้อมูล NoSQL บางอย่าง (เช่น Hadoop) ที่หนึ่งต้องเขียนงาน MapReduce ใน java ตอนนี้คุณสามารถใช้HIVEเพื่อให้ได้ผลลัพธ์เดียวกันมาก

หลาม

การอภิปรายของ Python / R ดำเนินต่อไป ทั้งสองเป็นภาษาที่ขยายได้ดังนั้นทั้งสองอาจมีความสามารถในการประมวลผลเหมือนกัน ฉันรู้แค่ R และความรู้ของหลามนั้นค่อนข้างตื้น การพูดในฐานะเจ้าของธุรกิจขนาดเล็กคุณไม่ต้องการมีเครื่องมือมากเกินไปในธุรกิจของคุณไม่เช่นนั้นจะขาดความเข้าใจโดยทั่วไปและมีปัญหาในการสนับสนุน ฉันคิดว่ามันจะลงลึกถึงความรู้ด้านเครื่องมือในทีม หากทีมมุ่งเน้นไปที่ไพ ธ อนการจ้างนักวิทยาศาสตร์ข้อมูลไพ ธ อนคนอื่นก็จะเข้าท่าเพราะพวกเขาสามารถมีส่วนร่วมกับฐานรหัสที่มีอยู่และรหัสการทดลองที่ผ่านมา


2

อย่างน้อยสำหรับทีมปัจจุบันของฉัน (นักวิทยาศาสตร์และวิศวกรข้อมูลประมาณ 80 คน) เราไม่มีความชอบเช่นนี้ ครึ่งหนึ่งของนักวิทยาศาสตร์ข้อมูลใช้ R และ Python อีกครึ่งใช้ หลายคนสามารถรหัสในทั้งสอง เราปรับใช้ Python และรหัส R ในการผลิต

ฉันไม่คิดว่านักวิทยาศาสตร์ข้อมูลของเราใช้ Java เลย หากพวกเขาต้องการจัดการกับข้อมูลขนาดใหญ่พวกเขาสามารถใช้ SparkSQL หรือ PySpark ทีมวิศวกรรมข้อมูลใช้การผสมผสานของ Java / Scala / Python / Go

หากคุณเป็นหนึ่งในไม่กี่คนที่มีข้อมูลใน บริษัท ขนาดเล็กฉันสามารถเข้าใจได้ว่าทำไมพวกเขาถึงต้องการทักษะภาษาเพื่อให้คุณสามารถทำทั้งศาสตร์ข้อมูลและวิศวกรรม แต่ฉันคิดว่า บริษัท ขนาดเล็กส่วนใหญ่จะไม่มีข้อมูลที่ใหญ่พอที่ Python หรือ R ไม่สามารถจัดการในการผลิตได้


คุณสามารถอธิบายรายละเอียดเกี่ยวกับประเภทธุรกิจขององค์กรของคุณได้หรือไม่? และมันอยู่ในบ้าน ML ที่ทำงานหรือสำหรับลูกค้าภายนอก?
คนที่กระตือรือร้น

1
@Enthusiast ธุรกิจค้าปลีก 100% สำหรับ ML ภายในองค์กร
piggybox

0

มุมมองของฉันในฐานะโปรแกรมเมอร์ทั่วไปที่มีประสบการณ์ R นิดหน่อย: R นั้นยอดเยี่ยมสำหรับวิทยาศาสตร์ข้อมูล แต่มันเหมาะสำหรับผู้ที่ต้องการตีความข้อมูลด้วยตนเอง หากคุณต้องการใช้ผลลัพธ์สำหรับสิ่งที่เป็นแบบอัตโนมัติคุณต้องติดต่อกับสิ่งอื่นและสิ่งอื่นนั้นยากที่จะทำในภาษาที่มีปัญหาเช่นอาร์คุณสามารถทำเว็บไซต์ใน R ได้หรือไม่? :) ในอีกทางหนึ่งไพ ธ อนได้จัดทำไลบรารี่สำหรับเก็บข้อมูลและเป็นภาษาสำหรับการเขียนโปรแกรมทั่วไปที่ไม่ได้เข้ามามีส่วนร่วมกับคุณ สำหรับจาวาก็ดีสำหรับโครงการการเขียนโปรแกรมขนาดใหญ่ที่มีโค้ดหลายร้อยถึงหลายล้านบรรทัด หากส่วนข้อมูลวิทยาศาสตร์จำเป็นต้องเชื่อมต่อกับสิ่งนั้นมันอาจสมเหตุสมผลที่จะทำทุกอย่างใน Java

เสียงหอนสุ่ม: ทำไมฉันต้องลงชื่อเข้าใช้แต่ละไซต์ StackExchange แยกกัน


4
รหัส R สามารถทำงานได้ง่ายโดยเครื่องมือเกือบทั้งหมดที่มีอยู่ในตลาด Java นั้นแทบจะไม่ใช้กับวิทยาศาสตร์ข้อมูล
เริ่ม

1
@GennaroTedesco JAVA มีประโยชน์สำหรับการเขียนโค้ดในเครื่องมือ bigdata มีประโยชน์ส่วนหนึ่งสำหรับการสืบค้นข้อมูล
คนที่กระตือรือร้น

-1

เครื่องมือในไพ ธ อนนั้นดีกว่าชุมชนอาร์เธอร์อาร์ค่อนข้างนิ่งในขณะที่ชุมชนไพ ธ อนนั้นกำลังพัฒนาอย่างรวดเร็วจริงๆ โดยเฉพาะในเครื่องมือสำหรับวิทยาศาสตร์ข้อมูล
Python ทำงานด้วยวิธีที่ง่ายขึ้นกับทุกสิ่งรอบตัว คุณสามารถขูดเว็บเชื่อมต่อกับฐานข้อมูลและอื่น ๆ ได้อย่างง่ายดาย นั่นทำให้การสร้างต้นแบบรวดเร็วมาก
และถ้าคุณมีต้นแบบการทำงานและใส่ใจที่จะทำให้เร็วขึ้นหรือรวมเข้ากับเวิร์กโฟลว์ของ บริษัท ก็มักจะนำมาใช้ใหม่ใน Java

R มีเครื่องมือที่เป็นระเบียบและการสร้างภาพข้อมูลไม่มากนัก แต่มันก็ไม่ได้ยอดเยี่ยมในการสร้างสิ่งใหม่ ๆ


4
นั่นเป็นสิ่งที่ผิดอย่างสิ้นเชิงในทุกวิถีทาง
เริ่ม
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.