ให้ฉันอธิบายก่อนว่าฉันกำลังเริ่มต้นการเดินทางสู่วิทยาศาสตร์ข้อมูลจากมุมมองผู้พัฒนาโปรแกรมและฐานข้อมูล ฉันไม่ได้เป็นผู้เชี่ยวชาญด้านวิทยาศาสตร์ข้อมูลเป็นเวลา 10 ปีหรือเป็นเทพเชิงสถิติ อย่างไรก็ตามฉันทำงานนักวิทยาศาสตร์ข้อมูลและชุดข้อมูลขนาดใหญ่สำหรับ บริษัท ที่ทำงานกับลูกค้าที่ค่อนข้างใหญ่ทั่วโลก
จากประสบการณ์ของฉันนักวิทยาศาสตร์ด้านข้อมูลใช้เครื่องมืออะไรก็ได้ที่พวกเขาต้องการเพื่อให้งานสำเร็จ Excel, R, SAS, Python และอีกมากมายเป็นเครื่องมือทั้งหมดในกล่องเครื่องมือสำหรับนักวิทยาศาสตร์ด้านข้อมูลที่ดี ที่ดีที่สุดสามารถใช้เครื่องมือที่หลากหลายในการวิเคราะห์และการบีบอัดข้อมูล
ดังนั้นหากคุณพบว่าคุณเปรียบเทียบ R กับ Python คุณอาจทำผิดทั้งหมดในโลกข้อมูลศาสตร์ นักวิทยาศาสตร์ข้อมูลที่ดีใช้ทั้งสองอย่างเมื่อมันใช้งานง่าย สิ่งนี้ใช้กับ Excel
ฉันคิดว่ามันค่อนข้างยากที่จะหาคนที่จะได้รับประสบการณ์ในเครื่องมือและภาษาที่แตกต่างกันมากมายในขณะที่ทุกอย่างยอดเยี่ยม ฉันคิดว่ามันคงเป็นเรื่องยากที่จะค้นหานักวิทยาศาสตร์ด้านข้อมูลโดยเฉพาะที่ไม่เพียง แต่เขียนโปรแกรมอัลกอริธึมที่ซับซ้อน แต่ยังรู้วิธีใช้พวกเขาจากจุดยืนทางสถิติด้วย
นักวิทยาศาสตร์ด้านข้อมูลส่วนใหญ่ที่ฉันเคยทำงานด้วยมามีประมาณ 2 รสชาติ ผู้ที่สามารถตั้งโปรแกรมและผู้ที่ไม่สามารถ ฉันไม่ค่อยได้ทำงานกับนักวิทยาศาสตร์ข้อมูลที่สามารถดึงข้อมูลใน Python จัดการกับบางอย่างเช่น Pandas ให้พอดีกับแบบจำลองกับข้อมูลใน R แล้วนำเสนอการจัดการในช่วงปลายสัปดาห์
ฉันหมายความว่าฉันรู้ว่าพวกเขามีอยู่ ฉันได้อ่านบล็อกข้อมูลวิทยาศาสตร์จำนวนมากจากพวกที่กำลังพัฒนาเว็บ scrappers ผลักมันเข้าไปใน Hadoop ดึงมันออกมาใน Python เขียนโปรแกรมสิ่งที่ซับซ้อนและใช้มันผ่าน R เพื่อบูต พวกเขามีอยู่ พวกเขาอยู่ที่นั่น ฉันไม่ได้วิ่งเข้าไปหามากเกินไปที่สามารถทำสิ่งนั้นได้ทั้งหมด อาจเป็นเพียงพื้นที่ของฉัน แต่
ดังนั้นนั่นหมายความว่ามีความเชี่ยวชาญเฉพาะในสิ่งหนึ่งที่ไม่ดีใช่หรือไม่ ไม่เพื่อนของฉันมีความเชี่ยวชาญในภาษาหลักเพียงหนึ่งเดียวและฆ่ามัน ฉันรู้ว่ามีคนเก็บข้อมูลมากมายที่รู้จัก R และฆ่ามัน ฉันรู้จักผู้คนมากมายที่ใช้ Excel เพื่อวิเคราะห์ข้อมูลเพราะนั่นเป็นสิ่งเดียวที่นักวิทยาศาสตร์ที่ไม่ใช่ข้อมูลส่วนใหญ่สามารถเปิดและใช้งานได้ (โดยเฉพาะใน บริษัท B2B) คำถามที่คุณต้องการคำตอบจริงๆคือถ้าสิ่งนี้คือสิ่งเดียวที่คุณต้องการสำหรับตำแหน่งนี้ และที่สำคัญที่สุดพวกเขาสามารถเรียนรู้สิ่งใหม่ได้หรือไม่?
PS
วิทยาศาสตร์ข้อมูลไม่ได้ จำกัด อยู่เพียงแค่ "ข้อมูลขนาดใหญ่" หรือ NoSQL