นักวิทยาศาสตร์ข้อมูลใช้ Excel หรือไม่


37

ฉันจะคิดว่าตัวเองเป็นนักวิทยาศาสตร์ข้อมูลมืออาชีพ เช่นเดียวกับคนส่วนใหญ่ (ฉันคิดว่า) ฉันทำแผนภูมิแรกของฉันและทำการรวมครั้งแรกของฉันในโรงเรียนมัธยมและวิทยาลัยโดยใช้ Excel ขณะที่ฉันเรียนวิทยาลัยจบการศึกษาและมีประสบการณ์การทำงานประมาณ 7 ปีฉันเลือกสิ่งที่ฉันคิดว่าเป็นเครื่องมือขั้นสูงเช่น SQL, R, Python, Hadoop, LaTeX เป็นต้น

เรากำลังสัมภาษณ์ตำแหน่งนักวิทยาศาสตร์ด้านข้อมูลและผู้สมัครคนหนึ่งประกาศตัวเองว่าเป็น "นักวิทยาศาสตร์ด้านข้อมูลอาวุโส" (คำศัพท์ที่ค่อนข้างยุ่งเหยิงในสมัยนี้) ที่มีประสบการณ์มากกว่า 15 ปี เมื่อถูกถามว่าชุดเครื่องมือที่เขาต้องการคืออะไรเขาตอบว่านั่นคือ Excel

ฉันใช้สิ่งนี้เป็นหลักฐานว่าเขาไม่ได้มีประสบการณ์มากเท่ากับประวัติย่อของเขาที่จะเรียกร้อง แต่ไม่แน่ใจ ท้ายที่สุดเพียงเพราะมันไม่ใช่เครื่องมือที่ฉันชอบไม่ได้หมายความว่าไม่ใช่คนอื่น นักวิทยาศาสตร์ข้อมูลที่มีประสบการณ์ใช้ Excel หรือไม่ คุณสามารถสมมติว่าขาดประสบการณ์จากคนที่ใช้ Excel เป็นหลักหรือไม่?


โฆษณางานด้านวิทยาศาสตร์ข้อมูลส่วนใหญ่จะขอทักษะที่เฉพาะเจาะจงเช่น R, Hadoop ไม่ว่าอะไรก็ตาม คุณละเลยที่จะพูดถึงสิ่งนี้ในโฆษณาของคุณหรือไม่ นอกเสียจากนักวิทยาศาสตร์ข้อมูลใหม่ของคุณจะทำงานเป็นฟองแล้วเขาหรือเธอจะต้องทำงานกับทีมและอาจต้องทำงานกับซอฟต์แวร์ทีมมาตรฐาน ...
Spacedman

1
ดีถ้าพวกเขาจะไม่ใช้\LaTeX{}แล้วฉันจะไม่จ้าง 'em แค่ล้อเล่น ...
aeroNotAuto

1
@ Spacerman: ฉันให้เรื่องราวเกี่ยวกับบริบทเล็ก ๆ น้อย ๆ แต่ฉันสนใจในมุมมองของผู้คนเกี่ยวกับ excel มากกว่าฉันกำลังจ้างเคล็ดลับ ทีมของเรามีอิสระที่จะใช้เครื่องมืออะไรก็ได้ที่เราชอบ
JHowIX

1
ใช่ดูที่นี่ สำหรับเรื่องตลกที่มีความบกพร่องทางดูที่นี่ด้วย
Dirk Eddelbuettel

1
ไม่ว่าจะระบุไว้กี่ปีก็ตามฉันคาดหวังว่ารายการ Pro / Con ของเครื่องมืออย่างน้อยสามรายการจากนักวิทยาศาสตร์ด้านข้อมูล พวกเขาจำเป็นต้องแสดงความสามารถในการตรวจสอบตัวเลือกน้ำหนักและการสื่อสารความละเอียด ในการให้สัมภาษณ์หรือโดยเฉพาะอย่างยิ่งฉันคาดหวังว่าจะเห็นการมีส่วนร่วมที่แท้จริงและความสามารถในการขยายผ่านคำถามสัมภาษณ์ที่อาจเกิดขึ้น แต่ขณะนี้ยังขาดอยู่
เดฟ

คำตอบ:


28

คนที่ไม่ใช่ด้านเทคนิคส่วนใหญ่มักใช้ Excel แทนฐานข้อมูล ฉันคิดว่ามันผิด แต่ก็ทนได้ อย่างไรก็ตามผู้ที่มีประสบการณ์ในการวิเคราะห์ข้อมูลไม่สามารถใช้ Excel เป็นเครื่องมือหลักของเขาได้ (ยกเว้นงานที่ชัดเจนในการดูข้อมูลเป็นครั้งแรก) นั่นเป็นเพราะ Excel ไม่ได้มีไว้สำหรับการวิเคราะห์ชนิดนั้นและด้วยเหตุนี้มันจึงเป็นเรื่องง่ายที่จะทำผิดพลาดใน Excel (นั่นไม่ได้บอกว่ามันไม่ใช่เรื่องง่ายที่จะทำผิดประเภทอื่น ๆ เมื่อใช้เครื่องมืออื่น แต่ Excel ยิ่งทำให้สถานการณ์แย่ลงไปอีก)

เพื่อสรุปสิ่งที่ Excel ไม่มีและเป็นสิ่งจำเป็นสำหรับการวิเคราะห์:

  1. การทำสำเนาได้ การวิเคราะห์ข้อมูลจะต้องทำซ้ำ
  2. การควบคุมเวอร์ชัน ดีสำหรับการทำงานร่วมกันและยังดีสำหรับการทำซ้ำ แทนที่จะใช้ xls ให้ใช้ csv (ยังคงซับซ้อนมากและมีกรณีขอบจำนวนมาก แต่ตัวแยกวิเคราะห์ csv ค่อนข้างดีในปัจจุบัน)
  3. การทดสอบ หากคุณไม่มีการทดสอบรหัสของคุณจะใช้งานไม่ได้ หากรหัสของคุณเสียการวิเคราะห์ของคุณจะแย่กว่าไร้ประโยชน์
  4. การบำรุงรักษา
  5. ความถูกต้อง ความแม่นยำเชิงตัวเลขการแยกวิเคราะห์วันที่ที่แม่นยำและอื่น ๆ นั้นยังขาดใน Excel

แหล่งข้อมูลเพิ่มเติม:

ความเสี่ยงของกลุ่มผลประโยชน์สเปรดชีตยุโรป - เรื่องราวสยองขวัญ

คุณไม่ควรใช้สเปรดชีตสำหรับงานสำคัญ (ฉันหมายถึง)

Microsoft Excel อาจเป็นซอฟต์แวร์ที่อันตรายที่สุดในโลก

ทำลายข้อมูลของคุณโดยใช้ Excel ด้วยเคล็ดลับแปลก ๆ นี้!

สเปรดชีต Excel ยากที่จะทำให้ถูกต้อง


สำหรับการดูข้อมูลและวิเคราะห์อย่างรวดเร็วจะมีเครื่องมือที่ผู้เชี่ยวชาญยอมรับกันอย่างกว้างขวางว่าเทียบเท่า แต่ดีกว่า Excel หรือไม่ ฉันเป็นนักวิทยาศาสตร์ด้านข้อมูลมือใหม่และส่วนใหญ่ฉันใช้ (Postgre) SQL แต่สิ่งที่คล้ายกับ Excel สามารถทำงานได้เร็วขึ้นถ้าคุณแค่ลองทำสิ่งต่าง ๆ
sudo

1
นอกจากนี้ฉันต้องบ่นว่า CSV ไม่ใช่มาตรฐาน คุณต้องตรวจสอบให้แน่ใจว่าสิ่งที่เปิดอยู่เห็นด้วยกับสิ่งที่สร้างขึ้น OpenOffice ทำงานได้ถูกต้องและให้คุณเลือกตัวเลือก CSV จำนวนมากเมื่อคุณโหลดแทนที่จะคิดอะไรเกี่ยวกับรูปแบบ
sudo

@sudo เครื่องมือขึ้นอยู่กับภาษาการเขียนโปรแกรมที่คุณเลือกซึ่งส่วนใหญ่เป็นการตั้งค่าส่วนตัว เพื่อเป็นเพียงตัวอย่างเล็กน้อย R เป็นทางเลือกที่ดีในอดีต Python ได้รับความนิยมในการวิเคราะห์ข้อมูลในช่วงไม่กี่ปีที่ผ่านมา Julia เป็นผู้ใช้ใหม่ที่มีแนวโน้มสูงในวงการ ภาษาการเขียนโปรแกรมส่วนใหญ่มีไลบรารีสำหรับผู้ใหญ่ที่ให้โครงสร้าง (เช่น dataframes) โดยเฉพาะอย่างยิ่งเหมาะสำหรับการวิเคราะห์ข้อมูลและทั้งหมดนั้นดีกว่า Excel CSV ได้รับมาตรฐาน แต่มีรายละเอียดที่แตกต่างกัน แต่ไม่ควรเป็นปัญหาใหญ่ในการทำงานประจำวันของคุณ
Robert Smith

ฉันใช้ Python สำหรับการประมวลผลแสง แต่มันไม่ได้ตอบสนองวัตถุประสงค์ของ Excel ตัวอย่างเช่นใน Excel คุณสามารถใช้เครื่องมือเช่นตัวกรองอัตโนมัติและแผนภูมิเชิงโต้ตอบ ฉันมักจะส่งออกข้อมูลของฉันไปยัง CSV สำหรับระดับสูงของฉันเพื่อดูใน Excel หรือบางสิ่งบางอย่าง
sudo

@sudo แล้วคุณต้องการ Pandas Pandas มีวิธีการมากมายในการจัดการข้อมูลของคุณ ซึ่งรวมถึงการย่อยตามดัชนีคอลัมน์หรือเงื่อนไขซึ่งเป็นวิธีที่ยืดหยุ่นและมีประสิทธิภาพมากกว่าตัวกรองอัตโนมัติ จากนั้นคุณสามารถพล็อตผลลัพธ์ ( df.plot()) และส่งออกผลลัพธ์ของคุณไปยัง csv ( df.to_csv('output.csv')) โปรดทราบว่าการวิเคราะห์ข้อมูลมักจะต้องการมากกว่าการกรองและการพล็อต ดังนั้นการเน้นควรอยู่ที่ความถูกต้องดังนั้นคุณต้องแยกงานนำเสนอออกจากการวิเคราะห์ ทำการวิเคราะห์ของคุณใน Python (หรือภาษาอื่น ๆ ) แบ่งปันผลลัพธ์ของคุณใน csv หากนั่นคือสิ่งที่คุณต้องการ
โรเบิร์ตสมิ ธ

15

นักวิทยาศาสตร์ข้อมูลที่มีประสบการณ์ใช้ Excel หรือไม่

ฉันเคยเห็นนักวิทยาศาสตร์ข้อมูลที่มีประสบการณ์ซึ่งใช้ Excel ไม่ว่าจะเป็นเพราะพวกเขาชอบหรือเนื่องจากธุรกิจและสถานที่ทำงานเฉพาะด้าน (ตัวอย่างเช่นสถาบันการเงินหลายแห่งใช้ Excel เป็นเครื่องมือหลักในการสร้างแบบจำลอง) อย่างไรก็ตามฉันคิดว่านักวิทยาศาสตร์ด้านข้อมูลที่มีประสบการณ์ส่วนใหญ่ตระหนักถึงความจำเป็นในการใช้เครื่องมือซึ่งเหมาะสมที่สุดสำหรับงานเฉพาะและปฏิบัติตามแนวทางนี้

คุณสามารถสมมติว่าขาดประสบการณ์จากคนที่ใช้ Excel เป็นหลักหรือไม่?

ไม่คุณไม่สามารถ. นี่เป็นข้อพิสูจน์จากความคิดที่กล่าวถึงข้างต้นของฉัน วิทยาศาสตร์ข้อมูลไม่ได้หมายถึงข้อมูลขนาดใหญ่โดยอัตโนมัติ - มีงานวิทยาศาสตร์ข้อมูลมากมายที่ Excel สามารถจัดการได้ค่อนข้างดี ต้องบอกว่าถ้านักวิทยาศาสตร์ข้อมูล (แม้แต่ผู้ที่มีประสบการณ์) ไม่มีความรู้ (อย่างน้อยก็พื้นฐาน) ของเครื่องมือวิทยาศาสตร์ข้อมูลที่ทันสมัยรวมถึงวัตถุที่มุ่งเน้นข้อมูลขนาดใหญ่มันค่อนข้างรบกวน เนื่องจากการทดลองนั้นฝังลึกในธรรมชาติของวิทยาศาสตร์ข้อมูลเนื่องจากการวิเคราะห์ข้อมูลเชิงสำรวจเป็นสิ่งจำเป็นและเป็นส่วนสำคัญของมัน ดังนั้นบุคคลที่ไม่มีความต้องการที่จะสำรวจเครื่องมืออื่น ๆ ภายในโดเมนของพวกเขาสามารถอันดับที่ต่ำกว่าในบรรดาผู้สมัครในตำแหน่งที่เหมาะสมโดยรวมสำหรับตำแหน่งวิทยาศาสตร์ข้อมูล (แน่นอนว่านี่ค่อนข้างคลุมเครือเพราะบางคนมีความรวดเร็วในการเรียนรู้ วัสดุใหม่, บวก,

ดังนั้นโดยสรุปแล้วฉันคิดว่าคำตอบที่ดีที่สุดที่นักวิทยาศาสตร์ข้อมูลที่มีประสบการณ์อาจต้องตั้งคำถามเกี่ยวกับเครื่องมือที่พวกเขาต้องการมีดังต่อไปนี้: เครื่องมือที่ฉันต้องการเป็นเครื่องมือที่ดีที่สุด


5
ฉันจะไม่ผิดคนที่ไม่รู้จัก Hadoop แต่ในสถานการณ์ข้อมูลขนาดเล็กฉันรู้สึกราวกับว่า R นั้นเหนือกว่า มีสิ่งมหัศจรรย์มากมายที่คุณสามารถทำกับ R ที่คุณทำกับ Excel ไม่ได้ มันเกี่ยวข้องกับฉันบุคคลนี้ไม่ได้ "ค้นพบ" ว่าใน 15 ปีของเขา
JHowIX

@JHowIX: คุณคุ้นเคยกับคำว่า "ดีพอ" หรือยัง? ฉันยังเป็นแฟนตัวยงของ R และชอบเครื่องมือมากมายรวมถึง Excel ทุกวัน อย่างไรก็ตามความจริงที่ว่า R สามารถทำได้มากกว่านั้นไม่ได้หมายความว่า Excel (หรือเครื่องมืออื่น ๆ ที่เหมาะกับงาน) นั้นด้อยกว่าในบริบทการทำงานเฉพาะ ดังนั้นในขณะที่ความกังวลของคุณถูกต้อง (ฉันอ้างถึงโดยใช้คำว่า "รบกวน") อาจเป็นได้ว่าคนที่ไม่ได้มีโอกาส / จำเป็นต้องทำเช่นนั้น โปรดจำไว้ว่าคุณกำลังพูดถึงเวลาเมื่อ R มีอยู่ แต่ได้รับความนิยมส่วนใหญ่ในด้านวิชาการและวิทยาศาสตร์ข้อมูล
Aleksandr Blekh

13

ฉันคิดว่าคนส่วนใหญ่ตอบโดยไม่ต้องมีความรู้ดีเลิศ Excel (ตั้งแต่ปี 2010) มีฐานข้อมูลในหน่วยความจำคอลัมน์ [หลายตาราง] เรียกว่า power pivot (ซึ่งอนุญาตให้ป้อนข้อมูลจาก csv / ฐานข้อมูลเป็นต้น) ทำให้สามารถจัดเก็บได้หลายล้านแถว (ไม่ต้องโหลดในสเปรดชีต) . นอกจากนี้ยังมีเครื่องมือ ETL ที่เรียกว่าการสืบค้นพลังงานช่วยให้คุณสามารถอ่านข้อมูลจากแหล่งต่าง ๆ (รวมถึง hadoop) และมันมีเครื่องมือสร้างภาพ (มุมมองพาวเวอร์ & แผนที่พลังงาน) วิทยาศาสตร์ข้อมูลจำนวนมากกำลังทำการรวมและการวิเคราะห์อันดับต้น ๆ ที่ power pivot เก่ง เพิ่มลักษณะการโต้ตอบของเครื่องมือเหล่านี้ - ผู้ใช้ทุกคนสามารถลากและวางมิติเพื่อแยกผลลัพธ์และหวังว่าคุณจะเห็นประโยชน์ ใช่คุณไม่สามารถเรียนรู้ด้วยเครื่องได้


น่าสนใจ ฉันคุ้นเคยกับสิ่งที่ช้าและบั๊กกี้นั่นคือ Excel 1998-2008 ต้องลองสิ่งที่ใหม่กว่านี้
sudo

ฉันหวังว่าฉันจะรับรองคำตอบของ seanv507 ได้ล้านครั้ง คำตอบส่วนใหญ่ที่นี่แสดงให้เห็นว่าผู้คนจำนวนมากไม่ทราบว่า excel รุ่นใหม่ ๆ มีประสิทธิภาพเพียงใด และโปรดทราบว่าเมื่อคุณใช้เครื่องมือวิเคราะห์ข้อมูลใหม่ (เช่น Power Query, Power Pivot, DAX) คุณจะไม่ จำกัด จำนวน 1, 048, 576 แถวของข้อมูลและโฮสต์ของข้อ จำกัด อื่น ๆ โดยไม่มีเครื่องมือเหล่านี้
maze55555

ผู้ที่ไม่มีพื้นฐานธุรกิจอย่าใช้ excel ระยะเวลา และการพิจารณาผู้สำเร็จการศึกษาด้านธุรกิจมักไม่เข้าสู่วิทยาการข้อมูลคุณสามารถเข้าใจถึงความไม่รู้
NoName

5

ในหนังสือของเขา Data Smart, John Foreman แก้ปัญหาข้อมูลวิทยาศาสตร์ทั่วไป (การรวมกลุ่ม, ไร้เดียงสาเบย์, วิธีรวมวง, ... ) โดยใช้ Excel แน่นอนว่ามันดีเสมอที่จะมีความรู้เกี่ยวกับ Python หรือ R แต่ฉันคิดว่า Excel ยังคงสามารถทำงานได้สำเร็จ


2
ที่จริงแล้วฉันรู้สึกประหลาดใจมากเมื่อฉันอ่านหนังสือที่คุณสามารถทำได้ด้วย Excel และมันมีวิวัฒนาการและตัวแก้ปัญหาที่ไม่ใช่เชิงเส้นอื่น ๆ ในตัว! ประโยชน์ที่ดีของ Excel คือการที่งานของคุณโดยเฉพาะอย่างยิ่งถ้าคุณเป็นรหัสที่ทำซ้ำได้นั้นจะสามารถเข้าถึงได้สำหรับผู้คนมากกว่ารหัส R หรือ Python
Victor Ma

5

ฉันประหลาดใจว่ามีกี่คนที่ยึดติดกับความเท่ห์ของอาชีพมากกว่างานจริงที่ต้องทำ Excel เป็นเครื่องมือที่ยอดเยี่ยมด้วย Powerpivot ฟรี Powerquery มันสามารถทำอะไรได้มากมาย (ไม่มีใน OS X) และถ้าคุณรู้จัก VBA คุณสามารถทำสิ่งดีๆได้ และถ้าคุณเพิ่มความรู้ด้านบนของไพ ธ อนคุณสามารถรวมขั้นตอนแรกของการดึงข้อมูลและการจัดการกับไพ ธ อนแล้วใช้ excel โดยเฉพาะถ้าคุณเป็นคนที่มองเห็น ด้วย excel คุณสามารถตรวจสอบข้อมูลที่รวบรวมได้ก่อนที่จะป้อนเข้าสู่กระบวนการเพิ่มเติมใด ๆ หรือการสร้างภาพข้อมูล มันต้องมีเครื่องมือ


4

Excel ช่วยให้ข้อมูลมีขนาดเล็กมากและไม่มีสิ่งใดที่มีประโยชน์และยืดหยุ่นเพียงพอสำหรับการเรียนรู้ของเครื่องหรือแม้แต่แค่วางแผน สิ่งที่ฉันทำใน Excel คือการจ้องมองที่ส่วนย่อยของข้อมูลเพื่อดูค่าแรก ๆ เพื่อให้แน่ใจว่าฉันจะไม่พลาดสิ่งที่มองเห็นได้ด้วยตา

ดังนั้นหากเครื่องมือโปรดของเขาคือ Excel สิ่งนี้อาจแนะนำให้เขาไม่ค่อยเกี่ยวข้องกับการเรียนรู้ของเครื่องสถิติขนาดข้อมูลที่ใหญ่ขึ้นหรือการวางแผนขั้นสูงใด ๆ บางคนเช่นนี้ฉันจะไม่เรียกนักวิทยาศาสตร์ข้อมูล แน่นอนว่าชื่อเกมนั้นไม่สำคัญและขึ้นอยู่กับความต้องการของคุณเป็นอย่างมาก

ไม่ว่าในกรณีใด ๆ อย่าตัดสินโดยคำแถลงประสบการณ์หรือประวัติย่อ ฉันเคยเห็นประวัติย่อและรู้จักผู้คนที่อยู่เบื้องหลัง

อย่าทึกทัก ทดสอบเขา! คุณควรจะดีพอที่จะตั้งค่าการทดสอบ มันแสดงให้เห็นว่าการสัมภาษณ์เพียงอย่างเดียวนั้นใกล้จะไร้ประโยชน์เพื่อตัดสินทักษะ (แสดงเฉพาะบุคลิกภาพ) ตั้งค่าการทดสอบการเรียนรู้แบบควบคุมง่าย ๆ และให้เขาใช้เครื่องมือใดก็ได้ที่เขาต้องการ

และถ้าคุณต้องการคัดกรองผู้คนในการสัมภาษณ์ก่อนอื่นให้ถามเขาเกี่ยวกับข้อมูลเชิงลึกขั้นพื้นฐาน แต่สำคัญมากเกี่ยวกับสถิติหรือการเรียนรู้ของเครื่อง สิ่งที่พนักงานคนปัจจุบันของคุณทุกคนรู้


2

ให้ฉันอธิบายก่อนว่าฉันกำลังเริ่มต้นการเดินทางสู่วิทยาศาสตร์ข้อมูลจากมุมมองผู้พัฒนาโปรแกรมและฐานข้อมูล ฉันไม่ได้เป็นผู้เชี่ยวชาญด้านวิทยาศาสตร์ข้อมูลเป็นเวลา 10 ปีหรือเป็นเทพเชิงสถิติ อย่างไรก็ตามฉันทำงานนักวิทยาศาสตร์ข้อมูลและชุดข้อมูลขนาดใหญ่สำหรับ บริษัท ที่ทำงานกับลูกค้าที่ค่อนข้างใหญ่ทั่วโลก

จากประสบการณ์ของฉันนักวิทยาศาสตร์ด้านข้อมูลใช้เครื่องมืออะไรก็ได้ที่พวกเขาต้องการเพื่อให้งานสำเร็จ Excel, R, SAS, Python และอีกมากมายเป็นเครื่องมือทั้งหมดในกล่องเครื่องมือสำหรับนักวิทยาศาสตร์ด้านข้อมูลที่ดี ที่ดีที่สุดสามารถใช้เครื่องมือที่หลากหลายในการวิเคราะห์และการบีบอัดข้อมูล

ดังนั้นหากคุณพบว่าคุณเปรียบเทียบ R กับ Python คุณอาจทำผิดทั้งหมดในโลกข้อมูลศาสตร์ นักวิทยาศาสตร์ข้อมูลที่ดีใช้ทั้งสองอย่างเมื่อมันใช้งานง่าย สิ่งนี้ใช้กับ Excel

ฉันคิดว่ามันค่อนข้างยากที่จะหาคนที่จะได้รับประสบการณ์ในเครื่องมือและภาษาที่แตกต่างกันมากมายในขณะที่ทุกอย่างยอดเยี่ยม ฉันคิดว่ามันคงเป็นเรื่องยากที่จะค้นหานักวิทยาศาสตร์ด้านข้อมูลโดยเฉพาะที่ไม่เพียง แต่เขียนโปรแกรมอัลกอริธึมที่ซับซ้อน แต่ยังรู้วิธีใช้พวกเขาจากจุดยืนทางสถิติด้วย

นักวิทยาศาสตร์ด้านข้อมูลส่วนใหญ่ที่ฉันเคยทำงานด้วยมามีประมาณ 2 รสชาติ ผู้ที่สามารถตั้งโปรแกรมและผู้ที่ไม่สามารถ ฉันไม่ค่อยได้ทำงานกับนักวิทยาศาสตร์ข้อมูลที่สามารถดึงข้อมูลใน Python จัดการกับบางอย่างเช่น Pandas ให้พอดีกับแบบจำลองกับข้อมูลใน R แล้วนำเสนอการจัดการในช่วงปลายสัปดาห์

ฉันหมายความว่าฉันรู้ว่าพวกเขามีอยู่ ฉันได้อ่านบล็อกข้อมูลวิทยาศาสตร์จำนวนมากจากพวกที่กำลังพัฒนาเว็บ scrappers ผลักมันเข้าไปใน Hadoop ดึงมันออกมาใน Python เขียนโปรแกรมสิ่งที่ซับซ้อนและใช้มันผ่าน R เพื่อบูต พวกเขามีอยู่ พวกเขาอยู่ที่นั่น ฉันไม่ได้วิ่งเข้าไปหามากเกินไปที่สามารถทำสิ่งนั้นได้ทั้งหมด อาจเป็นเพียงพื้นที่ของฉัน แต่

ดังนั้นนั่นหมายความว่ามีความเชี่ยวชาญเฉพาะในสิ่งหนึ่งที่ไม่ดีใช่หรือไม่ ไม่เพื่อนของฉันมีความเชี่ยวชาญในภาษาหลักเพียงหนึ่งเดียวและฆ่ามัน ฉันรู้ว่ามีคนเก็บข้อมูลมากมายที่รู้จัก R และฆ่ามัน ฉันรู้จักผู้คนมากมายที่ใช้ Excel เพื่อวิเคราะห์ข้อมูลเพราะนั่นเป็นสิ่งเดียวที่นักวิทยาศาสตร์ที่ไม่ใช่ข้อมูลส่วนใหญ่สามารถเปิดและใช้งานได้ (โดยเฉพาะใน บริษัท B2B) คำถามที่คุณต้องการคำตอบจริงๆคือถ้าสิ่งนี้คือสิ่งเดียวที่คุณต้องการสำหรับตำแหน่งนี้ และที่สำคัญที่สุดพวกเขาสามารถเรียนรู้สิ่งใหม่ได้หรือไม่?

PS

วิทยาศาสตร์ข้อมูลไม่ได้ จำกัด อยู่เพียงแค่ "ข้อมูลขนาดใหญ่" หรือ NoSQL


สวัสดีเกลนขอบคุณสำหรับความคิดเห็นของคุณ ลองดูที่ลิงค์ต่อไปนี้ มันมาจาก Swami Chandrasekaran ซึ่งเป็นผู้นำทีมวัตสันที่ IBM ดังนั้นนักวิทยาศาสตร์ด้านข้อมูลที่มีประสบการณ์ในความคิดของฉัน เขามีการเขียนโปรแกรมโดยทั่วไปสิ่งที่สามที่นักวิทยาศาสตร์ด้านข้อมูลจำเป็นต้องรู้เบื้องหลัง "พื้นฐาน" และสถิติ ตามแผนงานของเขาเมื่อคุณรู้วิธีการเขียนโปรแกรมคุณเป็น 15% ของวิธีการเป็นนักวิทยาศาสตร์ด้านข้อมูล จากสิ่งนี้ฉันอาจไม่เห็นด้วยเล็กน้อยกับคำแถลงที่นักวิทยาศาสตร์ข้อมูลที่แท้จริงมาในรสชาติที่ "ไม่ใช่โปรแกรม" nirvacana.com/ butts/becoming
JHowIX

ฉันแค่พูดอย่างนั้นตามประสบการณ์ หลักสูตรสถิติและข้อมูลวิทยาศาสตร์ส่วนใหญ่ไม่ครอบคลุมการเขียนโปรแกรมนอกเหนือจากสิ่งที่คุณต้องการสำหรับโปรแกรมสถิติที่เป็นที่นิยม ด้วยเหตุนี้คนส่วนใหญ่ที่ฉันพบเจอในสถิติโลกไม่สามารถเขียนโปรแกรมได้ดี มันเหมือนในภายหลังเมื่อพวกเขาเข้าสู่โลกแห่งความจริงและตระหนักถึงความช่วยเหลือ
เกลนสวอน

1

Excel สามารถเป็นเครื่องมือที่ยอดเยี่ยมสำหรับการวิเคราะห์ข้อมูลเชิงสำรวจจริง ๆ แล้วมันขึ้นอยู่กับความต้องการของคุณและแน่นอนว่ามันมีข้อ จำกัด เช่นเครื่องมือใด ๆ แต่ Excel ก็สมควรได้รับตำแหน่งในหอวิทยาศาสตร์ข้อมูลที่มีชื่อเสียง

ควรจำไว้ว่าในทางปฏิบัติผู้ใช้ส่วนใหญ่จะสำรวจชุดข้อมูลที่ลดลงอย่างมาก (สร้างจากแบบสอบถาม SQL)

Excel นั้นมีประสิทธิภาพสำหรับการสำรวจข้อมูลเมื่อคุณใช้วัตถุ "table" ร่วมกับตารางสาระสำคัญการแสดงผลคือสูงสุด 1-2 คลิกและแผนภูมิ Excel จำนวนมากใน PowerPoint นั้นดูดีเว้นแต่คุณต้องการสร้างสิ่งที่ตอบสนองเช่น บริบทการคำนวณทางวิทยาศาสตร์ ลักษณะเชิงโต้ตอบหมายความว่าคุณสามารถสำรวจได้อย่างรวดเร็ว

ประโยชน์ของวัตถุ "table" คือเมื่อคุณแปลงข้อมูลเพิ่มเติมใน excel เพื่อให้คุณสำรวจการแจกแจงใหม่ตาราง pivot จะจดจำตัวแปรทั้งหมด

ที่ excel อ่อนแอคือรายการสูตรนั้น จำกัด ตัวอย่างเช่นคำสั่ง SQL case หรือ python statment มีความยืดหยุ่นมากกว่าการใช้ฟังก์ชัน

มันขึ้นอยู่กับความต้องการของคุณ แต่ Excel นั้นสมควรได้รับสถานที่ในหอวิทยาศาสตร์ข้อมูลที่มีชื่อเสียง

เกร็ดเล็กเกร็ดน้อยที่น่าสนใจทีมที่ทำงานกับอัลกอริทึม newsfeed ของ Facebook สามารถเห็นได้เป็นประจำว่าเล่นกับ excel และสเปรดชีตจำนวนมาก


0

ฉันสอนหลักสูตรการวิเคราะห์ธุรกิจที่มี SQL และ Excel ฉันสอนในโรงเรียนธุรกิจเพื่อให้นักเรียนของฉันไม่มีความสามารถด้านเทคนิคมากที่สุดซึ่งเป็นสาเหตุที่ฉันไม่ได้ใช้อะไรอย่าง R, Pandas หรือ Weka ดังที่กล่าวไว้ Excel เป็นเครื่องมือที่มีประสิทธิภาพเพียงพอที่จะใช้สำหรับการวิเคราะห์ข้อมูลบางอย่าง มันได้รับพลังงานส่วนใหญ่จากความสามารถในการทำหน้าที่เป็นส่วนหน้าของ SQL Server Analysis Services (ส่วนประกอบใน SQL Server สำหรับการวิเคราะห์ข้อมูล) โดยใช้ Data Mining Add-In

SSAS ให้คุณสร้างแผนผังการตัดสินใจดำเนินการถดถอยเชิงเส้นและโลจิสติกส์และสร้างเครือข่ายแบบเบย์หรือโครงข่ายประสาท ฉันพบว่าการใช้ Excel เป็นส่วนหน้าเป็นวิธีการที่คุกคามน้อยกว่าในการทำการวิเคราะห์ประเภทนี้เนื่องจากพวกเขาเคยใช้ Excel มาก่อน วิธีใช้ SSAS โดยไม่มี Excel นั้นผ่าน Visual Studio รุ่นพิเศษและนั่นไม่ใช่เครื่องมือที่เป็นมิตรกับผู้ใช้มากที่สุด เมื่อคุณรวมเข้ากับเครื่องมือ Excel อื่น ๆ เช่น Power Query และ Power Pivot คุณสามารถทำการวิเคราะห์ข้อมูลที่ซับซ้อนได้

การเปิดเผยแบบเต็มฉันอาจจะไม่ใช้มันอีกเมื่อฉันสอนหลักสูตรรุ่นใหม่ในปีหน้า (เราแบ่งออกเป็นสองหลักสูตรเพื่อให้สามารถเน้นการวิเคราะห์ข้อมูลได้มากขึ้น) แต่นั่นเป็นเพราะมหาวิทยาลัยสามารถรับใบอนุญาตได้เพียงพอสำหรับ Alteryx ซึ่งใช้งานง่ายกว่าและมีประสิทธิภาพมากกว่า แต่อยู่ที่ $ 4-85k / ผู้ใช้ / ปีหากคุณไม่สามารถใช้งานได้ฟรี พูดในสิ่งที่คุณต้องการเกี่ยวกับ Excel แต่ราคาจะเป็นที่น่าพอใจ


0

Excel สามารถเป็นเครื่องมือที่ยอดเยี่ยม แน่นอนขึ้นอยู่กับสิ่งที่คุณทำมันอาจไม่พอดีกับใบเรียกเก็บเงิน แต่ถ้าเป็นเช่นนั้นมันจะโง่เกือบที่จะยกเลิก ในขณะที่ใช้เวลาสักครู่ในการตั้งค่าไปป์ไลน์ของคุณใน Excel คุณสามารถใช้งานพื้นดินได้ค่อนข้างมาก: UI ในตัว, ความสามารถในการขยายได้อย่างง่ายดายผ่าน VBA แม้ใช้ Python (เช่นhttps://www.xlwings.org ) มันอาจไม่เหมาะเมื่อพูดถึงสิ่งต่าง ๆ เช่นการควบคุมเวอร์ชัน แต่มีวิธีที่ทำให้มันทำงานกับ Git ได้ (เช่นhttps://www.xltrail.com/blog/auto-export-vba-commit-hook )


-2

บุคคลนี้ทำงานกับ 'Big Data' และใช้ Excel เป็นหลักหรือไม่ อย่างจริงจัง?!?! Excel จัดการข้อมูลได้มากถึง 1, 048, 576 แถวในกระดาษคำนวณเดียว สำหรับชุดข้อมูลที่เกินกว่าที่จำเป็นต้องมีปลั๊กอิน นอกจากนี้ตารางเดือยใน Excel ยังมีข้อ จำกัด ที่รุนแรงในการวิเคราะห์ที่สามารถทำได้โดยใช้

งานการวิเคราะห์ข้อมูลประเภทใดที่จะต้องดำเนินการในงานที่คุณกำลังสรรหาอยู่

ฉันขอแนะนำให้คุณทำการสัมภาษณ์ที่รวมถึงการทดสอบประเภทของงานที่จะต้องทำในงานภายใต้การพิจารณา โดยไม่มีการละเมิดความลับความเป็นส่วนตัวหรือการปกป้องข้อมูลงานการเขียนโปรแกรมหรือการวิเคราะห์ข้อมูลซึ่งเป็นส่วนหนึ่งของการสัมภาษณ์ควรมีชุดย่อย (นามแฝง) ของชุดข้อมูลที่เกี่ยวข้องกับโพสต์ที่ถูกสัมภาษณ์ ไม่เช่นนั้นคุณอาจลงเอยที่จะสรรหาคนที่มีความชัดเจนในการสัมภาษณ์โดยใช้การสนทนา แต่ไม่สามารถทำหน้าที่จริง ๆ ได้


ไม่มีใครพูดว่า 'ข้อมูลขนาดใหญ่' พวกเขาบอกว่า 'นักวิทยาศาสตร์ข้อมูล' ไม่ใช่ว่าข้อมูลทั้งหมดจะเป็น 'ข้อมูลขนาดใหญ่' ฉันทำงานกับนักวิทยาศาสตร์ข้อมูลที่มีประสบการณ์ซึ่งใช้ R, Python, SQL และ Excel ทั้งหมดในโครงการเดียว ไม่ใช่การวิเคราะห์ข้อมูลทั้งหมดนั้นเป็นแบบโปรแกรมหรือเขียนสคริปต์ ดังที่กล่าวไว้ที่อื่นข้อมูลจำเพาะของงานที่คลุมเครือ => นักวิทยาศาสตร์ประเภทต่างๆ
smci
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.