Excel มีความเพียงพอสำหรับวิทยาศาสตร์ข้อมูลหรือไม่


10

ฉันกำลังอยู่ระหว่างการเตรียมการสอนหลักสูตรเบื้องต้นเกี่ยวกับวิทยาศาสตร์ข้อมูลโดยใช้ภาษาการเขียนโปรแกรม R ผู้ชมของฉันคือนักศึกษาระดับปริญญาตรีสาขาวิชาธุรกิจ ปริญญาตรีธุรกิจทั่วไปไม่มีประสบการณ์ในการเขียนโปรแกรมคอมพิวเตอร์ แต่ได้เรียนสองสามวิชาที่ใช้ Excel

โดยส่วนตัวแล้วฉันรู้สึกสบายใจกับ R (หรือภาษาการเขียนโปรแกรมอื่น ๆ ) เพราะฉันเรียนวิชาเอกวิทยาการคอมพิวเตอร์ อย่างไรก็ตามฉันมีความรู้สึกว่านักเรียนของฉันหลายคนจะรู้สึกระแวดระวังในการเรียนรู้ภาษาการเขียนโปรแกรมเพราะมันอาจดูยากสำหรับพวกเขา

ฉันมีความคุ้นเคยกับ Excel และฉันเชื่อว่าแม้ว่า Excel จะมีประโยชน์สำหรับวิทยาศาสตร์ข้อมูลแบบง่าย แต่ก็เป็นสิ่งจำเป็นสำหรับนักเรียนที่จะเรียนรู้ภาษาการเขียนโปรแกรมอย่างจริงจังสำหรับวิทยาศาสตร์ข้อมูล (เช่น R หรือ Python) ฉันจะโน้มน้าวใจตัวเองและนักเรียนว่า Excel ไม่เพียงพอสำหรับนักเรียนธุรกิจที่จริงจังในการเรียนวิทยาศาสตร์ข้อมูลและมันเป็นสิ่งจำเป็นสำหรับพวกเขาในการเรียนรู้การเขียนโปรแกรมบางอย่าง?

แก้ไขเพื่อตอบสนองต่อความคิดเห็น

นี่คือบางส่วนของหัวข้อที่ฉันจะกล่าวถึง:

  • การประมวลผลข้อมูลและการทำความสะอาดข้อมูล
  • วิธีจัดการตารางข้อมูลเช่นเลือกชุดย่อยของแถว (ตัวกรอง) เพิ่มตัวแปรใหม่ (กลายพันธุ์) เรียงลำดับแถวตามคอลัมน์
  • SQL เข้าร่วมโดยใช้แพ็คเกจdplyr
  • วิธีการวาดแปลง (แปลงกระจาย, แปลงแท่ง, ฮิสโทแกรม ฯลฯ ) โดยใช้แพ็คเกจggplot2
  • วิธีการประเมินและตีความตัวแบบทางสถิติเช่นการถดถอยเชิงเส้นการถดถอยโลจิสติกส์การจำแนกต้นไม้และเพื่อนบ้านที่ใกล้ที่สุด

เนื่องจากฉันไม่รู้จัก Excel เป็นอย่างดีฉันจึงไม่รู้ว่างานเหล่านี้ทั้งหมดสามารถทำได้อย่างง่ายดายใน Excel


คำถามนี้ไม่สามารถตอบได้โดยที่ไม่รู้ว่าอยู่ในหลักสูตรของคุณ ต้องบอกว่าคุณควรดู Power Pivot / Data Model ใน Excel คุณสามารถจัดการชุดข้อมูลหลายกิกะไบต์ได้อย่างง่ายดายด้วยแถวหลายล้านแถวใน Excel ในวันนี้และรวดเร็ว
ออกุสตุส

@Gaius ฉันได้เพิ่มรายละเอียดของสิ่งที่ฉันต้องการจะสอนในหลักสูตร
ฉันชอบที่จะรหัส

คะแนน 1-4 ของคุณได้รับการสนับสนุนเป็นอย่างดีจาก Data Model support.office.com/en-us/article/… - สำหรับจุดที่ 5 ฉันขอแนะนำ AzureML studio.azureml.net
Gaius

AzureML ยังทำงานร่วมกับ R btw
Gaius

4
เกี่ยวกับจุดสุดท้ายของคุณ - ดูหนังสือ "Data Smart" โดย John Foreman - amazon.com/Data-Smart-Science-Transform-Information/dp/…
Gregory Demin

คำตอบ:


8

ก่อนอื่นให้ตรวจสอบโพสต์นี้ มีหลายเหตุผลที่ Excel ด้อยกว่าโซลูชันอื่น ๆ ที่เกี่ยวข้องกับงานด้านข้อมูล Excel ยังไม่สามารถจัดการชุดข้อมูลขนาดใหญ่ได้ (นับแสนบันทึก - ไม่ต้องพูดถึงอะไรในบริเวณใกล้เคียงกับBig Data ) ภาพและข้อมูลเสียง

Excel เหมาะสำหรับงานง่าย ๆ เกี่ยวกับสเปรดชีต มันเน้นเพิ่มเติมเกี่ยวกับการนำเสนอและใช้งานง่ายในขณะที่มีการสนับสนุนน้อยที่สุดสำหรับการวิเคราะห์ข้อมูลจริง นอกจากสิ่งที่คุณต้องการทำคือการคำนวณการวัดทางสถิติอย่างง่าย (ค่าเฉลี่ยค่าเฉลี่ย ฯลฯ ) หรือสร้างแบบจำลองที่ง่ายมาก (เช่นการถดถอยเชิงเส้น) Excel ไม่มีประสิทธิภาพ ดังที่กล่าวไว้ 99% งานที่ บริษัท ต้องจัดการเกี่ยวกับข้อมูลนั้นง่ายพอที่จะจัดการผ่าน Excel

อย่างไรก็ตามวิทยาศาสตร์ข้อมูลส่วนใหญ่เกี่ยวข้องกับการถดถอยการจัดประเภทและรูปแบบที่ซับซ้อนที่ excel ไม่พร้อมที่จะจัดการ! หากนักเรียนของคุณต้องการดูวิทยาศาสตร์ข้อมูลคุณต้องสอนเครื่องมือที่จะเป็นประโยชน์ต่อพวกเขา (R, python และอื่น ๆ ) ภาษาเหล่านี้ยังมีห้องสมุดที่มีแบบจำลองมากมายในตัวเพื่อ "เล่นกับ"

อีกเหตุผลที่ใหญ่จริงๆฉันจะไปกับตัวเลือกหลังเป็นว่าพวกเขาเป็นโอเพนซอร์ส โดยส่วนตัวฉันรู้สึกว่าซอฟต์แวร์โอเพ่นซอร์สควรเป็นที่ต้องการจากมุมมองทางการศึกษาไปจนถึงโซลูชันที่เป็นกรรมสิทธิ์ (นี่คือเหตุผลที่ฉันแนะนำ python และ R ผ่าน Matlab)!


ฉันเห็นด้วยทั้งหมดข้างต้น แต่เขาบอกว่าเป็นวิชาเอกธุรกิจ ทำไมไม่สอน R แต่ให้แน่ใจว่าสาธิตปลั๊กอิน R / Excel ด้วย?
CalZ

1
"Excel ยังไม่สามารถจัดการชุดข้อมูลขนาดใหญ่ (บันทึกนับแสน") ได้อย่างง่ายดายและมันสามารถทำหน้าที่เป็นไคลเอนต์สำหรับแบ็คเอนด์ที่ร้ายแรงเช่น AzureML และ PowerBI ฉันไม่ใช่ Excel "fanboy "มาก แต่มันทำให้ฉันเสียใจที่เห็น" ข้อมูลที่ขับเคลื่อน "ผู้ที่ไม่รู้จักเครื่องมือพื้นฐาน
Gaius

1
จะเป็นอย่างไรถ้าเป็นชุดข้อมูลหนึ่งล้านแถวบวกหลายพันคอลัมน์บนเครื่อง "พื้นฐาน" เดียวกัน (16 gb rams, i7 ecc) ซึ่งโซลูชั่นจะเปิดได้เร็วขึ้น? ฉันไม่ได้พยายามลบล้าง Excel เพียงแค่ความอยากรู้อยากเห็น ด้วยความรู้ของฉันฉันไม่สามารถแม้แต่เปิดชุดข้อมูลดังกล่าวใน Excel RStudio อ่านโดยไม่มีปัญหาบนพีซีเครื่องเดียวกัน
RLave

7

ฉันเพิ่งทำกับผู้เชี่ยวชาญในการวิเคราะห์ธุรกิจและประสบกับปัญหาเดียวกับที่คุณอธิบาย โชคดีที่ฉันเป็นคนเทคนิคและสามารถสอนตัวเอง R และ Python ได้ แต่ฉันติดสอนส่วนที่เหลือของชั้นวิธีใช้ R และ Python ชั้นเรียนที่ฉันใช้ซึ่งใช้ R / Python นั้นมีผู้พิการเนื่องจากขาดความเข้าใจด้านเทคนิคโดยนักเรียนและใช้เวลามากเกินไปในการเรียนรู้วิธีเปิด R / Python ชั้นเรียนที่เดินทางไปอีกเส้นทางหนึ่งนั้นไม่ได้ผลมากนัก ฉันต้องการทำโครงการชั้นเรียนบางอย่างที่ไม่สามารถทำได้ใน Excel เนื่องจากข้อ จำกัด แต่ครูไม่ยอมรับเครื่องมืออื่น ๆ

มันอาจไม่ใช่สิ่งที่คุณสามารถทำได้ทันที แต่ฉันขอแนะนำอย่างยิ่งให้คุณลองและทำให้แผนกต้องมีหลักสูตรการเขียนโปรแกรมก่อนที่จะเข้าเรียน ข้อมูลวิทยาศาสตร์และการวิเคราะห์ธุรกิจ IMHO ควรข้ามเส้นทางการศึกษาระดับปริญญาที่ต้องการวิทยาศาสตร์คอมพิวเตอร์นิดหน่อย แต่จนกว่าโปรแกรมจะครบกำหนดและระบบมหาวิทยาลัยจะดีขึ้นอาจไม่เกิดขึ้นสักพัก


คุณบอกว่าคุณ "ต้องการทำโครงการชั้นเรียนบางสิ่งที่จบลงด้วยการไม่สามารถทำได้ใน Excel เนื่องจากข้อ จำกัด " คุณพยายามทำอะไรซึ่งไม่สามารถทำได้ใน Excel
ฉันชอบรหัส

3

ฉันคิดว่าคุณต้องสอนภาษาดาต้าวิทยาศาสตร์ที่ได้รับความนิยมเช่น Python หรือ R. Excel จะไม่ช่วยพวกเขาในงานจริงและไม่เหมาะสำหรับวัตถุประสงค์ด้านวิทยาศาสตร์ข้อมูล ฉันอาจจะบอกว่างูใหญ่จะมีค่ามากที่สุดสำหรับพวกเขาในระยะยาวและด้วยแพ็คเกจเช่น Scikit- เรียนรู้การถดถอยและการจำแนกประเภทของคุณสามารถแสดงให้เห็นในรหัสบรรทัดน้อยมากที่พวกเขาสามารถอ่านและเข้าใจได้ง่ายขึ้น มันไม่ง่ายเลยที่จะเข้าใจว่า R กำลังทำอะไรโดยแค่อ่านมัน

คำแนะนำอื่น ๆ : อย่าเสียเวลาบังคับให้นักเรียนของคุณตั้งค่า IDE และดาวน์โหลดแพ็คเกจที่จำเป็นถ้าคุณใช้ python สร้างสภาพแวดล้อมเสมือนจริงสำหรับพวกเขาด้วยแพ็คเกจที่จำเป็นทั้งหมดและตั้งค่า IDE เช่น pycharm (พวกเขาสามารถ รับสิทธิ์นี้และ IDE อื่น ๆ ส่วนใหญ่ภายใต้ใบอนุญาตนักเรียน / การศึกษา) ซึ่งสามารถพัฒนาและเรียกใช้รหัสของพวกเขาผ่าน UI แทนคอนโซลที่พวกเขาอาจพบว่าน่ากลัวและสับสน หากคุณไปตามเส้นทาง R ให้แน่ใจว่าคุณได้ติดตั้ง IDE อย่าง RStudio ไว้สำหรับพวกเขาและตรวจสอบให้แน่ใจว่าการติดตั้งรวมและแพ็คเกจทั้งหมดนั้นรวมอยู่ในโค้ดตัวอย่างของคุณหรืออธิบายอย่างครบถ้วน


"Excel จะไม่ช่วยพวกเขาในงานจริง" แน่นอนว่าถ้านั่นคือสิ่งที่เพื่อนร่วมงานใช้ ประสบการณ์จริงของคุณในงานที่ไม่ใช้ Excel คืออะไร?
ออกุสตุส

3
บทบาท Data Science ใด ๆ ที่ทำงานกับข้อมูลจำนวนมากรวมอยู่ด้วย คุณคิดว่างาน DS ใดที่จะใช้ Excel เป็นเครื่องมือหลักในการทำงาน
Dan Carter

ฉันเห็นจากโปรไฟล์ของคุณว่าคุณเป็นนักเรียนหรือไม่ โอ้ นี่คือนักเรียนธุรกิจที่ลงเรียนหลักสูตรหนึ่งใน DS ในงานธุรกิจพวกเขาจะใช้ Excel เป็นเครื่องมือหลักอย่างแน่นอน
ออกุสตุส

1
แน่นอนว่าคุณถูกต้องพวกเขามีแนวโน้มที่จะใช้ Excel ในบทบาทประเภทธุรกิจอย่างไรก็ตามเนื่องจาก OP กล่าวอย่างชัดเจนว่าพวกเขามีหลักสูตรที่ครอบคลุม Excel อยู่แล้ว คู่นี้กับข้อเท็จจริงที่ว่า Excel ไม่เพียงพอสำหรับอุตสาหกรรมหรือ Data ศาสตร์การศึกษาและเป็นที่ชัดเจนว่าการสอนพวกเขา 'Excel for Data Science' จะไม่ช่วยพวกเขาในงานจริงตามที่ฉันพูด คุณไม่สามารถสอนผู้ชายให้ตกปลาได้โดยการสอนให้พูดภาษาฝรั่งเศส
Dan Carter

แล้วถ้าพวกเขาเรียนหลักสูตรบน Excel ไปแล้วล่ะ อย่าปฏิบัติเหมือนสลัวที่ไม่สามารถเรียนรู้ R. เราไม่ได้พูดถึง Haskell หรือ LISP ที่นี่!
Emre

2

ฉันจะโน้มน้าวใจตัวเองและนักเรียนว่า Excel ไม่เพียงพอสำหรับนักเรียนธุรกิจที่จริงจังที่กำลังศึกษาวิทยาศาสตร์ข้อมูล

สร้างใน data.frame R ขนาดใหญ่ (สองสามล้านแถวและหลายร้อยคอลัมน์) บันทึกเป็น. xlsx

แสดงความแตกต่างของเวลาในการโหลดด้วย R และใน Excel บนเครื่องเดียวกัน เปรียบเทียบการดำเนินการทางสถิติขั้นพื้นฐานระหว่างสองรายการนี้บนชุดข้อมูลเดียวกันหรือแม้แต่การแปลง

จุดที่ 2-4 ในรายการ yout สามารถทำได้ใน Excel ด้วยเช่นกันอย่างเจ็บปวดมากขึ้นแสดงให้พวกเขาสองสามตัวอย่างของวิธีการกรอง (และเร็วกว่า) ง่าย ๆdplyrเมื่อเทียบกับ Excel พื้นฐานอีกครั้งบนชุดข้อมูลขนาดใหญ่นี้จะเน้น ความแตกต่าง.

จุดโบนัสถ้าคุณสามารถสร้างชุดข้อมูลที่ทำให้พีซีของคุณพังโดยที่ Excel ทำงาน

นอกจากนี้ฉันจะเพิ่มความชัดเจนในส่วน "อิสระต่อการใช้งาน" ของ R (หรือ Python) ตัวอย่างเช่นเมื่อเปรียบเทียบกับ SAS หากคุณต้องการลองวิธีแก้ปัญหาเดียว (เช่นคลัสเตอร์บางประเภท) คุณโหลดไลบรารีและทดลองใช้ไม่ต้องจ่ายมากขึ้นเพียงลอง

สำหรับฉันนั่นคือความสวยงามของมันคุณสามารถทดลองใช้ฟรีได้ทุกอย่างที่คุณต้องการและบ่อยครั้งที่ปุ่มนั้นเป็นคีย์ของ DS ลองจินตนาการว่าคุณจะต้องจ่ายค่าห้องสมุดที่คุณติดตั้งไว้หรือไม่


1

Excel และ Data Science - ฟังดูแปลกสำหรับฉัน อาจเป็น Excel และ 'การวิเคราะห์ข้อมูล'

อย่างไรก็ตามฉันคิดว่าการประนีประนอมที่ดีระหว่าง Excel และ R คือ: KNIME ( http://www.knime.org/knime-analytics-platform ) ฟรีบนเดสก์ท็อปและเริ่มต้นได้ง่ายกว่ามาก คุณสามารถนำเข้า / ส่งออกไปยัง Excel แต่ยังใช้ R, Python หรือ Java ถ้าโหนด ~ 1.000 พลาดฟังก์ชั่นบางอย่างที่คุณต้องการ เนื่องจากเวิร์กโฟลว์ถูกสร้างขึ้นด้วยสายตาจึงง่ายต่อการแสดงให้คนที่ไม่รู้จักภาษาการเขียนโปรแกรมซึ่งเป็นข้อได้เปรียบในบาง บริษัท


0

ฉันคิดว่าปัญหาคือคุณกำลังพยายามโน้มน้าวใจนักเรียนของคุณว่าการเข้าชั้นเรียนของพวกเขาพวกเขาสามารถทำวิทยาศาสตร์ข้อมูลเหมือนกับระดับของวิทยาศาสตร์ข้อมูลที่ทันสมัยเช่นสิ่งแฟนซีเช่นการประมวลผลภาพการจดจำใบหน้า คุณได้ยินสิ่งนี้พูดเกือบตลอดเวลา "โดยการเข้าชั้นเรียนนี้คุณจะ ... " สิ่งที่คุณต้องสอนพวกเขาคือความรักในข้อมูลและความกล้าหาญในการดูข้อมูลหลาย ๆ อย่าง ความรู้สึกบางอย่างออกมาจากพวกเขา ในขณะที่พวกเขาสามารถทำเช่นนั้นคุณสามารถเรียกพวกเขาว่านักวิทยาศาสตร์ด้านข้อมูลและคุณควรรู้สึกภูมิใจในตัวเองที่ตอนนี้มีนักวิทยาศาสตร์ด้านข้อมูลรุ่นใหม่ หลังจากนั้นหากพวกเขาจริงจังกับวิทยาศาสตร์ข้อมูลพวกเขาสามารถไปเรียนหลักสูตรเข้มข้นอื่น ๆ ที่เกี่ยวข้องกับคณิตศาสตร์สถิติและวิทยาศาสตร์คอมพิวเตอร์ (ประสบการณ์การเขียนโปรแกรมอย่างที่คุณพูด) ฉันอยู่ในสถานการณ์ที่คล้ายกับนักเรียนของคุณ ฉันไม่มีพื้นฐานด้าน CS แต่ต้องการที่จะเจาะลึกลงไปในศาสตร์ข้อมูลและ AI โดยการเข้าชั้นเรียนออนไลน์ด้วยคำสัญญาแฟนซี ฉันเสียเงินจำนวนมาก แต่ก็พบว่าตัวเองผิดหวังอย่างมาก (โอ้ฉันต้องพาคลาสนี้เพื่อรู้อัลกอริทึมนี้โอ้พวกเขากำลังพูดถึงเครือข่ายประสาทตอนนี้ดังนั้นฉันต้องสมัครคลาสอื่น ๆ ) TL ; DR เครื่องมือคิดเป็น 1% ของปัญหาที่คุณมี ด้วยพื้นหลังของคุณคุณไม่ควรมีปัญหาในการหางานข้างต้นใน Excel ในหนึ่งสัปดาห์ โอ้พวกเขากำลังพูดถึงเครือข่ายประสาทเทียมตอนนี้ดังนั้นฉันต้องลงทะเบียนสำหรับชั้นเรียนอื่น ๆ ฯลฯ ) TL; DR เครื่องมือคิดเป็น 1% ของปัญหาที่คุณมี ด้วยพื้นหลังของคุณคุณไม่ควรมีปัญหาในการหางานข้างต้นใน Excel ในหนึ่งสัปดาห์ โอ้พวกเขากำลังพูดถึงเครือข่ายประสาทเทียมตอนนี้ดังนั้นฉันต้องลงทะเบียนสำหรับชั้นเรียนอื่น ๆ ฯลฯ ) TL; DR เครื่องมือคิดเป็น 1% ของปัญหาที่คุณมี ด้วยพื้นหลังของคุณคุณไม่ควรมีปัญหาในการหางานข้างต้นใน Excel ในหนึ่งสัปดาห์

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.