วิทยาศาสตร์ข้อมูลเหมือนกับการทำ Data หรือไม่?


22

ฉันแน่ใจว่าวิทยาศาสตร์ข้อมูลตามที่จะกล่าวถึงในฟอรัมนี้มีคำพ้องความหมายหลายคำหรืออย่างน้อยฟิลด์ที่เกี่ยวข้องที่มีการวิเคราะห์ข้อมูลขนาดใหญ่

คำถามเฉพาะของฉันเกี่ยวกับ Data Mining ฉันเข้าเรียนระดับบัณฑิตศึกษาสาขา Data Mining เมื่อไม่กี่ปีก่อน อะไรคือความแตกต่างระหว่าง Data Science และ Data Mining และโดยเฉพาะอย่างยิ่งฉันจะต้องมองอะไรที่จะมีความเชี่ยวชาญใน Data Mining มากขึ้น?


ในส่วนที่สองของคำถามของคุณฉันได้เสนอการอภิปรายใน meta: meta.datascience.stackexchange.com/questions/5/…วิธีที่ได้รับนั้นอาจเป็นรูปเป็นร่างได้ว่าข้อกังวลเรื่องความสามารถของคุณนั้นอยู่ในขอบเขตหรือไม่
Clayton

คำตอบ:


25

@statsRusเริ่มวางรากฐานสำหรับคำตอบของคุณในคำถามอื่น/datascience/1/what-characterises-the-difference-between-data-science-and-statistics :

  • การรวบรวมข้อมูล : การขูดเว็บและการสำรวจออนไลน์
  • การจัดการข้อมูล : บันทึกข้อมูลที่ยุ่งเหยิงและแยกความหมายจากข้อมูลเครือข่ายภาษาและสังคม
  • มาตราส่วนข้อมูล : ทำงานกับชุดข้อมูลที่มีขนาดใหญ่มาก
  • การขุดข้อมูล : การค้นหารูปแบบในชุดข้อมูลขนาดใหญ่และซับซ้อนโดยเน้นเทคนิคอัลกอริธึม
  • การสื่อสารข้อมูล : ช่วยเปลี่ยนข้อมูล "เครื่องอ่านได้" เป็นข้อมูล "อ่านง่าย" ผ่านการสร้างภาพ

คำนิยาม

สามารถมองเห็นเป็นหนึ่งรายการ (หรือชุดทักษะและแอปพลิเคชั่น) ในชุดเครื่องมือของนักวิทยาศาสตร์ข้อมูล ฉันชอบวิธีที่เขาแยกคำจำกัดความของการขุดออกจากการสะสมในศัพท์แสงเฉพาะทางการค้า

อย่างไรก็ตามฉันคิดว่าการขุดข้อมูลจะมีความหมายเหมือนกันกับการรวบรวมข้อมูลในคำจำกัดความภาษาอังกฤษเป็นภาษาอังกฤษ

ว่าจะไปที่ไหนเป็นความเชี่ยวชาญ? ฉันคิดว่าคำถามนั้นกว้างเกินไปตามที่ระบุไว้ในปัจจุบันและจะได้รับคำตอบที่อิงกับความคิดเห็นเป็นหลัก บางทีถ้าคุณสามารถปรับแต่งคำถามของคุณอาจง่ายกว่าที่จะเห็นสิ่งที่คุณถาม


11

สิ่งที่ @Clayton โพสต์ดูเหมือนว่าถูกต้องสำหรับฉันสำหรับเงื่อนไขเหล่านั้นและสำหรับ "data mining" เป็นเครื่องมือหนึ่งของนักวิทยาศาสตร์ด้านข้อมูล อย่างไรก็ตามฉันไม่ได้ใช้คำว่า "data collection" และมันไม่ได้ทำให้ฉันมีความหมายเหมือนกันกับ "data mining"

คำตอบสำหรับคำถามของคุณ: ไม่คำศัพท์ไม่เหมือนกัน คำจำกัดความอาจหลวมในฟิลด์นี้ แต่ฉันไม่เห็นคำเหล่านั้นใช้แทนกันได้ ในงานของฉันบางครั้งเราใช้มันเพื่อแยกความแตกต่างระหว่างเป้าหมายหรือวิธีการ สำหรับเราแล้วข้อมูลนั้นเป็นเรื่องเกี่ยวกับการทดสอบสมมติฐานและโดยทั่วไปแล้วข้อมูลจะถูกรวบรวมเพื่อจุดประสงค์นั้น นั้นเกี่ยวกับการกลั่นกรองข้อมูลที่มีอยู่แล้วค้นหาโครงสร้างและอาจสร้างสมมติฐาน การขุดข้อมูลอาจเริ่มต้นด้วยสมมติฐาน แต่มักจะอ่อนแอหรือทั่วไปมากและอาจแก้ไขได้ยากด้วยความมั่นใจ (ขุดนานพอและคุณจะพบบางสิ่งบางอย่างแม้ว่ามันอาจจะกลายเป็นสิ่งมีชีวิตหนาแน่น)

อย่างไรก็ตามเรายังได้ใช้ "วิทยาศาสตร์ข้อมูล" เป็นคำที่กว้างขึ้นเพื่อรวม "การทำเหมืองข้อมูล" นอกจากนี้เรายังพูดถึง "การสร้างแบบจำลองข้อมูล" ซึ่งสำหรับเรานั้นเกี่ยวกับการค้นหาแบบจำลองสำหรับระบบที่น่าสนใจโดยอ้างอิงจากข้อมูลรวมถึงความรู้และวัตถุประสงค์อื่น ๆ บางครั้งนั่นหมายถึงการพยายามค้นหาคณิตศาสตร์ที่อธิบายระบบจริงและบางครั้งก็หมายถึงการค้นหาแบบจำลองการทำนายที่ดีพอสำหรับวัตถุประสงค์


8

คำตอบของฉันจะไม่ใช่ ฉันคิดว่า Data mining เป็นหนึ่งในสาขาด้านวิทยาศาสตร์ข้อมูล การทำเหมืองข้อมูลส่วนใหญ่จะพิจารณาจากการให้คำถามแทนที่จะตอบคำถาม บ่อยครั้งที่เรียกว่า "การตรวจจับสิ่งใหม่" เมื่อเปรียบเทียบกับวิทยาศาสตร์ข้อมูลซึ่งนักวิทยาศาสตร์ด้านข้อมูลพยายามแก้ปัญหาที่ซับซ้อนเพื่อให้ได้ผลลัพธ์ที่สิ้นสุด อย่างไรก็ตามทั้งสองคำมีความเหมือนกันหลายประการระหว่างกัน ตัวอย่างเช่นหากคุณมีที่ดินเพื่อเกษตรกรรมที่คุณต้องการค้นหาพืชที่ได้รับผลกระทบการทำเหมืองข้อมูลเชิงพื้นที่มีบทบาทสำคัญในการทำงานนี้มีโอกาสดีที่คุณจะได้พบกับพืชที่ได้รับผลกระทบ ในดินแดน แต่ยังรวมถึงขอบเขตที่พวกเขาได้รับผลกระทบ ....... นี่เป็นสิ่งที่เป็นไปไม่ได้กับศาสตร์ข้อมูล


คำตอบของคุณเป็นสิ่งที่ดีมากและมีความสุขว่าจะเป็นถ้าคุณเพิ่มเป็นตัวอย่างเล็ก ๆ น้อย ๆ เพื่อให้เป็นไปเน้นจุดของคุณในการทำเหมืองข้อมูลที่เกี่ยวข้องมากขึ้นในการตรวจจับสิ่งใหม่ ๆมากกว่าการพยายามที่จะแก้ปัญหาและผลการเข้าถึง
รูเบนส์

6

มีการซ้อนทับกันระหว่าง data mining และ datascience มาก ฉันจะบอกว่าคนที่มีบทบาทในการจัดทำข้อมูลเกี่ยวข้องกับการรวบรวมข้อมูลและการแยกฟีเจอร์จากชุดข้อมูลที่ไม่มีการกรองไม่มีการรวบรวมกัน ข้อมูลที่สำคัญมากบางอย่างอาจยากที่จะดึงออกมาไม่ได้ทำกับปัญหาการนำไปใช้ แต่เพราะมันอาจมีส่วนต่างประเทศ

เช่น. ถ้าฉันต้องการใครสักคนที่จะดูข้อมูลทางการเงินจากการคืนภาษีเป็นลายลักษณ์อักษรในยุค 70 ซึ่งถูกสแกนและเครื่องอ่านเพื่อดูว่าผู้คนประหยัดมากขึ้นในประกันภัยรถยนต์หรือไม่ คนเก็บข้อมูลจะเป็นคนที่จะได้รับ

ถ้าฉันต้องการใครซักคนเพื่อตรวจสอบอิทธิพล Twitter ของ Nike ในทวีตของบราซิลและระบุคุณสมบัติเชิงบวกที่สำคัญจากโปรไฟล์นี้ฉันจะมองหานักข้อมูล

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.