วิทยาศาสตร์ข้อมูลที่ไม่มีความรู้ในหัวข้อที่เฉพาะเจาะจงมันคุ้มค่าที่จะใฝ่หาอาชีพหรือไม่? [ปิด]


15

ฉันได้สนทนากับบางคนเมื่อเร็ว ๆ นี้และพูดถึงความสนใจในการวิเคราะห์ข้อมูลและฉันตั้งใจจะเรียนรู้ทักษะและเครื่องมือที่จำเป็น พวกเขาแนะนำให้ฉันรู้ว่าในขณะที่มันยอดเยี่ยมในการเรียนรู้เครื่องมือและสร้างทักษะมีจุดเล็ก ๆ น้อย ๆ ในการทำเช่นนั้นเว้นแต่ว่าฉันมีความรู้เฉพาะด้านในสาขาเฉพาะ

โดยพื้นฐานแล้วพวกเขาสรุปว่าฉันเป็นเหมือนช่างก่อสร้างที่มีเครื่องมือมากมายที่สามารถสร้างกล่องไม้สองสามกล่องและอาจสร้างสิ่งที่ดีกว่า (ห้องโดยสารตู้เก็บของ ฯลฯ ) แต่ไม่มีความรู้ในสาขาเฉพาะที่ฉันไม่เคยทำ เป็นคนสร้างจะมาสำหรับผลิตภัณฑ์เฉพาะ

มีใครพบสิ่งนี้หรือมีข้อมูลใด ๆ เกี่ยวกับสิ่งนี้ มันจะดูเหมือนว่ามันเป็นเรื่องจริงที่จะต้องเรียนรู้ด้านวิทยาศาสตร์ข้อมูลของสิ่งต่าง ๆ แล้วเรียนรู้สาขาใหม่เพียงเพื่อจะกลายเป็นผู้เชี่ยวชาญ


ในขณะที่คำถามของคุณถูกต้อง แต่นี่ไม่ใช่สถานที่ที่เหมาะสม คำถามที่เกี่ยวข้องกับอาชีพจะถูกพิจารณาว่าเป็นหัวข้อที่นี่
sheldonkreger

ยังไม่ชัดเจนว่าคุณถามอะไร - จะดีกว่าที่จะเรียนรู้เครื่องมือหรือรวบรวมความรู้ในโดเมน? อาจเปิดเกินไปและอิงตามความคิดเห็นสำหรับ StackExchange
Sean Owen

คำตอบ:


43

Drew Conway เผยแพร่Data Science Venn Diagramซึ่งฉันเห็นด้วยอย่างเต็มที่:

Data Science Venn Diagram

ในอีกด้านหนึ่งคุณควรอ่านโพสต์ของเขาจริงๆ ในทางตรงกันข้ามฉันสามารถนำเสนอประสบการณ์ของตัวเอง: ความเชี่ยวชาญในเรื่องของฉัน (ซึ่งฉันชอบดีกว่าคำว่า "ความเชี่ยวชาญอย่างมีนัยสำคัญ" เพราะคุณควรมี "ความเชี่ยวชาญที่สำคัญ" ในคณิตศาสตร์ / สถิติและการแฮ็ค) ด้วย ธุรกิจค้าปลีกคณิตศาสตร์ / สถิติของฉันพยากรณ์และสถิติอนุมานและทักษะการแฮ็คของฉันอยู่ที่ R

จากจุดได้เปรียบนี้ฉันสามารถพูดคุยและเข้าใจผู้ค้าปลีกและผู้ที่ไม่มีความรู้ในสาขานี้อย่างน้อยจะต้องเผชิญกับช่วงการเรียนรู้ที่สูงชันในโครงการกับผู้ค้าปลีก ในฐานะที่เป็นกิ๊กด้านฉันทำสถิติในด้านจิตวิทยาและมันเหมือนกันทุกประการ และถึงแม้จะมีความรู้เกี่ยวกับส่วนของการแฮ็ค / คณิตศาสตร์ / สถิติบางส่วนของแผนภาพฉันก็มีเวลาที่ยากลำบากในการเร่งความเร็วในการพูดการให้คะแนนเครดิตหรือสาขาวิชาใหม่อื่น ๆ

เมื่อคุณมีจำนวนหนึ่งของคณิตศาสตร์ / สถิติและทักษะการแฮ็คก็เป็นมากดีกว่าที่จะได้มาซึ่งดินในหนึ่งหรือมากกว่าอาสาสมัครกว่าในการเพิ่มเลยการเขียนโปรแกรมภาษาอื่นเพื่อทักษะการแฮ็คของคุณหรือยังอีกขั้นตอนวิธีการเรียนรู้ของเครื่องสำหรับผลงานคณิตศาสตร์ / สถิติของคุณ ท้ายที่สุดเมื่อคุณมีพื้นฐานทางคณิตศาสตร์ / สถิติ / การแฮ็คที่มั่นคงคุณอาจจำเป็นต้องเรียนรู้เครื่องมือใหม่ ๆ จากเว็บหรือจากตำราเรียนในระยะเวลาอันสั้น แต่ความเชี่ยวชาญในสาระสำคัญในทางกลับกันคุณอาจจะไม่สามารถเรียนรู้ได้ตั้งแต่เริ่มต้นถ้าคุณเริ่มต้นจากศูนย์ และลูกค้าจะทำงานร่วมกับนักวิทยาศาสตร์ข้อมูล A ที่เข้าใจสาขาเฉพาะของพวกเขามากกว่ากับนักวิทยาศาสตร์ข้อมูล B คนแรกที่ต้องเรียนรู้พื้นฐาน - แม้ว่า B จะดีกว่าในวิชาคณิตศาสตร์ / สถิติ / การแฮ็ค

แน่นอนทั้งหมดนี้จะหมายความว่าคุณจะไม่กลายเป็นผู้เชี่ยวชาญในทั้งสามสาขา แต่ก็ไม่เป็นไรเพราะคุณเป็นนักวิทยาศาสตร์ด้านข้อมูลไม่ใช่โปรแกรมเมอร์หรือนักสถิติหรือผู้เชี่ยวชาญเฉพาะด้าน จะมีผู้คนในแวดวงสามวงที่คุณสามารถเรียนรู้ได้เสมอ ซึ่งเป็นส่วนหนึ่งของสิ่งที่ฉันชอบเกี่ยวกับวิทยาศาสตร์ข้อมูล


แก้ไข: อีกสักครู่และไม่กี่ความคิดในภายหลังฉันต้องการอัปเดตโพสต์นี้ด้วยแผนภาพเวอร์ชั่นใหม่ ฉันยังคิดว่าทักษะการแฮ็คความรู้คณิตศาสตร์และสถิติและความเชี่ยวชาญที่สำคัญ (ย่อมาจาก "Programming", "สถิติ" และ "Business" เพื่อความชัดเจน) มีความสำคัญ ... แต่ฉันคิดว่าบทบาทของการสื่อสารก็มีความสำคัญเช่นกัน ข้อมูลเชิงลึกทั้งหมดที่คุณได้รับโดยการใช้ประโยชน์จากการแฮ็คสถิติและความเชี่ยวชาญทางธุรกิจจะไม่สร้างความแตกต่างเว้นแต่คุณจะสามารถสื่อสารกับคนที่อาจไม่มีความรู้ผสมผสาน คุณอาจต้องอธิบายข้อมูลเชิงลึกทางสถิติของคุณให้กับผู้จัดการธุรกิจที่จำเป็นต้องมีความมั่นใจในการใช้จ่ายเงินหรือเปลี่ยนแปลงกระบวนการ หรือโปรแกรมเมอร์ที่ไม่คิดเชิงสถิติ

ดังนั้นนี่คือแผนภาพข้อมูลวิทยาศาสตร์ Venn ใหม่ซึ่งรวมถึงการสื่อสารเป็นส่วนประกอบที่ขาดไม่ได้ ฉันติดป้ายกำกับพื้นที่ด้วยวิธีที่ควรรับประกันการเผาสูงสุดในขณะที่จดจำได้ง่าย

แสดงความคิดเห็นออกไป

ใหม่ข้อมูลวิทยาศาสตร์แผนภาพเวนน์

รหัส R:

draw.ellipse <- function(center,angle,semimajor,semiminor,radius,h,s,v,...) {
    shape <- rbind(c(cos(angle),-sin(angle)),c(sin(angle),cos(angle))) %*% diag(c(semimajor,semiminor))
    tt <- seq(0,2*pi,length.out=1000)
    foo <- matrix(center,nrow=2,ncol=length(tt),byrow=FALSE) + shape%*%(radius*rbind(cos(tt),sin(tt)))
    polygon(foo[1,],foo[2,],col=hsv(h,s,v,alpha=0.5),border="black",...)
}
name <- function(x,y,label,cex=1.2,...) text(x,y,label,cex=cex,...)

png("Venn.png",width=600,height=600)
    opar <- par(mai=c(0,0,0,0),lwd=3,font=2)
        plot(c(0,100),c(0,90),type="n",bty="n",xaxt="n",yaxt="n",xlab="",ylab="")
        draw.ellipse(center=c(30,30),angle=0.75*pi,semimajor=2,semiminor=1,radius=20,h=60/360,s=.068,v=.976)
        draw.ellipse(center=c(70,30),angle=0.25*pi,semimajor=2,semiminor=1,radius=20,h=83/360,s=.482,v=.894)
        draw.ellipse(center=c(48,40),angle=0.7*pi,semimajor=2,semiminor=1,radius=20,h=174/360,s=.397,v=.8)
        draw.ellipse(center=c(52,40),angle=0.3*pi,semimajor=2,semiminor=1,radius=20,h=200/360,s=.774,v=.745)

        name(50,90,"The Data Scientist Venn Diagram",pos=1,cex=2)
        name(8,62,"Communi-\ncation",cex=1.5,pos=3)
        name(30,78,"Statistics",cex=1.5)
        name(70,78,"Programming",cex=1.5)
        name(92,62,"Business",cex=1.5,pos=3)

        name(10,45,"Hot\nAir")
        name(90,45,"The\nAccountant")
        name(33,65,"The\nData\nNerd")
        name(67,65,"The\nHacker")
        name(27,50,"The\nStats\nProf")
        name(73,50,"The\nIT\nGuy")
        name(50,55,"R\nCore\nTeam")
        name(38,38,"The\nGood\nConsultant")
        name(62,38,"Drew\nConway's\nData\nScientist")
        name(50,24,"The\nperfect\nData\nScientist!")
        name(31,18,"Comp\nSci\nProf")
        name(69,18,"The\nNumber\nCruncher")
        name(42,11,"Head\nof IT")
        name(58,11,"Ana-\nlyst")
        name(50,5,"The\nSalesperson")
    par(opar)
dev.off()

1
ฉันถูกนำตัวมาที่นี่โดยโพสต์บล็อกที่อ้างอิงถึงแผนภาพที่อัปเดตของคุณ ฉันคิดว่านี่เป็นการปรับปรุงครั้งใหญ่ในเวอร์ชัน Conway ดั้งเดิมแม้ว่าฉันจะไม่สามารถผ่านความคิดไปได้ - โดยนัยจากขนาดของการทับซ้อน - สถิติ Prof เป็นคนที่มีทักษะเท่าเทียมกันในด้านสถิติและการสื่อสาร
Robert de Graaf

1

แน่นอนว่าคุณสามารถ บริษัท ต่าง ๆ กำลังส่งเสียงข้อมูลนักวิทยาศาสตร์ ระวังแม้ว่าพวกเขาทั้งหมดตีความคำที่แตกต่าง คุณอาจพบว่าตัวเองขอให้ทำอะไรตั้งแต่สถิติไปจนถึงการเขียนรหัสการผลิตทั้งนี้ขึ้นอยู่กับ บริษัท อย่างใดอย่างหนึ่งเป็นงานเต็มเวลาในตัวเองและคุณจะต้องเตรียมพร้อมสำหรับทั้งคู่ดังนั้นการขอความรู้เฉพาะด้านบนที่ไม่สมเหตุสมผลในความคิดของฉันและ บริษัท ที่ฉันได้พูดคุยเพื่อเน้นอีกสองด้าน ( esp. การเขียนโปรแกรม) อย่างไรก็ตามฉันพบว่ามันช่วยให้คุ้นเคยกับประเภทของปัญหาที่คุณอาจเผชิญ ขึ้นอยู่กับภาคส่วนที่อาจเป็นการตรวจจับความผิดปกติการแนะนำ / การตั้งค่าส่วนบุคคลการทำนายการเชื่อมโยงบันทึก ฯลฯ สิ่งเหล่านี้เป็นสิ่งที่คุณสามารถเรียนรู้เป็นตัวอย่างในเวลาเดียวกันกับคณิตศาสตร์และการเขียนโปรแกรม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.