คำถามติดแท็ก beginner

สำหรับคำถามที่เกี่ยวข้องกับการเริ่มต้นใน Data Science หรือโดเมนย่อยที่เกี่ยวข้อง

3
RNN vs CNN ในระดับสูง
ฉันกำลังคิดเกี่ยวกับ Recurring Neural Networks (RNN) และความหลากหลายของพวกเขาและ Convolutional Neural Networks (CNN) และพันธุ์ของพวกเขา สองประเด็นนี้จะยุติธรรมหรือไม่ที่จะพูดว่า: ใช้ CNN เพื่อแยกส่วนประกอบ (เช่นรูปภาพ) ออกเป็นคอมโพเนนต์ย่อย (เช่นวัตถุในภาพเช่นโครงร่างของวัตถุในภาพ ฯลฯ ) ใช้ RNN เพื่อสร้างการรวมกันของคอมโพเนนต์ย่อย (คำบรรยายภาพ, การสร้างข้อความ, การแปลภาษา ฯลฯ ) ฉันจะขอบคุณถ้าใครต้องการชี้ให้เห็นความไม่ถูกต้องใด ๆ ในงบเหล่านี้ เป้าหมายของฉันที่นี่คือการได้รับรากฐานที่ชัดเจนยิ่งขึ้นเกี่ยวกับการใช้ CNN และ RNNs

8
ทำไม บริษัท อินเทอร์เน็ตถึงชอบ Java / Python สำหรับนักวิทยาศาสตร์ข้อมูล?
ฉันเห็นรายละเอียดงานหลายครั้งสำหรับนักวิทยาศาสตร์ข้อมูลที่ขอประสบการณ์ Python / Java และไม่สนใจอาร์ด้านล่างเป็นอีเมลส่วนตัวที่ฉันได้รับจากหัวหน้านักวิทยาศาสตร์ข้อมูลของ บริษัท ที่ฉันสมัครผ่าน LinkedIn X ขอขอบคุณที่เชื่อมต่อและแสดงความสนใจ คุณมีทักษะการวิเคราะห์ที่ดี อย่างไรก็ตามนักวิทยาศาสตร์ด้านข้อมูลของเราทุกคนต้องมีทักษะการเขียนโปรแกรมที่ดีใน Java / Python เนื่องจากเราเป็นองค์กรอินเทอร์เน็ต / มือถือและทุกอย่างที่เราทำออนไลน์อยู่ ในขณะที่ฉันเคารพการตัดสินใจของหัวหน้านักวิทยาศาสตร์ด้านข้อมูล แต่ฉันไม่สามารถเข้าใจได้อย่างชัดเจนว่าอะไรคืองานที่ Python สามารถทำสิ่งที่ R ไม่สามารถทำได้ ใครบ้างที่สามารถใส่ใจในรายละเอียด? จริง ๆ แล้วฉันกระตือรือร้นที่จะเรียนรู้ Python / Java หากฉันได้รับรายละเอียดเพิ่มเติม แก้ไข: ฉันพบการสนทนาที่น่าสนใจเกี่ยวกับ Quora ทำไม Python เป็นภาษาที่ถูกเลือกสำหรับนักวิทยาศาสตร์ด้านข้อมูล? แก้ไข 2: บล็อกจาก Udacity เกี่ยวกับภาษาและไลบรารีสำหรับการเรียนรู้ของเครื่อง

1
ทำไม xgboost จึงเร็วกว่า GradientBoostingClassifier ของ sklearn มาก?
ฉันพยายามที่จะฝึกอบรมการยกระดับความลาดชันของตัวอย่างมากกว่า 50k ด้วยคุณสมบัติตัวเลข 100 ตัว XGBClassifierจัดการ 500 ต้นภายใน 43 วินาทีบนเครื่องของฉันในขณะที่GradientBoostingClassifierจัดการเพียง 10 ต้น (!) ใน 1 นาทีและ 2 วินาที :( ฉันไม่ได้พยายามที่จะเติบโต 500 ต้นเพราะจะใช้เวลาหลายชั่วโมงฉันใช้แบบเดียวกันlearning_rateและmax_depthการตั้งค่า ดูด้านล่าง อะไรทำให้ XGBoost เร็วขึ้นมาก? มันใช้การปรับแต่งแบบใหม่เพื่อส่งเสริมการไล่ระดับสีที่พวก sklearn ไม่รู้หรือไม่? หรือว่า "ตัดมุม" และปลูกต้นไม้ที่ตื้นขึ้น? ป.ล. ฉันตระหนักถึงการสนทนานี้: https://www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyแต่ไม่สามารถหาคำตอบได้ที่นั่น ... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

2
วิธีการจัดการกับอนุกรมเวลาที่เปลี่ยนแปลงในฤดูกาลหรือรูปแบบอื่น ๆ ?
พื้นหลัง ฉันกำลังทำงานเกี่ยวกับชุดข้อมูลเวลาของการอ่านมาตรวัดพลังงาน ความยาวของซีรีย์แตกต่างกันไปตามเมตร - สำหรับบางคนที่ฉันมีหลายปีอื่น ๆ เพียงไม่กี่เดือน ฯลฯ หลายคนแสดงฤดูกาลที่สำคัญและมักจะหลายชั้น - ภายในวันสัปดาห์หรือปี หนึ่งในสิ่งที่ฉันได้ทำคือการจัดกลุ่มของอนุกรมเวลาเหล่านี้ งานของฉันเป็นงานวิชาการในขณะนี้และในขณะที่ฉันทำการวิเคราะห์ข้อมูลอื่น ๆ เช่นกันฉันมีเป้าหมายที่เฉพาะเจาะจงในการทำคลัสเตอร์บางอย่าง ฉันเริ่มงานแรกโดยที่ฉันคำนวณคุณสมบัติต่าง ๆ (เปอร์เซ็นต์ที่ใช้ในวันหยุดสุดสัปดาห์กับวันทำงานเปอร์เซ็นต์ที่ใช้ในช่วงเวลาต่าง ๆ เป็นต้น) จากนั้นฉันก็ไปดูที่การใช้ Dynamic Time Warping (DTW) เพื่อให้ได้ระยะห่างระหว่างซีรีย์ที่แตกต่างกันและการจัดกลุ่มตามค่าที่แตกต่างกันและฉันก็พบเอกสารหลายฉบับที่เกี่ยวข้องกับเรื่องนี้ คำถาม การเปลี่ยนแปลงตามฤดูกาลในซีรีส์ที่ระบุจะทำให้การจัดกลุ่มของฉันไม่ถูกต้องหรือไม่ และถ้าเป็นเช่นนั้นฉันจะจัดการกับมันได้อย่างไร ความกังวลของฉันคือระยะทางที่ได้รับจาก DTW อาจทำให้เข้าใจผิดในกรณีที่รูปแบบในอนุกรมเวลาเปลี่ยนไป สิ่งนี้อาจนำไปสู่การทำคลัสเตอร์ที่ไม่ถูกต้อง ในกรณีที่ข้างต้นไม่ชัดเจนให้พิจารณาตัวอย่างเหล่านี้: ตัวอย่างที่ 1 มาตรวัดมีการอ่านค่าต่ำตั้งแต่เที่ยงคืนจนถึง 8 โมงเช้าการอ่านเพิ่มขึ้นอย่างรวดเร็วในชั่วโมงถัดไปและอยู่สูงจาก 9.00 น. ถึง 17.00 น. จากนั้นลดลงอย่างรวดเร็วในชั่วโมงถัดไปจากนั้นพักต่ำจาก 18.00 น. จนถึงเที่ยงคืน มิเตอร์ยังคงรูปแบบนี้อย่างต่อเนื่องทุกวันเป็นเวลาหลายเดือน แต่จากนั้นเปลี่ยนเป็นรูปแบบที่การอ่านอยู่ในระดับสม่ำเสมอตลอดทั้งวัน …

3
การแยกคำหลัก / วลีจากข้อความโดยใช้ห้องสมุดการเรียนรู้ลึก
บางทีนี่อาจจะกว้างเกินไป แต่ฉันกำลังมองหาข้อมูลอ้างอิงเกี่ยวกับวิธีใช้การเรียนรู้อย่างลึกซึ้งในงานการสรุปข้อความ ฉันได้ใช้การสรุปข้อความโดยใช้วิธีการหาคำแบบมาตรฐานและการจัดอันดับประโยค แต่ฉันต้องการสำรวจความเป็นไปได้ของการใช้เทคนิคการเรียนรู้เชิงลึกสำหรับงานนี้ ฉันได้ผ่านการใช้งานบางอย่างที่ให้ไว้ในwildml.comโดยใช้ Convolutional Neural Networks (CNN) สำหรับการวิเคราะห์ความเชื่อมั่น ฉันต้องการทราบวิธีใช้ไลบรารีเช่น TensorFlow หรือ Theano สำหรับการสรุปข้อความและการแยกคำหลัก เป็นเวลาประมาณหนึ่งสัปดาห์แล้วที่ฉันเริ่มทดลองกับ Neural nets และฉันตื่นเต้นมากที่เห็นว่าประสิทธิภาพของห้องสมุดเหล่านี้เปรียบเทียบกับวิธีก่อนหน้าของฉันกับปัญหานี้อย่างไร ฉันกำลังมองหาเอกสารที่น่าสนใจและโครงการ GitHub ที่เกี่ยวข้องกับการสรุปข้อความโดยเฉพาะอย่างยิ่งโดยใช้กรอบงานเหล่านี้ ใครช่วยให้ฉันมีการอ้างอิงบางอย่าง?

3
จะเรียนรู้วิทยาศาสตร์ข้อมูลด้วยตนเองได้อย่างไร? [ปิด]
ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน4 ปีที่แล้ว ฉันเป็นนักพัฒนาเว็บที่เรียนรู้ด้วยตนเองและสนใจที่จะสอนตัวเองด้านวิทยาศาสตร์ข้อมูล แต่ฉันไม่แน่ใจว่าจะเริ่มอย่างไร โดยเฉพาะอย่างยิ่งฉันสงสัยว่า: มีสาขาใดบ้างในวิทยาศาสตร์ข้อมูล (เช่นปัญญาประดิษฐ์, การเรียนรู้ของเครื่อง, การวิเคราะห์ข้อมูล ฯลฯ ) มีคลาสเรียนออนไลน์ที่ผู้คนสามารถแนะนำได้หรือไม่? มีโปรเจ็กต์ที่ฉันสามารถฝึกฝนได้หรือไม่ (เช่นชุดข้อมูลแบบเปิด) มีใบรับรองที่ฉันสามารถสมัครหรือกรอกได้หรือไม่?

5
โครงการวิทยาศาสตร์ข้อมูลโอเพ่นซอร์สที่จะสนับสนุน
การมีส่วนร่วมในโครงการโอเพ่นซอร์สนั้นเป็นวิธีที่ดีในการฝึกหัดสำหรับมือใหม่และลองใช้พื้นที่ใหม่สำหรับนักวิทยาศาสตร์และนักวิเคราะห์ข้อมูลที่มีประสบการณ์ คุณมีส่วนร่วมในโครงการใด โปรดระบุลิงก์แนะนำ + บางส่วนใน Github

2
วิทยาศาสตร์ข้อมูลที่ไม่มีความรู้ในหัวข้อที่เฉพาะเจาะจงมันคุ้มค่าที่จะใฝ่หาอาชีพหรือไม่? [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัพเดตคำถามเพื่อให้เป็นหัวข้อสำหรับ Data Science Stack Exchange ปิดให้บริการใน5 ปีที่ผ่านมา ฉันได้สนทนากับบางคนเมื่อเร็ว ๆ นี้และพูดถึงความสนใจในการวิเคราะห์ข้อมูลและฉันตั้งใจจะเรียนรู้ทักษะและเครื่องมือที่จำเป็น พวกเขาแนะนำให้ฉันรู้ว่าในขณะที่มันยอดเยี่ยมในการเรียนรู้เครื่องมือและสร้างทักษะมีจุดเล็ก ๆ น้อย ๆ ในการทำเช่นนั้นเว้นแต่ว่าฉันมีความรู้เฉพาะด้านในสาขาเฉพาะ โดยพื้นฐานแล้วพวกเขาสรุปว่าฉันเป็นเหมือนช่างก่อสร้างที่มีเครื่องมือมากมายที่สามารถสร้างกล่องไม้สองสามกล่องและอาจสร้างสิ่งที่ดีกว่า (ห้องโดยสารตู้เก็บของ ฯลฯ ) แต่ไม่มีความรู้ในสาขาเฉพาะที่ฉันไม่เคยทำ เป็นคนสร้างจะมาสำหรับผลิตภัณฑ์เฉพาะ มีใครพบสิ่งนี้หรือมีข้อมูลใด ๆ เกี่ยวกับสิ่งนี้ มันจะดูเหมือนว่ามันเป็นเรื่องจริงที่จะต้องเรียนรู้ด้านวิทยาศาสตร์ข้อมูลของสิ่งต่าง ๆ แล้วเรียนรู้สาขาใหม่เพียงเพื่อจะกลายเป็นผู้เชี่ยวชาญ

7
ฉันเป็นโปรแกรมเมอร์ฉันจะเข้าสู่สาขาวิทยาศาสตร์ข้อมูลได้อย่างไร
ก่อนอื่นคำนี้ฟังดูคลุมเครือมาก อย่างไรก็ตาม .. ฉันเป็นโปรแกรมเมอร์ซอฟต์แวร์ หนึ่งในภาษาที่ฉันสามารถใช้รหัสคือ Python การพูดของข้อมูลฉันสามารถใช้ SQL และสามารถทำ Data Scraping ได้ สิ่งที่ฉันรู้หลังจากอ่านบทความมากมายที่วิทยาศาสตร์ข้อมูลเป็นเรื่องที่ดีที่: 1- สถิติ 2- พีชคณิต 3- การวิเคราะห์ข้อมูล 4- การสร้างภาพ 5- การเรียนรู้ของเครื่อง สิ่งที่ฉันรู้จนถึงตอนนี้: 1- การเขียนโปรแกรม Python 2- การทิ้งข้อมูลใน Python ผู้เชี่ยวชาญช่วยแนะนำฉันหรือแนะนำแผนงานเพื่อปัดกวาดทั้งทฤษฎีและการปฏิบัติได้หรือไม่? ฉันให้เวลากับตัวเองประมาณ 8 เดือน
13 beginner  career 

3
การจำแนกข้อความที่ไม่มีโครงสร้าง
ฉันจะจัดประเภทเอกสารข้อความที่ไม่มีโครงสร้างนั่นคือเว็บไซต์ที่มีโครงสร้างที่ไม่รู้จัก จำนวนชั้นเรียนที่ฉันกำลังจำแนกมี จำกัด (ณ จุดนี้ฉันเชื่อว่ามีไม่เกินสาม) ใครบ้างมีข้อเสนอแนะสำหรับวิธีฉันอาจเริ่มต้น? "คำพูด" เป็นไปได้หรือไม่? หลังจากนั้นฉันสามารถเพิ่มขั้นตอนการจัดหมวดหมู่อื่นตามโครงสร้างของเอกสาร (อาจเป็นแผนผังการตัดสินใจ) ฉันค่อนข้างคุ้นเคยกับ Mahout และ Hadoop ดังนั้นฉันจึงชอบโซลูชันที่ใช้ Java หากจำเป็นฉันสามารถเปลี่ยนเป็น Scala และ / หรือ Spark engine (ห้องสมุด ML)

4
ฉันควรใช้ขั้นตอนเริ่มต้นใดเพื่อให้เข้าใจถึงชุดข้อมูลขนาดใหญ่และฉันควรใช้เครื่องมือใด
Caveat: ฉันเป็นผู้เริ่มต้นที่สมบูรณ์เมื่อพูดถึงการเรียนรู้ด้วยเครื่องจักร แต่กระตือรือร้นที่จะเรียนรู้ ฉันมีชุดข้อมูลขนาดใหญ่และฉันพยายามค้นหารูปแบบในนั้น อาจมี / อาจไม่มีความสัมพันธ์ข้ามข้อมูลไม่ว่าจะเป็นตัวแปรที่รู้จักหรือตัวแปรที่มีอยู่ในข้อมูล แต่ที่ฉันยังไม่ได้ตระหนักคือตัวแปร / เกี่ยวข้องจริง ๆ ฉันเดาว่านี่จะเป็นปัญหาที่คุ้นเคยในโลกของการวิเคราะห์ข้อมูลดังนั้นฉันจึงมีคำถามสองสามข้อ: 'กระสุนเงิน' จะทำให้ข้อมูลทั้งหมดนี้เป็นโปรแกรมวิเคราะห์สถิติ / ข้อมูลและเพื่อบีบอัดข้อมูลที่มองหารูปแบบที่เป็นที่รู้จัก / ไม่รู้จักซึ่งพยายามค้นหาความสัมพันธ์ SPSS เหมาะสมหรือมีแอปพลิเคชันอื่นซึ่งอาจเหมาะสมกว่า ฉันควรเรียนรู้ภาษาเช่น R และหาวิธีการประมวลผลข้อมูลด้วยตนเอง สิ่งนี้จะไม่ประกอบด้วยการค้นหาความสัมพันธ์เพราะฉันจะต้องระบุสิ่งที่และวิธีการวิเคราะห์ข้อมูลด้วยตนเอง? นักขุดข้อมูลมืออาชีพจะเข้าถึงปัญหานี้ได้อย่างไรและขั้นตอนใดที่เขา / เธอต้องทำ?

1
คุณต้องทำให้ข้อมูลเป็นมาตรฐานเมื่อสร้างต้นไม้ตัดสินใจโดยใช้ R หรือไม่?
ดังนั้นชุดข้อมูลของเราในสัปดาห์นี้มี 14 แอตทริบิวต์และแต่ละคอลัมน์มีค่าแตกต่างกันมาก คอลัมน์หนึ่งมีค่าต่ำกว่า 1 ในขณะที่อีกคอลัมน์หนึ่งมีค่าที่เปลี่ยนจากตัวเลขสามหลักเป็นสี่หลัก เราเรียนรู้การทำให้เป็นมาตรฐานในสัปดาห์ที่แล้วและดูเหมือนว่าคุณควรจะทำให้ข้อมูลเป็นมาตรฐานเมื่อพวกเขามีค่าแตกต่างกันมาก สำหรับต้นไม้ตัดสินใจมันเหมือนกันหรือไม่? ฉันไม่แน่ใจเกี่ยวกับเรื่องนี้ แต่การทำข้อมูลให้เป็นมาตรฐานจะส่งผลต่อโครงสร้างการตัดสินใจที่เกิดจากชุดข้อมูลเดียวกันหรือไม่ ดูเหมือนไม่ควร แต่ ...
10 r  beginner 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.