คำถามติดแท็ก bigdata

Big data เป็นคำศัพท์สำหรับการรวบรวมชุดข้อมูลที่มีขนาดใหญ่และซับซ้อนจนยากที่จะประมวลผลโดยใช้เครื่องมือการจัดการฐานข้อมูลหรือแอปพลิเคชันการประมวลผลข้อมูลแบบดั้งเดิม ความท้าทายรวมถึงการจับ, การจัดการ, การจัดเก็บ, การค้นหา, การแบ่งปัน, การถ่ายโอน, การวิเคราะห์และการสร้างภาพ

12
ข้อมูลขนาดใหญ่มีขนาดใหญ่เพียงใด
ผู้คนจำนวนมากใช้คำว่าบิ๊กดาต้าในทางที่ค่อนข้างเป็นเชิงพาณิชย์ซึ่งเป็นวิธีการระบุว่าชุดข้อมูลขนาดใหญ่เกี่ยวข้องกับการคำนวณและดังนั้นวิธีแก้ปัญหาที่เป็นไปได้จะต้องมีประสิทธิภาพที่ดี แน่นอนว่าข้อมูลขนาดใหญ่มักจะดำเนินการข้อตกลงที่เกี่ยวข้องเช่นความยืดหยุ่นและมีประสิทธิภาพ แต่สิ่งที่กำหนดปัญหาเป็นฐานข้อมูลขนาดใหญ่ปัญหา? การคำนวณต้องเกี่ยวข้องกับชุดของวัตถุประสงค์เฉพาะเช่นการขุดข้อมูล / การดึงข้อมูลหรืออัลกอริทึมสำหรับปัญหากราฟทั่วไปจะมีป้ายกำกับข้อมูลขนาดใหญ่หรือไม่ถ้าชุดข้อมูลมีขนาดใหญ่เพียงพอหรือไม่ นอกจากนี้วิธีการที่มีขนาดใหญ่เป็นขนาดใหญ่พอ (ถ้าเป็นไปได้ที่จะกำหนด)?

9
ภาษา R เหมาะสำหรับ Big Data หรือไม่
R มีห้องสมุดหลายแห่งที่มุ่งเน้นการวิเคราะห์ข้อมูล (เช่น JAGS, BUGS, ARULES และอื่น ๆ ) และถูกกล่าวถึงในหนังสือเรียนที่ได้รับความนิยมเช่น: J.Krusche, การวิเคราะห์ข้อมูลแบบเบย์ B. Lantz, "การเรียนรู้ของเครื่องจักรด้วย R" ฉันเห็นแนวทาง 5TB สำหรับชุดข้อมูลที่ถือว่าเป็นข้อมูลขนาดใหญ่ คำถามของฉันคือ R เหมาะสมกับปริมาณข้อมูลที่มักพบในปัญหา Big Data หรือไม่? มีกลยุทธ์ที่จะใช้เมื่อใช้ R กับชุดข้อมูลขนาดนี้หรือไม่?
48 bigdata  r 

9
วิธีจัดการกับการควบคุมเวอร์ชันของข้อมูล (ไบนารี) จำนวนมาก
ฉันเป็นนักศึกษาปริญญาเอกสาขาธรณีฟิสิกส์และทำงานกับข้อมูลภาพจำนวนมาก (หลายร้อย GB, ไฟล์นับหมื่น) ฉันรู้svnและgitค่อนข้างดีและให้คุณค่ากับประวัติโครงการรวมกับความสามารถในการทำงานร่วมกันได้อย่างง่ายดายและมีการป้องกันความเสียหายของดิสก์ ฉันพบว่าgitมีประโยชน์อย่างมากสำหรับการสำรองข้อมูลที่สอดคล้องกัน แต่ฉันรู้ว่า git ไม่สามารถจัดการข้อมูลไบนารีจำนวนมากได้อย่างมีประสิทธิภาพ ในการศึกษาระดับปริญญาโทของฉันฉันทำงานกับชุดข้อมูลที่มีขนาดใกล้เคียงกัน (รวมถึงรูปภาพ) และมีปัญหามากมายในการติดตามเวอร์ชันต่าง ๆ บนเซิร์ฟเวอร์ / อุปกรณ์ที่แตกต่างกัน การกระจาย 100GB ผ่านเครือข่ายไม่สนุกและทำให้ฉันเสียเวลาและความพยายาม ฉันรู้ว่าคนอื่น ๆ ในสาขาวิทยาศาสตร์ดูเหมือนจะมีปัญหาคล้ายกัน แต่ฉันไม่สามารถหาทางออกที่ดีได้ ฉันต้องการใช้สิ่งอำนวยความสะดวกในการจัดเก็บของสถาบันของฉันดังนั้นฉันต้องการสิ่งที่สามารถใช้เซิร์ฟเวอร์ "โง่" ฉันยังต้องการสำรองข้อมูลเพิ่มเติมในฮาร์ดดิสก์แบบพกพาเพราะฉันต้องการหลีกเลี่ยงการถ่ายโอนหลายร้อย GB ผ่านเครือข่ายทุกที่ที่ทำได้ ดังนั้นฉันต้องการเครื่องมือที่สามารถจัดการมากกว่าหนึ่งตำแหน่งระยะไกล สุดท้ายฉันต้องการสิ่งที่นักวิจัยคนอื่นสามารถใช้ได้ดังนั้นมันไม่จำเป็นต้องง่ายสุด ๆ แต่ควรจะเรียนรู้ได้ในเวลาไม่กี่ชั่วโมง ฉันได้ประเมินโซลูชั่นที่แตกต่างกันมากมาย แต่ดูเหมือนว่าไม่มีใครเหมาะสมกับค่าใช้จ่าย: svnค่อนข้างไม่มีประสิทธิภาพและต้องการสมาร์ทเซิร์ฟเวอร์ hg bigfile / largefileสามารถใช้รีโมตเดียวได้ git bigfile / mediaสามารถใช้รีโมตเดียวได้ แต่ก็ไม่ได้มีประสิทธิภาพมากนัก ห้องใต้หลังคาดูเหมือนจะไม่มีบันทึกหรือความสามารถที่แตกต่างกัน bupดูดีมาก แต่ต้องการเซิร์ฟเวอร์ "สมาร์ท" ให้ใช้งานได้ ฉันได้ลองgit-annexแล้วซึ่งทำทุกอย่างที่ฉันต้องการเพื่อทำ …

11
ข้อมูลวิทยาศาสตร์ใน C (หรือ C ++)
ฉันเป็นRโปรแกรมเมอร์ภาษา ฉันยังอยู่ในกลุ่มคนที่ถือว่าเป็นนักวิทยาศาสตร์ด้านข้อมูล แต่มาจากสาขาวิชาการที่ไม่ใช่ CS สิ่งนี้ทำงานได้ดีในบทบาทของฉันในฐานะนักวิทยาศาสตร์ข้อมูล แต่ด้วยการเริ่มต้นอาชีพของฉันRและมีความรู้พื้นฐานเกี่ยวกับภาษาสคริปต์ / เว็บภาษาอื่น ๆ ฉันรู้สึกไม่เพียงพอใน 2 ประเด็นสำคัญ: ขาดความรู้ที่เป็นของแข็งเกี่ยวกับทฤษฎีการเขียนโปรแกรม ขาดระดับการแข่งขันของทักษะในภาษาได้เร็วขึ้นและกว้างขวางมากขึ้นมาใช้เช่นC, C++และJavaซึ่งสามารถนำมาใช้ในการเพิ่มความเร็วของท่อและข้อมูลขนาดใหญ่การคำนวณเช่นเดียวกับการสร้าง DS / ผลิตภัณฑ์ข้อมูลซึ่งสามารถได้รับการพัฒนามากขึ้นอย่างรวดเร็วเข้าไปอย่างรวดเร็ว สคริปต์แบ็คเอนด์หรือแอพพลิเคชันแบบสแตนด์อโลน วิธีแก้ปัญหานั้นง่ายมาก - ไปเรียนรู้เกี่ยวกับการเขียนโปรแกรมซึ่งเป็นสิ่งที่ฉันทำโดยลงทะเบียนในบางคลาส (ปัจจุบันคือการเขียนโปรแกรม C) อย่างไรก็ตามตอนนี้ฉันเริ่มที่จะแก้ไขปัญหาที่ # 1 และ # 2 ข้างต้นแล้วฉันก็ถามตัวเองว่า " ภาษาเป็นอย่างไรCและC++วิทยาศาสตร์ข้อมูลเป็นอย่างไร? " ตัวอย่างเช่นฉันสามารถย้ายข้อมูลไปมาอย่างรวดเร็วและโต้ตอบกับผู้ใช้ได้ดี แต่สิ่งที่เกี่ยวกับการถดถอยขั้นสูงการเรียนรู้ของเครื่องการทำเหมืองข้อความและการดำเนินการทางสถิติขั้นสูงอื่น ๆ ดังนั้น. สามารถCทำงานได้ - มีเครื่องมืออะไรบ้างสำหรับสถิติขั้นสูง ML, AI และสาขาอื่น ๆ ของ Data Science หรือฉันต้องหลวมประสิทธิภาพส่วนใหญ่ที่ได้จากการเขียนโปรแกรมCด้วยการโทรหาRสคริปต์หรือภาษาอื่น ๆ …

9
ฉันต้องเรียนรู้ Hadoop เพื่อเป็นนักวิทยาศาสตร์ข้อมูลหรือไม่?
นักวิทยาศาสตร์ข้อมูลที่ต้องการที่นี่ ฉันไม่รู้อะไรเกี่ยวกับ Hadoop แต่เมื่อฉันได้อ่านเกี่ยวกับ Data Science และ Big Data ฉันเห็นการพูดคุยมากมายเกี่ยวกับ Hadoop จำเป็นหรือไม่ที่จะต้องเรียนรู้ Hadoop เพื่อเป็นนักวิทยาศาสตร์ข้อมูล?

5
การเปิดไฟล์ 20GB สำหรับการวิเคราะห์ด้วยแพนด้า
ฉันกำลังพยายามเปิดไฟล์ที่มี pandas และ python เพื่อการเรียนรู้ของเครื่องมันจะเหมาะสำหรับฉันที่จะมีพวกเขาทั้งหมดใน DataFrame ตอนนี้ไฟล์มีขนาดใหญ่ 18GB และ RAM ของฉันคือ 32 GB แต่ฉันยังคงได้รับข้อผิดพลาดของหน่วยความจำ จากประสบการณ์ของคุณเป็นไปได้ไหม ถ้าคุณไม่ทราบวิธีที่ดีกว่าที่จะไปรอบ ๆ นี้? (ตารางรังผึ้งเพิ่มขนาด RAM ของฉันเป็น 64 สร้างฐานข้อมูลและเข้าถึงจากงูหลาม)

1
ทำไม xgboost จึงเร็วกว่า GradientBoostingClassifier ของ sklearn มาก?
ฉันพยายามที่จะฝึกอบรมการยกระดับความลาดชันของตัวอย่างมากกว่า 50k ด้วยคุณสมบัติตัวเลข 100 ตัว XGBClassifierจัดการ 500 ต้นภายใน 43 วินาทีบนเครื่องของฉันในขณะที่GradientBoostingClassifierจัดการเพียง 10 ต้น (!) ใน 1 นาทีและ 2 วินาที :( ฉันไม่ได้พยายามที่จะเติบโต 500 ต้นเพราะจะใช้เวลาหลายชั่วโมงฉันใช้แบบเดียวกันlearning_rateและmax_depthการตั้งค่า ดูด้านล่าง อะไรทำให้ XGBoost เร็วขึ้นมาก? มันใช้การปรับแต่งแบบใหม่เพื่อส่งเสริมการไล่ระดับสีที่พวก sklearn ไม่รู้หรือไม่? หรือว่า "ตัดมุม" และปลูกต้นไม้ที่ตื้นขึ้น? ป.ล. ฉันตระหนักถึงการสนทนานี้: https://www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyแต่ไม่สามารถหาคำตอบได้ที่นั่น ... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

6
SVD และ PCA มีข้อมูลขนาดใหญ่ได้อย่างไร
ฉันมีชุดข้อมูลขนาดใหญ่ (ประมาณ 8GB) ฉันต้องการใช้การเรียนรู้ของเครื่องเพื่อวิเคราะห์ ดังนั้นฉันคิดว่าฉันควรใช้ SVD แล้ว PCA เพื่อลดมิติข้อมูลเพื่อประสิทธิภาพ อย่างไรก็ตาม MATLAB และ Octave ไม่สามารถโหลดชุดข้อมูลขนาดใหญ่ดังกล่าวได้ เครื่องมือใดที่ฉันสามารถใช้เพื่อทำ SVD ด้วยข้อมูลจำนวนมาก

3
แนวคิดโครงงานวิทยาศาสตร์ข้อมูล [ปิด]
ปิด คำถามนี้เป็นคำถามความคิดเห็นตาม ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้สามารถตอบข้อเท็จจริงและการอ้างอิงได้โดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา ฉันไม่รู้ว่านี่เป็นสถานที่ที่เหมาะสมที่จะถามคำถามนี้หรือไม่ แต่ชุมชนที่อุทิศให้กับ Data Science ควรเป็นสถานที่ที่เหมาะสมที่สุดในความคิดของฉัน ฉันเพิ่งเริ่มต้นด้วยวิทยาศาสตร์ข้อมูลและการเรียนรู้ของเครื่อง ฉันกำลังมองหาแนวคิดโครงการระยะยาวที่ฉันสามารถทำงานได้เช่น 8 เดือน การผสมผสานระหว่างวิทยาศาสตร์ข้อมูลและการเรียนรู้ของเครื่องจักรจะยอดเยี่ยม โครงการใหญ่พอที่จะช่วยให้ฉันเข้าใจแนวคิดหลักและนำไปใช้ในเวลาเดียวกันจะเป็นประโยชน์อย่างมาก

4
ปรับปรุงความเร็วของการนำ t-sne ไปใช้ในไพ ธ อนสำหรับข้อมูลขนาดใหญ่
ฉันอยากจะลดมิติข้อมูลลงบนเวกเตอร์เกือบ 1 ล้านตัวที่มี 200 มิติ ( doc2vec) ฉันใช้TSNEการใช้งานจากsklearn.manifoldโมดูลสำหรับมันและปัญหาที่สำคัญคือความซับซ้อนของเวลา ถึงแม้จะมีmethod = barnes_hutความเร็วในการคำนวณยังต่ำ บางครั้งถึงแม้หน่วยความจำจะหมด ฉันใช้งานบนโปรเซสเซอร์ 48 คอร์ที่มี RAM 130G มีวิธีเรียกใช้แบบขนานหรือใช้ประโยชน์จากทรัพยากรที่มีอยู่มากมายเพื่อเร่งกระบวนการให้เร็วขึ้น

2
ใช้ liblinear กับข้อมูลขนาดใหญ่สำหรับการวิเคราะห์ความหมาย
ฉันใช้Libsvmเพื่อฝึกอบรมข้อมูลและทำนายการจำแนกปัญหาการวิเคราะห์ความหมาย แต่มันก็มีผลการดำเนินงานปัญหากับข้อมูลขนาดใหญ่เนื่องจากความกังวลเกี่ยวกับการวิเคราะห์ความหมายn มิติปัญหา เมื่อปีที่แล้วLiblinearได้เปิดตัวและสามารถแก้ไขปัญหาคอขวดของประสิทธิภาพได้ แต่มันก็มีค่าใช้จ่ายมากเกินไปหน่วยความจำ คือMapReduceวิธีเดียวที่จะแก้ปัญหาการวิเคราะห์ความหมายเกี่ยวกับข้อมูลขนาดใหญ่? หรือมีวิธีอื่นใดที่สามารถปรับปรุงคอขวดของหน่วยความจำบนLiblinear ได้หรือไม่?

5
ทำให้แผนที่ความร้อนของทะเลใหญ่ขึ้น
ฉันสร้างcorr()df จาก df ดั้งเดิม corr()DF ออก 70 X 70 มาและมันเป็นไปไม่ได้ที่จะเห็นภาพ heatmap ส sns.heatmap(df)... ถ้าฉันพยายามที่จะแสดงcorr = df.corr()ตารางที่ไม่พอดีกับหน้าจอและฉันสามารถดูความสัมพันธ์ทั้งหมด มันเป็นวิธีที่จะพิมพ์ทั้งdfโดยไม่คำนึงถึงขนาดของมันหรือเพื่อควบคุมขนาดของ heatmap หรือไม่?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

3
การใช้ฐานข้อมูล NoSQL ในศาสตร์ข้อมูล
สามารถใช้ฐานข้อมูลNoSQLอย่างMongoDBในการวิเคราะห์ข้อมูลได้อย่างไร คุณสมบัติอะไรบ้างที่สามารถทำการวิเคราะห์ข้อมูลได้เร็วขึ้นและมีประสิทธิภาพ
16 bigdata  nosql  mongodb 

4
กำลังมองหาตัวอย่างโครงสร้างพื้นฐานสแต็ค / เวิร์กโฟลว์ / ท่อ
ฉันพยายามที่จะเข้าใจว่าส่วนประกอบ "ข้อมูลขนาดใหญ่" เล่นร่วมกันอย่างไรในกรณีการใช้งานจริงเช่น hadoop, monogodb / nosql, storm, kafka, ... ฉันรู้ว่านี่เป็นเครื่องมือที่ใช้สำหรับ ประเภทต่าง ๆ แต่ฉันต้องการรับทราบเพิ่มเติมเกี่ยวกับการโต้ตอบในแอปพลิเคชันเช่นการเรียนรู้ด้วยเครื่องสำหรับแอพพลิเคชั่นเว็บแอพร้านค้าออนไลน์ ฉันมี vistor / session, data transaction ฯลฯ และเก็บไว้; แต่ถ้าฉันต้องการที่จะให้คำแนะนำได้ทันทีฉันไม่สามารถเรียกใช้แผนที่ช้า / ลดงานสำหรับฐานข้อมูลขนาดใหญ่ของบันทึกที่ฉันมี ฉันจะเรียนรู้เพิ่มเติมเกี่ยวกับโครงสร้างพื้นฐานได้ที่ไหน ฉันคิดว่าฉันสามารถใช้เครื่องมือส่วนใหญ่ด้วยตนเองได้ แต่การเสียบเข้าด้วยกันดูเหมือนว่าจะเป็นศิลปะของมันเอง มีตัวอย่างสาธารณะ / กรณีใช้งานอื่น ๆ หรือไม่ ฉันเข้าใจว่าแต่ละท่อขึ้นอยู่กับกรณีการใช้งานและผู้ใช้เป็นอย่างมาก แต่เพียงตัวอย่างอาจจะเป็นประโยชน์กับฉัน

3
p-values ​​หลอกลวงเมื่อใด
เงื่อนไขข้อมูลที่เราควรระวังคืออะไรค่า p อาจไม่ใช่วิธีที่ดีที่สุดในการตัดสินใจนัยสำคัญทางสถิติ มีปัญหาประเภทใดบ้างที่เข้าหมวดนี้หรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.