วิทยาศาสตร์ข้อมูล efficiency

12

ผู้คนจำนวนมากใช้คำว่าบิ๊กดาต้าในทางที่ค่อนข้างเป็นเชิงพาณิชย์ซึ่งเป็นวิธีการระบุว่าชุดข้อมูลขนาดใหญ่เกี่ยวข้องกับการคำนวณและดังนั้นวิธีแก้ปัญหาที่เป็นไปได้จะต้องมีประสิทธิภาพที่ดี แน่นอนว่าข้อมูลขนาดใหญ่มักจะดำเนินการข้อตกลงที่เกี่ยวข้องเช่นความยืดหยุ่นและมีประสิทธิภาพ แต่สิ่งที่กำหนดปัญหาเป็นฐานข้อมูลขนาดใหญ่ปัญหา? การคำนวณต้องเกี่ยวข้องกับชุดของวัตถุประสงค์เฉพาะเช่นการขุดข้อมูล / การดึงข้อมูลหรืออัลกอริทึมสำหรับปัญหากราฟทั่วไปจะมีป้ายกำกับข้อมูลขนาดใหญ่หรือไม่ถ้าชุดข้อมูลมีขนาดใหญ่เพียงพอหรือไม่ นอกจากนี้วิธีการที่มีขนาดใหญ่เป็นขนาดใหญ่พอ (ถ้าเป็นไปได้ที่จะกำหนด)?

86 bigdata scalability efficiency performance

5

เมื่อเป็นรุ่น Underfitted?

ลอจิกมักจะระบุว่าโดยการสร้างโมเดลความสามารถในการสรุปทั่วไปนั้นเพิ่มขึ้น ที่กล่าวว่าอย่างชัดเจนในบางจุดที่อยู่ภายใต้แบบจำลองทำให้แบบจำลองแย่ลงโดยไม่คำนึงถึงความซับซ้อนของข้อมูล คุณจะรู้ได้อย่างไรว่าแบบจำลองของคุณมีสมดุลที่ถูกต้องและไม่รองรับข้อมูลที่โมเดลต้องการ? หมายเหตุ:นี่คือการติดตามคำถามของฉัน " ทำไม Overfitting Bad "

56 efficiency algorithms parameter

5

ทำให้แผนที่ความร้อนของทะเลใหญ่ขึ้น

ฉันสร้างcorr()df จาก df ดั้งเดิม corr()DF ออก 70 X 70 มาและมันเป็นไปไม่ได้ที่จะเห็นภาพ heatmap ส sns.heatmap(df)... ถ้าฉันพยายามที่จะแสดงcorr = df.corr()ตารางที่ไม่พอดีกับหน้าจอและฉันสามารถดูความสัมพันธ์ทั้งหมด มันเป็นวิธีที่จะพิมพ์ทั้งdfโดยไม่คำนึงถึงขนาดของมันหรือเพื่อควบคุมขนาดของ heatmap หรือไม่?

17 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

4

กำลังมองหาตัวอย่างโครงสร้างพื้นฐานสแต็ค / เวิร์กโฟลว์ / ท่อ

ฉันพยายามที่จะเข้าใจว่าส่วนประกอบ "ข้อมูลขนาดใหญ่" เล่นร่วมกันอย่างไรในกรณีการใช้งานจริงเช่น hadoop, monogodb / nosql, storm, kafka, ... ฉันรู้ว่านี่เป็นเครื่องมือที่ใช้สำหรับ ประเภทต่าง ๆ แต่ฉันต้องการรับทราบเพิ่มเติมเกี่ยวกับการโต้ตอบในแอปพลิเคชันเช่นการเรียนรู้ด้วยเครื่องสำหรับแอพพลิเคชั่นเว็บแอพร้านค้าออนไลน์ ฉันมี vistor / session, data transaction ฯลฯ และเก็บไว้; แต่ถ้าฉันต้องการที่จะให้คำแนะนำได้ทันทีฉันไม่สามารถเรียกใช้แผนที่ช้า / ลดงานสำหรับฐานข้อมูลขนาดใหญ่ของบันทึกที่ฉันมี ฉันจะเรียนรู้เพิ่มเติมเกี่ยวกับโครงสร้างพื้นฐานได้ที่ไหน ฉันคิดว่าฉันสามารถใช้เครื่องมือส่วนใหญ่ด้วยตนเองได้ แต่การเสียบเข้าด้วยกันดูเหมือนว่าจะเป็นศิลปะของมันเอง มีตัวอย่างสาธารณะ / กรณีใช้งานอื่น ๆ หรือไม่ ฉันเข้าใจว่าแต่ละท่อขึ้นอยู่กับกรณีการใช้งานและผู้ใช้เป็นอย่างมาก แต่เพียงตัวอย่างอาจจะเป็นประโยชน์กับฉัน

14 machine-learning bigdata efficiency scalability distributed

1

XGBRegressor vs. xgboost.train ความแตกต่างความเร็วสูงหรือไม่?

ถ้าฉันฝึกโมเดลของฉันโดยใช้รหัสต่อไปนี้: import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) มันเสร็จในเวลาประมาณ 1 นาที ถ้าฉันฝึกโมเดลของฉันโดยใช้วิธีการเรียนรู้ Sci-Kit: import xgboost as xg max_depth = 3 min_child_weight = 10 subsample = 0.5 colsample_bytree = …

13 machine-learning python decision-trees xgboost efficiency

2

การแลกเปลี่ยนระหว่าง Storm และ Hadoop (MapReduce)

ใครบางคนกรุณาบอกฉันเกี่ยวกับการแลกเปลี่ยนที่เกี่ยวข้องเมื่อเลือกระหว่าง Storm และ MapReduce ใน Hadoop Cluster สำหรับการประมวลผลข้อมูล แน่นอนนอกเหนือจากที่เห็นได้ชัดว่า Hadoop (การประมวลผลผ่าน MapReduce ใน Hadoop Cluster) เป็นระบบการประมวลผลแบบชุดและ Storm เป็นระบบการประมวลผลแบบเรียลไทม์ ฉันทำงานกับ Hadoop Eco System แล้ว แต่ฉันไม่ได้ทำงานกับ Storm หลังจากดูงานนำเสนอและบทความมากมายฉันยังไม่สามารถหาคำตอบที่น่าพอใจและครอบคลุมได้ หมายเหตุ: คำว่าการแลกเปลี่ยนที่นี่ไม่ได้หมายถึงการเปรียบเทียบกับสิ่งที่คล้ายกัน มันมีไว้เพื่อแสดงถึงผลที่ตามมาของการรับผลลัพธ์แบบเรียลไทม์ที่ขาดหายไปจากระบบประมวลผลแบบแบทช์

12 bigdata efficiency apache-hadoop distributed

2

FPGrowth ยังถือว่าเป็น“ สถานะของศิลปะ” ในการขุดแบบบ่อยๆหรือไม่?

เท่าที่ฉันรู้การพัฒนาอัลกอริทึมเพื่อแก้ปัญหาการทำเหมืองบ่อยรูปแบบ (FPM) ถนนของการปรับปรุงมีจุดตรวจหลักบางอย่าง ประการแรกอัลกอริทึมAprioriถูกเสนอในปี 1993 โดยAgrawal และคณะ พร้อมกับการทำให้เป็นทางการของปัญหา อัลกอริทึมก็สามารถที่จะดึงบางชุดออกมาจาก2^n - 1ชุด (powerset) โดยใช้ตาข่ายเพื่อรักษาข้อมูล ข้อเสียเปรียบของวิธีการคือต้องอ่านฐานข้อมูลใหม่เพื่อคำนวณความถี่ของแต่ละชุดที่ขยาย ต่อมาในปี 1997 Zaki และคณะ เสนออัลกอริทึมEclatซึ่งแทรกความถี่ผลลัพธ์ของแต่ละชุดไว้ในโครงตาข่าย สิ่งนี้กระทำโดยการเพิ่มที่แต่ละโหนดของโครงตาข่ายชุดของ transaction-id ที่มีไอเท็มจากรูทไปยังโหนดที่อ้างถึง การสนับสนุนหลักคือเราไม่จำเป็นต้องอ่านชุดข้อมูลทั้งหมดอีกครั้งเพื่อทราบความถี่ของแต่ละชุด แต่หน่วยความจำที่จำเป็นในการรักษาโครงสร้างข้อมูลดังกล่าวอาจมีขนาดเกินขนาดของชุดข้อมูลเอง ในปี 2000 ฮันและคณะ เสนออัลกอริทึมที่ชื่อว่าFPGrowthพร้อมกับโครงสร้างข้อมูลแบบต้นไม้คำนำหน้าชื่อ FPTree อัลกอริทึมสามารถให้การบีบอัดข้อมูลที่สำคัญในขณะเดียวกันก็อนุญาตว่าจะให้เฉพาะชุดไอเท็มที่ใช้บ่อยเท่านั้น (โดยไม่มีการสร้างชุดไอเท็มผู้สมัคร) สิ่งนี้ทำได้โดยการจัดเรียงรายการของแต่ละธุรกรรมในลำดับที่ลดลงเพื่อให้รายการที่พบบ่อยที่สุดคือรายการที่มีการซ้ำซ้อนน้อยที่สุดในโครงสร้างข้อมูลทรี เนื่องจากความถี่ลดลงเท่านั้นขณะที่สำรวจต้นไม้ในเชิงลึกอัลกอริทึมจึงสามารถตัดชุดรายการที่ไม่ได้ใช้บ่อย แก้ไข : เท่าที่ฉันรู้นี่อาจถือได้ว่าเป็นอัลกอริทึมที่ล้ำสมัย แต่ฉันอยากรู้เกี่ยวกับวิธีแก้ปัญหาอื่น ๆ มีอัลกอริธึมอื่นสำหรับ FPM ที่ถูกพิจารณาว่าเป็น "state-of-the-art" หรือไม่? อะไรคือสิ่งที่สัญชาตญาณ / หลักผลงานของอัลกอริทึมดังกล่าวหรือไม่ อัลกอริทึม FPGrowth ยังถือว่าเป็น "สถานะของศิลปะ" …

12 bigdata data-mining efficiency state-of-the-art

3

ภาษาที่ดีที่สุดสำหรับการคำนวณทางวิทยาศาสตร์ [ปิด]

ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา ดูเหมือนว่าภาษาส่วนใหญ่จะมีห้องสมุดคำนวณทางวิทยาศาสตร์จำนวนหนึ่ง Python มี Scipy Rust มี SciRust C++มีหลายอย่างรวมถึงViennaCLและArmadillo JavaมีJava NumericsและColtเช่นเดียวกับหลาย ๆ ไม่ต้องพูดถึงภาษาที่ชอบRและJuliaออกแบบมาอย่างชัดเจนสำหรับการคำนวณทางวิทยาศาสตร์ ด้วยตัวเลือกมากมายคุณจะเลือกภาษาที่ดีที่สุดสำหรับงานอย่างไร นอกจากนี้ภาษาใดที่จะเป็นคนที่มีประสิทธิภาพมากที่สุด? PythonและRดูเหมือนว่าจะมีแรงฉุดที่สุดในอวกาศ แต่ภาษาที่รวบรวมได้ดูเหมือนจะเป็นทางเลือกที่ดีกว่า และจะมีอะไรดีกว่านี้Fortranไหม ภาษาที่คอมไพล์ด้วยนอกจากนี้มักจะมีการเร่งความเร็วของ GPU ในขณะที่ตีความภาษาเช่นRและPythonไม่ ฉันควรคำนึงถึงอะไรเมื่อเลือกภาษาและภาษาใดให้ความสมดุลของยูทิลิตี้และประสิทธิภาพที่ดีที่สุด มีภาษาใดบ้างที่มีทรัพยากรการคำนวณทางวิทยาศาสตร์ที่สำคัญที่ฉันพลาดไป

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

3

สเกลเทคนิคทางสถิติต่างๆ (การถดถอย PCA และอื่น ๆ ) มีขนาดตัวอย่างและมิติอย่างไร

มีตารางทั่วไปของเทคนิคทางสถิติที่อธิบายวิธีการวัดด้วยขนาดตัวอย่างและมิติหรือไม่ ตัวอย่างเช่นเพื่อนของฉันบอกฉันเมื่อวันก่อนว่าเวลาการคำนวณของการเรียงลำดับข้อมูลขนาดมิติหนึ่งไปอย่างรวดเร็วเป็น n * log (n) ตัวอย่างเช่นถ้าเราถอยหลัง y เทียบกับ X โดยที่ X เป็นตัวแปร d-dimension มันจะเป็น O (n ^ 2 * d) หรือไม่? มันจะขยายขนาดได้อย่างไรถ้าฉันต้องการหาวิธีแก้ปัญหาด้วยวิธี Gauss-Markov ที่แน่นอนเทียบกับกำลังสองน้อยที่สุดด้วยวิธีนิวตัน? หรือเพียงแค่หาวิธีแก้ปัญหาเทียบกับการใช้การทดสอบนัยสำคัญ? ฉันเดาว่าฉันต้องการแหล่งคำตอบที่ดีกว่า (เช่นกระดาษที่สรุปการปรับขนาดของเทคนิคทางสถิติต่าง ๆ ) มากกว่าคำตอบที่ดีที่นี่ เช่นพูดรายการที่มีการปรับสเกลของการถดถอยหลายครั้งการถดถอยโลจิสติก PCA การถดถอยอันตรายตามสัดส่วนของคอกซ์ K-หมายถึงการจัดกลุ่มเป็นต้น

10 bigdata statistics efficiency scalability

1

เทคนิคการจัดทำดัชนีข้อมูลที่มีประสิทธิภาพที่สุดคืออะไร

อย่างที่เราทราบกันดีว่ามีเทคนิคการจัดทำดัชนีข้อมูลบางอย่างใช้โดยแอพทำดัชนีที่รู้จักกันดีเช่น Lucene (สำหรับ java) หรือ Lucene.NET (สำหรับ. NET), MurMurHash, B + Tree เป็นต้นสำหรับ No-Sql / Object Oriented Database (ซึ่งฉันพยายามเขียน / เล่นกับ C #) ซึ่งเป็นเทคนิคที่คุณแนะนำ? ฉันอ่านเกี่ยวกับ MurMurhash-2 และความคิดเห็น v3 พิเศษบอกว่า Murmur นั้นเร็วมาก Lucene.Net ก็มีความเห็นที่ดีเช่นกัน แต่สิ่งที่เกี่ยวกับรอยเท้าหน่วยความจำโดยทั่วไป? มีวิธีแก้ปัญหาที่มีประสิทธิภาพซึ่งใช้การปล่อยน้อยกว่า (และแน่นอนถ้าเป็นที่ต้องการได้เร็วกว่า) กว่า Lucene หรือ Murmur? หรือฉันควรเขียนโครงสร้างดัชนีพิเศษเพื่อให้ได้ผลลัพธ์ที่ดีที่สุด? ถ้าฉันพยายามเขียนของตัวเองมีสเกลที่ยอมรับสำหรับการจัดทำดัชนีที่ดีหรือไม่เช่น 1% ของ data-node หรือ 5% ของ data-node คำแนะนำใด …

10 nosql efficiency indexing data-indexing-techniques .net

4

เหตุใดจึงยากที่จะให้ประสิทธิภาพขณะใช้ห้องสมุด

การประมวลผลฐานข้อมูลขนาดเล็กใด ๆ สามารถจัดการได้อย่างง่ายดายโดยสคริปต์ Python / Perl / ... ที่ใช้ไลบรารีและ / หรือยูทิลิตี้จากภาษาเอง อย่างไรก็ตามเมื่อพูดถึงประสิทธิภาพคนมักจะเข้าถึงภาษา C / C ++ / ระดับต่ำ ความเป็นไปได้ของการปรับแต่งโค้ดให้ตรงกับความต้องการดูเหมือนจะเป็นสิ่งที่ทำให้ภาษาเหล่านี้น่าสนใจสำหรับ BigData ไม่ว่าจะเป็นเรื่องการจัดการหน่วยความจำการขนานการเข้าถึงดิสก์หรือการปรับให้เหมาะสมในระดับต่ำ แน่นอนว่าสิทธิประโยชน์ดังกล่าวจะไม่เกิดขึ้นโดยไม่เสียค่าใช้จ่าย: การเขียนรหัสและบางครั้งแม้แต่การสร้างล้อใหม่อาจมีราคาแพง / น่าเบื่อ แม้ว่าจะมีห้องสมุดจำนวนมากที่มีอยู่ แต่ผู้คนก็มีแนวโน้มที่จะเขียนโค้ดด้วยตนเองทุกครั้งที่พวกเขาต้องการให้ประสิทธิภาพ สิ่งที่ปิดใช้งานการยืนยันผลการดำเนินงานจากการใช้ห้องสมุดในขณะที่การประมวลผลฐานข้อมูลขนาดใหญ่? ตัวอย่างเช่นพิจารณาองค์กรที่รวบรวมข้อมูลหน้าเว็บอย่างต่อเนื่องและแยกวิเคราะห์ข้อมูลที่รวบรวม สำหรับแต่ละหน้าต่างแบบเลื่อนอัลกอริทึมการทำเหมืองข้อมูลที่แตกต่างกันจะถูกเรียกใช้ตามข้อมูลที่แยกออกมา เหตุใดนักพัฒนาจึงไม่สนใจการใช้ไลบรารี / กรอบงานที่มีอยู่ (ไม่ว่าจะเป็นการรวบรวมข้อมูลการประมวลผลข้อความและการขุดข้อมูล) การใช้สิ่งที่นำไปใช้แล้วไม่เพียง แต่ช่วยลดภาระของการเข้ารหัสกระบวนการทั้งหมด แต่ยังช่วยประหยัดเวลาได้อีกมาก ในนัดเดียว : สิ่งที่ทำให้เขียนโค้ดด้วยตัวเองรับประกันของประสิทธิภาพการทำงาน? ทำไมจึงมีความเสี่ยงในการพึ่งพาเฟรมเวิร์ก / ไลบรารีเมื่อคุณต้องรับประกันประสิทธิภาพสูง?

10 bigdata efficiency performance

คำถามติดแท็ก efficiency