คำถามติดแท็ก efficiency

ประสิทธิภาพในการประมวลผลอัลกอริทึมมักเกี่ยวข้องกับการใช้ทรัพยากร เมตริกในการประเมินประสิทธิภาพของกระบวนการมักจะพิจารณาถึงเวลาในการดำเนินการความต้องการหน่วยความจำ / ดิสก์หรือหน่วยเก็บข้อมูลการใช้เครือข่ายและการใช้พลังงาน

12
ข้อมูลขนาดใหญ่มีขนาดใหญ่เพียงใด
ผู้คนจำนวนมากใช้คำว่าบิ๊กดาต้าในทางที่ค่อนข้างเป็นเชิงพาณิชย์ซึ่งเป็นวิธีการระบุว่าชุดข้อมูลขนาดใหญ่เกี่ยวข้องกับการคำนวณและดังนั้นวิธีแก้ปัญหาที่เป็นไปได้จะต้องมีประสิทธิภาพที่ดี แน่นอนว่าข้อมูลขนาดใหญ่มักจะดำเนินการข้อตกลงที่เกี่ยวข้องเช่นความยืดหยุ่นและมีประสิทธิภาพ แต่สิ่งที่กำหนดปัญหาเป็นฐานข้อมูลขนาดใหญ่ปัญหา? การคำนวณต้องเกี่ยวข้องกับชุดของวัตถุประสงค์เฉพาะเช่นการขุดข้อมูล / การดึงข้อมูลหรืออัลกอริทึมสำหรับปัญหากราฟทั่วไปจะมีป้ายกำกับข้อมูลขนาดใหญ่หรือไม่ถ้าชุดข้อมูลมีขนาดใหญ่เพียงพอหรือไม่ นอกจากนี้วิธีการที่มีขนาดใหญ่เป็นขนาดใหญ่พอ (ถ้าเป็นไปได้ที่จะกำหนด)?

5
เมื่อเป็นรุ่น Underfitted?
ลอจิกมักจะระบุว่าโดยการสร้างโมเดลความสามารถในการสรุปทั่วไปนั้นเพิ่มขึ้น ที่กล่าวว่าอย่างชัดเจนในบางจุดที่อยู่ภายใต้แบบจำลองทำให้แบบจำลองแย่ลงโดยไม่คำนึงถึงความซับซ้อนของข้อมูล คุณจะรู้ได้อย่างไรว่าแบบจำลองของคุณมีสมดุลที่ถูกต้องและไม่รองรับข้อมูลที่โมเดลต้องการ? หมายเหตุ:นี่คือการติดตามคำถามของฉัน " ทำไม Overfitting Bad "

5
ทำให้แผนที่ความร้อนของทะเลใหญ่ขึ้น
ฉันสร้างcorr()df จาก df ดั้งเดิม corr()DF ออก 70 X 70 มาและมันเป็นไปไม่ได้ที่จะเห็นภาพ heatmap ส sns.heatmap(df)... ถ้าฉันพยายามที่จะแสดงcorr = df.corr()ตารางที่ไม่พอดีกับหน้าจอและฉันสามารถดูความสัมพันธ์ทั้งหมด มันเป็นวิธีที่จะพิมพ์ทั้งdfโดยไม่คำนึงถึงขนาดของมันหรือเพื่อควบคุมขนาดของ heatmap หรือไม่?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

4
กำลังมองหาตัวอย่างโครงสร้างพื้นฐานสแต็ค / เวิร์กโฟลว์ / ท่อ
ฉันพยายามที่จะเข้าใจว่าส่วนประกอบ "ข้อมูลขนาดใหญ่" เล่นร่วมกันอย่างไรในกรณีการใช้งานจริงเช่น hadoop, monogodb / nosql, storm, kafka, ... ฉันรู้ว่านี่เป็นเครื่องมือที่ใช้สำหรับ ประเภทต่าง ๆ แต่ฉันต้องการรับทราบเพิ่มเติมเกี่ยวกับการโต้ตอบในแอปพลิเคชันเช่นการเรียนรู้ด้วยเครื่องสำหรับแอพพลิเคชั่นเว็บแอพร้านค้าออนไลน์ ฉันมี vistor / session, data transaction ฯลฯ และเก็บไว้; แต่ถ้าฉันต้องการที่จะให้คำแนะนำได้ทันทีฉันไม่สามารถเรียกใช้แผนที่ช้า / ลดงานสำหรับฐานข้อมูลขนาดใหญ่ของบันทึกที่ฉันมี ฉันจะเรียนรู้เพิ่มเติมเกี่ยวกับโครงสร้างพื้นฐานได้ที่ไหน ฉันคิดว่าฉันสามารถใช้เครื่องมือส่วนใหญ่ด้วยตนเองได้ แต่การเสียบเข้าด้วยกันดูเหมือนว่าจะเป็นศิลปะของมันเอง มีตัวอย่างสาธารณะ / กรณีใช้งานอื่น ๆ หรือไม่ ฉันเข้าใจว่าแต่ละท่อขึ้นอยู่กับกรณีการใช้งานและผู้ใช้เป็นอย่างมาก แต่เพียงตัวอย่างอาจจะเป็นประโยชน์กับฉัน

1
XGBRegressor vs. xgboost.train ความแตกต่างความเร็วสูงหรือไม่?
ถ้าฉันฝึกโมเดลของฉันโดยใช้รหัสต่อไปนี้: import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) มันเสร็จในเวลาประมาณ 1 นาที ถ้าฉันฝึกโมเดลของฉันโดยใช้วิธีการเรียนรู้ Sci-Kit: import xgboost as xg max_depth = 3 min_child_weight = 10 subsample = 0.5 colsample_bytree = …

2
การแลกเปลี่ยนระหว่าง Storm และ Hadoop (MapReduce)
ใครบางคนกรุณาบอกฉันเกี่ยวกับการแลกเปลี่ยนที่เกี่ยวข้องเมื่อเลือกระหว่าง Storm และ MapReduce ใน Hadoop Cluster สำหรับการประมวลผลข้อมูล แน่นอนนอกเหนือจากที่เห็นได้ชัดว่า Hadoop (การประมวลผลผ่าน MapReduce ใน Hadoop Cluster) เป็นระบบการประมวลผลแบบชุดและ Storm เป็นระบบการประมวลผลแบบเรียลไทม์ ฉันทำงานกับ Hadoop Eco System แล้ว แต่ฉันไม่ได้ทำงานกับ Storm หลังจากดูงานนำเสนอและบทความมากมายฉันยังไม่สามารถหาคำตอบที่น่าพอใจและครอบคลุมได้ หมายเหตุ: คำว่าการแลกเปลี่ยนที่นี่ไม่ได้หมายถึงการเปรียบเทียบกับสิ่งที่คล้ายกัน มันมีไว้เพื่อแสดงถึงผลที่ตามมาของการรับผลลัพธ์แบบเรียลไทม์ที่ขาดหายไปจากระบบประมวลผลแบบแบทช์

2
FPGrowth ยังถือว่าเป็น“ สถานะของศิลปะ” ในการขุดแบบบ่อยๆหรือไม่?
เท่าที่ฉันรู้การพัฒนาอัลกอริทึมเพื่อแก้ปัญหาการทำเหมืองบ่อยรูปแบบ (FPM) ถนนของการปรับปรุงมีจุดตรวจหลักบางอย่าง ประการแรกอัลกอริทึมAprioriถูกเสนอในปี 1993 โดยAgrawal และคณะ พร้อมกับการทำให้เป็นทางการของปัญหา อัลกอริทึมก็สามารถที่จะดึงบางชุดออกมาจาก2^n - 1ชุด (powerset) โดยใช้ตาข่ายเพื่อรักษาข้อมูล ข้อเสียเปรียบของวิธีการคือต้องอ่านฐานข้อมูลใหม่เพื่อคำนวณความถี่ของแต่ละชุดที่ขยาย ต่อมาในปี 1997 Zaki และคณะ เสนออัลกอริทึมEclatซึ่งแทรกความถี่ผลลัพธ์ของแต่ละชุดไว้ในโครงตาข่าย สิ่งนี้กระทำโดยการเพิ่มที่แต่ละโหนดของโครงตาข่ายชุดของ transaction-id ที่มีไอเท็มจากรูทไปยังโหนดที่อ้างถึง การสนับสนุนหลักคือเราไม่จำเป็นต้องอ่านชุดข้อมูลทั้งหมดอีกครั้งเพื่อทราบความถี่ของแต่ละชุด แต่หน่วยความจำที่จำเป็นในการรักษาโครงสร้างข้อมูลดังกล่าวอาจมีขนาดเกินขนาดของชุดข้อมูลเอง ในปี 2000 ฮันและคณะ เสนออัลกอริทึมที่ชื่อว่าFPGrowthพร้อมกับโครงสร้างข้อมูลแบบต้นไม้คำนำหน้าชื่อ FPTree อัลกอริทึมสามารถให้การบีบอัดข้อมูลที่สำคัญในขณะเดียวกันก็อนุญาตว่าจะให้เฉพาะชุดไอเท็มที่ใช้บ่อยเท่านั้น (โดยไม่มีการสร้างชุดไอเท็มผู้สมัคร) สิ่งนี้ทำได้โดยการจัดเรียงรายการของแต่ละธุรกรรมในลำดับที่ลดลงเพื่อให้รายการที่พบบ่อยที่สุดคือรายการที่มีการซ้ำซ้อนน้อยที่สุดในโครงสร้างข้อมูลทรี เนื่องจากความถี่ลดลงเท่านั้นขณะที่สำรวจต้นไม้ในเชิงลึกอัลกอริทึมจึงสามารถตัดชุดรายการที่ไม่ได้ใช้บ่อย แก้ไข : เท่าที่ฉันรู้นี่อาจถือได้ว่าเป็นอัลกอริทึมที่ล้ำสมัย แต่ฉันอยากรู้เกี่ยวกับวิธีแก้ปัญหาอื่น ๆ มีอัลกอริธึมอื่นสำหรับ FPM ที่ถูกพิจารณาว่าเป็น "state-of-the-art" หรือไม่? อะไรคือสิ่งที่สัญชาตญาณ / หลักผลงานของอัลกอริทึมดังกล่าวหรือไม่ อัลกอริทึม FPGrowth ยังถือว่าเป็น "สถานะของศิลปะ" …

3
ภาษาที่ดีที่สุดสำหรับการคำนวณทางวิทยาศาสตร์ [ปิด]
ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา ดูเหมือนว่าภาษาส่วนใหญ่จะมีห้องสมุดคำนวณทางวิทยาศาสตร์จำนวนหนึ่ง Python มี Scipy Rust มี SciRust C++มีหลายอย่างรวมถึงViennaCLและArmadillo JavaมีJava NumericsและColtเช่นเดียวกับหลาย ๆ ไม่ต้องพูดถึงภาษาที่ชอบRและJuliaออกแบบมาอย่างชัดเจนสำหรับการคำนวณทางวิทยาศาสตร์ ด้วยตัวเลือกมากมายคุณจะเลือกภาษาที่ดีที่สุดสำหรับงานอย่างไร นอกจากนี้ภาษาใดที่จะเป็นคนที่มีประสิทธิภาพมากที่สุด? PythonและRดูเหมือนว่าจะมีแรงฉุดที่สุดในอวกาศ แต่ภาษาที่รวบรวมได้ดูเหมือนจะเป็นทางเลือกที่ดีกว่า และจะมีอะไรดีกว่านี้Fortranไหม ภาษาที่คอมไพล์ด้วยนอกจากนี้มักจะมีการเร่งความเร็วของ GPU ในขณะที่ตีความภาษาเช่นRและPythonไม่ ฉันควรคำนึงถึงอะไรเมื่อเลือกภาษาและภาษาใดให้ความสมดุลของยูทิลิตี้และประสิทธิภาพที่ดีที่สุด มีภาษาใดบ้างที่มีทรัพยากรการคำนวณทางวิทยาศาสตร์ที่สำคัญที่ฉันพลาดไป
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

3
สเกลเทคนิคทางสถิติต่างๆ (การถดถอย PCA และอื่น ๆ ) มีขนาดตัวอย่างและมิติอย่างไร
มีตารางทั่วไปของเทคนิคทางสถิติที่อธิบายวิธีการวัดด้วยขนาดตัวอย่างและมิติหรือไม่ ตัวอย่างเช่นเพื่อนของฉันบอกฉันเมื่อวันก่อนว่าเวลาการคำนวณของการเรียงลำดับข้อมูลขนาดมิติหนึ่งไปอย่างรวดเร็วเป็น n * log (n) ตัวอย่างเช่นถ้าเราถอยหลัง y เทียบกับ X โดยที่ X เป็นตัวแปร d-dimension มันจะเป็น O (n ^ 2 * d) หรือไม่? มันจะขยายขนาดได้อย่างไรถ้าฉันต้องการหาวิธีแก้ปัญหาด้วยวิธี Gauss-Markov ที่แน่นอนเทียบกับกำลังสองน้อยที่สุดด้วยวิธีนิวตัน? หรือเพียงแค่หาวิธีแก้ปัญหาเทียบกับการใช้การทดสอบนัยสำคัญ? ฉันเดาว่าฉันต้องการแหล่งคำตอบที่ดีกว่า (เช่นกระดาษที่สรุปการปรับขนาดของเทคนิคทางสถิติต่าง ๆ ) มากกว่าคำตอบที่ดีที่นี่ เช่นพูดรายการที่มีการปรับสเกลของการถดถอยหลายครั้งการถดถอยโลจิสติก PCA การถดถอยอันตรายตามสัดส่วนของคอกซ์ K-หมายถึงการจัดกลุ่มเป็นต้น

1
เทคนิคการจัดทำดัชนีข้อมูลที่มีประสิทธิภาพที่สุดคืออะไร
อย่างที่เราทราบกันดีว่ามีเทคนิคการจัดทำดัชนีข้อมูลบางอย่างใช้โดยแอพทำดัชนีที่รู้จักกันดีเช่น Lucene (สำหรับ java) หรือ Lucene.NET (สำหรับ. NET), MurMurHash, B + Tree เป็นต้นสำหรับ No-Sql / Object Oriented Database (ซึ่งฉันพยายามเขียน / เล่นกับ C #) ซึ่งเป็นเทคนิคที่คุณแนะนำ? ฉันอ่านเกี่ยวกับ MurMurhash-2 และความคิดเห็น v3 พิเศษบอกว่า Murmur นั้นเร็วมาก Lucene.Net ก็มีความเห็นที่ดีเช่นกัน แต่สิ่งที่เกี่ยวกับรอยเท้าหน่วยความจำโดยทั่วไป? มีวิธีแก้ปัญหาที่มีประสิทธิภาพซึ่งใช้การปล่อยน้อยกว่า (และแน่นอนถ้าเป็นที่ต้องการได้เร็วกว่า) กว่า Lucene หรือ Murmur? หรือฉันควรเขียนโครงสร้างดัชนีพิเศษเพื่อให้ได้ผลลัพธ์ที่ดีที่สุด? ถ้าฉันพยายามเขียนของตัวเองมีสเกลที่ยอมรับสำหรับการจัดทำดัชนีที่ดีหรือไม่เช่น 1% ของ data-node หรือ 5% ของ data-node คำแนะนำใด …

4
เหตุใดจึงยากที่จะให้ประสิทธิภาพขณะใช้ห้องสมุด
การประมวลผลฐานข้อมูลขนาดเล็กใด ๆ สามารถจัดการได้อย่างง่ายดายโดยสคริปต์ Python / Perl / ... ที่ใช้ไลบรารีและ / หรือยูทิลิตี้จากภาษาเอง อย่างไรก็ตามเมื่อพูดถึงประสิทธิภาพคนมักจะเข้าถึงภาษา C / C ++ / ระดับต่ำ ความเป็นไปได้ของการปรับแต่งโค้ดให้ตรงกับความต้องการดูเหมือนจะเป็นสิ่งที่ทำให้ภาษาเหล่านี้น่าสนใจสำหรับ BigData ไม่ว่าจะเป็นเรื่องการจัดการหน่วยความจำการขนานการเข้าถึงดิสก์หรือการปรับให้เหมาะสมในระดับต่ำ แน่นอนว่าสิทธิประโยชน์ดังกล่าวจะไม่เกิดขึ้นโดยไม่เสียค่าใช้จ่าย: การเขียนรหัสและบางครั้งแม้แต่การสร้างล้อใหม่อาจมีราคาแพง / น่าเบื่อ แม้ว่าจะมีห้องสมุดจำนวนมากที่มีอยู่ แต่ผู้คนก็มีแนวโน้มที่จะเขียนโค้ดด้วยตนเองทุกครั้งที่พวกเขาต้องการให้ประสิทธิภาพ สิ่งที่ปิดใช้งานการยืนยันผลการดำเนินงานจากการใช้ห้องสมุดในขณะที่การประมวลผลฐานข้อมูลขนาดใหญ่? ตัวอย่างเช่นพิจารณาองค์กรที่รวบรวมข้อมูลหน้าเว็บอย่างต่อเนื่องและแยกวิเคราะห์ข้อมูลที่รวบรวม สำหรับแต่ละหน้าต่างแบบเลื่อนอัลกอริทึมการทำเหมืองข้อมูลที่แตกต่างกันจะถูกเรียกใช้ตามข้อมูลที่แยกออกมา เหตุใดนักพัฒนาจึงไม่สนใจการใช้ไลบรารี / กรอบงานที่มีอยู่ (ไม่ว่าจะเป็นการรวบรวมข้อมูลการประมวลผลข้อความและการขุดข้อมูล) การใช้สิ่งที่นำไปใช้แล้วไม่เพียง แต่ช่วยลดภาระของการเข้ารหัสกระบวนการทั้งหมด แต่ยังช่วยประหยัดเวลาได้อีกมาก ในนัดเดียว : สิ่งที่ทำให้เขียนโค้ดด้วยตัวเองรับประกันของประสิทธิภาพการทำงาน? ทำไมจึงมีความเสี่ยงในการพึ่งพาเฟรมเวิร์ก / ไลบรารีเมื่อคุณต้องรับประกันประสิทธิภาพสูง?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.