คำถามติดแท็ก performance

12
ข้อมูลขนาดใหญ่มีขนาดใหญ่เพียงใด
ผู้คนจำนวนมากใช้คำว่าบิ๊กดาต้าในทางที่ค่อนข้างเป็นเชิงพาณิชย์ซึ่งเป็นวิธีการระบุว่าชุดข้อมูลขนาดใหญ่เกี่ยวข้องกับการคำนวณและดังนั้นวิธีแก้ปัญหาที่เป็นไปได้จะต้องมีประสิทธิภาพที่ดี แน่นอนว่าข้อมูลขนาดใหญ่มักจะดำเนินการข้อตกลงที่เกี่ยวข้องเช่นความยืดหยุ่นและมีประสิทธิภาพ แต่สิ่งที่กำหนดปัญหาเป็นฐานข้อมูลขนาดใหญ่ปัญหา? การคำนวณต้องเกี่ยวข้องกับชุดของวัตถุประสงค์เฉพาะเช่นการขุดข้อมูล / การดึงข้อมูลหรืออัลกอริทึมสำหรับปัญหากราฟทั่วไปจะมีป้ายกำกับข้อมูลขนาดใหญ่หรือไม่ถ้าชุดข้อมูลมีขนาดใหญ่เพียงพอหรือไม่ นอกจากนี้วิธีการที่มีขนาดใหญ่เป็นขนาดใหญ่พอ (ถ้าเป็นไปได้ที่จะกำหนด)?

4
มีวิธีที่ตรงไปตรงมาในการรัน pandas.DataFrame.isin แบบขนานหรือไม่?
ฉันมีโปรแกรมการสร้างแบบจำลองและการให้คะแนนที่ใช้ประโยชน์จากDataFrame.isinฟังก์ชั่นของหมีแพนด้าอย่างหนักโดยค้นหาจากรายการบันทึกของ Facebook "ชอบ" ของผู้ใช้แต่ละคนสำหรับแต่ละหน้าไม่กี่พันหน้า นี่คือส่วนที่ใช้เวลานานที่สุดของโปรแกรมมากกว่าการสร้างแบบจำลองหรือให้คะแนนชิ้นส่วนเพียงเพราะมันทำงานบนแกนเดียวเท่านั้นในขณะที่ส่วนที่เหลือทำงานบนสองสามโหลพร้อมกัน แม้ว่าฉันจะรู้ว่าฉันสามารถแบ่งดาต้าเฟรมออกเป็นชิ้น ๆ และดำเนินการแบบขนานได้เองมีวิธีที่ตรงไปตรงมาในการทำสิ่งนั้นโดยอัตโนมัติหรือไม่? กล่าวอีกนัยหนึ่งมีแพ็คเกจประเภทใดบ้างที่จะรับรู้ว่าฉันกำลังใช้งานที่ได้รับมอบหมายอย่างง่ายดายและแจกจ่ายโดยอัตโนมัติหรือไม่ บางทีนั่นอาจจะขอมากเกินไป แต่ฉันก็รู้สึกประหลาดใจมากพอในอดีตโดยสิ่งที่มีอยู่ใน Python ดังนั้นฉันคิดว่ามันคุ้มค่าที่จะถาม ข้อเสนอแนะอื่น ๆ เกี่ยวกับวิธีการนี้อาจสำเร็จ (แม้ว่าจะไม่ใช่แพ็คเกจยูนิคอร์นเวทมนตร์) ก็จะได้รับการชื่นชมเช่นกัน ส่วนใหญ่เพียงแค่พยายามหาวิธีกำจัด 15-20 นาทีต่อการวิ่งโดยไม่ต้องใช้เวลาพอสมควรในการเข้ารหัสโซลูชัน

3
คุณจัดการความคาดหวังในที่ทำงานได้อย่างไร
ด้วย hoopla รอบ ๆ วิทยาศาสตร์ข้อมูลการเรียนรู้ของเครื่องและเรื่องราวความสำเร็จทั้งหมดมีทั้งความชอบธรรมและเกินความคาดหวังจากนักวิทยาศาสตร์ข้อมูลและแบบจำลองการทำนายของพวกเขา คำถามของฉันเกี่ยวกับการฝึกฝนนักสถิติผู้เชี่ยวชาญด้านการเรียนรู้ของเครื่องจักรและนักวิทยาศาสตร์ด้านข้อมูล - คุณจะจัดการความคาดหวังจากนักธุรกิจใน บริษัท ของคุณได้อย่างไรโดยเฉพาะอย่างยิ่งเกี่ยวกับความแม่นยำในการทำนายของโมเดล หากต้องการแบบจำลองที่ดีที่สุดของคุณเท่านั้นที่สามารถบรรลุความแม่นยำ 90% และผู้บริหารระดับสูงคาดว่าจะไม่น้อยกว่า 99% คุณจะรับมือกับสถานการณ์เช่นนี้ได้อย่างไร

1
เมื่อฐานข้อมูลเชิงสัมพันธ์มีประสิทธิภาพดีกว่าไม่มีความสัมพันธ์
เมื่อฐานข้อมูลเชิงสัมพันธ์เช่น MySQL มีประสิทธิภาพที่ดีกว่าไม่มีความสัมพันธ์เช่น MongoDB? ฉันเห็นคำถามเกี่ยวกับ Quora เมื่อวันก่อนเกี่ยวกับสาเหตุที่ Quora ยังคงใช้ MySQL เป็นแบ็กเอนด์และประสิทธิภาพยังคงดี

3
การวัดประสิทธิภาพของตัวแยกประเภทที่แตกต่างกันด้วยขนาดตัวอย่างที่แตกต่าง
ขณะนี้ฉันใช้ตัวแยกประเภทที่แตกต่างกันหลายรายการในเอนทิตีต่าง ๆ ที่ดึงมาจากข้อความและใช้ความแม่นยำ / การเรียกคืนเพื่อสรุปว่าตัวแยกประเภทแต่ละตัวนั้นทำงานได้ดีเพียงใดในชุดข้อมูลที่กำหนด ฉันสงสัยว่ามีวิธีที่มีความหมายในการเปรียบเทียบประสิทธิภาพของตัวแยกประเภทเหล่านี้ในลักษณะที่คล้ายกัน แต่ยังคำนึงถึงจำนวนรวมของแต่ละเอนทิตีในข้อมูลทดสอบที่ถูกจัดประเภทหรือไม่ ขณะนี้ฉันกำลังใช้ความแม่นยำ / การเรียกคืนเป็นตัวชี้วัดประสิทธิภาพดังนั้นอาจมีสิ่งต่อไปนี้: Precision Recall Person classifier 65% 40% Company classifier 98% 90% Cheese classifier 10% 50% Egg classifier 100% 100% อย่างไรก็ตามชุดข้อมูลที่ฉันใช้งานอาจมีคน 100k บริษัท 5k ชีส 500 ตัวและไข่ 1 ฟอง ดังนั้นมีสถิติสรุปที่ฉันสามารถเพิ่มลงในตารางด้านบนซึ่งคำนึงถึงจำนวนทั้งหมดของแต่ละรายการด้วยหรือไม่ หรือมีวิธีการวัดความจริงที่ว่าเช่น 100% prec / rec บนลักษณนามไข่อาจไม่มีความหมายกับรายการข้อมูลเพียง 1 รายการ? สมมติว่าเรามีตัวแยกประเภทหลายร้อยตัวฉันคิดว่าฉันกำลังมองหาวิธีที่ดีในการตอบคำถามเช่น "ตัวแยกประเภทใดที่มีประสิทธิภาพต่ำกว่า" ตัวแยกประเภทใดที่ขาดข้อมูลทดสอบเพียงพอที่จะบอกได้ว่าพวกมันมีประสิทธิภาพต่ำกว่าหรือไม่ "

4
การวัดประสิทธิภาพ: ทำไมจึงเรียกว่าการเรียกคืน
ความแม่นยำคือส่วนของอินสแตนซ์ที่ดึงมาซึ่งมีความเกี่ยวข้องในขณะที่การเรียกคืน (หรือที่เรียกว่าความไว) คือส่วนของอินสแตนซ์ที่เกี่ยวข้องที่ถูกเรียกคืน ฉันรู้ว่าหมายของพวกเขา แต่ผมไม่ทราบว่าทำไมมันถูกเรียกว่าการเรียกคืน ? ฉันไม่ใช่เจ้าของภาษาอังกฤษ ฉันรู้ว่าการจำหมายถึงการจดจำแล้วฉันไม่ทราบความเกี่ยวข้องของความหมายนี้กับแนวคิดนี้! อาจจะครอบคลุมดีกว่าเพราะมันแสดงให้เห็นว่ามีกี่ครั้งที่ถูกครอบคลุม ... หรือคำอื่น ๆ ความไวยิ่งกว่านั้นฉันก็ไม่รู้สึกเช่นกัน! คุณสามารถช่วยฉันเชื่อมโยงคำเหล่านี้กับแนวคิดและรู้สึกถึงมันได้หรือไม่?

3
ภาษาที่ดีที่สุดสำหรับการคำนวณทางวิทยาศาสตร์ [ปิด]
ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา ดูเหมือนว่าภาษาส่วนใหญ่จะมีห้องสมุดคำนวณทางวิทยาศาสตร์จำนวนหนึ่ง Python มี Scipy Rust มี SciRust C++มีหลายอย่างรวมถึงViennaCLและArmadillo JavaมีJava NumericsและColtเช่นเดียวกับหลาย ๆ ไม่ต้องพูดถึงภาษาที่ชอบRและJuliaออกแบบมาอย่างชัดเจนสำหรับการคำนวณทางวิทยาศาสตร์ ด้วยตัวเลือกมากมายคุณจะเลือกภาษาที่ดีที่สุดสำหรับงานอย่างไร นอกจากนี้ภาษาใดที่จะเป็นคนที่มีประสิทธิภาพมากที่สุด? PythonและRดูเหมือนว่าจะมีแรงฉุดที่สุดในอวกาศ แต่ภาษาที่รวบรวมได้ดูเหมือนจะเป็นทางเลือกที่ดีกว่า และจะมีอะไรดีกว่านี้Fortranไหม ภาษาที่คอมไพล์ด้วยนอกจากนี้มักจะมีการเร่งความเร็วของ GPU ในขณะที่ตีความภาษาเช่นRและPythonไม่ ฉันควรคำนึงถึงอะไรเมื่อเลือกภาษาและภาษาใดให้ความสมดุลของยูทิลิตี้และประสิทธิภาพที่ดีที่สุด มีภาษาใดบ้างที่มีทรัพยากรการคำนวณทางวิทยาศาสตร์ที่สำคัญที่ฉันพลาดไป
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

4
จะเปรียบเทียบประสิทธิภาพของวิธีการเลือกคุณสมบัติได้อย่างไร
มีวิธีการเลือกคุณสมบัติ / วิธีเลือกตัวแปรหลายวิธี (ดูตัวอย่างGuyon & Elisseeff, 2003 ; Liu et al., 2010 ): วิธีการกรอง (เช่นความสัมพันธ์, อิงตามเอนโทรปี, อิงตามความสำคัญของป่าแบบสุ่ม), วิธีการ wrapper (เช่นการค้นหาไปข้างหน้าการค้นหาการปีนเขา) และ วิธีการฝังตัวที่การเลือกคุณสมบัติเป็นส่วนหนึ่งของการเรียนรู้รูปแบบ อัลกอริทึมที่เผยแพร่จำนวนมากถูกนำไปใช้ในเครื่องมือการเรียนรู้ของเครื่องเช่น R, Python และอื่น ๆ อะไรจะเป็นวิธีที่เหมาะสมในการเปรียบเทียบอัลกอริธึมการเลือกคุณลักษณะที่แตกต่างกันและเพื่อเลือกวิธีที่ดีที่สุดสำหรับปัญหา / ชุดข้อมูลที่กำหนด จะมีคำถามเพิ่มเติมอีกหรือไม่ว่ามีตัวชี้วัดใดบ้างที่ทราบประสิทธิภาพของอัลกอริธึมการเลือกคุณลักษณะหรือไม่

4
เหตุใดจึงยากที่จะให้ประสิทธิภาพขณะใช้ห้องสมุด
การประมวลผลฐานข้อมูลขนาดเล็กใด ๆ สามารถจัดการได้อย่างง่ายดายโดยสคริปต์ Python / Perl / ... ที่ใช้ไลบรารีและ / หรือยูทิลิตี้จากภาษาเอง อย่างไรก็ตามเมื่อพูดถึงประสิทธิภาพคนมักจะเข้าถึงภาษา C / C ++ / ระดับต่ำ ความเป็นไปได้ของการปรับแต่งโค้ดให้ตรงกับความต้องการดูเหมือนจะเป็นสิ่งที่ทำให้ภาษาเหล่านี้น่าสนใจสำหรับ BigData ไม่ว่าจะเป็นเรื่องการจัดการหน่วยความจำการขนานการเข้าถึงดิสก์หรือการปรับให้เหมาะสมในระดับต่ำ แน่นอนว่าสิทธิประโยชน์ดังกล่าวจะไม่เกิดขึ้นโดยไม่เสียค่าใช้จ่าย: การเขียนรหัสและบางครั้งแม้แต่การสร้างล้อใหม่อาจมีราคาแพง / น่าเบื่อ แม้ว่าจะมีห้องสมุดจำนวนมากที่มีอยู่ แต่ผู้คนก็มีแนวโน้มที่จะเขียนโค้ดด้วยตนเองทุกครั้งที่พวกเขาต้องการให้ประสิทธิภาพ สิ่งที่ปิดใช้งานการยืนยันผลการดำเนินงานจากการใช้ห้องสมุดในขณะที่การประมวลผลฐานข้อมูลขนาดใหญ่? ตัวอย่างเช่นพิจารณาองค์กรที่รวบรวมข้อมูลหน้าเว็บอย่างต่อเนื่องและแยกวิเคราะห์ข้อมูลที่รวบรวม สำหรับแต่ละหน้าต่างแบบเลื่อนอัลกอริทึมการทำเหมืองข้อมูลที่แตกต่างกันจะถูกเรียกใช้ตามข้อมูลที่แยกออกมา เหตุใดนักพัฒนาจึงไม่สนใจการใช้ไลบรารี / กรอบงานที่มีอยู่ (ไม่ว่าจะเป็นการรวบรวมข้อมูลการประมวลผลข้อความและการขุดข้อมูล) การใช้สิ่งที่นำไปใช้แล้วไม่เพียง แต่ช่วยลดภาระของการเข้ารหัสกระบวนการทั้งหมด แต่ยังช่วยประหยัดเวลาได้อีกมาก ในนัดเดียว : สิ่งที่ทำให้เขียนโค้ดด้วยตัวเองรับประกันของประสิทธิภาพการทำงาน? ทำไมจึงมีความเสี่ยงในการพึ่งพาเฟรมเวิร์ก / ไลบรารีเมื่อคุณต้องรับประกันประสิทธิภาพสูง?

1
อะไรคือตัวชี้วัดประสิทธิภาพที่ดีที่สุดที่ใช้ในการสร้างสมดุลของชุดข้อมูลโดยใช้เทคนิค SMOTE
ฉันใช้เทคนิค smote เพื่อสุ่มตัวอย่างชุดข้อมูลของฉันและตอนนี้ฉันมีชุดข้อมูลที่สมดุล ปัญหาที่ฉันเผชิญคือการวัดประสิทธิภาพ ความแม่นยำ, การเรียกคืน, การวัด f1, ความแม่นยำในชุดข้อมูลที่ไม่สมดุลนั้นทำได้ดีกว่าชุดข้อมูลที่มีความสมดุล ฉันสามารถใช้การวัดใดเพื่อแสดงว่าชุดข้อมูลที่สมดุลอาจปรับปรุงประสิทธิภาพของโมเดลได้หรือไม่ หมายเหตุ: roc_auc_score จะดีกว่าในชุดข้อมูลที่สมดุลกว่า roc_auc_score พร้อมชุดข้อมูลที่ไม่สมดุลจะถือว่าเป็นการวัดประสิทธิภาพที่ดีได้หรือไม่ หลังจากคำอธิบายฉันใช้รหัสและได้ผลลัพธ์นี้ import pandas as pd import numpy as np from sklearn import preprocessing import matplotlib.pyplot as plt plt.rc("font", size=14) from sklearn.svm import LinearSVC from sklearn.svm import SVC from sklearn.cross_validation import train_test_split,StratifiedShuffleSplit,cross_val_score import seaborn as sns …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.