คำถามติดแท็ก python

ใช้สำหรับคำถามวิทยาศาสตร์ข้อมูลที่เกี่ยวข้องกับภาษาการเขียนโปรแกรม Python ไม่ได้มีไว้สำหรับคำถามการเข้ารหัสทั่วไป (-> stackoverflow)

4
วิธีเริ่มต้นรุ่น word2vec ใหม่ด้วยน้ำหนักแบบฝึกอบรมล่วงหน้า?
ฉันใช้ Gensim Library ในหลามเพื่อใช้และฝึกอบรม word2vector model เมื่อเร็ว ๆ นี้ฉันกำลังดูที่การเริ่มต้นน้ำหนักแบบจำลองของฉันด้วยแบบจำลอง word2vec ที่ผ่านการฝึกอบรมล่วงหน้าเช่น (รุ่น GoogleNewDataset แบบฝึกที่มีการฝึกฝน) ฉันดิ้นรนกับมันสองสามสัปดาห์ ตอนนี้ฉันเพิ่งค้นพบว่าใน gesim มีฟังก์ชั่นที่สามารถช่วยฉันเริ่มต้นน้ำหนักของแบบจำลองของฉันด้วยน้ำหนักแบบจำลองที่ผ่านการฝึกอบรมมาแล้ว ที่กล่าวถึงด้านล่าง: reset_from(other_model) Borrow shareable pre-built structures (like vocab) from the other_model. Useful if testing multiple models in parallel on the same corpus. ฉันไม่รู้ว่าฟังก์ชั่นนี้สามารถทำสิ่งเดียวกันได้หรือไม่ กรุณาช่วย!!!

8
Python เหมาะสำหรับข้อมูลขนาดใหญ่หรือไม่
ผมอ่านในโพสต์นี้คือภาษา R ที่เหมาะสมสำหรับข้อมูลขนาดใหญ่ที่ถือว่าข้อมูลขนาดใหญ่5TBและในขณะที่มันไม่ได้งานที่ดีในการให้ข้อมูลเกี่ยวกับความเป็นไปได้ของการทำงานกับชนิดของข้อมูลในนี้ก็มีข้อมูลน้อยมากเกี่ยวกับR Pythonฉันสงสัยว่าPythonสามารถทำงานกับข้อมูลจำนวนมากเช่นนี้ได้หรือไม่
14 bigdata  python 

3
เอาต์พุตของฟังก์ชัน model.predict จาก Keras หมายถึงอะไร
ฉันได้สร้างแบบจำลอง LSTM เพื่อทำนายคำถามที่ซ้ำกันในชุดข้อมูลอย่างเป็นทางการของ Quora ป้ายทดสอบเป็น 0 หรือ 1 1 หมายถึงคู่คำถามซ้ำกัน หลังจากสร้างแบบจำลองโดยใช้model.fitฉันทดสอบแบบจำลองโดยใช้model.predictกับข้อมูลการทดสอบ ผลลัพธ์คืออาร์เรย์ของค่าบางอย่างดังนี้: [ 0.00514298] [ 0.15161049] [ 0.27588326] [ 0.00236167] [ 1.80067325] [ 0.01048524] [ 1.43425131] [ 1.99202418] [ 0.54853892] [ 0.02514757] ฉันแค่แสดง 10 ค่าแรกในอาร์เรย์ ฉันไม่เข้าใจค่าเหล่านี้หมายถึงอะไรและป้ายกำกับที่คาดการณ์ไว้สำหรับคู่คำถามแต่ละคู่คืออะไร

6
แพ็คเกจ "การขุดตามลำดับบ่อย" ดีใน Python
มีใครเคยใช้ (และชอบ) แพ็คเกจ "การขุดหาลำดับบ่อย ๆ " ที่ดีใน Python นอกเหนือจาก FPM ใน MLLib บ้างไหม? ฉันกำลังมองหาแพคเกจที่มีความเสถียรดีกว่านิ่งได้รับการดูแลโดยคน ขอบคุณ!

1
XGBRegressor vs. xgboost.train ความแตกต่างความเร็วสูงหรือไม่?
ถ้าฉันฝึกโมเดลของฉันโดยใช้รหัสต่อไปนี้: import xgboost as xg params = {'max_depth':3, 'min_child_weight':10, 'learning_rate':0.3, 'subsample':0.5, 'colsample_bytree':0.6, 'obj':'reg:linear', 'n_estimators':1000, 'eta':0.3} features = df[feature_columns] target = df[target_columns] dmatrix = xg.DMatrix(features.values, target.values, feature_names=features.columns.values) clf = xg.train(params, dmatrix) มันเสร็จในเวลาประมาณ 1 นาที ถ้าฉันฝึกโมเดลของฉันโดยใช้วิธีการเรียนรู้ Sci-Kit: import xgboost as xg max_depth = 3 min_child_weight = 10 subsample = 0.5 colsample_bytree = …

1
แปลงคอลัมน์ pandas ของ int เป็นประเภทข้อมูลประทับเวลา
ฉันมีชื่อไฟล์ที่เหนือสิ่งอื่นใดมีคอลัมน์ของจำนวนมิลลิวินาทีที่ผ่านไปตั้งแต่ปี 1970-1-1 ฉันต้องการแปลงคอลัมน์ของ ints นี้เป็นข้อมูลการประทับเวลาดังนั้นในที่สุดฉันก็สามารถแปลงมันเป็นคอลัมน์ของข้อมูลวันที่และเวลาโดยเพิ่มชุดคอลัมน์เวลาลงในชุดที่ประกอบด้วยค่าวันที่และเวลาทั้งหมดสำหรับ 1970-1-1 ฉันรู้วิธีแปลงชุดสตริงเป็นข้อมูล datetime (pandas.to_datetime) แต่ฉันไม่สามารถค้นหาหรือคิดวิธีแก้ปัญหาใด ๆ ในการแปลงทั้งคอลัมน์ของintsเป็น datetime data หรือข้อมูลประทับเวลา

5
ความสำคัญของคุณลักษณะกับป่าสุ่มเรียนรู้ scikit แสดงค่าเบี่ยงเบนมาตรฐานที่สูงมาก
ฉันกำลังใช้ตัวจำแนกประเภทฟอเรสต์แบบสุ่มของ scikitและฉันต้องการพล็อตความสำคัญของคุณลักษณะเช่นในตัวอย่างนี้ อย่างไรก็ตามผลลัพธ์ของฉันแตกต่างอย่างสิ้นเชิงในแง่ที่ความสำคัญของความเบี่ยงเบนมาตรฐานสำคัญมักจะใหญ่กว่าความสำคัญของคุณสมบัติ (ดูรูปที่แนบมา) เป็นไปได้ไหมที่จะมีพฤติกรรมเช่นนี้หรือฉันทำผิดพลาดบางอย่างเมื่อวางแผนมัน? รหัสของฉันคือ: import matplotlib.pyplot as plt import numpy as np import pandas as pd from sklearn.ensemble import RandomForestClassifier clf = RandomForestClassifier() clf.fit(predictors.values, outcome.values.ravel()) importance = clf.feature_importances_ importance = pd.DataFrame(importance, index=predictors.columns, columns=["Importance"]) importance["Std"] = np.std([tree.feature_importances_ for tree in clf.estimators_], axis=0) x = range(importance.shape[0]) y = importance.ix[:, 0] …

1
การคาดการณ์ชุดเวลาหลายมิติและหลายตัวแปร (RNN / LSTM) Keras
ฉันได้รับการพยายามที่จะเข้าใจวิธีการที่จะเป็นตัวแทนของข้อมูลและรูปร่างที่จะทำให้Multidimentionalและหลายตัวแปรเวลาคาดการณ์โดยใช้ Keras (หรือ TensorFlow) ชุด แต่ผมยังไม่ชัดเจนมากหลังจากอ่านบล็อกโพสต์หลาย tutorials / / เอกสารเกี่ยวกับวิธีการที่จะนำเสนอข้อมูลใน รูปร่างที่ถูกต้อง (ตัวอย่างส่วนใหญ่มีค่าน้อยกว่าเล็กน้อย ชุดข้อมูลของฉัน: หลายเมือง ที่ฉันมีข้อมูลเกี่ยวกับพูดอุณหภูมิการจราจรรถยนต์ความชื้น สำหรับพูด 2 ปีที่ผ่านมา (บันทึกหนึ่งรายการในแต่ละวัน) สิ่งที่ฉันต้องการจะทำ: ฉันต้องการที่จะคาดการณ์สำหรับแต่ละเมืองอุณหภูมิที่ฉันคาดหวังสำหรับปีถัดไปโดยใช้รุ่นที่อาจล่าช้า, การจราจรรถยนต์และความชื้น (แน่นอนว่าจะมีคุณสมบัติอื่น ๆ อีกมากมาย แต่นี่เป็นเพียง ตัวอย่างความคิด) สิ่งที่ฉันสับสนเกี่ยวกับ: หากฉันมี 2 เมืองซึ่งฉันบันทึกคุณสมบัติ 3 แห่งไว้สำหรับ 365 วัน ฉันจะกำหนดรูปแบบการป้อนข้อมูลของฉันอย่างไรเพื่อให้แบบจำลองสามารถส่งออกการพยากรณ์เป็นเวลา 365 วันสำหรับเมืองทั้งสองนี้ (เช่นชุดข้อมูลอุณหภูมิ 2 ชุดเป็นเวลา 365 วัน) รูปทรงเทนเซอร์นั้นเป็นไปอย่างง่ายดาย(?, 365, 3)สำหรับ 365 วันและ 3 คุณสมบัติ …
12 python  keras  rnn  lstm 

2
การสูญเสียการตรวจสอบและความถูกต้องยังคงอยู่
ฉันพยายามที่จะใช้กระดาษนี้ในชุดของภาพทางการแพทย์ ฉันกำลังทำอยู่ใน Keras เครือข่ายประกอบด้วยเลเยอร์ Conv 4 และ max-pool ตามด้วยเลเยอร์ที่เชื่อมต่อเต็มที่และซอฟต์แวร์ลักษณนามสูงสุด เท่าที่ฉันรู้ฉันได้ปฏิบัติตามสถาปัตยกรรมที่กล่าวถึงในกระดาษ อย่างไรก็ตามการสูญเสียการตรวจสอบและความถูกต้องเพียงแค่คงอยู่ตลอด ความแม่นยำดูเหมือนจะถูกแก้ไขที่ ~ 57.5% ความช่วยเหลือใด ๆ ที่ฉันอาจจะผิดพลาดจะได้รับการชื่นชมอย่างมาก รหัสของฉัน: from keras.models import Sequential from keras.layers import Activation, Dropout, Dense, Flatten from keras.layers import Convolution2D, MaxPooling2D from keras.optimizers import SGD from keras.utils import np_utils from PIL import Image import numpy as np …

3
ความช่วยเหลือเกี่ยวกับ NER ใน NLTK
ฉันทำงานใน NLTK มาระยะหนึ่งแล้วโดยใช้ Python ปัญหาที่ฉันพบคือพวกเขาไม่มีความช่วยเหลือในการฝึกอบรม NER ใน NLTK ด้วยข้อมูลที่กำหนดเองของฉัน พวกเขาใช้ MaxEnt และฝึกฝนบน ACE corpus ฉันค้นหาบนเว็บเป็นจำนวนมาก แต่ไม่พบวิธีที่สามารถใช้ในการฝึกอบรม NER ของ NLTK ได้ หากทุกคนสามารถให้ลิงก์ / บทความ / บล็อกอื่น ๆ ให้ฉันซึ่งสามารถนำฉันไปยังรูปแบบชุดข้อมูลการฝึกอบรมที่ใช้ในการฝึกอบรม NER ของ NLTK เพื่อให้ฉันสามารถเตรียมชุดข้อมูลของฉันในรูปแบบเฉพาะนั้น และถ้าฉันถูกนำไปยังลิงก์ / บทความ / บล็อก ฯลฯ ซึ่งสามารถช่วยฉันได้ NER ของ TRAIN NLTK สำหรับข้อมูลของฉันเอง นี่คือคำถามที่ค้นหากันอย่างกว้างขวางและตอบน้อยที่สุด อาจเป็นประโยชน์สำหรับใครบางคนในอนาคตที่ทำงานกับ NER

1
ฉันควรใช้เซลล์ LSTM กี่เซลล์
มีกฎของหัวแม่มือ (หรือกฎจริง) ที่เกี่ยวข้องกับจำนวน LSTM ขั้นต่ำ, สูงสุดและ "สมเหตุสมผล" ที่ฉันควรใช้หรือไม่? โดยเฉพาะฉันเกี่ยวข้องกับBasicLSTMCellจาก TensorFlow และnum_unitsคุณสมบัติ โปรดสมมติว่าฉันมีปัญหาการจำแนกที่กำหนดโดย: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples ตัวอย่างจริงหรือไม่ที่จำนวนตัวอย่างการฝึกอบรมควรมากกว่า: 4*((n+1)*m + m*m)*c ที่cเป็นจำนวนของเซลล์? ฉันใช้สิ่งนี้: จะคำนวณจำนวนพารามิเตอร์ของเครือข่าย …
12 rnn  machine-learning  r  predictive-modeling  random-forest  python  language-model  sentiment-analysis  encoding  machine-learning  deep-learning  neural-network  dataset  caffe  classification  xgboost  multiclass-classification  unbalanced-classes  time-series  descriptive-statistics  python  r  clustering  machine-learning  python  deep-learning  tensorflow  machine-learning  python  predictive-modeling  probability  scikit-learn  svm  machine-learning  python  classification  gradient-descent  regression  research  python  neural-network  deep-learning  convnet  keras  python  tensorflow  machine-learning  deep-learning  tensorflow  python  r  bigdata  visualization  rstudio  pandas  pyspark  dataset  time-series  multilabel-classification  machine-learning  neural-network  ensemble-modeling  kaggle  machine-learning  linear-regression  cnn  convnet  machine-learning  tensorflow  association-rules  machine-learning  predictive-modeling  training  model-selection  neural-network  keras  deep-learning  deep-learning  convnet  image-classification  predictive-modeling  prediction  machine-learning  python  classification  predictive-modeling  scikit-learn  machine-learning  python  random-forest  sampling  training  recommender-system  books  python  neural-network  nlp  deep-learning  tensorflow  python  matlab  information-retrieval  search  search-engine  deep-learning  convnet  keras  machine-learning  python  cross-validation  sampling  machine-learning 

2
การลดขนาดอย่างมีประสิทธิภาพสำหรับชุดข้อมูลขนาดใหญ่
ฉันมีชุดข้อมูลที่มี ~ 1M แถวและ ~ 500K คุณสมบัติกระจัดกระจาย ฉันต้องการลดมิติข้อมูลลงที่ใดที่หนึ่งตามลำดับของคุณลักษณะที่หนาแน่น 1K-5K sklearn.decomposition.PCAไม่ทำงานกับข้อมูลที่กระจัดกระจายและฉันพยายามใช้sklearn.decomposition.TruncatedSVDแต่ได้รับข้อผิดพลาดของหน่วยความจำอย่างรวดเร็ว ตัวเลือกของฉันในการลดมิติข้อมูลที่มีประสิทธิภาพในระดับนี้คืออะไร

1
scikit-Learn พารามิเตอร์ n_jobs เกี่ยวกับการใช้งาน CPU และหน่วยความจำ
ในประมาณมากที่สุดใน scikit การเรียนรู้ที่มีn_jobsพารามิเตอร์ในfit/ วิธีการสำหรับการสร้างงานโดยใช้แบบคู่ขนานpredict joblibฉันสังเกตเห็นว่าการตั้งค่าให้-1สร้างกระบวนการ Python เพียง 1 กระบวนการและใช้แกนประมวลผลสูงสุดทำให้การใช้งาน CPU สูงถึง 2,500% ที่ด้านบน สิ่งนี้ค่อนข้างแตกต่างจากการตั้งค่าเป็นจำนวนเต็มบวก> 1 ซึ่งสร้างกระบวนการ Python หลายกระบวนการที่การใช้งาน ~ 100% การตั้งค่านี้มีผลต่อการใช้งาน CPU & core อย่างไรบนเซิร์ฟเวอร์ multi-CPU Linux (เช่นถ้าn_jobs=8เป็น 8 ซีพียูถูกล็อคอย่างสมบูรณ์หรือซีพียูยังคงจองคอร์บางส่วนสำหรับงาน / กระบวนการอื่น ๆ ?) นอกจากนี้ฉันจะได้รับMemoryErrorเป็นครั้งคราวเมื่อตั้งค่าn_jobs=-1ชุดข้อมูลขนาดใหญ่ อย่างไรก็ตามการใช้หน่วยความจำมักจะวนเวียนอยู่ที่ประมาณ 30-40% สำหรับกระบวนการ Python เดียว ข้อมูลและหน่วยความจำมีการจัดการ / คัดลอกอย่างไรขึ้นอยู่กับมูลค่าของn_jobs?

2
ฉันจะพอดีกับประเภทข้อมูลเด็ดขาดสำหรับการจำแนกป่าแบบสุ่มได้อย่างไร
ฉันต้องการค้นหาความถูกต้องของชุดข้อมูลการฝึกอบรมโดยใช้ Random Forest Algorithm แต่ประเภทของชุดข้อมูลของฉันมีทั้งหมวดหมู่และตัวเลข เมื่อฉันพยายามที่จะพอดีกับข้อมูลเหล่านั้นฉันได้รับข้อผิดพลาด 'อินพุตมี NaN อินฟินิตี้หรือค่ามีขนาดใหญ่เกินไปสำหรับ dtype (' float32 ')' อาจเป็นปัญหาสำหรับประเภทข้อมูลวัตถุ ฉันจะพอดีกับข้อมูลที่เป็นหมวดหมู่โดยไม่มีการแปลงเพื่อใช้ RF ได้อย่างไร นี่คือรหัสของฉัน

3
แทนที่ค่าตัวเลขทั้งหมดใน pyspark dataframe ด้วยค่าคงที่
พิจารณา pyspark dataframe ซึ่งประกอบด้วยองค์ประกอบ 'null' และองค์ประกอบตัวเลข โดยทั่วไปองค์ประกอบตัวเลขมีค่าแตกต่างกัน เป็นไปได้อย่างไรที่จะแทนที่ค่าตัวเลขทั้งหมดของ dataframe ด้วยค่าตัวเลขคงที่ (ตัวอย่างเช่นโดยค่า 1) ขอบคุณล่วงหน้า! ตัวอย่างสำหรับ pyspark dataframe: 123c10.04- 1n U ลิตรลิตรc21n U ลิตรลิตร1.2c31.35- 1.2n U ลิตรลิตรc1c2c310.0411.352-1nยูล.ล.-1.23nยูล.ล.1.2nยูล.ล. \begin{array}{c|lcr} & \text{c1} & \text{c2} & \text{c3} \\ \hline 1 & 0.04 & 1 & 1.35 \\ 2 & -1 & null & -1.2 \\ …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.