คำถามติดแท็ก python

ใช้สำหรับคำถามวิทยาศาสตร์ข้อมูลที่เกี่ยวข้องกับภาษาการเขียนโปรแกรม Python ไม่ได้มีไว้สำหรับคำถามการเข้ารหัสทั่วไป (-> stackoverflow)

2
การเข้ารหัสแบบฮ็อตเดียวในเทนเซอร์คืออะไร
ขณะนี้ฉันกำลังทำหลักสูตรเป็นเมตริกซ์ซึ่งพวกเขาใช้ tf.one_hot (ดัชนีความลึก) ตอนนี้ฉันไม่เข้าใจว่าดัชนีเหล่านี้เปลี่ยนเป็นลำดับไบนารีได้อย่างไร ใครช่วยอธิบายกระบวนการที่แน่นอนให้ฉันได้ไหม

3
มีรูปแบบภาษาที่ดีนอกกรอบสำหรับงูใหญ่หรือไม่?
ฉันกำลังสร้างต้นแบบแอปพลิเคชันและฉันต้องการโมเดลภาษาเพื่อคำนวณความงุนงงในประโยคที่สร้างขึ้น มีรูปแบบภาษาที่ผ่านการฝึกอบรมในภาษาไพ ธ อนที่ฉันสามารถใช้ได้หรือไม่? บางสิ่งที่เรียบง่ายเช่น model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 ฉันดูบางกรอบ แต่ไม่สามารถค้นหาสิ่งที่ฉันต้องการ ฉันรู้ว่าฉันสามารถใช้สิ่งที่ชอบ: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) สิ่งนี้ใช้การแจกแจงความน่าจะเป็นที่ดีใน Brown Corpus แต่ฉันกำลังมองหาโมเดลที่สร้างขึ้นอย่างดีในชุดข้อมูลขนาดใหญ่เช่นชุดข้อมูลคำ 1b สิ่งที่ฉันสามารถเชื่อถือได้จริง ๆ ผลลัพธ์สำหรับโดเมนทั่วไป (ไม่เพียงข่าว)
11 python  nlp  language-model  r  statistics  linear-regression  machine-learning  classification  random-forest  xgboost  python  sampling  data-mining  orange  predictive-modeling  recommender-system  statistics  dimensionality-reduction  pca  machine-learning  python  deep-learning  keras  reinforcement-learning  neural-network  image-classification  r  dplyr  deep-learning  keras  tensorflow  lstm  dropout  machine-learning  sampling  categorical-data  data-imputation  machine-learning  deep-learning  machine-learning-model  dropout  deep-network  pandas  data-cleaning  data-science-model  aggregation  python  neural-network  reinforcement-learning  policy-gradients  r  dataframe  dataset  statistics  prediction  forecasting  r  k-means  python  scikit-learn  labels  python  orange  cloud-computing  machine-learning  neural-network  deep-learning  rnn  recurrent-neural-net  logistic-regression  missing-data  deep-learning  autoencoder  apache-hadoop  time-series  data  preprocessing  classification  predictive-modeling  time-series  machine-learning  python  feature-selection  autoencoder  deep-learning  keras  tensorflow  lstm  word-embeddings  predictive-modeling  prediction  machine-learning-model  machine-learning  classification  binary  theory  machine-learning  neural-network  time-series  lstm  rnn  neural-network  deep-learning  keras  tensorflow  convnet  computer-vision 

1
วิธีการคาดการณ์ค่าในอนาคตของขอบฟ้าเวลาด้วย Keras
ฉันเพิ่งสร้างเครือข่ายประสาท LSTMนี้ด้วย Keras import numpy as np import pandas as pd from sklearn import preprocessing from keras.layers.core import Dense, Dropout, Activation from keras.activations import linear from keras.layers.recurrent import LSTM from keras.models import Sequential from matplotlib import pyplot #read and prepare data from datafile data_file_name = "DailyDemand.csv" data_csv = pd.read_csv(data_file_name, delimiter …

3
โครงข่ายประสาท - ค้นหาภาพที่คล้ายกันมากที่สุด
ฉันกำลังทำงานกับ Python, scikit-learn และ keras ฉันมี 3000 พันภาพของนาฬิกาหน้าต้องเผชิญเช่นคนต่อไปนี้: Watch_1 , Watch_2 , Watch_3 ฉันต้องการเขียนโปรแกรมที่ได้รับเป็นรูปถ่ายของนาฬิกาจริงซึ่งอาจถ่ายภายใต้เงื่อนไขในอุดมคติน้อยกว่าภาพถ่ายด้านบน (สีพื้นหลังที่แตกต่างกันสายฟ้าที่มืดกว่า ฯลฯ ) และค้นหานาฬิกาที่คล้ายกันมากที่สุดในบรรดานาฬิกา 3000 เรือน ตามความคล้ายคลึงกันฉันหมายความว่าถ้าฉันให้รูปถ่ายของนาฬิกากลมสีน้ำตาลด้วยลูกไม้บาง ๆ ฉันก็คาดว่าจะเป็นนาฬิการูปทรงกลมสีเข้มและลูกไม้บาง ๆ อัลกอริทึมการเรียนรู้ของเครื่องที่มีประสิทธิภาพที่สุดในการทำเช่นนี้คืออะไร? ตัวอย่างเช่นโดยไปที่ลิงค์นี้ฉันมีสองโซลูชั่นที่แตกต่างกันในใจของฉัน: 1) ใช้ CNN เป็นตัวแยกคุณลักษณะและเปรียบเทียบระยะห่างระหว่างคุณลักษณะเหล่านี้สำหรับทุกคู่ของรูปภาพที่อ้างอิงถึงภาพอินพุต 2) ใช้ CNN สองตัวในเครือข่ายประสาทสยามเพื่อเปรียบเทียบภาพ ตัวเลือกทั้งสองนี้เป็นตัวเลือกที่ดีที่สุดสำหรับงานนี้หรือคุณจะแนะนำอย่างอื่นหรือไม่? คุณรู้จักโครงข่ายประสาทเทียมที่ได้รับการฝึกอบรมมาก่อน (พร้อมพารามิเตอร์ไฮเปอร์พารามิเตอร์) สำหรับงานนี้หรือไม่? ฉันได้พบโพสต์ที่น่าสนใจบางใน StackOverflow เกี่ยวกับเรื่องนี้ แต่พวกเขามีความเก่าแก่สวย: Post_1 , Post_2 , Post_3

1
ฝึกการแบตช์ใน Tensorflow
ขณะนี้ฉันกำลังพยายามฝึกอบรมโมเดลด้วยไฟล์ csv ขนาดใหญ่ (> 70GB ที่มีมากกว่า 60 ล้านแถว) หากต้องการทำเช่นนั้นฉันกำลังใช้ tf.contrib.learn.read_batch_examples ฉันดิ้นรนในการทำความเข้าใจว่าฟังก์ชั่นนี้อ่านข้อมูลได้อย่างไร หากฉันใช้ขนาดแบทช์เป็น 50,000 เช่นนั้นจะอ่านไฟล์ 50,000 บรรทัดแรกหรือไม่ หากฉันต้องการวนซ้ำไฟล์ทั้งหมด (1 ตอน) ฉันต้องใช้ num_rows / batch_size = 1.200 จำนวนขั้นตอนสำหรับเมธอด estimator.fit หรือไม่ นี่คือฟังก์ชั่นอินพุตที่ฉันใช้ในปัจจุบัน: def input_fn(file_names, batch_size): # Read csv files and create examples dict examples_dict = read_csv_examples(file_names, batch_size) # Continuous features feature_cols = {k: …

1
เครือข่ายประสาท Tensorflow TypeError: อาร์กิวเมนต์การดึงข้อมูลมีประเภทที่ไม่ถูกต้อง
ฉันกำลังสร้างโครงข่ายประสาทอย่างง่ายโดยใช้เมตริกซ์ด้วยข้อมูลที่ฉันรวบรวมเองอย่างไรก็ตามมันไม่ได้ทำงานร่วมกัน: PI พบข้อผิดพลาดที่ฉันไม่สามารถแก้ไขหรือค้นหาวิธีแก้ปัญหาได้และฉันจะรักความช่วยเหลือของคุณ ความผิดพลาด: TypeError: ดึงข้อมูลอาร์กิวเมนต์ 2861.6152 จาก 2861.6152 มีประเภทที่ไม่ถูกต้องจะต้องเป็นสตริงหรือ Tensor (ไม่สามารถแปลง float32 เป็น Tensor หรือ Operation) ข้อผิดพลาดอ้างถึงบรรทัดต่อไปนี้ในรหัสของฉัน: _, cost = tf_session.run([optimizer, cost], feed_dict = {champion_data: batch_input, item_data: batch_output}) ฉันพบแล้วว่าข้อผิดพลาดจะไม่เกิดขึ้นเมื่อฉันใส่ความคิดเห็นในบรรทัดต่อไปนี้ในรหัสของฉัน: prediction = neural_network_model(champion_data) cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(prediction, item_data)) optimizer = tf.train.AdamOptimizer().minimize(cost) _, cost = tf_session.run([optimizer, cost], feed_dict = {champion_data: batch_input, item_data: …

4
ดึงข้อมูลจากประโยค
ฉันกำลังสร้าง chatbot ง่าย ๆ ฉันต้องการรับข้อมูลจากการตอบกลับของผู้ใช้ ตัวอย่างสถานการณ์: Bot : Hi, what is your name? User: My name is Edwin. ฉันต้องการแยกชื่อ Edwin ออกจากประโยค อย่างไรก็ตามผู้ใช้สามารถตอบสนองได้หลายวิธีเช่น User: Edwin is my name. User: I am Edwin. User: Edwin. ฉันพยายามพึ่งพาความสัมพันธ์ระหว่างคำ แต่ผลลัพธ์ไม่ดี ความคิดเกี่ยวกับเทคนิคใดที่ฉันสามารถใช้เพื่อแก้ไขปัญหานี้ [UPDATED] ฉันทดสอบด้วยการจดจำเอนทิตีที่ระบุชื่อพร้อมกับส่วนหนึ่งของเครื่องมือแท็กคำพูดและโปรแกรมแยกวิเคราะห์ ฉันพบว่าโมเดลส่วนใหญ่ได้รับการฝึกฝนในลักษณะที่อักขระตัวแรกของเอนทิตีสำหรับชื่อบุคคลหรือคำนามที่เหมาะสมจะต้องเป็นตัวพิมพ์ใหญ่ สิ่งนี้อาจเป็นจริงสำหรับเอกสารปกติ แต่ไม่เกี่ยวข้องกับ chatbot เช่น User: my name is edwin. NER ส่วนใหญ่ไม่สามารถรับรู้สิ่งนี้
11 python  nlp 

3
ฉันจะสร้าง Scatterplan แบบ PCA เชิงโต้ตอบใน Python ได้อย่างไร
matplotlibห้องสมุดที่มีความสามารถมาก แต่ขาด interactiveness โดยเฉพาะอย่างยิ่งภายใน Jupyter โน๊ตบุ๊ค ฉันต้องการที่ดีออฟไลน์เครื่องมือวางแผนเหมือนplot.ly

3
ปัญหากับ IPython / Jupyter บน Spark (นามแฝงที่ไม่รู้จัก)
ฉันกำลังทำงานเกี่ยวกับการตั้งค่าชุดของ VM เพื่อทดลองใช้กับ Spark ก่อนที่ฉันจะออกไปข้างนอกและใช้เงินในการสร้างคลัสเตอร์ด้วยฮาร์ดแวร์บางตัว บันทึกย่อ: ฉันเป็นนักวิชาการที่มีพื้นฐานในการเรียนรู้ของเครื่องที่ใช้และการทำงานออกจากบิตของวิทยาศาสตร์ข้อมูล ฉันใช้เครื่องมือสำหรับการคำนวณฉันแทบจะไม่ต้องตั้งค่าเลย ฉันได้สร้าง 3 VMs (1 master, 2 slaves) และติดตั้ง Spark เรียบร้อยแล้ว ทุกอย่างดูเหมือนจะทำงานได้ตามที่ควร ปัญหาของฉันอยู่ที่การสร้างเซิร์ฟเวอร์ Jupyter ที่สามารถเชื่อมต่อกับเบราว์เซอร์ที่ไม่ได้ทำงานบนเครื่องในคลัสเตอร์ ฉันติดตั้งโน้ตบุ๊ก Jupyterเรียบร้อยแล้ว ... และมันก็ทำงานได้ ฉันได้เพิ่มโปรไฟล์ IPython ใหม่ที่เชื่อมต่อกับเซิร์ฟเวอร์ระยะไกลด้วย Spark ตอนนี้ปัญหา คำสั่ง $ ipython --profile=pyspark ทำงานได้ดีและเชื่อมต่อกับคลัสเตอร์ประกาย อย่างไรก็ตาม $ ipython notebook --profile=pyspark [<stuff is here>] Unrecognized alias: "profile=pyspark", it will probably …

2
วิธีการแปลงข้อมูลเด็ดขาดเป็นข้อมูลตัวเลขใน Pyspark
ฉันกำลังใช้สมุดบันทึก Ipython เพื่อทำงานกับแอปพลิเคชัน pyspark ฉันมีไฟล์ CSV ที่มีคอลัมน์หมวดหมู่มากมายเพื่อพิจารณาว่ารายได้อยู่ในช่วงหรือมากกว่า 50k ฉันต้องการดำเนินการอัลกอริทึมการจำแนกโดยใช้อินพุตทั้งหมดเพื่อกำหนดช่วงรายได้ ฉันต้องสร้างพจนานุกรมของตัวแปรเพื่อทำแผนที่ตัวแปรและใช้ฟังก์ชั่นแผนที่เพื่อแมปตัวแปรกับตัวเลขสำหรับการประมวลผล โดยพื้นฐานแล้วฉันต้องการให้ชุดข้อมูลของฉันอยู่ในรูปแบบตัวเลขเพื่อให้ฉันสามารถใช้งานโมเดลได้ ในชุดข้อมูลมีคอลัมน์หมวดหมู่เช่นการศึกษาสถานภาพการทำงาน ฯลฯ มีคนบอกวิธีแปลงเป็นคอลัมน์ตัวเลขใน pyspark ได้ไหม workclass = {'?':0,'Federal-gov':1,'Local-gov':2,'Never- worked':3,'Private':4,'Self-emp-inc':5,'Self-emp-not-inc':6,'State-gov':7,'Without-pay':8} ฉันสร้างพจนานุกรมตัวอย่างพร้อมคู่ค่าคีย์สำหรับคลาสงาน แต่ฉันไม่รู้วิธีใช้สิ่งนี้ในฟังก์ชั่นแผนที่และแทนที่ข้อมูลหมวดหมู่ในไฟล์ CSV ด้วยค่าที่สอดคล้องกัน wc = pd.read_csv('PATH', usecols = ['Workclass']) df = pd.DataFrame(wc) wcdict = {' ?':0,' Federal-gov':1,' Local-gov':2,' Never-worked':3,' Private':4,' Self-emp-inc':5,' Self-emp-n-inc':6,' State-gov':7,' Without-pay':8} df_new = df.applymap(lambda s: wcdict.get(s) …

3
การถดถอยแบบใดที่ใช้ในการคำนวณผลการเลือกตั้งในระบบหลายส่วน?
ฉันต้องการทำนายผลการเลือกตั้งรัฐสภา ผลลัพธ์ของฉันจะเป็น% ที่แต่ละฝ่ายได้รับ มีมากกว่า 2 ฝ่ายดังนั้นการถดถอยโลจิสติกจึงไม่ใช่ตัวเลือกที่เหมาะสม ฉันสามารถสร้างความถดถอยแยกกันสำหรับแต่ละฝ่าย แต่ในกรณีนั้นผลลัพธ์จะเป็นไปอย่างอิสระจากกัน มันจะไม่แน่ใจว่าผลรวมของผลลัพธ์จะเป็น 100% ฉันควรใช้การถดถอยแบบใด (หรือวิธีการอื่น) เป็นไปได้หรือไม่ที่จะใช้วิธีนี้ใน R หรือ Python ผ่านไลบรารี่เฉพาะ

1
การนำ t-SNE Python มาใช้: Kullback-Leibler divergence
t-SNE ดังที่ [1] ทำงานโดยลดการเบี่ยงเบน Kullback-Leibler (KL) อย่างต่อเนื่องจนกว่าจะบรรลุเงื่อนไขบางประการ ผู้สร้าง t-SNE แนะนำให้ใช้ KL divergence เป็นเกณฑ์ประสิทธิภาพสำหรับการสร้างภาพข้อมูล: คุณสามารถเปรียบเทียบความแตกต่าง Kullback-Leibler ที่รายงาน T-SNE เป็นการดีที่จะเรียกใช้ t-SNE สิบครั้งและเลือกโซลูชันที่มีค่าเบี่ยงเบน KL ต่ำสุด [2] ฉันลองใช้งานสองแบบของ t-SNE: หลาม : sklearn.manifold.TSNE () R : tsne จากไลบรารี่ (tsne) การประยุกต์ใช้ทั้งสองนี้เมื่อตั้งค่าการใช้คำฟุ่มเฟือยพิมพ์ข้อผิดพลาด (Kullback-Leibler divergence) สำหรับการวนซ้ำแต่ละครั้ง อย่างไรก็ตามพวกเขาไม่อนุญาตให้ผู้ใช้รับข้อมูลนี้ซึ่งดูแปลกสำหรับฉัน ตัวอย่างเช่นรหัส: import numpy as np from sklearn.manifold import TSNE X = …

1
XGBoost เอาต์พุตการถดถอยเชิงเส้นไม่ถูกต้อง
ฉันเป็นมือใหม่ที่จะ XGBoost เพื่อให้อภัยความไม่รู้ของฉัน นี่คือรหัสหลาม: import pandas as pd import xgboost as xgb df = pd.DataFrame({'x':[1,2,3], 'y':[10,20,30]}) X_train = df.drop('y',axis=1) Y_train = df['y'] T_train_xgb = xgb.DMatrix(X_train, Y_train) params = {"objective": "reg:linear"} gbm = xgb.train(dtrain=T_train_xgb,params=params) Y_pred = gbm.predict(xgb.DMatrix(pd.DataFrame({'x':[4,5]}))) print Y_pred ผลลัพธ์คือ: [ 24.126194 24.126194] ในขณะที่คุณสามารถดูข้อมูลอินพุตเป็นเพียงเส้นตรง [40,50]ดังนั้นการส่งออกที่ผมคาดหวัง ฉันทำอะไรผิดที่นี่

3
ภาษาที่ดีที่สุดสำหรับการคำนวณทางวิทยาศาสตร์ [ปิด]
ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา ดูเหมือนว่าภาษาส่วนใหญ่จะมีห้องสมุดคำนวณทางวิทยาศาสตร์จำนวนหนึ่ง Python มี Scipy Rust มี SciRust C++มีหลายอย่างรวมถึงViennaCLและArmadillo JavaมีJava NumericsและColtเช่นเดียวกับหลาย ๆ ไม่ต้องพูดถึงภาษาที่ชอบRและJuliaออกแบบมาอย่างชัดเจนสำหรับการคำนวณทางวิทยาศาสตร์ ด้วยตัวเลือกมากมายคุณจะเลือกภาษาที่ดีที่สุดสำหรับงานอย่างไร นอกจากนี้ภาษาใดที่จะเป็นคนที่มีประสิทธิภาพมากที่สุด? PythonและRดูเหมือนว่าจะมีแรงฉุดที่สุดในอวกาศ แต่ภาษาที่รวบรวมได้ดูเหมือนจะเป็นทางเลือกที่ดีกว่า และจะมีอะไรดีกว่านี้Fortranไหม ภาษาที่คอมไพล์ด้วยนอกจากนี้มักจะมีการเร่งความเร็วของ GPU ในขณะที่ตีความภาษาเช่นRและPythonไม่ ฉันควรคำนึงถึงอะไรเมื่อเลือกภาษาและภาษาใดให้ความสมดุลของยูทิลิตี้และประสิทธิภาพที่ดีที่สุด มีภาษาใดบ้างที่มีทรัพยากรการคำนวณทางวิทยาศาสตร์ที่สำคัญที่ฉันพลาดไป
10 efficiency  statistics  tools  knowledge-base  machine-learning  neural-network  deep-learning  optimization  hyperparameter  machine-learning  time-series  categorical-data  logistic-regression  python  visualization  bigdata  efficiency  classification  binary  svm  random-forest  logistic-regression  data-mining  sql  experiments  bigdata  efficiency  performance  scalability  distributed  bigdata  nlp  statistics  education  knowledge-base  definitions  machine-learning  recommender-system  evaluation  efficiency  algorithms  parameter  efficiency  scalability  sql  statistics  visualization  knowledge-base  education  machine-learning  r  python  r  text-mining  sentiment-analysis  machine-learning  machine-learning  python  neural-network  statistics  reference-request  machine-learning  data-mining  python  classification  data-mining  bigdata  usecase  apache-hadoop  map-reduce  aws  education  feature-selection  machine-learning  machine-learning  sports  data-formats  hierarchical-data-format  bigdata  apache-hadoop  bigdata  apache-hadoop  python  visualization  knowledge-base  classification  confusion-matrix  accuracy  bigdata  apache-hadoop  bigdata  efficiency  apache-hadoop  distributed  machine-translation  nlp  metadata  data-cleaning  text-mining  python  pandas  machine-learning  python  pandas  scikit-learn  bigdata  machine-learning  databases  clustering  data-mining  recommender-system 

1
Keras LSTM พร้อมอนุกรมเวลา 1D
ฉันเรียนรู้วิธีการใช้ Keras และผมเคยประสบความสำเร็จที่เหมาะสมกับชุดที่มีป้ายกำกับของฉันโดยใช้ตัวอย่างใน Chollet ของการเรียนรู้ลึกหลาม ชุดข้อมูลคือ ~ 1000 Time Series ที่มีความยาว 3125 กับ 3 คลาสที่อาจเกิดขึ้น ฉันต้องการไปไกลกว่าเลเยอร์หนาแน่นพื้นฐานซึ่งให้อัตราการคาดคะเนประมาณ 70% และหนังสือเล่มนี้จะพูดถึงเลเยอร์ LSTM และ RNN ตัวอย่างทั้งหมดดูเหมือนจะใช้ชุดข้อมูลที่มีคุณสมบัติหลายอย่างสำหรับแต่ละชุดเวลาและฉันพยายามหาวิธีนำข้อมูลมาใช้ให้เกิดประโยชน์ ตัวอย่างเช่นฉันมี 1000x3125 Time Series ฉันจะป้อนสิ่งนั้นลงในเลเยอร์ SimpleRNN หรือ LSTM ได้อย่างไร ฉันขาดความรู้พื้นฐานเกี่ยวกับเลเยอร์เหล่านี้หรือไม่? รหัสปัจจุบัน: import pandas as pd import numpy as np import os from keras.models import Sequential from keras.layers import …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.