วิทยาศาสตร์ข้อมูล python

2

การเข้ารหัสแบบฮ็อตเดียวในเทนเซอร์คืออะไร

ขณะนี้ฉันกำลังทำหลักสูตรเป็นเมตริกซ์ซึ่งพวกเขาใช้ tf.one_hot (ดัชนีความลึก) ตอนนี้ฉันไม่เข้าใจว่าดัชนีเหล่านี้เปลี่ยนเป็นลำดับไบนารีได้อย่างไร ใครช่วยอธิบายกระบวนการที่แน่นอนให้ฉันได้ไหม

11 machine-learning python neural-network deep-learning tensorflow

3

มีรูปแบบภาษาที่ดีนอกกรอบสำหรับงูใหญ่หรือไม่?

ฉันกำลังสร้างต้นแบบแอปพลิเคชันและฉันต้องการโมเดลภาษาเพื่อคำนวณความงุนงงในประโยคที่สร้างขึ้น มีรูปแบบภาษาที่ผ่านการฝึกอบรมในภาษาไพ ธ อนที่ฉันสามารถใช้ได้หรือไม่? บางสิ่งที่เรียบง่ายเช่น model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 ฉันดูบางกรอบ แต่ไม่สามารถค้นหาสิ่งที่ฉันต้องการ ฉันรู้ว่าฉันสามารถใช้สิ่งที่ชอบ: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) สิ่งนี้ใช้การแจกแจงความน่าจะเป็นที่ดีใน Brown Corpus แต่ฉันกำลังมองหาโมเดลที่สร้างขึ้นอย่างดีในชุดข้อมูลขนาดใหญ่เช่นชุดข้อมูลคำ 1b สิ่งที่ฉันสามารถเชื่อถือได้จริง ๆ ผลลัพธ์สำหรับโดเมนทั่วไป (ไม่เพียงข่าว)

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

1

วิธีการคาดการณ์ค่าในอนาคตของขอบฟ้าเวลาด้วย Keras

ฉันเพิ่งสร้างเครือข่ายประสาท LSTMนี้ด้วย Keras import numpy as np import pandas as pd from sklearn import preprocessing from keras.layers.core import Dense, Dropout, Activation from keras.activations import linear from keras.layers.recurrent import LSTM from keras.models import Sequential from matplotlib import pyplot #read and prepare data from datafile data_file_name = "DailyDemand.csv" data_csv = pd.read_csv(data_file_name, delimiter …

11 machine-learning python keras prediction forecasting

3

โครงข่ายประสาท - ค้นหาภาพที่คล้ายกันมากที่สุด

ฉันกำลังทำงานกับ Python, scikit-learn และ keras ฉันมี 3000 พันภาพของนาฬิกาหน้าต้องเผชิญเช่นคนต่อไปนี้: Watch_1 , Watch_2 , Watch_3 ฉันต้องการเขียนโปรแกรมที่ได้รับเป็นรูปถ่ายของนาฬิกาจริงซึ่งอาจถ่ายภายใต้เงื่อนไขในอุดมคติน้อยกว่าภาพถ่ายด้านบน (สีพื้นหลังที่แตกต่างกันสายฟ้าที่มืดกว่า ฯลฯ ) และค้นหานาฬิกาที่คล้ายกันมากที่สุดในบรรดานาฬิกา 3000 เรือน ตามความคล้ายคลึงกันฉันหมายความว่าถ้าฉันให้รูปถ่ายของนาฬิกากลมสีน้ำตาลด้วยลูกไม้บาง ๆ ฉันก็คาดว่าจะเป็นนาฬิการูปทรงกลมสีเข้มและลูกไม้บาง ๆ อัลกอริทึมการเรียนรู้ของเครื่องที่มีประสิทธิภาพที่สุดในการทำเช่นนี้คืออะไร? ตัวอย่างเช่นโดยไปที่ลิงค์นี้ฉันมีสองโซลูชั่นที่แตกต่างกันในใจของฉัน: 1) ใช้ CNN เป็นตัวแยกคุณลักษณะและเปรียบเทียบระยะห่างระหว่างคุณลักษณะเหล่านี้สำหรับทุกคู่ของรูปภาพที่อ้างอิงถึงภาพอินพุต 2) ใช้ CNN สองตัวในเครือข่ายประสาทสยามเพื่อเปรียบเทียบภาพ ตัวเลือกทั้งสองนี้เป็นตัวเลือกที่ดีที่สุดสำหรับงานนี้หรือคุณจะแนะนำอย่างอื่นหรือไม่? คุณรู้จักโครงข่ายประสาทเทียมที่ได้รับการฝึกอบรมมาก่อน (พร้อมพารามิเตอร์ไฮเปอร์พารามิเตอร์) สำหรับงานนี้หรือไม่? ฉันได้พบโพสต์ที่น่าสนใจบางใน StackOverflow เกี่ยวกับเรื่องนี้ แต่พวกเขามีความเก่าแก่สวย: Post_1 , Post_2 , Post_3

11 python neural-network keras

1

ฝึกการแบตช์ใน Tensorflow

ขณะนี้ฉันกำลังพยายามฝึกอบรมโมเดลด้วยไฟล์ csv ขนาดใหญ่ (> 70GB ที่มีมากกว่า 60 ล้านแถว) หากต้องการทำเช่นนั้นฉันกำลังใช้ tf.contrib.learn.read_batch_examples ฉันดิ้นรนในการทำความเข้าใจว่าฟังก์ชั่นนี้อ่านข้อมูลได้อย่างไร หากฉันใช้ขนาดแบทช์เป็น 50,000 เช่นนั้นจะอ่านไฟล์ 50,000 บรรทัดแรกหรือไม่ หากฉันต้องการวนซ้ำไฟล์ทั้งหมด (1 ตอน) ฉันต้องใช้ num_rows / batch_size = 1.200 จำนวนขั้นตอนสำหรับเมธอด estimator.fit หรือไม่ นี่คือฟังก์ชั่นอินพุตที่ฉันใช้ในปัจจุบัน: def input_fn(file_names, batch_size): # Read csv files and create examples dict examples_dict = read_csv_examples(file_names, batch_size) # Continuous features feature_cols = {k: …

11 python tensorflow

1

เครือข่ายประสาท Tensorflow TypeError: อาร์กิวเมนต์การดึงข้อมูลมีประเภทที่ไม่ถูกต้อง

ฉันกำลังสร้างโครงข่ายประสาทอย่างง่ายโดยใช้เมตริกซ์ด้วยข้อมูลที่ฉันรวบรวมเองอย่างไรก็ตามมันไม่ได้ทำงานร่วมกัน: PI พบข้อผิดพลาดที่ฉันไม่สามารถแก้ไขหรือค้นหาวิธีแก้ปัญหาได้และฉันจะรักความช่วยเหลือของคุณ ความผิดพลาด: TypeError: ดึงข้อมูลอาร์กิวเมนต์ 2861.6152 จาก 2861.6152 มีประเภทที่ไม่ถูกต้องจะต้องเป็นสตริงหรือ Tensor (ไม่สามารถแปลง float32 เป็น Tensor หรือ Operation) ข้อผิดพลาดอ้างถึงบรรทัดต่อไปนี้ในรหัสของฉัน: _, cost = tf_session.run([optimizer, cost], feed_dict = {champion_data: batch_input, item_data: batch_output}) ฉันพบแล้วว่าข้อผิดพลาดจะไม่เกิดขึ้นเมื่อฉันใส่ความคิดเห็นในบรรทัดต่อไปนี้ในรหัสของฉัน: prediction = neural_network_model(champion_data) cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(prediction, item_data)) optimizer = tf.train.AdamOptimizer().minimize(cost) _, cost = tf_session.run([optimizer, cost], feed_dict = {champion_data: batch_input, item_data: …

11 machine-learning python neural-network tensorflow

4

ดึงข้อมูลจากประโยค

ฉันกำลังสร้าง chatbot ง่าย ๆ ฉันต้องการรับข้อมูลจากการตอบกลับของผู้ใช้ ตัวอย่างสถานการณ์: Bot : Hi, what is your name? User: My name is Edwin. ฉันต้องการแยกชื่อ Edwin ออกจากประโยค อย่างไรก็ตามผู้ใช้สามารถตอบสนองได้หลายวิธีเช่น User: Edwin is my name. User: I am Edwin. User: Edwin. ฉันพยายามพึ่งพาความสัมพันธ์ระหว่างคำ แต่ผลลัพธ์ไม่ดี ความคิดเกี่ยวกับเทคนิคใดที่ฉันสามารถใช้เพื่อแก้ไขปัญหานี้ [UPDATED] ฉันทดสอบด้วยการจดจำเอนทิตีที่ระบุชื่อพร้อมกับส่วนหนึ่งของเครื่องมือแท็กคำพูดและโปรแกรมแยกวิเคราะห์ ฉันพบว่าโมเดลส่วนใหญ่ได้รับการฝึกฝนในลักษณะที่อักขระตัวแรกของเอนทิตีสำหรับชื่อบุคคลหรือคำนามที่เหมาะสมจะต้องเป็นตัวพิมพ์ใหญ่ สิ่งนี้อาจเป็นจริงสำหรับเอกสารปกติ แต่ไม่เกี่ยวข้องกับ chatbot เช่น User: my name is edwin. NER ส่วนใหญ่ไม่สามารถรับรู้สิ่งนี้

11 python nlp

3

ฉันจะสร้าง Scatterplan แบบ PCA เชิงโต้ตอบใน Python ได้อย่างไร

matplotlibห้องสมุดที่มีความสามารถมาก แต่ขาด interactiveness โดยเฉพาะอย่างยิ่งภายใน Jupyter โน๊ตบุ๊ค ฉันต้องการที่ดีออฟไลน์เครื่องมือวางแผนเหมือนplot.ly

11 python visualization pca jupyter

3

ปัญหากับ IPython / Jupyter บน Spark (นามแฝงที่ไม่รู้จัก)

ฉันกำลังทำงานเกี่ยวกับการตั้งค่าชุดของ VM เพื่อทดลองใช้กับ Spark ก่อนที่ฉันจะออกไปข้างนอกและใช้เงินในการสร้างคลัสเตอร์ด้วยฮาร์ดแวร์บางตัว บันทึกย่อ: ฉันเป็นนักวิชาการที่มีพื้นฐานในการเรียนรู้ของเครื่องที่ใช้และการทำงานออกจากบิตของวิทยาศาสตร์ข้อมูล ฉันใช้เครื่องมือสำหรับการคำนวณฉันแทบจะไม่ต้องตั้งค่าเลย ฉันได้สร้าง 3 VMs (1 master, 2 slaves) และติดตั้ง Spark เรียบร้อยแล้ว ทุกอย่างดูเหมือนจะทำงานได้ตามที่ควร ปัญหาของฉันอยู่ที่การสร้างเซิร์ฟเวอร์ Jupyter ที่สามารถเชื่อมต่อกับเบราว์เซอร์ที่ไม่ได้ทำงานบนเครื่องในคลัสเตอร์ ฉันติดตั้งโน้ตบุ๊ก Jupyterเรียบร้อยแล้ว ... และมันก็ทำงานได้ ฉันได้เพิ่มโปรไฟล์ IPython ใหม่ที่เชื่อมต่อกับเซิร์ฟเวอร์ระยะไกลด้วย Spark ตอนนี้ปัญหา คำสั่ง $ ipython --profile=pyspark ทำงานได้ดีและเชื่อมต่อกับคลัสเตอร์ประกาย อย่างไรก็ตาม $ ipython notebook --profile=pyspark [<stuff is here>] Unrecognized alias: "profile=pyspark", it will probably …

11 python apache-spark pyspark ipython

2

วิธีการแปลงข้อมูลเด็ดขาดเป็นข้อมูลตัวเลขใน Pyspark

ฉันกำลังใช้สมุดบันทึก Ipython เพื่อทำงานกับแอปพลิเคชัน pyspark ฉันมีไฟล์ CSV ที่มีคอลัมน์หมวดหมู่มากมายเพื่อพิจารณาว่ารายได้อยู่ในช่วงหรือมากกว่า 50k ฉันต้องการดำเนินการอัลกอริทึมการจำแนกโดยใช้อินพุตทั้งหมดเพื่อกำหนดช่วงรายได้ ฉันต้องสร้างพจนานุกรมของตัวแปรเพื่อทำแผนที่ตัวแปรและใช้ฟังก์ชั่นแผนที่เพื่อแมปตัวแปรกับตัวเลขสำหรับการประมวลผล โดยพื้นฐานแล้วฉันต้องการให้ชุดข้อมูลของฉันอยู่ในรูปแบบตัวเลขเพื่อให้ฉันสามารถใช้งานโมเดลได้ ในชุดข้อมูลมีคอลัมน์หมวดหมู่เช่นการศึกษาสถานภาพการทำงาน ฯลฯ มีคนบอกวิธีแปลงเป็นคอลัมน์ตัวเลขใน pyspark ได้ไหม workclass = {'?':0,'Federal-gov':1,'Local-gov':2,'Never- worked':3,'Private':4,'Self-emp-inc':5,'Self-emp-not-inc':6,'State-gov':7,'Without-pay':8} ฉันสร้างพจนานุกรมตัวอย่างพร้อมคู่ค่าคีย์สำหรับคลาสงาน แต่ฉันไม่รู้วิธีใช้สิ่งนี้ในฟังก์ชั่นแผนที่และแทนที่ข้อมูลหมวดหมู่ในไฟล์ CSV ด้วยค่าที่สอดคล้องกัน wc = pd.read_csv('PATH', usecols = ['Workclass']) df = pd.DataFrame(wc) wcdict = {' ?':0,' Federal-gov':1,' Local-gov':2,' Never-worked':3,' Private':4,' Self-emp-inc':5,' Self-emp-n-inc':6,' State-gov':7,' Without-pay':8} df_new = df.applymap(lambda s: wcdict.get(s) …

11 python apache-spark categorical-data pyspark

3

การถดถอยแบบใดที่ใช้ในการคำนวณผลการเลือกตั้งในระบบหลายส่วน?

ฉันต้องการทำนายผลการเลือกตั้งรัฐสภา ผลลัพธ์ของฉันจะเป็น% ที่แต่ละฝ่ายได้รับ มีมากกว่า 2 ฝ่ายดังนั้นการถดถอยโลจิสติกจึงไม่ใช่ตัวเลือกที่เหมาะสม ฉันสามารถสร้างความถดถอยแยกกันสำหรับแต่ละฝ่าย แต่ในกรณีนั้นผลลัพธ์จะเป็นไปอย่างอิสระจากกัน มันจะไม่แน่ใจว่าผลรวมของผลลัพธ์จะเป็น 100% ฉันควรใช้การถดถอยแบบใด (หรือวิธีการอื่น) เป็นไปได้หรือไม่ที่จะใช้วิธีนี้ใน R หรือ Python ผ่านไลบรารี่เฉพาะ

11 classification r python regression predictive-modeling

1

การนำ t-SNE Python มาใช้: Kullback-Leibler divergence

t-SNE ดังที่ [1] ทำงานโดยลดการเบี่ยงเบน Kullback-Leibler (KL) อย่างต่อเนื่องจนกว่าจะบรรลุเงื่อนไขบางประการ ผู้สร้าง t-SNE แนะนำให้ใช้ KL divergence เป็นเกณฑ์ประสิทธิภาพสำหรับการสร้างภาพข้อมูล: คุณสามารถเปรียบเทียบความแตกต่าง Kullback-Leibler ที่รายงาน T-SNE เป็นการดีที่จะเรียกใช้ t-SNE สิบครั้งและเลือกโซลูชันที่มีค่าเบี่ยงเบน KL ต่ำสุด [2] ฉันลองใช้งานสองแบบของ t-SNE: หลาม : sklearn.manifold.TSNE () R : tsne จากไลบรารี่ (tsne) การประยุกต์ใช้ทั้งสองนี้เมื่อตั้งค่าการใช้คำฟุ่มเฟือยพิมพ์ข้อผิดพลาด (Kullback-Leibler divergence) สำหรับการวนซ้ำแต่ละครั้ง อย่างไรก็ตามพวกเขาไม่อนุญาตให้ผู้ใช้รับข้อมูลนี้ซึ่งดูแปลกสำหรับฉัน ตัวอย่างเช่นรหัส: import numpy as np from sklearn.manifold import TSNE X = …

11 machine-learning python

1

XGBoost เอาต์พุตการถดถอยเชิงเส้นไม่ถูกต้อง

ฉันเป็นมือใหม่ที่จะ XGBoost เพื่อให้อภัยความไม่รู้ของฉัน นี่คือรหัสหลาม: import pandas as pd import xgboost as xgb df = pd.DataFrame({'x':[1,2,3], 'y':[10,20,30]}) X_train = df.drop('y',axis=1) Y_train = df['y'] T_train_xgb = xgb.DMatrix(X_train, Y_train) params = {"objective": "reg:linear"} gbm = xgb.train(dtrain=T_train_xgb,params=params) Y_pred = gbm.predict(xgb.DMatrix(pd.DataFrame({'x':[4,5]}))) print Y_pred ผลลัพธ์คือ: [ 24.126194 24.126194] ในขณะที่คุณสามารถดูข้อมูลอินพุตเป็นเพียงเส้นตรง [40,50]ดังนั้นการส่งออกที่ผมคาดหวัง ฉันทำอะไรผิดที่นี่

11 python linear-regression xgboost

3

ภาษาที่ดีที่สุดสำหรับการคำนวณทางวิทยาศาสตร์ [ปิด]

ปิด คำถามนี้จะต้องมีมากขึ้นมุ่งเน้น ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้มุ่งเน้นที่ปัญหาเดียวโดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา ดูเหมือนว่าภาษาส่วนใหญ่จะมีห้องสมุดคำนวณทางวิทยาศาสตร์จำนวนหนึ่ง Python มี Scipy Rust มี SciRust C++มีหลายอย่างรวมถึงViennaCLและArmadillo JavaมีJava NumericsและColtเช่นเดียวกับหลาย ๆ ไม่ต้องพูดถึงภาษาที่ชอบRและJuliaออกแบบมาอย่างชัดเจนสำหรับการคำนวณทางวิทยาศาสตร์ ด้วยตัวเลือกมากมายคุณจะเลือกภาษาที่ดีที่สุดสำหรับงานอย่างไร นอกจากนี้ภาษาใดที่จะเป็นคนที่มีประสิทธิภาพมากที่สุด? PythonและRดูเหมือนว่าจะมีแรงฉุดที่สุดในอวกาศ แต่ภาษาที่รวบรวมได้ดูเหมือนจะเป็นทางเลือกที่ดีกว่า และจะมีอะไรดีกว่านี้Fortranไหม ภาษาที่คอมไพล์ด้วยนอกจากนี้มักจะมีการเร่งความเร็วของ GPU ในขณะที่ตีความภาษาเช่นRและPythonไม่ ฉันควรคำนึงถึงอะไรเมื่อเลือกภาษาและภาษาใดให้ความสมดุลของยูทิลิตี้และประสิทธิภาพที่ดีที่สุด มีภาษาใดบ้างที่มีทรัพยากรการคำนวณทางวิทยาศาสตร์ที่สำคัญที่ฉันพลาดไป

10 efficiency statistics tools knowledge-base machine-learning neural-network deep-learning optimization hyperparameter machine-learning time-series categorical-data logistic-regression python visualization bigdata efficiency classification binary svm random-forest logistic-regression data-mining sql experiments bigdata efficiency performance scalability distributed bigdata nlp statistics education knowledge-base definitions machine-learning recommender-system evaluation efficiency algorithms parameter efficiency scalability sql statistics visualization knowledge-base education machine-learning r python r text-mining sentiment-analysis machine-learning machine-learning python neural-network statistics reference-request machine-learning data-mining python classification data-mining bigdata usecase apache-hadoop map-reduce aws education feature-selection machine-learning machine-learning sports data-formats hierarchical-data-format bigdata apache-hadoop bigdata apache-hadoop python visualization knowledge-base classification confusion-matrix accuracy bigdata apache-hadoop bigdata efficiency apache-hadoop distributed machine-translation nlp metadata data-cleaning text-mining python pandas machine-learning python pandas scikit-learn bigdata machine-learning databases clustering data-mining recommender-system

1

Keras LSTM พร้อมอนุกรมเวลา 1D

ฉันเรียนรู้วิธีการใช้ Keras และผมเคยประสบความสำเร็จที่เหมาะสมกับชุดที่มีป้ายกำกับของฉันโดยใช้ตัวอย่างใน Chollet ของการเรียนรู้ลึกหลาม ชุดข้อมูลคือ ~ 1000 Time Series ที่มีความยาว 3125 กับ 3 คลาสที่อาจเกิดขึ้น ฉันต้องการไปไกลกว่าเลเยอร์หนาแน่นพื้นฐานซึ่งให้อัตราการคาดคะเนประมาณ 70% และหนังสือเล่มนี้จะพูดถึงเลเยอร์ LSTM และ RNN ตัวอย่างทั้งหมดดูเหมือนจะใช้ชุดข้อมูลที่มีคุณสมบัติหลายอย่างสำหรับแต่ละชุดเวลาและฉันพยายามหาวิธีนำข้อมูลมาใช้ให้เกิดประโยชน์ ตัวอย่างเช่นฉันมี 1000x3125 Time Series ฉันจะป้อนสิ่งนั้นลงในเลเยอร์ SimpleRNN หรือ LSTM ได้อย่างไร ฉันขาดความรู้พื้นฐานเกี่ยวกับเลเยอร์เหล่านี้หรือไม่? รหัสปัจจุบัน: import pandas as pd import numpy as np import os from keras.models import Sequential from keras.layers import …

10 python deep-learning time-series lstm rnn

คำถามติดแท็ก python