วิทยาศาสตร์ข้อมูล

1

มีกฎของหัวแม่มือ (หรือกฎจริง) ที่เกี่ยวข้องกับจำนวน LSTM ขั้นต่ำ, สูงสุดและ "สมเหตุสมผล" ที่ฉันควรใช้หรือไม่? โดยเฉพาะฉันเกี่ยวข้องกับBasicLSTMCellจาก TensorFlow และnum_unitsคุณสมบัติ โปรดสมมติว่าฉันมีปัญหาการจำแนกที่กำหนดโดย: t - number of time steps n - length of input vector in each time step m - length of output vector (number of classes) i - number of training examples ตัวอย่างจริงหรือไม่ที่จำนวนตัวอย่างการฝึกอบรมควรมากกว่า: 4*((n+1)*m + m*m)*c ที่cเป็นจำนวนของเซลล์? ฉันใช้สิ่งนี้: จะคำนวณจำนวนพารามิเตอร์ของเครือข่าย …

12 rnn machine-learning r predictive-modeling random-forest python language-model sentiment-analysis encoding machine-learning deep-learning neural-network dataset caffe classification xgboost multiclass-classification unbalanced-classes time-series descriptive-statistics python r clustering machine-learning python deep-learning tensorflow machine-learning python predictive-modeling probability scikit-learn svm machine-learning python classification gradient-descent regression research python neural-network deep-learning convnet keras python tensorflow machine-learning deep-learning tensorflow python r bigdata visualization rstudio pandas pyspark dataset time-series multilabel-classification machine-learning neural-network ensemble-modeling kaggle machine-learning linear-regression cnn convnet machine-learning tensorflow association-rules machine-learning predictive-modeling training model-selection neural-network keras deep-learning deep-learning convnet image-classification predictive-modeling prediction machine-learning python classification predictive-modeling scikit-learn machine-learning python random-forest sampling training recommender-system books python neural-network nlp deep-learning tensorflow python matlab information-retrieval search search-engine deep-learning convnet keras machine-learning python cross-validation sampling machine-learning

2

วิธีการคำนวณขนาด VC?

ฉันกำลังเรียนรู้การเรียนรู้ของเครื่องและฉันอยากจะรู้วิธีการคำนวณ VC-dimension ตัวอย่างเช่น: h(x)={10if a≤x≤belse h(x)={1if a≤x≤b0else h(x)=\begin{cases} 1 &\mbox{if } a\leq x \leq b \\ 0 & \mbox{else } \end{cases} ( a , b ) ∈ R 2พร้อมพารามิเตอร์ .(a,b)∈R2(a,b)∈R2(a,b) ∈ R^2 มิติ VC ของมันคืออะไร?

12 machine-learning classification vc-theory

2

ฉันจะรวมสอง data frames ใน Python Pandas ได้อย่างไร

ฉันมีสองเฟรมข้อมูล df1 และ df2 และฉันต้องการรวมไว้ใน data frame เดียว มันเหมือนกับว่า df1 และ df2 ถูกสร้างขึ้นโดยการแยกเฟรมข้อมูลเดี่ยวลงตรงกลางในแนวตั้งเช่นการฉีกกระดาษที่มีรายการครึ่งหนึ่งเพื่อให้คอลัมน์ครึ่งหนึ่งอยู่ในกระดาษหนึ่งและครึ่งคอลัมน์จะอยู่อีกด้านหนึ่ง ฉันต้องการที่จะรวมพวกเขากลับมารวมกัน ฉันต้องทำอย่างไร?

12 pandas

2

FPGrowth ยังถือว่าเป็น“ สถานะของศิลปะ” ในการขุดแบบบ่อยๆหรือไม่?

เท่าที่ฉันรู้การพัฒนาอัลกอริทึมเพื่อแก้ปัญหาการทำเหมืองบ่อยรูปแบบ (FPM) ถนนของการปรับปรุงมีจุดตรวจหลักบางอย่าง ประการแรกอัลกอริทึมAprioriถูกเสนอในปี 1993 โดยAgrawal และคณะ พร้อมกับการทำให้เป็นทางการของปัญหา อัลกอริทึมก็สามารถที่จะดึงบางชุดออกมาจาก2^n - 1ชุด (powerset) โดยใช้ตาข่ายเพื่อรักษาข้อมูล ข้อเสียเปรียบของวิธีการคือต้องอ่านฐานข้อมูลใหม่เพื่อคำนวณความถี่ของแต่ละชุดที่ขยาย ต่อมาในปี 1997 Zaki และคณะ เสนออัลกอริทึมEclatซึ่งแทรกความถี่ผลลัพธ์ของแต่ละชุดไว้ในโครงตาข่าย สิ่งนี้กระทำโดยการเพิ่มที่แต่ละโหนดของโครงตาข่ายชุดของ transaction-id ที่มีไอเท็มจากรูทไปยังโหนดที่อ้างถึง การสนับสนุนหลักคือเราไม่จำเป็นต้องอ่านชุดข้อมูลทั้งหมดอีกครั้งเพื่อทราบความถี่ของแต่ละชุด แต่หน่วยความจำที่จำเป็นในการรักษาโครงสร้างข้อมูลดังกล่าวอาจมีขนาดเกินขนาดของชุดข้อมูลเอง ในปี 2000 ฮันและคณะ เสนออัลกอริทึมที่ชื่อว่าFPGrowthพร้อมกับโครงสร้างข้อมูลแบบต้นไม้คำนำหน้าชื่อ FPTree อัลกอริทึมสามารถให้การบีบอัดข้อมูลที่สำคัญในขณะเดียวกันก็อนุญาตว่าจะให้เฉพาะชุดไอเท็มที่ใช้บ่อยเท่านั้น (โดยไม่มีการสร้างชุดไอเท็มผู้สมัคร) สิ่งนี้ทำได้โดยการจัดเรียงรายการของแต่ละธุรกรรมในลำดับที่ลดลงเพื่อให้รายการที่พบบ่อยที่สุดคือรายการที่มีการซ้ำซ้อนน้อยที่สุดในโครงสร้างข้อมูลทรี เนื่องจากความถี่ลดลงเท่านั้นขณะที่สำรวจต้นไม้ในเชิงลึกอัลกอริทึมจึงสามารถตัดชุดรายการที่ไม่ได้ใช้บ่อย แก้ไข : เท่าที่ฉันรู้นี่อาจถือได้ว่าเป็นอัลกอริทึมที่ล้ำสมัย แต่ฉันอยากรู้เกี่ยวกับวิธีแก้ปัญหาอื่น ๆ มีอัลกอริธึมอื่นสำหรับ FPM ที่ถูกพิจารณาว่าเป็น "state-of-the-art" หรือไม่? อะไรคือสิ่งที่สัญชาตญาณ / หลักผลงานของอัลกอริทึมดังกล่าวหรือไม่ อัลกอริทึม FPGrowth ยังถือว่าเป็น "สถานะของศิลปะ" …

12 bigdata data-mining efficiency state-of-the-art

2

การลดขนาดอย่างมีประสิทธิภาพสำหรับชุดข้อมูลขนาดใหญ่

ฉันมีชุดข้อมูลที่มี ~ 1M แถวและ ~ 500K คุณสมบัติกระจัดกระจาย ฉันต้องการลดมิติข้อมูลลงที่ใดที่หนึ่งตามลำดับของคุณลักษณะที่หนาแน่น 1K-5K sklearn.decomposition.PCAไม่ทำงานกับข้อมูลที่กระจัดกระจายและฉันพยายามใช้sklearn.decomposition.TruncatedSVDแต่ได้รับข้อผิดพลาดของหน่วยความจำอย่างรวดเร็ว ตัวเลือกของฉันในการลดมิติข้อมูลที่มีประสิทธิภาพในระดับนี้คืออะไร

12 python scikit-learn dimensionality-reduction

1

scikit-Learn พารามิเตอร์ n_jobs เกี่ยวกับการใช้งาน CPU และหน่วยความจำ

ในประมาณมากที่สุดใน scikit การเรียนรู้ที่มีn_jobsพารามิเตอร์ในfit/ วิธีการสำหรับการสร้างงานโดยใช้แบบคู่ขนานpredict joblibฉันสังเกตเห็นว่าการตั้งค่าให้-1สร้างกระบวนการ Python เพียง 1 กระบวนการและใช้แกนประมวลผลสูงสุดทำให้การใช้งาน CPU สูงถึง 2,500% ที่ด้านบน สิ่งนี้ค่อนข้างแตกต่างจากการตั้งค่าเป็นจำนวนเต็มบวก> 1 ซึ่งสร้างกระบวนการ Python หลายกระบวนการที่การใช้งาน ~ 100% การตั้งค่านี้มีผลต่อการใช้งาน CPU & core อย่างไรบนเซิร์ฟเวอร์ multi-CPU Linux (เช่นถ้าn_jobs=8เป็น 8 ซีพียูถูกล็อคอย่างสมบูรณ์หรือซีพียูยังคงจองคอร์บางส่วนสำหรับงาน / กระบวนการอื่น ๆ ?) นอกจากนี้ฉันจะได้รับMemoryErrorเป็นครั้งคราวเมื่อตั้งค่าn_jobs=-1ชุดข้อมูลขนาดใหญ่ อย่างไรก็ตามการใช้หน่วยความจำมักจะวนเวียนอยู่ที่ประมาณ 30-40% สำหรับกระบวนการ Python เดียว ข้อมูลและหน่วยความจำมีการจัดการ / คัดลอกอย่างไรขึ้นอยู่กับมูลค่าของn_jobs?

12 python scikit-learn

2

ฉันจะพอดีกับประเภทข้อมูลเด็ดขาดสำหรับการจำแนกป่าแบบสุ่มได้อย่างไร

ฉันต้องการค้นหาความถูกต้องของชุดข้อมูลการฝึกอบรมโดยใช้ Random Forest Algorithm แต่ประเภทของชุดข้อมูลของฉันมีทั้งหมวดหมู่และตัวเลข เมื่อฉันพยายามที่จะพอดีกับข้อมูลเหล่านั้นฉันได้รับข้อผิดพลาด 'อินพุตมี NaN อินฟินิตี้หรือค่ามีขนาดใหญ่เกินไปสำหรับ dtype (' float32 ')' อาจเป็นปัญหาสำหรับประเภทข้อมูลวัตถุ ฉันจะพอดีกับข้อมูลที่เป็นหมวดหมู่โดยไม่มีการแปลงเพื่อใช้ RF ได้อย่างไร นี่คือรหัสของฉัน

12 python data-mining random-forest

3

แทนที่ค่าตัวเลขทั้งหมดใน pyspark dataframe ด้วยค่าคงที่

พิจารณา pyspark dataframe ซึ่งประกอบด้วยองค์ประกอบ 'null' และองค์ประกอบตัวเลข โดยทั่วไปองค์ประกอบตัวเลขมีค่าแตกต่างกัน เป็นไปได้อย่างไรที่จะแทนที่ค่าตัวเลขทั้งหมดของ dataframe ด้วยค่าตัวเลขคงที่ (ตัวอย่างเช่นโดยค่า 1) ขอบคุณล่วงหน้า! ตัวอย่างสำหรับ pyspark dataframe: 123c10.04- 1n U ลิตรลิตรc21n U ลิตรลิตร1.2c31.35- 1.2n U ลิตรลิตรc1c2c310.0411.352-1nยูล.ล.-1.23nยูล.ล.1.2nยูล.ล. \begin{array}{c|lcr} & \text{c1} & \text{c2} & \text{c3} \\ \hline 1 & 0.04 & 1 & 1.35 \\ 2 & -1 & null & -1.2 \\ …

12 python apache-spark

2

การเข้ารหัสแบบฮ็อตเดียวในเทนเซอร์คืออะไร

ขณะนี้ฉันกำลังทำหลักสูตรเป็นเมตริกซ์ซึ่งพวกเขาใช้ tf.one_hot (ดัชนีความลึก) ตอนนี้ฉันไม่เข้าใจว่าดัชนีเหล่านี้เปลี่ยนเป็นลำดับไบนารีได้อย่างไร ใครช่วยอธิบายกระบวนการที่แน่นอนให้ฉันได้ไหม

11 machine-learning python neural-network deep-learning tensorflow

4

หลักการมีดโกนของ Occam จะทำงานอย่างไรในการเรียนรู้ของเครื่อง

คำถามต่อไปนี้ที่ปรากฏในภาพถูกถามในระหว่างการสอบเมื่อเร็ว ๆ นี้ ฉันไม่แน่ใจว่าฉันเข้าใจหลักการมีดโกนของ Occam หรือไม่ ตามการแจกแจงและขอบเขตการตัดสินใจที่กำหนดไว้ในคำถามและตามด้วยมีดโกนของ Occam ขอบเขตการตัดสินใจ B ในทั้งสองกรณีควรเป็นคำตอบ เนื่องจากตาม Razor ของ Occam ให้เลือกตัวแยกประเภทที่ง่ายกว่าซึ่งทำงานได้ดีแทนที่จะซับซ้อน ใครบางคนโปรดเป็นพยานถ้าความเข้าใจของฉันถูกต้องและคำตอบที่เลือกนั้นเหมาะสมหรือไม่? โปรดช่วยด้วยเพราะฉันเป็นเพียงผู้เริ่มต้นในการเรียนรู้ของเครื่อง

11 machine-learning classification

3

มีรูปแบบภาษาที่ดีนอกกรอบสำหรับงูใหญ่หรือไม่?

ฉันกำลังสร้างต้นแบบแอปพลิเคชันและฉันต้องการโมเดลภาษาเพื่อคำนวณความงุนงงในประโยคที่สร้างขึ้น มีรูปแบบภาษาที่ผ่านการฝึกอบรมในภาษาไพ ธ อนที่ฉันสามารถใช้ได้หรือไม่? บางสิ่งที่เรียบง่ายเช่น model = LanguageModel('en') p1 = model.perplexity('This is a well constructed sentence') p2 = model.perplexity('Bunny lamp robert junior pancake') assert p1 < p2 ฉันดูบางกรอบ แต่ไม่สามารถค้นหาสิ่งที่ฉันต้องการ ฉันรู้ว่าฉันสามารถใช้สิ่งที่ชอบ: from nltk.model.ngram import NgramModel lm = NgramModel(3, brown.words(categories='news')) สิ่งนี้ใช้การแจกแจงความน่าจะเป็นที่ดีใน Brown Corpus แต่ฉันกำลังมองหาโมเดลที่สร้างขึ้นอย่างดีในชุดข้อมูลขนาดใหญ่เช่นชุดข้อมูลคำ 1b สิ่งที่ฉันสามารถเชื่อถือได้จริง ๆ ผลลัพธ์สำหรับโดเมนทั่วไป (ไม่เพียงข่าว)

11 python nlp language-model r statistics linear-regression machine-learning classification random-forest xgboost python sampling data-mining orange predictive-modeling recommender-system statistics dimensionality-reduction pca machine-learning python deep-learning keras reinforcement-learning neural-network image-classification r dplyr deep-learning keras tensorflow lstm dropout machine-learning sampling categorical-data data-imputation machine-learning deep-learning machine-learning-model dropout deep-network pandas data-cleaning data-science-model aggregation python neural-network reinforcement-learning policy-gradients r dataframe dataset statistics prediction forecasting r k-means python scikit-learn labels python orange cloud-computing machine-learning neural-network deep-learning rnn recurrent-neural-net logistic-regression missing-data deep-learning autoencoder apache-hadoop time-series data preprocessing classification predictive-modeling time-series machine-learning python feature-selection autoencoder deep-learning keras tensorflow lstm word-embeddings predictive-modeling prediction machine-learning-model machine-learning classification binary theory machine-learning neural-network time-series lstm rnn neural-network deep-learning keras tensorflow convnet computer-vision

2

ความถูกต้องของแบบจำลอง 100% สำหรับข้อมูลเกินตัวอย่างหรือไม่?

ฉันเพิ่งเสร็จสิ้นการเรียนรู้ของเครื่องสำหรับหลักสูตร R ใน cognitiveclass.ai และได้เริ่มทำการทดลองด้วยการสุ่ม ฉันสร้างแบบจำลองโดยใช้ไลบรารี่ "randomForest" ในอาร์โมเดลแบ่งเป็นสองคลาสคือดีและไม่ดี ฉันรู้ว่าเมื่อแบบจำลองมีความเหมาะสมมากเกินไปมันทำงานได้ดีกับข้อมูลจากชุดฝึกอบรมของตัวเอง แต่มีข้อมูลที่ไม่อยู่ในเกณฑ์ตัวอย่าง ในการฝึกอบรมและทดสอบแบบจำลองของฉันฉันได้สับและแยกชุดข้อมูลที่สมบูรณ์เป็น 70% สำหรับการฝึกอบรมและ 30% สำหรับการทดสอบ คำถามของฉัน: ฉันได้รับความแม่นยำ 100% จากการทำนายที่ทำไว้ในชุดการทดสอบ มันแย่ใช่ไหม? ดูเหมือนดีเกินกว่าที่จะเป็นจริง วัตถุประสงค์คือการจดจำรูปแบบของคลื่นในสี่ซึ่งกันและกันขึ้นอยู่กับรูปคลื่น คุณสมบัติของชุดข้อมูลนั้นเป็นผลจากต้นทุนของการวิเคราะห์สัญญาณเวลาแบบไดนามิกของรูปคลื่นด้วยรูปคลื่นเป้าหมาย

11 r random-forest prediction overfitting

1

ใช้ลักษณนาม CNN ที่ผ่านการฝึกอบรมมาแล้วและนำไปใช้กับชุดข้อมูลภาพอื่น

คุณจะปรับการฝึกอบรม neural networkให้เหมาะสมเพื่อนำไปใช้กับปัญหาแยกกันอย่างไร คุณจะเพิ่มเลเยอร์เพิ่มเติมให้กับโมเดลที่ผ่านการฝึกอบรมมาแล้วและทดสอบในชุดข้อมูลของคุณหรือไม่ ตัวอย่างเช่นถ้างานนั้นใช้CNNเพื่อจัดกลุ่มวอลเปเปอร์ฉันแน่ใจว่ามันจะไม่ทำงานโดยตรงในการจำแนกเครือข่ายที่ผ่านการฝึกอบรมมาก่อนในการฝึกสอนเกี่ยวกับภาพแมวและสุนัขแม้ว่าทั้งสองจะเป็นตัวแยกรูปภาพ

11 neural-network deep-learning classification convnet

1

วิธีการคาดการณ์ค่าในอนาคตของขอบฟ้าเวลาด้วย Keras

ฉันเพิ่งสร้างเครือข่ายประสาท LSTMนี้ด้วย Keras import numpy as np import pandas as pd from sklearn import preprocessing from keras.layers.core import Dense, Dropout, Activation from keras.activations import linear from keras.layers.recurrent import LSTM from keras.models import Sequential from matplotlib import pyplot #read and prepare data from datafile data_file_name = "DailyDemand.csv" data_csv = pd.read_csv(data_file_name, delimiter …

11 machine-learning python keras prediction forecasting

3

โครงข่ายประสาท - ค้นหาภาพที่คล้ายกันมากที่สุด

ฉันกำลังทำงานกับ Python, scikit-learn และ keras ฉันมี 3000 พันภาพของนาฬิกาหน้าต้องเผชิญเช่นคนต่อไปนี้: Watch_1 , Watch_2 , Watch_3 ฉันต้องการเขียนโปรแกรมที่ได้รับเป็นรูปถ่ายของนาฬิกาจริงซึ่งอาจถ่ายภายใต้เงื่อนไขในอุดมคติน้อยกว่าภาพถ่ายด้านบน (สีพื้นหลังที่แตกต่างกันสายฟ้าที่มืดกว่า ฯลฯ ) และค้นหานาฬิกาที่คล้ายกันมากที่สุดในบรรดานาฬิกา 3000 เรือน ตามความคล้ายคลึงกันฉันหมายความว่าถ้าฉันให้รูปถ่ายของนาฬิกากลมสีน้ำตาลด้วยลูกไม้บาง ๆ ฉันก็คาดว่าจะเป็นนาฬิการูปทรงกลมสีเข้มและลูกไม้บาง ๆ อัลกอริทึมการเรียนรู้ของเครื่องที่มีประสิทธิภาพที่สุดในการทำเช่นนี้คืออะไร? ตัวอย่างเช่นโดยไปที่ลิงค์นี้ฉันมีสองโซลูชั่นที่แตกต่างกันในใจของฉัน: 1) ใช้ CNN เป็นตัวแยกคุณลักษณะและเปรียบเทียบระยะห่างระหว่างคุณลักษณะเหล่านี้สำหรับทุกคู่ของรูปภาพที่อ้างอิงถึงภาพอินพุต 2) ใช้ CNN สองตัวในเครือข่ายประสาทสยามเพื่อเปรียบเทียบภาพ ตัวเลือกทั้งสองนี้เป็นตัวเลือกที่ดีที่สุดสำหรับงานนี้หรือคุณจะแนะนำอย่างอื่นหรือไม่? คุณรู้จักโครงข่ายประสาทเทียมที่ได้รับการฝึกอบรมมาก่อน (พร้อมพารามิเตอร์ไฮเปอร์พารามิเตอร์) สำหรับงานนี้หรือไม่? ฉันได้พบโพสต์ที่น่าสนใจบางใน StackOverflow เกี่ยวกับเรื่องนี้ แต่พวกเขามีความเก่าแก่สวย: Post_1 , Post_2 , Post_3

11 python neural-network keras