วิทยาศาสตร์ข้อมูล unsupervised-learning

1

ทำไม xgboost จึงเร็วกว่า GradientBoostingClassifier ของ sklearn มาก?

ฉันพยายามที่จะฝึกอบรมการยกระดับความลาดชันของตัวอย่างมากกว่า 50k ด้วยคุณสมบัติตัวเลข 100 ตัว XGBClassifierจัดการ 500 ต้นภายใน 43 วินาทีบนเครื่องของฉันในขณะที่GradientBoostingClassifierจัดการเพียง 10 ต้น (!) ใน 1 นาทีและ 2 วินาที :( ฉันไม่ได้พยายามที่จะเติบโต 500 ต้นเพราะจะใช้เวลาหลายชั่วโมงฉันใช้แบบเดียวกันlearning_rateและmax_depthการตั้งค่า ดูด้านล่าง อะไรทำให้ XGBoost เร็วขึ้นมาก? มันใช้การปรับแต่งแบบใหม่เพื่อส่งเสริมการไล่ระดับสีที่พวก sklearn ไม่รู้หรือไม่? หรือว่า "ตัดมุม" และปลูกต้นไม้ที่ตื้นขึ้น? ป.ล. ฉันตระหนักถึงการสนทนานี้: https://www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyแต่ไม่สามารถหาคำตอบได้ที่นั่น ... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, …

29 scikit-learn xgboost gbm data-mining classification data-cleaning machine-learning reinforcement-learning data-mining bigdata dataset nlp language-model stanford-nlp machine-learning neural-network deep-learning randomized-algorithms machine-learning beginner career xgboost loss-function neural-network software-recommendation naive-bayes-classifier classification scikit-learn feature-selection r random-forest cross-validation data-mining python scikit-learn random-forest churn python clustering k-means machine-learning nlp sentiment-analysis machine-learning programming python scikit-learn nltk gensim visualization data csv neural-network deep-learning descriptive-statistics machine-learning supervised-learning text-mining orange data parameter-estimation python pandas scraping r clustering k-means unsupervised-learning

1

Word2Vec กับ Sentence2Vec กับ Doc2Vec

ฉันเพิ่งเจอคำศัพท์Word2Vec , Sentence2VecและDoc2Vecและสับสนเพราะฉันยังใหม่กับซีแมนทิกส์เวกเตอร์ ใครช่วยได้โปรดอธิบายความแตกต่างของวิธีการเหล่านี้ด้วยคำพูดง่ายๆ งานที่เหมาะสมที่สุดสำหรับแต่ละวิธีคืออะไร

18 machine-learning data-mining clustering nlp unsupervised-learning

5

ทำให้แผนที่ความร้อนของทะเลใหญ่ขึ้น

ฉันสร้างcorr()df จาก df ดั้งเดิม corr()DF ออก 70 X 70 มาและมันเป็นไปไม่ได้ที่จะเห็นภาพ heatmap ส sns.heatmap(df)... ถ้าฉันพยายามที่จะแสดงcorr = df.corr()ตารางที่ไม่พอดีกับหน้าจอและฉันสามารถดูความสัมพันธ์ทั้งหมด มันเป็นวิธีที่จะพิมพ์ทั้งdfโดยไม่คำนึงถึงขนาดของมันหรือเพื่อควบคุมขนาดของ heatmap หรือไม่?

17 visualization pandas plotting machine-learning neural-network svm decision-trees svm efficiency python linear-regression machine-learning nlp topic-model lda named-entity-recognition naive-bayes-classifier association-rules fuzzy-logic kaggle deep-learning tensorflow inception classification feature-selection feature-engineering machine-learning scikit-learn tensorflow keras encoding nlp text-mining nlp rnn python neural-network feature-extraction machine-learning predictive-modeling python r linear-regression clustering r ggplot2 neural-network neural-network training python neural-network deep-learning rnn predictive-modeling databases sql programming distribution dataset cross-validation neural-network deep-learning rnn machine-learning machine-learning python deep-learning data-mining tensorflow visualization tools sql embeddings orange feature-extraction unsupervised-learning gan machine-learning python data-mining pandas machine-learning data-mining bigdata apache-spark apache-hadoop deep-learning python convnet keras aggregation clustering k-means r random-forest decision-trees reference-request visualization data pandas plotting neural-network keras rnn theano deep-learning tensorflow inception predictive-modeling deep-learning regression sentiment-analysis nlp encoding deep-learning python scikit-learn lda convnet keras predictive-modeling regression overfitting regression svm prediction machine-learning similarity word2vec information-retrieval word-embeddings neural-network deep-learning rnn

2

ปัญหาการเรียนรู้แบบใดที่เหมาะกับ Support Vector Machines

จุดเด่นหรือคุณสมบัติที่ระบุว่าปัญหาการเรียนรู้บางอย่างสามารถแก้ไขได้โดยใช้เครื่องเวกเตอร์สนับสนุนคืออะไร เมื่อคุณเห็นปัญหาการเรียนรู้ทำให้คุณไป "โอ้ฉันควรใช้ SVM สำหรับสิ่งนี้แทนการใช้โครงข่ายประสาทเทียมหรือต้นไม้ตัดสินใจหรือสิ่งอื่นใด

16 machine-learning svm supervised-learning unsupervised-learning

3

สัญชาตญาณเบื้องหลัง Boltzmann เครื่อง จำกัด (RBM)

ฉันผ่านหลักสูตร Neural Networks ของ Geoff Hinton ใน Coursera และผ่านการแนะนำเครื่องจักร boltzmann ที่ จำกัดแต่ฉันก็ยังไม่เข้าใจสัญชาตญาณของ RBMs ทำไมเราต้องคำนวณพลังงานในเครื่องนี้ และความน่าจะเป็นที่ใช้ในเครื่องนี้คืออะไร? ฉันยังเห็นวิดีโอนี้ ในวิดีโอเขาเพิ่งเขียนความน่าจะเป็นและสมการพลังงานก่อนขั้นตอนการคำนวณและดูเหมือนจะไม่ใช้ที่ใดก็ได้ เมื่อเพิ่มด้านบนฉันไม่แน่ใจว่าฟังก์ชันความน่าจะเป็นมีไว้เพื่ออะไร?

15 unsupervised-learning rbm

4

วิธีที่ word2vec สามารถใช้เพื่อระบุคำที่มองไม่เห็นและเกี่ยวข้องกับข้อมูลที่ผ่านการฝึกอบรมแล้ว

ฉันทำงานกับ word2vec gensim model และพบว่ามันน่าสนใจจริงๆ ฉันกำลังขัดจังหวะในการค้นหาคำที่ไม่รู้จัก / ไม่ปรากฏเมื่อตรวจสอบกับแบบจำลองจะสามารถรับคำที่คล้ายกันจากแบบจำลองที่ผ่านการฝึกอบรม เป็นไปได้ไหม word2vec สามารถปรับเปลี่ยนได้หรือไม่? หรือคลังข้อมูลการฝึกอบรมต้องมีคำทั้งหมดที่ฉันต้องการค้นหาความคล้ายคลึงกัน

11 nlp deep-learning word-embeddings unsupervised-learning

3

วิธีการใช้ GAN สำหรับการแยกฟีเจอร์ที่ไม่ได้รับอนุญาตจากรูปภาพ?

ฉันเข้าใจว่า GAN ทำงานอย่างไรในขณะที่เครือข่ายสองเครือข่าย (กำเนิดและเลือกปฏิบัติ) แข่งขันกันเอง ฉันได้สร้าง DCGAN (GAN พร้อมกับ discriminator discriminator และ de-convolutional generator) ซึ่งตอนนี้สร้างตัวเลขที่เขียนด้วยลายมือได้สำเร็จคล้ายกับที่อยู่ในชุดข้อมูล MNIST ฉันได้อ่านมากเกี่ยวกับแอปพลิเคชันของ GAN สำหรับการแยกฟีเจอร์จากรูปภาพ ฉันจะใช้โมเดล GAN ที่ผ่านการฝึกอบรมของฉัน (บนชุดข้อมูล MNIST) เพื่อแยกคุณลักษณะออกจากรูปภาพ Digist ที่เขียนด้วยลายมือด้วยตัวเองได้อย่างไร?

11 feature-extraction unsupervised-learning gan

2

มันสมเหตุสมผลไหมที่จะฝึกให้ CNN เป็น autoencoder?

ฉันทำงานกับการวิเคราะห์ข้อมูล EEG ซึ่งในที่สุดจะต้องจัดประเภท อย่างไรก็ตามการได้รับป้ายกำกับสำหรับการบันทึกค่อนข้างแพงซึ่งทำให้ฉันต้องพิจารณาแนวทางที่ไม่ได้รับการดูแลเพื่อใช้ประโยชน์จากข้อมูลที่ไม่มีป้ายกำกับจำนวนมากของเรา สิ่งนี้นำไปสู่การพิจารณาตัวเข้ารหัสอัตโนมัติแบบเรียงซ้อนซึ่งอาจเป็นความคิดที่ดี อย่างไรก็ตามมันก็สมเหตุสมผลที่จะใช้โครงข่ายประสาทเทียมเนื่องจากการกรองบางประเภทนั้นเป็นวิธีที่มีประโยชน์มากต่อ EEG และมีแนวโน้มว่ายุคที่ควรพิจารณาจะวิเคราะห์เฉพาะที่และไม่ใช่ทั้งหมด มีวิธีที่ดีในการรวมสองวิธีนี้หรือไม่? ดูเหมือนว่าเมื่อผู้คนใช้ CNN พวกเขามักใช้การฝึกอบรมภายใต้การดูแลหรืออะไร ประโยชน์หลักสองประการของการสำรวจเครือข่ายประสาทเทียมสำหรับปัญหาของฉันดูเหมือนจะเป็นแง่มุมที่ไม่ได้รับการดูแลและการปรับแต่งอย่างละเอียด (มันน่าสนใจที่จะสร้างเครือข่ายข้อมูลประชากรแล้วปรับแต่งสำหรับแต่ละบุคคล) มีใครรู้บ้างไหมว่าฉันสามารถสั่งให้ CNN เป็นเหมือนตัวแปลงสัญญาณอัตโนมัติที่ "พิการ" หรือว่าจะไม่มีประโยชน์หรือไม่? ฉันควรจะพิจารณาสถาปัตยกรรมอื่น ๆ เช่นเครือข่ายความเชื่อที่ลึกซึ้งหรือไม่?

9 deep-learning convnet unsupervised-learning autoencoder

คำถามติดแท็ก unsupervised-learning