คำถามติดแท็ก python

ใช้สำหรับคำถามวิทยาศาสตร์ข้อมูลที่เกี่ยวข้องกับภาษาการเขียนโปรแกรม Python ไม่ได้มีไว้สำหรับคำถามการเข้ารหัสทั่วไป (-> stackoverflow)

1
Keras รุ่นที่ดีที่สุดสำหรับการจำแนกประเภทหลายประเภทคืออะไร?
ฉันกำลังทำงานวิจัยที่จำเป็นที่จะต้องเป็นหนึ่งในประเภทของผู้ชนะสามเหตุการณ์ = ( win, draw, lose) WINNER LEAGUE HOME AWAY MATCH_HOME MATCH_DRAW MATCH_AWAY MATCH_U2_50 MATCH_O2_50 3 13 550 571 1.86 3.34 4.23 1.66 2.11 3 7 322 334 7.55 4.1 1.4 2.17 1.61 รุ่นปัจจุบันของฉันคือ: def build_model(input_dim, output_classes): model = Sequential() model.add(Dense(input_dim=input_dim, output_dim=12, activation=relu)) model.add(Dropout(0.5)) model.add(Dense(output_dim=output_classes, activation='softmax')) model.compile(loss='categorical_crossentropy', optimizer='adadelta') return model …

1
ทำไม xgboost จึงเร็วกว่า GradientBoostingClassifier ของ sklearn มาก?
ฉันพยายามที่จะฝึกอบรมการยกระดับความลาดชันของตัวอย่างมากกว่า 50k ด้วยคุณสมบัติตัวเลข 100 ตัว XGBClassifierจัดการ 500 ต้นภายใน 43 วินาทีบนเครื่องของฉันในขณะที่GradientBoostingClassifierจัดการเพียง 10 ต้น (!) ใน 1 นาทีและ 2 วินาที :( ฉันไม่ได้พยายามที่จะเติบโต 500 ต้นเพราะจะใช้เวลาหลายชั่วโมงฉันใช้แบบเดียวกันlearning_rateและmax_depthการตั้งค่า ดูด้านล่าง อะไรทำให้ XGBoost เร็วขึ้นมาก? มันใช้การปรับแต่งแบบใหม่เพื่อส่งเสริมการไล่ระดับสีที่พวก sklearn ไม่รู้หรือไม่? หรือว่า "ตัดมุม" และปลูกต้นไม้ที่ตื้นขึ้น? ป.ล. ฉันตระหนักถึงการสนทนานี้: https://www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyแต่ไม่สามารถหาคำตอบได้ที่นั่น ... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

3
Hypertuning พารามิเตอร์ XGBoost
XGBoost ทำงานได้อย่างยอดเยี่ยมเมื่อพูดถึงการจัดการกับตัวแปรตามหมวดหมู่และต่อเนื่อง แต่ฉันจะเลือกพารามิเตอร์ที่เหมาะสมสำหรับปัญหา XGBoost ได้อย่างไร นี่คือวิธีที่ฉันใช้พารามิเตอร์สำหรับปัญหา Kaggle ล่าสุด: param <- list( objective = "reg:linear", booster = "gbtree", eta = 0.02, # 0.06, #0.01, max_depth = 10, #changed from default of 8 subsample = 0.5, # 0.7 colsample_bytree = 0.7, # 0.7 num_parallel_tree = 5 # alpha = 0.0001, # lambda …
27 r  python  xgboost 

3
วิธีการบังคับให้น้ำหนักไม่เป็นค่าลบในการถดถอยเชิงเส้น
ฉันใช้การถดถอยเชิงเส้นมาตรฐานโดยใช้ scikit เรียนรู้ในหลาม อย่างไรก็ตามฉันต้องการบังคับให้น้ำหนักเป็นค่าบวกสำหรับทุก ๆ คุณสมบัติ (ไม่เป็นลบ) มีวิธีใดบ้างที่ฉันจะบรรลุเป้าหมายดังกล่าวได้? ฉันกำลังดูในเอกสาร แต่ไม่สามารถหาวิธีที่จะทำให้สำเร็จ ฉันเข้าใจว่าฉันอาจจะไม่ได้ทางออกที่ดีที่สุด แต่ฉันต้องการน้ำหนักที่ไม่เป็นลบ

1
PyTorch vs. Tensorflow Fold
ทั้งPyTorchและTensorflow Foldเป็นเฟรมเวิร์กการเรียนรู้ลึกซึ่งหมายถึงการจัดการกับสถานการณ์ที่ข้อมูลอินพุตมีความยาวหรือขนาดที่ไม่สม่ำเสมอ (นั่นคือสถานการณ์ที่กราฟแบบไดนามิกมีประโยชน์หรือจำเป็น) ฉันต้องการรู้ว่าพวกเขาเปรียบเทียบอย่างไรในแง่ของกรอบความคิดที่พวกเขาพึ่งพา (เช่นการแบตช์แบบไดนามิก) และความหมายของสิ่งต่าง ๆ ที่สามารถ / ไม่สามารถนำไปใช้ในแต่ละจุดอ่อน / จุดแข็ง ฯลฯ ฉันตั้งใจจะใช้ข้อมูลนี้เพื่อเลือกหนึ่งในนั้นเพื่อเริ่มสำรวจกราฟการคำนวณแบบไดนามิก แต่ฉันไม่มีงานเฉพาะในใจ หมายเหตุ 1: กรอบกราฟการคำนวณแบบไดนามิกอื่น ๆ เช่นDyNetหรือChainerก็ยินดีต้อนรับในการเปรียบเทียบ แต่ฉันต้องการมุ่งเน้นไปที่ PyTorch และ Tensorflow Fold เพราะฉันคิดว่าพวกเขา / จะเป็นคนที่ใช้มากที่สุด หมายเหตุ 2: ฉันได้พบแฮ็คข่าวนี้ใน PyTorchด้วยข้อมูลที่กระจัดกระจาย แต่ไม่มากนัก หมายเหตุ 3: หัวข้อแฮ็กข่าวใหม่ที่เกี่ยวข้องเกี่ยวกับ Tensorflow Fold ที่มีข้อมูลบางอย่างเกี่ยวกับวิธีการเปรียบเทียบ หมายเหตุ 4: ที่เกี่ยวข้องด้าย Reddit หมายเหตุ 5: ข้อผิดพลาดที่เกี่ยวข้องใน Github ของ Tensorflow Foldที่ระบุข้อ …

7
วิธีการลอกแบบสภาพการทำงานของ Python บนเครื่องอื่นได้อย่างไร?
ฉันพัฒนารูปแบบการเรียนรู้ของเครื่องด้วย Python (Anaconda + Flask) บนเวิร์กสเตชันของฉันและทุกอย่างเป็นไปด้วยดี ต่อมาฉันพยายามส่งโปรแกรมนี้ไปยังเครื่องอื่นซึ่งแน่นอนว่าฉันพยายามตั้งค่าสภาพแวดล้อมเดียวกัน แต่โปรแกรมไม่สามารถทำงานได้ ฉันคัดลอกโปรแกรมไปยังเครื่องอื่นซึ่งทำงานได้อย่างราบรื่น ฉันไม่สามารถทราบได้ว่าปัญหาคืออะไรในกรณีที่ล้มเหลว (ทั้งรหัสโปรแกรมและข้อความแสดงข้อผิดพลาดมากมายดังนั้นฉันจึงไม่สามารถแสดงได้ที่นี่) แต่ฉันเกือบจะแน่ใจว่าเป็นสิ่งที่มีรุ่นที่แตกต่างกันของการอ้างอิง . ดังนั้นคำถามของฉันคือสภาพแวดล้อมที่โปรแกรมบางโปรแกรมทำงานได้ดีฉันจะโคลนไปยังโปรแกรมอื่นที่ควรทำงานได้อย่างไร แน่นอนว่าไม่มีการโคลนระบบเต็มรูปแบบ;)
26 python  anaconda 

6
เทคนิคการเรียนรู้ของเครื่องสำหรับการประเมินอายุของผู้ใช้ตามเว็บไซต์ Facebook ที่พวกเขาชอบ
ฉันมีฐานข้อมูลจากแอปพลิเคชัน Facebook ของฉันและฉันพยายามใช้การเรียนรู้ของเครื่องเพื่อประเมินอายุของผู้ใช้ตามไซต์ Facebook ที่พวกเขาชอบ มีสามลักษณะที่สำคัญของฐานข้อมูลของฉัน: การแจกแจงอายุในชุดการฝึกอบรมของฉัน (รวมเป็น 12k ของผู้ใช้) เอียงไปทางผู้ใช้ที่อายุน้อยกว่า (เช่นฉันมีผู้ใช้ 1157 คนอายุ 27 และ 23 ผู้ใช้อายุ 65 ปี) หลายไซต์มี likers ไม่เกิน 5 (ฉันกรองเว็บไซต์ FB ที่มี likers น้อยกว่า 5) มีคุณสมบัติมากมายกว่าตัวอย่าง ดังนั้นคำถามของฉันคือกลยุทธ์ใดที่คุณแนะนำให้เตรียมข้อมูลเพื่อการวิเคราะห์เพิ่มเติม ฉันควรลดมิติข้อมูลลงบ้างไหม? วิธีการ ML แบบใดที่เหมาะสมที่สุดที่จะใช้ในกรณีนี้ ฉันใช้ Python เป็นหลักดังนั้นคำแนะนำเฉพาะของ Python จะได้รับการชื่นชมอย่างมาก

2
ผสานสองรุ่นที่แตกต่างกันใน Keras
ฉันกำลังพยายามรวมโมเดล Keras สองแบบเป็นแบบจำลองเดียวและฉันไม่สามารถทำสิ่งนี้ให้สำเร็จ ตัวอย่างเช่นในรูปที่แนบมาฉันต้องการดึงชั้นกลางของมิติ 8 และใช้สิ่งนี้เป็นอินพุตไปยังชั้น (จากมิติ 8 อีกครั้ง) ในรุ่นแล้วรวมทั้งแบบและแบบเป็นหนึ่งเดียว แบบA 2A2A2B 1B1B1BBBAAABBB ฉันใช้โมดูลการทำงานเพื่อสร้าง Modelและ Modelอย่างอิสระ ฉันจะทำงานนี้ให้สำเร็จได้อย่างไรAAABBB หมายเหตุ :เป็นชั้นที่ป้อนเข้ากับรูปแบบและเป็นชั้นป้อนข้อมูลไปยังรุ่นBA 1A1A1AAAB 1B1B1BBB

4
มีวิธีที่ตรงไปตรงมาในการรัน pandas.DataFrame.isin แบบขนานหรือไม่?
ฉันมีโปรแกรมการสร้างแบบจำลองและการให้คะแนนที่ใช้ประโยชน์จากDataFrame.isinฟังก์ชั่นของหมีแพนด้าอย่างหนักโดยค้นหาจากรายการบันทึกของ Facebook "ชอบ" ของผู้ใช้แต่ละคนสำหรับแต่ละหน้าไม่กี่พันหน้า นี่คือส่วนที่ใช้เวลานานที่สุดของโปรแกรมมากกว่าการสร้างแบบจำลองหรือให้คะแนนชิ้นส่วนเพียงเพราะมันทำงานบนแกนเดียวเท่านั้นในขณะที่ส่วนที่เหลือทำงานบนสองสามโหลพร้อมกัน แม้ว่าฉันจะรู้ว่าฉันสามารถแบ่งดาต้าเฟรมออกเป็นชิ้น ๆ และดำเนินการแบบขนานได้เองมีวิธีที่ตรงไปตรงมาในการทำสิ่งนั้นโดยอัตโนมัติหรือไม่? กล่าวอีกนัยหนึ่งมีแพ็คเกจประเภทใดบ้างที่จะรับรู้ว่าฉันกำลังใช้งานที่ได้รับมอบหมายอย่างง่ายดายและแจกจ่ายโดยอัตโนมัติหรือไม่ บางทีนั่นอาจจะขอมากเกินไป แต่ฉันก็รู้สึกประหลาดใจมากพอในอดีตโดยสิ่งที่มีอยู่ใน Python ดังนั้นฉันคิดว่ามันคุ้มค่าที่จะถาม ข้อเสนอแนะอื่น ๆ เกี่ยวกับวิธีการนี้อาจสำเร็จ (แม้ว่าจะไม่ใช่แพ็คเกจยูนิคอร์นเวทมนตร์) ก็จะได้รับการชื่นชมเช่นกัน ส่วนใหญ่เพียงแค่พยายามหาวิธีกำจัด 15-20 นาทีต่อการวิ่งโดยไม่ต้องใช้เวลาพอสมควรในการเข้ารหัสโซลูชัน

4
Word2Vec สำหรับการจดจำเอนทิตีที่มีชื่อ
ฉันกำลังมองหาที่จะใช้การใช้งาน word2vec ของ Google เพื่อสร้างระบบรู้จำชื่อเอนทิตี ฉันได้ยินมาว่าตาข่ายแบบวนซ้ำที่มีการแพร่กระจายกลับผ่านโครงสร้างนั้นเหมาะสำหรับงานการจดจำเอนทิตีที่มีชื่อ แต่ฉันไม่สามารถหาการใช้งานที่เหมาะสมหรือแบบฝึกหัดที่ดีสำหรับแบบจำลองชนิดนั้น เนื่องจากฉันทำงานกับคลังข้อมูลผิดปกติเครื่องมือ NER มาตรฐานใน NLTK และที่คล้ายกันจึงทำงานได้แย่มากและดูเหมือนว่าฉันจะต้องฝึกระบบของตัวเอง กล่าวโดยย่อคือทรัพยากรใดบ้างที่มีสำหรับปัญหาประเภทนี้ มีมาตรฐานการใช้งานเครือข่ายประสาทแบบเรียกซ้ำ?

4
Scikit-learn: รับ SGDClassifier เพื่อทำนายเช่นเดียวกับ Logistic Regression
วิธีในการฝึกอบรม Logistic Regression คือการใช้การไล่ระดับสีแบบสุ่มสุ่มซึ่ง scikit-learn นำเสนออินเตอร์เฟส สิ่งที่ฉันต้องการจะทำคือการใช้ scikit การเรียนรู้ของSGDClassifierและมีมันคะแนนเช่นเดียวกับการถดถอยโลจิสติกที่นี่ อย่างไรก็ตามฉันต้องขาดการปรับปรุงการเรียนรู้ของเครื่องเนื่องจากคะแนนของฉันไม่เท่ากัน นี่คือรหัสปัจจุบันของฉัน ฉันขาดอะไรใน SGDClassifier ที่จะให้ผลลัพธ์เช่นเดียวกับ Logistic Regression from sklearn import datasets from sklearn.linear_model import LogisticRegression from sklearn.linear_model import SGDClassifier import numpy as np import pandas as pd from sklearn.cross_validation import KFold from sklearn.metrics import accuracy_score # Note that the iris dataset …

5
อิมเมจ VM สำหรับโครงการวิทยาศาสตร์ข้อมูล
เนื่องจากมีเครื่องมือมากมายสำหรับงานด้าน data data และมันยุ่งยากในการติดตั้งทุกอย่างและสร้างระบบที่สมบูรณ์แบบ มีอิมเมจ Linux / Mac OS พร้อม Python, R และเครื่องมือวิทยาศาสตร์ข้อมูลโอเพ่นซอร์สอื่น ๆ ที่ติดตั้งและพร้อมให้คนใช้งานได้ทันทีหรือไม่? Ubuntu หรือระบบปฏิบัติการน้ำหนักเบาที่มี Python, R (รวมถึง IDEs) เวอร์ชันล่าสุดและเครื่องมือสร้างภาพข้อมูลแบบโอเพนซอร์สอื่น ๆ ที่ติดตั้งจะเหมาะสมที่สุด ฉันไม่เจอสิ่งใดในการค้นหาอย่างรวดเร็วบน Google โปรดแจ้งให้เราทราบหากมีบางคนหรือคนที่คุณสร้างขึ้นมาเพื่อตัวเอง? ฉันคิดว่ามหาวิทยาลัยบางแห่งอาจมีภาพ VM ของตัวเอง กรุณาแบ่งปันลิงค์ดังกล่าว
24 python  r  tools 

3
แนวทางปฏิบัติที่ดีที่สุดในการจัดเก็บรูปแบบการเรียนรู้ของเครื่องงู
แนวปฏิบัติที่ดีที่สุดในการบันทึกจัดเก็บและแบ่งปันโมเดลการเรียนรู้ของเครื่องมีอะไรบ้าง ใน Python เรามักจะจัดเก็บการเป็นตัวแทนไบนารีของโมเดลโดยใช้ pickle หรือ joblib แบบจำลองในกรณีของฉันอาจมีขนาดใหญ่ ~ 100Mo นอกจากนี้ joblib สามารถบันทึกรูปแบบหนึ่งไปยังหลายไฟล์ถ้าคุณตั้งcompress=1( /programming/33497314/sklearn-dumping-model-using-joblib-dumps-multiple-files-which-one-is-the- แกนกลาง ) แต่ถ้าคุณต้องการควบคุมสิทธิ์การเข้าถึงโมเดลและสามารถใช้โมเดลจากเครื่องต่าง ๆ วิธีที่ดีที่สุดในการจัดเก็บคืออะไร ฉันมีตัวเลือกน้อย: เก็บไว้เป็นไฟล์จากนั้นนำไปไว้ในที่เก็บโดยใช้ Git LFS เก็บไว้ในฐานข้อมูล SQL เป็นไฟล์ไบนารี: ตัวอย่างเช่นใน Postgresql https://wiki.postgresql.org/wiki/BinaryFilesInDB นี่เป็นวิธีที่ทีม SQL Server แนะนำ: https://docs.microsoft.com/en-us/sql/advanced-analytics/tutorials/walkthrough-build-and-save-the-model https://microsoft.github.io/sql-ml-tutorials/python/rentalprediction/step/3.html https://blogs.technet.microsoft.com/dataplatforminsider/2016/10/17/sql-server-as-a-machine-learning-model-management-system HDFS

4
จำเป็นหรือไม่ที่จะต้องทำให้ข้อมูลของคุณเป็นมาตรฐานก่อนการทำคลัสเตอร์
จำเป็นหรือไม่ที่จะต้องทำให้ข้อมูลของคุณเป็นมาตรฐานก่อนคลัสเตอร์ ในตัวอย่างจากscikit learnเกี่ยวกับ DBSCAN ที่นี่พวกเขาทำสิ่งนี้ในบรรทัด: X = StandardScaler().fit_transform(X) แต่ฉันไม่เข้าใจว่าทำไมจึงมีความจำเป็น ท้ายที่สุดการจัดกลุ่มไม่ถือว่าเป็นการกระจายข้อมูลโดยเฉพาะ - มันเป็นวิธีการเรียนรู้ที่ไม่มีผู้ดูแลดังนั้นวัตถุประสงค์ของมันก็คือการสำรวจข้อมูล ทำไมจึงจำเป็นต้องแปลงข้อมูล?

5
การคำนวณ KL Divergence ใน Python
ฉันค่อนข้างใหม่สำหรับสิ่งนี้และไม่สามารถพูดได้ว่าฉันมีความเข้าใจที่สมบูรณ์เกี่ยวกับแนวคิดทางทฤษฎีที่อยู่เบื้องหลังสิ่งนี้ ฉันกำลังพยายามคำนวณ KL Divergence ระหว่างรายการหลายจุดใน Python ฉันใช้http://scikit-learn.org/stable/modules/generated/sklearn.metrics.mutual_info_score.htmlเพื่อลองทำสิ่งนี้ ปัญหาที่ฉันพบคือค่าที่ส่งคืนนั้นเหมือนกันสำหรับ 2 หมายเลขรายการใด ๆ (1.3862943611198906) ฉันมีความรู้สึกว่าฉันทำผิดทางทฤษฎีบางอย่างที่นี่ แต่มองไม่เห็น values1 = [1.346112,1.337432,1.246655] values2 = [1.033836,1.082015,1.117323] metrics.mutual_info_score(values1,values2) นี่คือตัวอย่างของสิ่งที่ฉันกำลังทำงาน - เพียงแค่ฉันได้รับผลลัพธ์เดียวกันสำหรับ 2 อินพุทใด ๆ คำแนะนำใด ๆ / ความช่วยเหลือจะได้รับการชื่นชม!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.