คำถามติดแท็ก software-recommendation

5
วิธีการวาดไดอะแกรมสถาปัตยกรรมเครือข่ายการเรียนรู้ระดับลึก
ฉันสร้างแบบจำลองของฉันแล้ว ตอนนี้ฉันต้องการวาดแผนภาพสถาปัตยกรรมเครือข่ายสำหรับงานวิจัยของฉัน ตัวอย่างที่แสดงด้านล่าง:

1
ทำไม xgboost จึงเร็วกว่า GradientBoostingClassifier ของ sklearn มาก?
ฉันพยายามที่จะฝึกอบรมการยกระดับความลาดชันของตัวอย่างมากกว่า 50k ด้วยคุณสมบัติตัวเลข 100 ตัว XGBClassifierจัดการ 500 ต้นภายใน 43 วินาทีบนเครื่องของฉันในขณะที่GradientBoostingClassifierจัดการเพียง 10 ต้น (!) ใน 1 นาทีและ 2 วินาที :( ฉันไม่ได้พยายามที่จะเติบโต 500 ต้นเพราะจะใช้เวลาหลายชั่วโมงฉันใช้แบบเดียวกันlearning_rateและmax_depthการตั้งค่า ดูด้านล่าง อะไรทำให้ XGBoost เร็วขึ้นมาก? มันใช้การปรับแต่งแบบใหม่เพื่อส่งเสริมการไล่ระดับสีที่พวก sklearn ไม่รู้หรือไม่? หรือว่า "ตัดมุม" และปลูกต้นไม้ที่ตื้นขึ้น? ป.ล. ฉันตระหนักถึงการสนทนานี้: https://www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyแต่ไม่สามารถหาคำตอบได้ที่นั่น ... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

6
แบ่งปันสมุดบันทึก Jupyter ภายในทีม
ฉันต้องการตั้งค่าเซิร์ฟเวอร์ที่สามารถรองรับทีมงานด้านข้อมูลได้ด้วยวิธีต่อไปนี้: เป็นจุดศูนย์กลางสำหรับการจัดเก็บ, การกำหนดเวอร์ชัน, การแบ่งปันและความเป็นไปได้นอกจากนี้ยังใช้งานโน้ตบุ๊ค Jupyter คุณสมบัติบางอย่างที่ต้องการ: ผู้ใช้ที่แตกต่างกันสามารถเข้าถึงเซิร์ฟเวอร์และเปิดและดำเนินการโน้ตบุ๊กที่จัดเก็บโดยพวกเขาหรือโดยสมาชิกในทีมอื่น ๆ คำถามที่น่าสนใจที่นี่คือสิ่งที่จะเป็นพฤติกรรมถ้าผู้ใช้ X ดำเนินการเซลล์ในสมุดบันทึกที่เขียนโดยผู้ใช้ Y. ฉันคิดว่าไม่ควรเปลี่ยนสมุดบันทึก: โซลูชันควรโฮสต์เอง ควรจัดเก็บสมุดบันทึกไว้บนเซิร์ฟเวอร์หรือบนไดรฟ์ของ Google หรือในอินสแตนซ์ของเจ้าของเองที่เป็นเจ้าของเอง (โบนัส) สมุดบันทึกจะอยู่ภายใต้การควบคุมเวอร์ชันของ git (git อาจเป็นโฮสต์ของตัวเองไม่สามารถผูกมัดกับ GitHub หรืออะไรทำนองนั้น) ผมมองเข้าไปJupyterHubและBinder ก่อนหน้านี้ฉันไม่เข้าใจวิธีการอนุญาตให้ผู้ใช้ข้ามเข้าถึง หลังดูเหมือนว่าจะสนับสนุน GitHub เป็นที่เก็บข้อมูลของโน้ตบุ๊คเท่านั้น คุณมีประสบการณ์กับวิธีแก้ปัญหาอย่างใดอย่างหนึ่งหรือไม่?


2
การถดถอยเชิงเส้นหลายตัวแปรในหลาม
ฉันกำลังมองหาแพ็คเกจ Python ที่ใช้การถดถอยเชิงเส้นหลายตัวแปร (หมายเหตุเกี่ยวกับคำศัพท์: การถดถอยหลายตัวแปรที่เกี่ยวข้องกับกรณีที่มีมากกว่าหนึ่งตัวแปรขึ้นอยู่กับในขณะที่หลาย ๆการถดถอยเกี่ยวข้องกับกรณีที่มีตัวแปรตาม แต่หนึ่งตัวแปรอิสระมากกว่าหนึ่ง)

7
ห้องสมุดไพ ธ อนที่สามารถคำนวณเมทริกซ์ความสับสนสำหรับการจำแนกประเภทหลายฉลาก
ฉันกำลังมองหาห้องสมุดหลามที่สามารถคำนวณเมทริกซ์สำหรับการจำแนกประเภทความสับสนหลายป้าย FYI: scikit-Learn ไม่รองรับ multi-label สำหรับ matrix ที่สับสน) อะไรคือความแตกต่างระหว่าง Multiclass และ Multilabel Problem
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.