คำถามติดแท็ก scraping

1
ทำไม xgboost จึงเร็วกว่า GradientBoostingClassifier ของ sklearn มาก?
ฉันพยายามที่จะฝึกอบรมการยกระดับความลาดชันของตัวอย่างมากกว่า 50k ด้วยคุณสมบัติตัวเลข 100 ตัว XGBClassifierจัดการ 500 ต้นภายใน 43 วินาทีบนเครื่องของฉันในขณะที่GradientBoostingClassifierจัดการเพียง 10 ต้น (!) ใน 1 นาทีและ 2 วินาที :( ฉันไม่ได้พยายามที่จะเติบโต 500 ต้นเพราะจะใช้เวลาหลายชั่วโมงฉันใช้แบบเดียวกันlearning_rateและmax_depthการตั้งค่า ดูด้านล่าง อะไรทำให้ XGBoost เร็วขึ้นมาก? มันใช้การปรับแต่งแบบใหม่เพื่อส่งเสริมการไล่ระดับสีที่พวก sklearn ไม่รู้หรือไม่? หรือว่า "ตัดมุม" และปลูกต้นไม้ที่ตื้นขึ้น? ป.ล. ฉันตระหนักถึงการสนทนานี้: https://www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyแต่ไม่สามารถหาคำตอบได้ที่นั่น ... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

2
การปรับสเกลข้อมูลอย่างมีจริยธรรมและประหยัดต้นทุน
มีบางสิ่งในชีวิตที่ทำให้ฉันมีความสุขเช่นการขูดข้อมูลที่ไม่มีโครงสร้างและไม่มีโครงสร้างจากอินเทอร์เน็ตและใช้มันในแบบจำลองของฉัน ตัวอย่างเช่นชุด Data Science Toolkit (หรือRDSTKสำหรับโปรแกรมเมอร์ R) ช่วยให้ฉันสามารถดึงข้อมูลตามตำแหน่งที่ดีโดยใช้ IP หรือที่อยู่และแพคเกจtm.webmining.pluginสำหรับ R tmทำให้การคัดลอกข้อมูลทางการเงินและข่าวตรงไปตรงมา เมื่อจะเกิน (กึ่ง) XPathข้อมูลที่มีโครงสร้างเช่นฉันมักจะใช้ อย่างไรก็ตามฉันได้รับปริมาณ จำกัด อย่างต่อเนื่องกับจำนวนข้อความค้นหาที่คุณอนุญาต ฉันคิดว่า Google จำกัด ฉันให้ถึง 50,000 คำขอต่อ 24 ชั่วโมงซึ่งเป็นปัญหาสำหรับ Big Data จากมุมมองทางเทคนิคการเข้าถึงข้อ จำกัด เหล่านี้เป็นเรื่องง่ายเพียงแค่เปลี่ยนที่อยู่ IP และกำจัดตัวระบุอื่น ๆ จากสภาพแวดล้อมของคุณ อย่างไรก็ตามสิ่งนี้นำเสนอทั้งความกังวลด้านจริยธรรมและการเงิน (ฉันคิดว่า?) มีวิธีแก้ปัญหาที่ฉันมองเห็นหรือไม่?

7
การขูดเว็บ LinkedIn
ฉันเพิ่งค้นพบแพ็คเกจ R ใหม่สำหรับเชื่อมต่อกับ LinkedIn API น่าเสียดายที่ LinkedIn API นั้นค่อนข้าง จำกัด ในการเริ่มต้น ตัวอย่างเช่นคุณสามารถรับข้อมูลพื้นฐานเกี่ยวกับ บริษัท เท่านั้นและข้อมูลนี้แยกออกจากข้อมูลของแต่ละบุคคล ฉันต้องการรับข้อมูลเกี่ยวกับพนักงานทุกคนของ บริษัท ที่กำหนดซึ่งคุณสามารถทำได้ด้วยตนเองบนเว็บไซต์แต่ไม่สามารถทำได้ผ่าน API import.ioจะสมบูรณ์แบบหากรู้จักการแบ่งหน้า LinkedIn (ดูที่ส่วนท้ายของหน้า) ไม่มีใครรู้ว่าเครื่องมือขูดเว็บหรือเทคนิคใด ๆ ที่ใช้กับรูปแบบปัจจุบันของเว็บไซต์ LinkedIn หรือวิธีการดัด API เพื่อทำการวิเคราะห์ที่ยืดหยุ่นมากขึ้น? โดยเฉพาะอย่างยิ่งใน R หรือบนเว็บ แต่แน่นอนเปิดให้แนวทางอื่น ๆ

4
วิธีการขูดหน้าเว็บ imdb?
ฉันพยายามเรียนรู้การขูดเว็บโดยใช้ Python ด้วยตนเองเป็นส่วนหนึ่งของความพยายามในการเรียนรู้การวิเคราะห์ข้อมูล ฉันพยายามขูดหน้าเว็บ imdb ซึ่งมี url ต่อไปนี้: http://www.imdb.com/search/title?sort=num_votes,desc&start=1&title_type=feature&year=1950,2012 ฉันกำลังใช้โมดูล BeautifulSoup ต่อไปนี้เป็นรหัสที่ฉันใช้: r = requests.get(url) # where url is the above url bs = BeautifulSoup(r.text) for movie in bs.findAll('td','title'): title = movie.find('a').contents[0] genres = movie.find('span','genre').findAll('a') genres = [g.contents[0] for g in genres] runtime = movie.find('span','runtime').contents[0] year = movie.find('span','year_type').contents[0] print title, …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.