คำถามติดแท็ก dataset

ชุดข้อมูลคือชุดของข้อมูลมักจะอยู่ในรูปแบบตารางหรือเมทริกซ์ แท็กนี้ไม่ได้มีไว้สำหรับคำขอข้อมูล ("ฉันสามารถหาชุดข้อมูลเกี่ยวกับ ... ") -> ดู OpenData

30
ชุดข้อมูลที่เผยแพร่สู่สาธารณะ
หนึ่งในปัญหาที่พบบ่อยในศาสตร์ข้อมูลคือการรวบรวมข้อมูลจากแหล่งต่าง ๆ ในรูปแบบที่ทำความสะอาด (กึ่งโครงสร้าง) และการรวมตัวชี้วัดจากแหล่งต่าง ๆ เพื่อทำการวิเคราะห์ในระดับที่สูงขึ้น เมื่อมองถึงความพยายามของคนอื่นโดยเฉพาะคำถามอื่น ๆ ในเว็บไซต์นี้ดูเหมือนว่าคนจำนวนมากในสาขานี้กำลังทำงานซ้ำ ๆ ตัวอย่างเช่นการวิเคราะห์ทวีตโพสต์ Facebook บทความ Wikipedia ฯลฯ เป็นส่วนหนึ่งของปัญหาข้อมูลจำนวนมาก ชุดข้อมูลเหล่านี้บางส่วนสามารถเข้าถึงได้โดยใช้ API สาธารณะที่จัดทำโดยไซต์ผู้ให้บริการ แต่โดยปกติแล้วข้อมูลหรือตัวชี้วัดที่มีค่าบางอย่างจะหายไปจาก API เหล่านี้และทุกคนต้องทำการวิเคราะห์แบบเดียวกันซ้ำแล้วซ้ำอีก ตัวอย่างเช่นแม้ว่าผู้ใช้ที่ทำคลัสเตอร์อาจขึ้นอยู่กับกรณีการใช้งานที่แตกต่างกันและการเลือกคุณสมบัติ แต่การมีการทำคลัสเตอร์พื้นฐานของผู้ใช้ Twitter / Facebook อาจมีประโยชน์ในแอปพลิเคชัน Big Data จำนวนมากซึ่ง API เหล่านี้ไม่ได้จัดหา . มีเว็บไซต์โฮสติ้งชุดข้อมูลดัชนีหรือสาธารณะที่มีชุดข้อมูลที่มีค่าที่สามารถนำกลับมาใช้ใหม่ในการแก้ปัญหาข้อมูลขนาดใหญ่อื่น ๆ ได้หรือไม่? ฉันหมายถึงบางอย่างเช่น GitHub (หรือกลุ่มของไซต์ / ชุดข้อมูลสาธารณะหรืออย่างน้อยก็เป็นรายการที่ครอบคลุม) สำหรับวิทยาศาสตร์ข้อมูล ถ้าไม่มีเหตุผลอะไรที่ไม่มีแพลตฟอร์มสำหรับวิทยาศาสตร์ข้อมูล? มูลค่าเชิงพาณิชย์ของข้อมูลจำเป็นต้องอัพเดทชุดข้อมูลบ่อยๆ ... ? เราไม่สามารถมีโมเดลโอเพ่นซอร์สสำหรับการแชร์ชุดข้อมูลที่คิดค้นขึ้นสำหรับนักวิทยาศาสตร์ข้อมูลได้หรือไม่?

5
ฉันควรจะไปที่ชุดข้อมูล 'สมดุล' หรือชุดข้อมูล 'ตัวแทน'?
งาน 'การเรียนรู้ของเครื่อง' ของฉันคือการแยกการรับส่งข้อมูลอินเทอร์เน็ตที่ไม่เป็นอันตรายออกจากการรับส่งข้อมูลที่เป็นอันตราย ในสถานการณ์โลกแห่งความเป็นจริงการรับส่งข้อมูลทางอินเทอร์เน็ตส่วนใหญ่ (90% ขึ้นไป) นั้นไม่เป็นอันตราย ดังนั้นฉันรู้สึกว่าฉันควรเลือกการตั้งค่าข้อมูลที่คล้ายกันสำหรับการฝึกอบรมโมเดลของฉันเช่นกัน แต่ฉันเจอบทความวิจัยหนึ่งหรือสองเรื่อง (ในพื้นที่ที่ฉันทำงาน) ซึ่งใช้วิธีการ "จัดสมดุลคลาส" เพื่อฝึกอบรมนางแบบซึ่งหมายถึงจำนวนอินสแตนซ์ของการรับส่งข้อมูลที่ไม่เป็นอันตรายและเป็นอันตราย โดยทั่วไปถ้าฉันสร้างแบบจำลองการเรียนรู้ของเครื่องฉันควรจะไปหาชุดข้อมูลซึ่งเป็นตัวแทนของปัญหาโลกแห่งความจริงหรือเป็นชุดข้อมูลที่มีความสมดุลที่ดีกว่าเหมาะสำหรับการสร้างแบบจำลอง (เนื่องจากตัวแยกประเภทบางตัว เนื่องจากเหตุผลอื่น ๆ ที่ฉันไม่รู้จัก)? คนที่สามารถหลั่งน้ำตาแสงเพิ่มเติมเกี่ยวกับข้อดีและข้อเสียของทั้งสองทางเลือกและวิธีการที่จะตัดสินใจที่หนึ่งที่จะไปเลือก?

1
ทำไม xgboost จึงเร็วกว่า GradientBoostingClassifier ของ sklearn มาก?
ฉันพยายามที่จะฝึกอบรมการยกระดับความลาดชันของตัวอย่างมากกว่า 50k ด้วยคุณสมบัติตัวเลข 100 ตัว XGBClassifierจัดการ 500 ต้นภายใน 43 วินาทีบนเครื่องของฉันในขณะที่GradientBoostingClassifierจัดการเพียง 10 ต้น (!) ใน 1 นาทีและ 2 วินาที :( ฉันไม่ได้พยายามที่จะเติบโต 500 ต้นเพราะจะใช้เวลาหลายชั่วโมงฉันใช้แบบเดียวกันlearning_rateและmax_depthการตั้งค่า ดูด้านล่าง อะไรทำให้ XGBoost เร็วขึ้นมาก? มันใช้การปรับแต่งแบบใหม่เพื่อส่งเสริมการไล่ระดับสีที่พวก sklearn ไม่รู้หรือไม่? หรือว่า "ตัดมุม" และปลูกต้นไม้ที่ตื้นขึ้น? ป.ล. ฉันตระหนักถึงการสนทนานี้: https://www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyแต่ไม่สามารถหาคำตอบได้ที่นั่น ... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

4
คู่มือฉบับย่อเกี่ยวกับการฝึกอบรมชุดข้อมูลที่มีความไม่สมดุลสูง
ฉันมีปัญหาการจัดหมวดหมู่โดยมี 1,000 ตัวอย่างบวกและลบ 10,000 ตัวอย่างในชุดการฝึกอบรม ดังนั้นชุดข้อมูลนี้จึงค่อนข้างไม่สมดุล ป่าสุ่มธรรมดา ๆ กำลังพยายามทำเครื่องหมายตัวอย่างการทดสอบทั้งหมดว่าเป็นเสียงส่วนใหญ่ คำตอบที่ดีเกี่ยวกับการสุ่มตัวอย่างย่อยและการสุ่มน้ำหนักป่ามีให้ที่นี่: อะไรคือความหมายของการฝึกอบรมชุดทรีด้วยชุดข้อมูลที่มีอคติสูง? วิธีการจำแนกประเภทใดนอกจาก RF สามารถจัดการปัญหาได้อย่างดีที่สุด?

7
ชุดข้อมูล / APIs เครือข่ายโซเชียลที่เปิดเผยต่อสาธารณชน
ในฐานะที่เป็นส่วนขยายของรายการชุดข้อมูลที่เปิดเผยต่อสาธารณชนเราต้องการทราบว่ามีรายการใด ๆ ของชุดข้อมูลเครือข่ายโซเชียลสาธารณะ / API การรวบรวมข้อมูล มันจะดีมากถ้าพร้อมกับลิงค์ไปยังชุดข้อมูล / API คุณสมบัติของข้อมูลที่มีอยู่ก็ถูกเพิ่มเข้ามา ข้อมูลดังกล่าวควรเป็นและไม่ จำกัด เฉพาะ: ชื่อเครือข่ายโซเชียล มีข้อมูลผู้ใช้ประเภทใดบ้าง (โพสต์โปรไฟล์เครือข่ายมิตรภาพ ... ); ไม่ว่าจะช่วยให้การรวบรวมเนื้อหาของมันผ่านทาง API (และอัตรา: 10 / นาที, 1k / เดือน, ... ); ไม่ว่าจะเป็นเพียงแค่ให้ภาพรวมของชุดข้อมูลทั้งหมด ข้อเสนอแนะและคุณสมบัติเพิ่มเติมที่จะเพิ่มยินดีต้อนรับมาก

4
มันจะดีกว่าเสมอที่จะใช้ชุดข้อมูลทั้งหมดเพื่อฝึกอบรมตัวแบบสุดท้ายหรือไม่
เทคนิคทั่วไปหลังการฝึกอบรมการตรวจสอบและทดสอบรูปแบบการเรียนรู้ของการเรียนรู้ด้วยเครื่องคือการใช้ชุดข้อมูลที่สมบูรณ์รวมถึงชุดย่อยการทดสอบเพื่อฝึกอบรมรูปแบบสุดท้ายเพื่อปรับใช้บนเช่นผลิตภัณฑ์ คำถามของฉันคือ: การทำเช่นนั้นดีที่สุดเสมอหรือไม่? จะเป็นอย่างไรถ้าประสิทธิภาพลดลงจริง ตัวอย่างเช่นให้เราสมมติกรณีที่โมเดลทำคะแนนประมาณ 65% ในการจำแนกชุดย่อยการทดสอบ นี่อาจหมายความว่าทั้งโมเดลได้รับการฝึกฝนไม่เพียงพอหรือชุดย่อยทดสอบประกอบด้วยค่าผิดปกติ ในกรณีหลังการฝึกอบรมรุ่นสุดท้ายกับพวกเขาจะลดประสิทธิภาพและคุณจะพบว่าหลังจากการปรับใช้ ถามคำถามเริ่มต้นของฉันอีกครั้ง: หากคุณมีการสาธิตแบบครั้งเดียวเช่นการนำไปใช้กับอุปกรณ์อิเล็กทรอนิกส์แบบฝังตัวในการทดลองจรวดที่มีราคาแพงคุณจะเชื่อถือรูปแบบที่ได้รับการฝึกอบรมซ้ำกับชุดย่อยทดสอบในขั้นตอนสุดท้ายโดยไม่ต้องทำการทดสอบซ้ำ ทดสอบประสิทธิภาพใหม่แล้วหรือยัง?

3
แนวคิดโครงงานวิทยาศาสตร์ข้อมูล [ปิด]
ปิด คำถามนี้เป็นคำถามความคิดเห็นตาม ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้สามารถตอบข้อเท็จจริงและการอ้างอิงได้โดยแก้ไขโพสต์นี้ ปิดให้บริการใน5 ปีที่ผ่านมา ฉันไม่รู้ว่านี่เป็นสถานที่ที่เหมาะสมที่จะถามคำถามนี้หรือไม่ แต่ชุมชนที่อุทิศให้กับ Data Science ควรเป็นสถานที่ที่เหมาะสมที่สุดในความคิดของฉัน ฉันเพิ่งเริ่มต้นด้วยวิทยาศาสตร์ข้อมูลและการเรียนรู้ของเครื่อง ฉันกำลังมองหาแนวคิดโครงการระยะยาวที่ฉันสามารถทำงานได้เช่น 8 เดือน การผสมผสานระหว่างวิทยาศาสตร์ข้อมูลและการเรียนรู้ของเครื่องจักรจะยอดเยี่ยม โครงการใหญ่พอที่จะช่วยให้ฉันเข้าใจแนวคิดหลักและนำไปใช้ในเวลาเดียวกันจะเป็นประโยชน์อย่างมาก

3
วิธีสร้างชุดข้อมูลสังเคราะห์โดยใช้โมเดลการเรียนรู้ของเครื่องเรียนรู้ด้วยชุดข้อมูลดั้งเดิมได้อย่างไร
โดยทั่วไปโมเดลการเรียนรู้ของเครื่องจะถูกสร้างขึ้นบนชุดข้อมูล ฉันต้องการที่จะทราบว่ามีวิธีการสร้างชุดข้อมูลสังเคราะห์โดยใช้รูปแบบการเรียนรู้ของเครื่องฝึกอบรมที่รักษาลักษณะชุดข้อมูลดั้งเดิมหรือไม่? [ข้อมูลดั้งเดิม -> สร้างโมเดลการเรียนรู้ของเครื่อง -> ใช้โมเดล ML เพื่อสร้างข้อมูลสังเคราะห์ .... !!!] เป็นไปได้ไหม ? กรุณาชี้ให้ฉันไปที่แหล่งข้อมูลที่เกี่ยวข้องถ้าเป็นไปได้

3
ชุดข้อมูลสำหรับการจดจำเอนทิตีที่มีชื่อในข้อความที่ไม่เป็นทางการ
ขณะนี้ฉันกำลังค้นหาชุดข้อมูลที่มีป้ายกำกับเพื่อฝึกโมเดลเพื่อแยกเอนทิตีที่มีชื่อออกจากข้อความที่ไม่เป็นทางการ (คล้ายกับทวีต) เนื่องจากการใช้ตัวพิมพ์ใหญ่และไวยากรณ์มักขาดเอกสารในชุดข้อมูลของฉันฉันจึงมองหาข้อมูลในโดเมนที่ค่อนข้าง "ไม่เป็นทางการ" มากกว่าบทความข่าวและรายการบันทึกประจำวันที่ระบบการรู้จำชื่อนิติบุคคลที่ทันสมัยในปัจจุบันหลายแห่ง ได้รับการฝึกฝน คำแนะนำใด ๆ จนถึงตอนนี้ฉันสามารถค้นหาโทเค็น 50k จาก twitter ที่เผยแพร่ที่นี่เท่านั้น
18 dataset  nlp 

3
มีเครื่องมือจัดเก็บข้อมูลสำหรับ python / pandas คล้ายกับเครื่องมือ R tidyr หรือไม่?
ฉันกำลังทำงานกับความท้าทาย Kaggle ที่มีตัวแปรบางตัวแสดงแทนแถวแทนที่จะเป็นคอลัมน์ (Telstra Network Disruption) ขณะนี้ฉันกำลังค้นหาเทียบเท่ากับรวบรวม () แยก () และสเปรด () ซึ่งสามารถพบได้ในเครื่องมือ R tidyr

5
ทำให้แผนที่ความร้อนของทะเลใหญ่ขึ้น
ฉันสร้างcorr()df จาก df ดั้งเดิม corr()DF ออก 70 X 70 มาและมันเป็นไปไม่ได้ที่จะเห็นภาพ heatmap ส sns.heatmap(df)... ถ้าฉันพยายามที่จะแสดงcorr = df.corr()ตารางที่ไม่พอดีกับหน้าจอและฉันสามารถดูความสัมพันธ์ทั้งหมด มันเป็นวิธีที่จะพิมพ์ทั้งdfโดยไม่คำนึงถึงขนาดของมันหรือเพื่อควบคุมขนาดของ heatmap หรือไม่?
17 visualization  pandas  plotting  machine-learning  neural-network  svm  decision-trees  svm  efficiency  python  linear-regression  machine-learning  nlp  topic-model  lda  named-entity-recognition  naive-bayes-classifier  association-rules  fuzzy-logic  kaggle  deep-learning  tensorflow  inception  classification  feature-selection  feature-engineering  machine-learning  scikit-learn  tensorflow  keras  encoding  nlp  text-mining  nlp  rnn  python  neural-network  feature-extraction  machine-learning  predictive-modeling  python  r  linear-regression  clustering  r  ggplot2  neural-network  neural-network  training  python  neural-network  deep-learning  rnn  predictive-modeling  databases  sql  programming  distribution  dataset  cross-validation  neural-network  deep-learning  rnn  machine-learning  machine-learning  python  deep-learning  data-mining  tensorflow  visualization  tools  sql  embeddings  orange  feature-extraction  unsupervised-learning  gan  machine-learning  python  data-mining  pandas  machine-learning  data-mining  bigdata  apache-spark  apache-hadoop  deep-learning  python  convnet  keras  aggregation  clustering  k-means  r  random-forest  decision-trees  reference-request  visualization  data  pandas  plotting  neural-network  keras  rnn  theano  deep-learning  tensorflow  inception  predictive-modeling  deep-learning  regression  sentiment-analysis  nlp  encoding  deep-learning  python  scikit-learn  lda  convnet  keras  predictive-modeling  regression  overfitting  regression  svm  prediction  machine-learning  similarity  word2vec  information-retrieval  word-embeddings  neural-network  deep-learning  rnn 

2
ทำไมตัวแปรของข้อมูลรถไฟและการทดสอบถูกกำหนดโดยใช้อักษรตัวใหญ่ (เป็น Python)
ฉันหวังว่าคำถามนี้เหมาะสมที่สุดในเว็บไซต์นี้ ... ใน Python โดยปกติชื่อคลาสจะถูกกำหนดโดยใช้อักษรตัวใหญ่เป็นอักขระตัวแรก class Vehicle: ... อย่างไรก็ตามในด้านการเรียนรู้เครื่องบ่อยครั้งการฝึกอบรมและการทดสอบข้อมูลที่จะถูกกำหนดเป็นXและY- ไม่ได้และx yตัวอย่างเช่นตอนนี้ฉันกำลังอ่านบทช่วยสอนนี้บน Kerasแต่มันใช้XและYเป็นตัวแปร: from sklearn import datasets mnist = datasets.load_digits() X = mnist.data Y = mnist.target ทำไมสิ่งเหล่านี้ถูกนิยามเป็นตัวพิมพ์ใหญ่? มีการประชุมใด (อย่างน้อยใน Python) ในสาขาการเรียนรู้ของเครื่องว่าควรใช้ตัวพิมพ์ใหญ่เพื่อกำหนดตัวแปรเหล่านี้หรือไม่? หรือบางทีคนก็แยกแยะความแตกต่างระหว่างตัวแปรตัวพิมพ์เล็กและตัวพิมพ์เล็กในการเรียนรู้ของเครื่อง? ในความเป็นจริงการสอนเดียวกันภายหลังแยกตัวแปรเหล่านี้ดังนี้: from sklearn.cross_validation import train_test_split train_X, test_X, train_y, test_y = train_test_split(X, Y, train_size=0.7, random_state=0)
15 python  dataset 

3
ImageNet มีคลาสบุคคลใน ImageNet หรือไม่? มีคลาสที่เกี่ยวข้องกับมนุษย์หรือไม่?
ถ้าฉันมองไปที่หนึ่งในหลายแหล่งเรียน Imagenet บนอินเทอร์เน็ตฉันไม่สามารถหาชั้นเดียวที่เกี่ยวข้องกับมนุษย์ (และไม่มีคนเกี่ยวข้าวเก็บเกี่ยวไม่ได้เป็นคนที่เก็บเกี่ยว แต่มันเป็นสิ่งที่ผมรู้ว่าเป็น Longlegs พ่อชนิดของ แมงมุม :-) เป็นไปได้อย่างไร? ผมจะมีที่คาดว่าอย่างน้อยpersonระดับและแม้กระทั่งสิ่งที่เฉพาะเจาะจงมากขึ้นเช่นman, woman, toddlerฯลฯ ไม่มีการจัดเรียง ทำไม? ไม่เฟยเฟยหลี่และทีมงานของเธอให้เป็นทางเลือกที่ใส่ใจไม่ให้มีภาพคนที่อยู่ในฐานข้อมูลหรือไม่ ฉันดูไฟล์ผิดหรือเปล่า? เพื่อประโยชน์ของคำถามเราสามารถพิจารณาImageNetรุ่นตั้งแต่ปี 2014 เป็นต้นไป

2
การวิเคราะห์ผลการทดสอบ A / B ซึ่งไม่ได้มีการแจกแจงแบบปกติโดยใช้ t-test อิสระ
ฉันมีชุดผลลัพธ์จากการทดสอบ A / B (กลุ่มควบคุมหนึ่งกลุ่มหนึ่งกลุ่มคุณลักษณะ) ซึ่งไม่พอดีกับการแจกแจงแบบปกติ ในความเป็นจริงการกระจายมีความคล้ายคลึงกับการกระจายรถม้า ฉันเชื่อว่าการทดสอบแบบอิสระนั้นต้องการให้กลุ่มตัวอย่างกระจายอย่างน้อยประมาณปกติซึ่งทำให้ฉันไม่ได้ใช้การทดสอบแบบทีเป็นวิธีการทดสอบอย่างมีนัยสำคัญ แต่คำถามของฉันคือ: ณ จุดใดที่หนึ่งสามารถพูดได้ว่าการทดสอบ t- ไม่ใช่วิธีการทดสอบที่สำคัญ? หรือใส่อีกวิธีหนึ่งจะมีคุณสมบัติอย่างไรความน่าเชื่อถือของค่า p ของการทดสอบ t ได้รับเพียงชุดข้อมูล?

3
ด้วยคลาสที่ไม่สมดุลฉันต้องใช้ภายใต้การสุ่มตัวอย่างในชุดข้อมูลการตรวจสอบ / การทดสอบของฉันหรือไม่
ฉันเป็นผู้เริ่มต้นในการเรียนรู้ของเครื่องจักรและฉันกำลังเผชิญกับสถานการณ์ ฉันกำลังทำงานเกี่ยวกับปัญหาการเสนอราคาแบบเรียลไทม์กับชุดข้อมูล IPinYou และฉันพยายามคาดคะเนการคลิก อย่างที่คุณทราบชุดข้อมูลนั้นไม่สมดุลมาก: มีตัวอย่างเชิงลบประมาณ 1300 ตัวอย่าง (ไม่ใช่คลิก) สำหรับตัวอย่างที่เป็นบวก 1 รายการ (คลิก) นี่คือสิ่งที่ฉันทำ: โหลดข้อมูล แบ่งชุดข้อมูลออกเป็น 3 ชุดข้อมูล: A = การฝึกอบรม (60%) B = การตรวจสอบความถูกต้อง (20%) C = การทดสอบ (20%) สำหรับแต่ละชุดข้อมูล (A, B, C) ให้ทำ under-sampling บนแต่ละคลาสลบเพื่อให้มีอัตราส่วน 5 (ตัวอย่างลบ 5 สำหรับตัวอย่างบวก 1 ตัวอย่าง) ให้ 3 ชุดข้อมูลใหม่ที่มีความสมดุลมากกว่า: A 'B' C ' …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.