คำถามติดแท็ก data-mining

กิจกรรมที่ค้นหารูปแบบในชุดข้อมูลขนาดใหญ่และซับซ้อน มันมักจะเน้นเทคนิคอัลกอริทึม แต่อาจเกี่ยวข้องกับชุดทักษะที่เกี่ยวข้องแอปพลิเคชันหรือวิธีการใด ๆ ที่เกี่ยวข้องกับเป้าหมายนั้น

13
K-หมายถึงการจัดกลุ่มสำหรับข้อมูลตัวเลขและหมวดหมู่ผสม
ชุดข้อมูลของฉันมีแอตทริบิวต์ตัวเลขจำนวนหนึ่งและหนึ่งหมวดหมู่ พูดว่าNumericAttr1, NumericAttr2, ..., NumericAttrN, CategoricalAttr, ที่CategoricalAttrจะใช้เวลาหนึ่งของค่าที่เป็นไปได้ที่สาม: CategoricalAttrValue1, หรือCategoricalAttrValue2CategoricalAttrValue3 ฉันใช้ค่าเริ่มต้น k หมายถึงการจัดกลุ่มการดำเนินการขั้นตอนวิธีสำหรับคู่https://blog.west.uni-koblenz.de/2012-07-14/a-working-k-means-code-for-octave/ ใช้งานได้กับข้อมูลตัวเลขเท่านั้น ดังนั้นคำถามของฉัน: มันเป็นที่ถูกต้องในการแยกแอตทริบิวต์เด็ดขาดCategoricalAttrเป็นสามตัวเลข (binary) ตัวแปรเช่นIsCategoricalAttrValue1, IsCategoricalAttrValue2, IsCategoricalAttrValue3?

8
โอเพนซอร์สตรวจจับความผิดปกติใน Python
พื้นหลังของปัญหา: ฉันกำลังทำงานในโครงการที่เกี่ยวข้องกับไฟล์บันทึกที่คล้ายกับที่พบในพื้นที่การตรวจสอบไอที (เพื่อความเข้าใจที่ดีที่สุดของฉันเกี่ยวกับพื้นที่ไอที) ไฟล์บันทึกเหล่านี้เป็นข้อมูลอนุกรมเวลาซึ่งแบ่งเป็นหลายร้อย / หลายพันแถวของพารามิเตอร์ต่างๆ แต่ละพารามิเตอร์เป็นตัวเลข (ลอย) และมีค่าที่ไม่สำคัญ / ไม่ใช่ข้อผิดพลาดสำหรับแต่ละจุดเวลา งานของฉันคือการตรวจสอบว่าไฟล์บันทึกสำหรับการตรวจจับความผิดปกติ (แหลม, ตก, รูปแบบที่ผิดปกติกับพารามิเตอร์บางอย่างที่ไม่ได้ซิงค์, พฤติกรรมแปลกปลอมที่ 1/2 / ฯลฯ ฯลฯ ) ในการมอบหมายที่คล้ายกันฉันได้ลอง Splunk กับ Prelert แล้ว แต่ฉันกำลังสำรวจตัวเลือกโอเพนซอร์สในขณะนี้ ข้อ จำกัด : ฉัน จำกัด ตัวเองกับ Python เพราะฉันรู้ดีและต้องการชะลอการสลับเป็น R และเส้นโค้งการเรียนรู้ที่เกี่ยวข้อง เว้นแต่ว่าจะมีการสนับสนุน R (หรือภาษา / ซอฟต์แวร์อื่น ๆ ) อย่างล้นหลามฉันต้องการยึด Python สำหรับงานนี้ นอกจากนี้ฉันกำลังทำงานในสภาพแวดล้อม Windows ในขณะนี้ …

2
Vector Machine สนับสนุนยังถือว่าเป็น“ ทันสมัย” ในช่องของพวกเขาหรือไม่
คำถามนี้เป็นการตอบกลับความคิดเห็นที่ฉันเห็นในคำถามอื่น ความคิดเห็นเกี่ยวกับหลักสูตรการเรียนรู้ของเครื่องเรียนรู้บน Coursera และตามแนวของ "SVMs ไม่ได้ใช้งานมากในปัจจุบัน" ฉันเพิ่งจบการบรรยายที่เกี่ยวข้องด้วยตัวเองเท่านั้นและความเข้าใจของฉันเกี่ยวกับ SVM คือพวกเขาเป็นอัลกอริทึมการเรียนรู้ที่มีประสิทธิภาพและมีประสิทธิภาพสำหรับการจัดหมวดหมู่และเมื่อใช้เคอร์เนลพวกเขามี "ช่องว่าง" จำนวนตัวอย่างการฝึกอบรมอาจจะ 100 ถึง 10,000 ขีด จำกัด ของตัวอย่างการฝึกอบรมเป็นเพราะอัลกอริทึมหลักหมุนรอบผลการปรับให้เหมาะสมที่สร้างจากเมทริกซ์จตุรัสที่มีขนาดตามจำนวนตัวอย่างการฝึกอบรมไม่ใช่จำนวนของคุณลักษณะดั้งเดิม ความคิดเห็นที่ฉันเห็นอ้างถึงการเปลี่ยนแปลงที่แท้จริงตั้งแต่เริ่มต้นหลักสูตรและถ้าเป็นเช่นนั้นการเปลี่ยนแปลงนั้น: อัลกอริธึมใหม่ที่ครอบคลุม "จุดที่น่าสนใจ" ของ SVM เช่นกันซีพียูที่ดีกว่าหมายถึงข้อดีของการคำนวณ SVM ไม่คุ้มค่ามาก ? หรืออาจเป็นความเห็นหรือประสบการณ์ส่วนตัวของผู้แสดงความคิดเห็น? ฉันพยายามค้นหาเช่น "เป็นเครื่องสนับสนุนเวกเตอร์ที่ล้าสมัย" และไม่พบสิ่งใดที่บ่งบอกว่าพวกเขากำลังตกหลุมรักสิ่งอื่นใด และวิกิพีเดียมีนี้: http://en.wikipedia.org/wiki/Support_vector_machine#Issues . . จุดยึดหลักดูเหมือนจะยากต่อการตีความตัวแบบ ซึ่งทำให้ SVM ดีสำหรับเครื่องยนต์ทำนายกล่องดำ แต่ไม่ดีสำหรับการสร้างข้อมูลเชิงลึก ฉันไม่เห็นว่าเป็นปัญหาที่สำคัญเพียงอีกสิ่งเล็กน้อยที่ต้องคำนึงถึงเมื่อเลือกเครื่องมือที่เหมาะสมสำหรับงาน (รวมถึงลักษณะของข้อมูลการฝึกอบรมและงานการเรียนรู้ ฯลฯ )

5
อะไรคือวิธีมาตรฐานในการคำนวณระยะห่างระหว่างเอกสาร
เมื่อฉันพูดว่า "เอกสาร" ฉันนึกถึงหน้าเว็บต่างๆเช่นบทความ Wikipedia และเรื่องข่าว ฉันต้องการคำตอบที่ให้ทั้งตัวชี้วัดระยะทางวานิลลาคำศัพท์หรือตัวชี้วัดระยะทางความหมายรัฐของศิลปะที่มีการตั้งค่าที่แข็งแกร่งสำหรับหลัง

1
ทำไม xgboost จึงเร็วกว่า GradientBoostingClassifier ของ sklearn มาก?
ฉันพยายามที่จะฝึกอบรมการยกระดับความลาดชันของตัวอย่างมากกว่า 50k ด้วยคุณสมบัติตัวเลข 100 ตัว XGBClassifierจัดการ 500 ต้นภายใน 43 วินาทีบนเครื่องของฉันในขณะที่GradientBoostingClassifierจัดการเพียง 10 ต้น (!) ใน 1 นาทีและ 2 วินาที :( ฉันไม่ได้พยายามที่จะเติบโต 500 ต้นเพราะจะใช้เวลาหลายชั่วโมงฉันใช้แบบเดียวกันlearning_rateและmax_depthการตั้งค่า ดูด้านล่าง อะไรทำให้ XGBoost เร็วขึ้นมาก? มันใช้การปรับแต่งแบบใหม่เพื่อส่งเสริมการไล่ระดับสีที่พวก sklearn ไม่รู้หรือไม่? หรือว่า "ตัดมุม" และปลูกต้นไม้ที่ตื้นขึ้น? ป.ล. ฉันตระหนักถึงการสนทนานี้: https://www.kaggle.com/c/higgs-boson/forums/t/10335/xgboost-post-competition-surveyแต่ไม่สามารถหาคำตอบได้ที่นั่น ... XGBClassifier(base_score=0.5, colsample_bylevel=1, colsample_bytree=1, gamma=0, learning_rate=0.05, max_delta_step=0, max_depth=10, min_child_weight=1, missing=None, n_estimators=500, nthread=-1, objective='binary:logistic', reg_alpha=0, reg_lambda=1, …
29 scikit-learn  xgboost  gbm  data-mining  classification  data-cleaning  machine-learning  reinforcement-learning  data-mining  bigdata  dataset  nlp  language-model  stanford-nlp  machine-learning  neural-network  deep-learning  randomized-algorithms  machine-learning  beginner  career  xgboost  loss-function  neural-network  software-recommendation  naive-bayes-classifier  classification  scikit-learn  feature-selection  r  random-forest  cross-validation  data-mining  python  scikit-learn  random-forest  churn  python  clustering  k-means  machine-learning  nlp  sentiment-analysis  machine-learning  programming  python  scikit-learn  nltk  gensim  visualization  data  csv  neural-network  deep-learning  descriptive-statistics  machine-learning  supervised-learning  text-mining  orange  data  parameter-estimation  python  pandas  scraping  r  clustering  k-means  unsupervised-learning 

6
SVD และ PCA มีข้อมูลขนาดใหญ่ได้อย่างไร
ฉันมีชุดข้อมูลขนาดใหญ่ (ประมาณ 8GB) ฉันต้องการใช้การเรียนรู้ของเครื่องเพื่อวิเคราะห์ ดังนั้นฉันคิดว่าฉันควรใช้ SVD แล้ว PCA เพื่อลดมิติข้อมูลเพื่อประสิทธิภาพ อย่างไรก็ตาม MATLAB และ Octave ไม่สามารถโหลดชุดข้อมูลขนาดใหญ่ดังกล่าวได้ เครื่องมือใดที่ฉันสามารถใช้เพื่อทำ SVD ด้วยข้อมูลจำนวนมาก

3
ค่าสัมประสิทธิ์จินีเทียบกับสิ่งเจือปนจินี - ต้นไม้การตัดสินใจ
ปัญหาหมายถึงการสร้างต้นไม้ตัดสินใจ ตามค่าสัมประสิทธิ์ Giniของ Wikipedia ไม่ควรสับสนกับ ' Gini impurity ' อย่างไรก็ตามสามารถใช้มาตรการทั้งสองเมื่อสร้างแผนผังการตัดสินใจ - สิ่งเหล่านี้สามารถรองรับตัวเลือกของเราเมื่อแยกชุดรายการ 1) 'มลทิน Gini' - เป็นตัวชี้วัดมาตรฐานแยกการตัดสินใจแบบต้นไม้ (ดูในลิงก์ด้านบน) 2) 'ค่าสัมประสิทธิ์ Gini' - แต่ละการแยกสามารถประเมินได้ตามเกณฑ์ AUC สำหรับแต่ละสถานการณ์ที่แยกเราสามารถสร้างเส้นโค้ง ROC และคำนวณเมตริก AUC ตาม Wikipedia AUC = (GiniCoeff + 1) / 2; คำถามคือ: มาตรการทั้งสองนี้เทียบเท่าหรือไม่ ในอีกด้านหนึ่งฉันได้รับแจ้งว่าค่าสัมประสิทธิ์ Gini ไม่ควรสับสนกับการปนเปื้อนของ Gini ในทางกลับกันมาตรการทั้งสองนี้สามารถใช้ในการทำสิ่งเดียวกัน - การประเมินคุณภาพของการแยกแผนภูมิการตัดสินใจ

3
ทำไมเราต้องมี XGBoost และ Random Forest?
ฉันไม่ชัดเจนเกี่ยวกับแนวคิดสองประการ: XGBoost แปลงผู้เรียนที่อ่อนแอเป็นผู้เรียนที่แข็งแกร่ง อะไรคือข้อดีของการทำเช่นนี้? รวมผู้เรียนที่อ่อนแอหลายคนเข้าด้วยกันแทนที่จะใช้ต้นไม้ต้นเดียว? ป่าสุ่มใช้ตัวอย่างต่าง ๆ จากต้นไม้เพื่อสร้างต้นไม้ อะไรคือข้อดีของวิธีนี้แทนที่จะใช้ต้นไม้เอกพจน์

3
เหตุใด NLP และชุมชนการเรียนรู้ของเครื่องจึงมีความสนใจในการเรียนรู้ลึก
ฉันหวังว่าคุณสามารถช่วยฉันได้เนื่องจากฉันมีคำถามในหัวข้อนี้ ฉันใหม่ในด้านการเรียนรู้อย่างลึกซึ้งและในขณะที่ฉันทำแบบฝึกหัดบางอย่างฉันไม่สามารถสร้างความสัมพันธ์หรือแยกแยะความคิดต่าง ๆ ได้

4
ความหมายของคุณสมบัติแฝง?
ฉันกำลังเรียนรู้เกี่ยวกับเมทริกซ์การแยกตัวประกอบสำหรับระบบผู้แนะนำและฉันเห็นคำที่latent featuresเกิดขึ้นบ่อยเกินไป แต่ฉันไม่สามารถเข้าใจความหมายของมัน ฉันรู้ว่าฟีเจอร์คืออะไร แต่ฉันไม่เข้าใจความคิดของฟีเจอร์แฝง โปรดอธิบายได้ไหม หรืออย่างน้อยก็ชี้ให้ฉันไปที่กระดาษ / สถานที่ที่ฉันสามารถอ่านเกี่ยวกับมันได้?

4
วิทยาศาสตร์ข้อมูลเหมือนกับการทำ Data หรือไม่?
ฉันแน่ใจว่าวิทยาศาสตร์ข้อมูลตามที่จะกล่าวถึงในฟอรัมนี้มีคำพ้องความหมายหลายคำหรืออย่างน้อยฟิลด์ที่เกี่ยวข้องที่มีการวิเคราะห์ข้อมูลขนาดใหญ่ คำถามเฉพาะของฉันเกี่ยวกับ Data Mining ฉันเข้าเรียนระดับบัณฑิตศึกษาสาขา Data Mining เมื่อไม่กี่ปีก่อน อะไรคือความแตกต่างระหว่าง Data Science และ Data Mining และโดยเฉพาะอย่างยิ่งฉันจะต้องมองอะไรที่จะมีความเชี่ยวชาญใน Data Mining มากขึ้น?

2
วิธีการจัดการกับอนุกรมเวลาที่เปลี่ยนแปลงในฤดูกาลหรือรูปแบบอื่น ๆ ?
พื้นหลัง ฉันกำลังทำงานเกี่ยวกับชุดข้อมูลเวลาของการอ่านมาตรวัดพลังงาน ความยาวของซีรีย์แตกต่างกันไปตามเมตร - สำหรับบางคนที่ฉันมีหลายปีอื่น ๆ เพียงไม่กี่เดือน ฯลฯ หลายคนแสดงฤดูกาลที่สำคัญและมักจะหลายชั้น - ภายในวันสัปดาห์หรือปี หนึ่งในสิ่งที่ฉันได้ทำคือการจัดกลุ่มของอนุกรมเวลาเหล่านี้ งานของฉันเป็นงานวิชาการในขณะนี้และในขณะที่ฉันทำการวิเคราะห์ข้อมูลอื่น ๆ เช่นกันฉันมีเป้าหมายที่เฉพาะเจาะจงในการทำคลัสเตอร์บางอย่าง ฉันเริ่มงานแรกโดยที่ฉันคำนวณคุณสมบัติต่าง ๆ (เปอร์เซ็นต์ที่ใช้ในวันหยุดสุดสัปดาห์กับวันทำงานเปอร์เซ็นต์ที่ใช้ในช่วงเวลาต่าง ๆ เป็นต้น) จากนั้นฉันก็ไปดูที่การใช้ Dynamic Time Warping (DTW) เพื่อให้ได้ระยะห่างระหว่างซีรีย์ที่แตกต่างกันและการจัดกลุ่มตามค่าที่แตกต่างกันและฉันก็พบเอกสารหลายฉบับที่เกี่ยวข้องกับเรื่องนี้ คำถาม การเปลี่ยนแปลงตามฤดูกาลในซีรีส์ที่ระบุจะทำให้การจัดกลุ่มของฉันไม่ถูกต้องหรือไม่ และถ้าเป็นเช่นนั้นฉันจะจัดการกับมันได้อย่างไร ความกังวลของฉันคือระยะทางที่ได้รับจาก DTW อาจทำให้เข้าใจผิดในกรณีที่รูปแบบในอนุกรมเวลาเปลี่ยนไป สิ่งนี้อาจนำไปสู่การทำคลัสเตอร์ที่ไม่ถูกต้อง ในกรณีที่ข้างต้นไม่ชัดเจนให้พิจารณาตัวอย่างเหล่านี้: ตัวอย่างที่ 1 มาตรวัดมีการอ่านค่าต่ำตั้งแต่เที่ยงคืนจนถึง 8 โมงเช้าการอ่านเพิ่มขึ้นอย่างรวดเร็วในชั่วโมงถัดไปและอยู่สูงจาก 9.00 น. ถึง 17.00 น. จากนั้นลดลงอย่างรวดเร็วในชั่วโมงถัดไปจากนั้นพักต่ำจาก 18.00 น. จนถึงเที่ยงคืน มิเตอร์ยังคงรูปแบบนี้อย่างต่อเนื่องทุกวันเป็นเวลาหลายเดือน แต่จากนั้นเปลี่ยนเป็นรูปแบบที่การอ่านอยู่ในระดับสม่ำเสมอตลอดทั้งวัน …

1
Hellinger Distance คืออะไรและควรใช้เมื่อใด
ฉันสนใจที่จะรู้ว่าสิ่งที่เกิดขึ้นจริงในระยะทาง Hellinger (ในแง่ง่าย) นอกจากนี้ฉันยังสนใจที่จะทราบว่าปัญหาประเภทใดบ้างที่เราสามารถใช้ Hellinger Distance ประโยชน์ของการใช้ Hellinger Distance คืออะไร

4
ฉันควรใช้แบบจำลองทางสถิติใดในการวิเคราะห์ความน่าจะเป็นที่เหตุการณ์เดียวมีผลต่อข้อมูลระยะยาว
ฉันกำลังพยายามค้นหาสูตรวิธีการหรือแบบจำลองเพื่อใช้ในการวิเคราะห์ความน่าจะเป็นที่เหตุการณ์เฉพาะนั้นมีผลต่อข้อมูลระยะยาว ฉันกำลังหาสิ่งที่จะค้นหาใน Google ได้ยาก นี่คือสถานการณ์ตัวอย่าง: ภาพที่คุณเป็นเจ้าของธุรกิจที่มีลูกค้าโดยเฉลี่ย 100 คนต่อวัน อยู่มาวันหนึ่งคุณตัดสินใจว่าคุณต้องการเพิ่มจำนวนลูกค้าที่เดินเข้ามาในร้านของคุณในแต่ละวันดังนั้นคุณจึงดึงการแสดงความสามารถออกไปข้างนอกร้านเพื่อรับความสนใจ ในสัปดาห์หน้าคุณจะเห็นลูกค้าโดยเฉลี่ย 125 คนต่อวัน ในอีกไม่กี่เดือนข้างหน้าคุณตัดสินใจอีกครั้งว่าคุณต้องการทำธุรกิจเพิ่มและอาจต้องใช้เวลานานกว่านี้ดังนั้นคุณลองทำสิ่งสุ่มอื่น ๆ เพื่อรับลูกค้าในร้านของคุณ แต่น่าเสียดายที่คุณไม่ใช่นักการตลาดที่ดีที่สุดและกลยุทธ์บางอย่างของคุณมีผลเพียงเล็กน้อยหรือไม่มีเลยและอื่น ๆ ก็มีผลกระทบด้านลบ ฉันสามารถใช้วิธีการใดในการพิจารณาความน่าจะเป็นที่เหตุการณ์ใดเหตุการณ์หนึ่งในเชิงบวกหรือเชิงลบส่งผลกระทบต่อจำนวนลูกค้าที่เดินเข้ามา? ฉันตระหนักดีว่าความสัมพันธ์ไม่จำเป็นต้องมีสาเหตุที่เท่าเทียมกัน แต่ฉันจะใช้วิธีการใดในการพิจารณาว่าการเพิ่มหรือลดของการเดินในชีวิตประจำวันของธุรกิจของคุณในการติดตามเหตุการณ์เฉพาะของลูกค้าเป็นอย่างไร ฉันไม่ได้สนใจที่จะวิเคราะห์ว่ามีความสัมพันธ์ระหว่างความพยายามของคุณในการเพิ่มจำนวนลูกค้าที่เดินเข้ามาหรือไม่ แต่จะมีเหตุการณ์ใดเหตุการณ์หนึ่งที่เป็นอิสระจากผู้อื่นหรือไม่ ฉันรู้ว่าตัวอย่างนี้มีการวางแผนและค่อนข้างง่ายดังนั้นฉันจะให้คำอธิบายสั้น ๆ เกี่ยวกับข้อมูลจริงที่ฉันใช้: ฉันพยายามกำหนดผลกระทบที่เอเจนซี่การตลาดหนึ่ง ๆ มีต่อเว็บไซต์ของลูกค้าเมื่อพวกเขาเผยแพร่เนื้อหาใหม่ดำเนินการแคมเปญโซเชียลมีเดีย ฯลฯ สำหรับเอเจนซี่หนึ่ง ๆ พวกเขาอาจมีลูกค้าตั้งแต่ 1 ถึง 500 ลูกค้าแต่ละรายมีเว็บไซต์ตั้งแต่ขนาด 5 หน้าไปจนถึงมากกว่า 1 ล้านหน้า ตลอดระยะเวลา 5 ปีที่ผ่านมาแต่ละหน่วยงานมีคำอธิบายประกอบทั้งหมดสำหรับลูกค้าแต่ละรายรวมถึงประเภทของงานที่ทำจำนวนหน้าเว็บในเว็บไซต์ที่ได้รับอิทธิพลจำนวนชั่วโมงที่ใช้ ฯลฯ การใช้ข้อมูลข้างต้นซึ่งฉันได้รวบรวมไว้ในคลังข้อมูล (วางลงในพวงของสตาร์ / เกล็ดหิมะ) ฉันต้องพิจารณาว่ามีความเป็นไปได้ที่งานชิ้นใดชิ้นหนึ่ง …

1
Word2Vec กับ Sentence2Vec กับ Doc2Vec
ฉันเพิ่งเจอคำศัพท์Word2Vec , Sentence2VecและDoc2Vecและสับสนเพราะฉันยังใหม่กับซีแมนทิกส์เวกเตอร์ ใครช่วยได้โปรดอธิบายความแตกต่างของวิธีการเหล่านี้ด้วยคำพูดง่ายๆ งานที่เหมาะสมที่สุดสำหรับแต่ละวิธีคืออะไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.