คำถามติดแท็ก data-mining

การขุดข้อมูลใช้วิธีการจากปัญญาประดิษฐ์ในบริบทฐานข้อมูลเพื่อค้นหารูปแบบที่ไม่รู้จักก่อนหน้านี้ ดังนั้นวิธีการดังกล่าวมักจะไม่ได้รับการดูแล มันเกี่ยวข้องอย่างใกล้ชิด แต่ไม่เหมือนกับการเรียนรู้ของเครื่อง งานที่สำคัญของการขุดข้อมูลคือการวิเคราะห์กลุ่มการตรวจหานอกและกฎการเชื่อมโยง

2
การกำหนดผู้มีส่วนร่วมมากที่สุดในกลุ่ม
ฉันไม่รู้สถิติเกี่ยวกับตัวฉันมากนัก สมมติว่าฉันมีพนักงาน 1,000 คน ฉันต้องการทราบว่าใครคือคนงานที่ยากที่สุด แต่ฉันสามารถวัดปริมาณงานที่ต้องทำในกลุ่มที่ 1-100 มากกว่าหนึ่งชั่วโมงต่อการทำงาน สมมติว่าคนงานแต่ละคนทำงานในปริมาณที่เท่ากันเสมอกว่าการทดลองและการรวมกันเป็นจำนวนมากฉันจะจัดอันดับคนงานของฉันโดยใครที่ทำงานหนักที่สุด หมายเหตุ: นี่เป็นเพียงคำอุปมาจึงไม่ต้องกังวลกับการทดสอบจริง ๆ เพียงแค่สมมติว่าฉันมีชุดข้อมูลจำนวนมากแล้ว แก้ไข: เมื่อฉันพูดว่า "สมมติว่าคนงานแต่ละคนทำงานด้วยปริมาณงานที่เท่ากันเสมอ" ฉันหมายถึงแต่ละคนทำงานในปริมาณที่เท่ากันในแต่ละวัน ดังนั้นโจอี้จะทำงานประมาณ 100 หน่วยในแต่ละวันและเกร็กจะทำประมาณ 50 งานปัญหาคือฉันสามารถสังเกตจำนวนหน่วยของงานที่ทำโดยกลุ่มเท่านั้น การแก้ไขเพิ่มเติม: เกี่ยวกับจำนวนของคนงานที่ทำงานในคราวเดียวและความถี่ของพวกเขาที่ทำงาน อาจมีคนงานจำนวนเท่าใดก็ได้ที่ทำงานในเวลาเดียวกัน คนงานบางคนอาจจะจบลงด้วยการทำงานมากกว่าคนอื่น ๆ นั่นก็คือเราสามารถสันนิษฐานได้ว่าคนงานบางคนจะทำงานเกือบ 90% ของเวลาและคนอื่น ๆ แทบจะไม่เคยเลย ฉันรู้ว่ามันทำให้ยาก แต่ฉันจะมีชุดข้อมูลที่มีขนาดใหญ่มากหวังว่าจะทำให้ง่ายขึ้นเล็กน้อย ในแต่ละชั่วโมงเรารู้ว่าคนงานคนใดกำลังทำงานและทำงานเป็นจำนวนเท่าใด จากข้อมูลนั้นฉันต้องการทราบว่าใครทำผลงานได้ดีที่สุด หากข้อมูลอยู่ในรูปแบบ JSON จะมีลักษณะดังนี้: [ { "work_done": 12345, "Workers": [ "andy", "bob", "cameron", "david" ] …

2
การใช้พารามิเตอร์ Gamma พร้อมเครื่องเวกเตอร์สนับสนุน
เมื่อใช้libsvmพารามิเตอร์γγ\gammaเป็นพารามิเตอร์สำหรับฟังก์ชั่นเคอร์เนล ค่าเริ่มต้นของมันคือการตั้งค่าเป็นγ=1จำนวนคุณสมบัติγ=1number of features.\gamma = \frac{1}{\text{number of features.}} มีคำแนะนำเชิงทฤษฎีสำหรับการตั้งค่าพารามิเตอร์นี้นอกเหนือจากวิธีการที่มีอยู่เช่นการค้นหาแบบตารางหรือไม่?

2
ทำความเข้าใจและใช้การวิเคราะห์ความเชื่อมั่น
ฉันเพิ่งได้รับมอบหมายให้ทำโครงการวิเคราะห์ความเชื่อมั่นสำหรับการรวบรวมเอกสารบางอย่าง โดย Googling การวิจัยเกี่ยวกับความเชื่อมั่นจำนวนมากได้ผุดขึ้นมา คำถามของฉันคือ: อะไรคือวิธีการที่สำคัญ / อัลกอริทึมสำหรับการวิเคราะห์ความเชื่อมั่นในด้านการเรียนรู้ของเครื่องและการวิเคราะห์ทางสถิติ? มีผลลัพธ์ที่เป็นที่ยอมรับหรือไม่ มีซอฟต์แวร์โอเพ่นซอร์สที่มีอยู่ที่สามารถทำการวิเคราะห์ความเชื่อมั่นได้หรือไม่?

2
ลบรายการซ้ำออกจากชุดการฝึกอบรมเพื่อจัดหมวดหมู่
ให้เราบอกว่าฉันมีหลายแถวสำหรับปัญหาการจำแนก: X1, . . .Xยังไม่มีข้อความ, วายX1,...Xยังไม่มีข้อความ,YX_1, ... X_N, Y ที่ไหน X1, . . . ,Xยังไม่มีข้อความX1,...,Xยังไม่มีข้อความX_1, ..., X_N คือคุณสมบัติ / ตัวพยากรณ์และ YYY เป็นคลาสที่การรวมคุณสมบัติของแถวเป็นของ การรวมคุณสมบัติหลายอย่างและคลาสของพวกเขาถูกทำซ้ำในชุดข้อมูลซึ่งฉันใช้เพื่อให้พอดีกับตัวจําแนก ฉันแค่สงสัยว่ามันเป็นที่ยอมรับในการลบรายการที่ซ้ำกัน (โดยทั่วไปฉันทำgroup by X1 ... XN Yใน SQL)? ขอบคุณ PS: นี่เป็นเพียงชุดข้อมูลไบนารีที่มีคลาสของนักบวชค่อนข้างเบ้

5
ฉันจะทำอะไรได้นอกจากความสัมพันธ์ของเพียร์สัน?
ในขณะที่ตรวจสอบเพื่อดูว่ามีตัวแปรสองตัวที่มีความสัมพันธ์กันหรือไม่ฉันสังเกตว่าการใช้ความสัมพันธ์แบบเพียร์สันให้ผลเป็นตัวเลขต่ำสุดเพียง 0.1 ซึ่งบ่งชี้ว่าไม่มีความสัมพันธ์กัน มีสิ่งใดที่ฉันสามารถทำได้เพื่อเสริมสร้างการเรียกร้องนี้? ชุดข้อมูล (ชุดย่อยเนื่องจากข้อ จำกัด การโพสต์) ฉันกำลังดูอยู่นี้: 6162.178176 0.049820046 4675.14432 0.145022261 5969.056896 0.47210138 5357.506176 0.052263122 33.796224 16.45154204 6162.178176 0.064262991 6725.448576 0.419005508 3247.656192 0.867394771 5357.506176 0.052263122 3612.97728 0.091337414 6162.178176 0.053065652 867.436416 0.129116092 556.833024 1.01107509 1517.611392 168.1484478 1517.611392 35.11570899 4675.14432 0.053902079 4182.685056 0.070289777 2808.30528 0.071929502 5969.056896 0.47193385 3247.656192 0.896646636 4387.071744 …

3
วิธีการเลือกตัวแปรที่สำคัญอย่างรวดเร็วจากชุดข้อมูลที่มีขนาดใหญ่มาก?
ฉันมีชุดข้อมูลที่มีตัวแปรไบนารีประมาณ 2,000 ตัว / 200,000 แถวและฉันพยายามที่จะทำนายตัวแปรไบนารีที่ขึ้นต่อกันเพียงตัวเดียว เป้าหมายหลักของฉันในขั้นตอนนี้ไม่ได้รับความแม่นยำในการทำนาย แต่เพื่อระบุว่าตัวแปรใดเป็นตัวทำนายที่สำคัญ ฉันอยากจะลดจำนวนตัวแปรในตัวแบบสุดท้ายของฉันลงไปประมาณ 100 มีวิธีที่รวดเร็วในการรับตัวแปรที่สำคัญที่สุดหรือไม่? ป่าสุ่มดูเหมือนจะใช้เวลานาน ฉันไม่ต้องใช้การสังเกตทั้งหมด 200,000 ครั้งดังนั้นการสุ่มตัวอย่างจึงเป็นตัวเลือกบนโต๊ะ

3
อัลกอริทึม Apriori ในภาษาอังกฤษธรรมดา?
ฉันอ่านบทความเกี่ยวกับ Apriori ฉันมีปัญหาในการทำความเข้าใจกับลูกพรุนและเข้าร่วมขั้นตอน ทุกคนสามารถอธิบายได้ว่าอัลกอริทึม Apriori ทำงานอย่างไรในเงื่อนไขง่าย ๆ (เช่นสามเณรอย่างฉันสามารถเข้าใจได้ง่าย) มันจะดีถ้ามีคนอธิบายกระบวนการทีละขั้นตอนที่เกี่ยวข้อง

2
เริ่มต้นใช้งานด้วยจักรยานเสือภูเขา
ฉันได้ทำการค้นคว้าทางอินเทอร์เน็ตเกี่ยวกับจักรยานเสือหมอบ (ฉันได้อ่านบทความ Wiki หลายครั้ง) จนถึงตอนนี้ดูเหมือนว่ามีคำจำกัดความหรือคำศัพท์มาตรฐานน้อย ฉันสงสัยว่ามีเอกสารหรือหนังสือมาตรฐานใด ๆ ที่ใครก็ตามที่สนใจในอัลกอริทึมสำหรับการค้นหาผู้มาฮันทางควรอ่าน เป็นไปได้ไหมที่จะบอกว่าสถานะของศิลปะในทุ่งนาคืออะไร? ฉันรู้สึกทึ่งกับความคิดในการค้นหาผู้มีส่วนร่วมทางจักรยานโดยใช้อัลกอริทึมทางพันธุกรรมดังนั้นฉันขอขอบคุณความคิดเห็นเกี่ยวกับวิธีการนั้นโดยเฉพาะอย่างยิ่งในบริบทของวิธีการอื่น ๆ โดยปกติในการจัดกลุ่มเป้าหมายคือการแบ่งพาร์ติชันชุดข้อมูลเป็นกลุ่มที่แต่ละองค์ประกอบอยู่ในบางกลุ่ม อัลกอริทึม bicluster พยายามหาองค์ประกอบทั้งหมดในกลุ่มเฉพาะหรือไม่?

2
คำนวณ ROC curve สำหรับข้อมูล
ดังนั้นฉันมีการทดลอง 16 ครั้งที่ฉันพยายามพิสูจน์ตัวตนบุคคลจากลักษณะทางชีวภาพโดยใช้ Hamming Distance เกณฑ์ของฉันถูกตั้งไว้ที่ 3.5 ข้อมูลของฉันอยู่ด้านล่างและเฉพาะการทดลองใช้ 1 เท่านั้นคือ True Positive: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 10 0.45 11 0.42 12 0.37 13 0.66 14 0.39 15 0.44 16 0.39 จุดสับสนของฉันคือฉันไม่แน่ใจจริงๆเกี่ยวกับวิธีสร้าง ROC curve …
9 mathematical-statistics  roc  classification  cross-validation  pac-learning  r  anova  survival  hazard  machine-learning  data-mining  hypothesis-testing  regression  random-variable  non-independent  normal-distribution  approximation  central-limit-theorem  interpolation  splines  distributions  kernel-smoothing  r  data-visualization  ggplot2  distributions  binomial  random-variable  poisson-distribution  simulation  kalman-filter  regression  lasso  regularization  lme4-nlme  model-selection  aic  r  mcmc  dlm  particle-filter  r  panel-data  multilevel-analysis  model-selection  entropy  graphical-model  r  distributions  quantiles  qq-plot  svm  matlab  regression  lasso  regularization  entropy  inference  r  distributions  dataset  algorithms  matrix-decomposition  regression  modeling  interaction  regularization  expected-value  exponential  gamma-distribution  mcmc  gibbs  probability  self-study  normality-assumption  naive-bayes  bayes-optimal-classifier  standard-deviation  classification  optimization  control-chart  engineering-statistics  regression  lasso  regularization  regression  references  lasso  regularization  elastic-net  r  distributions  aggregation  clustering  algorithms  regression  correlation  modeling  distributions  time-series  standard-deviation  goodness-of-fit  hypothesis-testing  statistical-significance  sample  binary-data  estimation  random-variable  interpolation  distributions  probability  chi-squared  predictor  outliers  regression  modeling  interaction 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.