คำถามติดแท็ก data-mining

การขุดข้อมูลใช้วิธีการจากปัญญาประดิษฐ์ในบริบทฐานข้อมูลเพื่อค้นหารูปแบบที่ไม่รู้จักก่อนหน้านี้ ดังนั้นวิธีการดังกล่าวมักจะไม่ได้รับการดูแล มันเกี่ยวข้องอย่างใกล้ชิด แต่ไม่เหมือนกับการเรียนรู้ของเครื่อง งานที่สำคัญของการขุดข้อมูลคือการวิเคราะห์กลุ่มการตรวจหานอกและกฎการเชื่อมโยง

1
การอนุมานแบบแปรผันเป็นภาษาอังกฤษธรรมดา
หลังจากดูวิดีโอบน youtube แล้วฉันรู้สึกว่าฉันไม่สามารถกำหนดความแตกต่างของการอนุมานได้ ฉันสามารถทำตามขั้นตอนในขณะที่ฉันกำลังดูวิดีโอบรรยายเกี่ยวกับเรื่องนี้ แต่ยากที่จะกำหนดว่าจริงๆแล้วคืออะไร หวังว่าจะได้ยินเกี่ยวกับมัน

1
เมื่อใดที่ต้องใช้สิ่งเจือปน Gini และเมื่อใดที่จะใช้ข้อมูลได้รับ?
บางคนช่วยอธิบายให้ฉันทราบได้เมื่อใดที่จะใช้สิ่งเจือปนและข้อมูลที่ได้จากการตัดสินใจของ Gini? คุณสามารถให้สถานการณ์ / ตัวอย่างแก่ฉันเมื่อใดดีที่สุดที่จะใช้

2
มี overfitting ในวิธีการ modellng นี้หรือไม่
เมื่อไม่นานมานี้ฉันได้รับแจ้งว่ากระบวนการที่ฉันติดตาม (องค์ประกอบของวิทยานิพนธ์ MS) อาจถูกมองว่าเหมาะสมเกินไป ฉันกำลังมองหาที่จะได้รับความเข้าใจที่ดีขึ้นนี้และดูว่าคนอื่นเห็นด้วย วัตถุประสงค์ของบทความนี้คือ เปรียบเทียบประสิทธิภาพของต้นไม้การถดถอยแบบไล่ระดับสีไล่ระดับกับการสุ่มป่าบนชุดข้อมูล ดูประสิทธิภาพของรุ่นสุดท้ายที่เลือก (ทั้ง GBM หรือ RF) gbmและแพคเกจในการวิจัยที่มีการใช้พร้อมกับrandomForest caret กระบวนการตามเป็นดังนี้: การประมวลผลข้อมูลเบื้องต้นล่วงหน้า (เช่นการเสียบค่าที่ขาดหายไปของตัวทำนายที่ระบุด้วยหมวดหมู่ที่แตกต่างที่เรียกว่า "หายไป") ตัวแปรเป้าหมายไม่ได้พิจารณาถึงการประมวลผลล่วงหน้าใด ๆ (ซึ่งน้อยมาก) สร้างตารางค่าสำหรับเมตา - พารามิเตอร์ของแต่ละอัลกอริทึม (เช่นจำนวนการวนซ้ำสำหรับ GBM) สร้างชุดข้อมูลแยก 25 ชุด (การฝึกอบรม 65% และการทดสอบ 35%) ทำซ้ำ 25 ครั้งต่อไปนี้สำหรับ GBM (แต่ละครั้งใช้หนึ่งในการสุ่มแยกรถไฟ / ทดสอบแต่ละครั้งที่การฝึกอบรมและชุดทดสอบเป็น "การเปลี่ยนแปลงในปัจจุบัน" ของการเปลี่ยนแปลงหลักสูตร ใช้การตรวจสอบความถูกต้องไขว้ 5 เท่าเพื่อค้นหาการตั้งค่าพารามิเตอร์ "ดีที่สุด" ของอัลกอริทึมเหนือการค้นหากริด ไม่มีอะไรจากการวิ่งก่อนหน้านี้เลยในการวิ่งปัจจุบัน เมื่อพิจารณาแล้วให้พอดีกับรูปแบบของชุดการฝึกอบรม "ปัจจุบัน" …

3
PCA แบบฝึกหัดช่วยสอนพร้อมข้อมูล
การค้นหาอินเทอร์เน็ตสำหรับการสอนแบบ PCA ให้ผลลัพธ์นับพันรายการ (แม้แต่วิดีโอ) บทเรียนจำนวนมากดีมาก แต่ฉันไม่สามารถหาตัวอย่างที่ใช้งานได้จริงใด ๆ ที่มีการอธิบาย PCA โดยใช้ชุดข้อมูลบางอย่างที่ฉันสามารถใช้สำหรับการสาธิต ฉันต้องการการสอนที่มีชุดข้อมูลขนาดเล็กซึ่งง่ายต่อการพล็อต (ไม่ใช่ 10,000 บรรทัดของข้อมูลที่มีมิติ 100s) ก่อนและหลังการวิเคราะห์ PCA และสามารถแสดงความแตกต่าง / ผลลัพธ์ได้อย่างชัดเจน (ฉันคิดว่าตัวอย่างการใช้งานจริงแบบทีละขั้นตอนโดยมีข้อมูลที่มีประมาณ 100 บรรทัดและ 3 มิตินั้นยอดเยี่ยม) คุณมีข้อเสนอแนะหรือไม่?

1
การค้นหากฎที่เหมาะสมสำหรับข้อมูลใหม่โดยใช้ arules
ฉันใช้ R (และแพ็คเกจ arules) เพื่อทำธุรกรรมการขุดสำหรับกฎการเชื่อมโยง สิ่งที่ฉันต้องการทำคือสร้างกฎและนำไปใช้กับข้อมูลใหม่ {Beer=YES} -> {Diapers=YES}ตัวอย่างเช่นสมมติว่าผมมีกฎระเบียบมากแห่งหนึ่งซึ่งเป็นที่ยอมรับ จากนั้นฉันก็มีข้อมูลธุรกรรมใหม่ที่หนึ่งในรายการซื้อเบียร์ แต่ไม่ใช่ผ้าอ้อม ฉันจะระบุกฎที่พบ LHS ได้ แต่ยังไม่มี RHS ได้อย่างไร ตัวอย่าง R: install.packages("arules") library(arules) data("Groceries") **#generate Rules omitting second record** rules <- apriori(Groceries[-2],parameter = list(supp = 0.05, conf = 0.2,target = "rules")) กฎที่สร้างขึ้นคือ: > inspect(rules) lhs rhs support confidence lift 1 {} => …

14
คุณสามารถขุดข้อมูลได้มากเท่าไหร่?
ชื่อ: ก่อนอาจเป็นกึ่งกลางและนามสกุล ฉันอยากรู้ว่าคุณสามารถขุดข้อมูลได้มากแค่ไหนโดยใช้ชุดข้อมูลที่เปิดเผยต่อสาธารณะ ฉันรู้ว่าคุณสามารถรับสิ่งต่อไปนี้ได้ทุกที่ระหว่างความน่าจะเป็นต่ำ (ขึ้นอยู่กับอินพุต) โดยใช้ข้อมูลการสำรวจสำมะโนประชากรของสหรัฐ: 1) เพศ 2) การแข่งขัน ตัวอย่างเช่น Facebook ใช้เพื่อค้นหาว่าด้วยความแม่นยำในระดับที่เหมาะสมการกระจายทางเชื้อชาติของผู้ใช้เว็บไซต์ของพวกเขา (https://www.facebook.com/note.php?note_id=205925658858) มีอะไรอีกบ้างที่สามารถขุดได้? ฉันไม่ได้มองหาสิ่งใดเป็นพิเศษนี่เป็นคำถามปลายเปิดเพื่อระงับความอยากรู้อยากเห็นของฉัน ตัวอย่างของฉันเฉพาะในสหรัฐอเมริกาดังนั้นเราจะสมมติว่าชื่อนั้นเป็นชื่อของบุคคลที่อยู่ในสหรัฐอเมริกา แต่ถ้ามีคนรู้ว่าชุดข้อมูลที่เปิดเผยต่อสาธารณชนสำหรับประเทศอื่น ๆ ฉันก็เปิดกว้างกว่าเช่นกัน ฉันไม่แน่ใจว่านี่เป็นสถานที่ที่เหมาะสมสำหรับสิ่งนี้หรือไม่ถ้าไม่ฉันจะขอบคุณถ้ามีคนชี้ให้ฉันไปยังสถานที่ที่เหมาะสมกว่า ฉันหวังว่านี่เป็นคำถามที่น่าสนใจและนี่คือสถานที่ที่เหมาะสม!

1
R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน
mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

5
การทำคลัสเตอร์เป็นวิธีการแยกข้อมูลสำหรับการถดถอยโลจิสติก
ฉันพยายามที่จะทำนายความสำเร็จหรือความล้มเหลวของนักเรียนตามคุณลักษณะบางอย่างที่มีรูปแบบการถดถอยโลจิสติก เพื่อปรับปรุงประสิทธิภาพของแบบจำลองฉันได้คิดถึงการแบ่งนักเรียนออกเป็นกลุ่มต่าง ๆ โดยพิจารณาจากความแตกต่างที่ชัดเจนและการสร้างแบบจำลองแยกกันสำหรับแต่ละกลุ่ม แต่ฉันคิดว่ามันอาจเป็นเรื่องยากที่จะระบุกลุ่มเหล่านี้โดยการสอบดังนั้นฉันจึงคิดว่าจะแยกนักเรียนออกเป็นกลุ่มโดยการรวมกลุ่มกับคุณลักษณะของพวกเขา นี่เป็นวิธีปฏิบัติทั่วไปในการสร้างแบบจำลองดังกล่าวหรือไม่? คุณจะแนะนำให้ฉันแบ่งมันออกเป็นกลุ่มชัดเจน (ตัวอย่างเช่นนักเรียนภาคเรียนแรกกับนักเรียนที่กลับมา) จากนั้นทำการจัดกลุ่มในกลุ่มเหล่านั้นหรือกลุ่มจากจุดเริ่มต้น หากต้องการพยายามชี้แจง: สิ่งที่ฉันหมายถึงคือฉันกำลังพิจารณาใช้อัลกอริทึมการจัดกลุ่มเพื่อแยกชุดฝึกอบรมสำหรับการถดถอยโลจิสติกออกเป็นกลุ่ม จากนั้นฉันจะทำการแยกการถดถอยแบบโลจิสติกส์สำหรับแต่ละกลุ่มเหล่านั้น จากนั้นเมื่อใช้การถดถอยโลจิสติกในการทำนายผลลัพธ์สำหรับนักเรียนฉันจะเลือกรูปแบบที่จะใช้ขึ้นอยู่กับกลุ่มที่พวกเขาเหมาะสมที่สุด บางทีฉันอาจทำสิ่งเดียวกันโดยรวมตัวระบุกลุ่มตัวอย่างเช่น 1 ถ้านักเรียนกลับมาและเป็น 0 ถ้าไม่ใช่ ตอนนี้คุณมีฉันคิดว่ามันอาจจะเป็นประโยชน์ในการจัดกลุ่มชุดข้อมูลการฝึกอบรมและการใช้ป้ายชื่อกลุ่มของพวกเขาเป็นคุณสมบัติในการถดถอยโลจิสติกมากกว่าการสร้างแบบจำลองการถดถอยโลจิสติกแยกสำหรับแต่ละประชากร หากมีประโยชน์ที่จะรวมตัวระบุกลุ่มสำหรับผู้ที่ส่งคืนนักเรียนกับนักเรียนใหม่อาจเป็นประโยชน์หรือไม่ที่จะขยายรายการกลุ่ม การจัดกลุ่มดูเหมือนเป็นวิธีธรรมชาติในการทำเช่นนี้ ฉันหวังว่าชัดเจน ...

3
หนังสือที่ดีครอบคลุมกระบวนการเตรียมข้อมูลและเทคนิคการตรวจหาค่าผิดปกติ
ใคร ๆ ก็รู้ว่าหนังสือทันสมัยที่ครอบคลุมข้อมูลก่อนการประมวลผลโดยทั่วไปและโดยเฉพาะอย่างยิ่งเทคนิคการตรวจหาค่าผิดปกติหรือไม่ หนังสือเล่มนี้ไม่จำเป็นต้องให้ความสำคัญกับเรื่องนั้นเป็นพิเศษ แต่ควรจัดการกับหัวข้อดังกล่าวอย่างละเอียดถี่ถ้วน - ฉันจะไม่พอใจกับสิ่งที่เป็นจุดเริ่มต้นและเสนอราคารายการเอกสารคำอธิบายเกี่ยวกับเทคนิคต่าง ๆ จะต้องปรากฏใน หนังสือตัวเอง เทคนิคในการจัดการกับข้อมูลที่หายไปที่ต้องการ แต่ไม่จำเป็น ...

2
f- วัดความหมายเหมือนกันกับความถูกต้อง?
ฉันเข้าใจว่า f- การวัด (ตามความแม่นยำและการเรียกคืน) เป็นค่าประมาณความแม่นยำของตัวจําแนก นอกจากนี้f-measure ยังได้รับความนิยมมากกว่าความถูกต้องเมื่อเรามีชุดข้อมูลที่ไม่สมดุล ฉันมีคำถามง่าย ๆ (ซึ่งเกี่ยวกับการใช้คำศัพท์ที่ถูกต้องมากกว่าเกี่ยวกับเทคโนโลยี) ฉันมีชุดข้อมูลที่ไม่สมดุลและฉันใช้การวัดแบบ f ในการทดลองของฉัน ฉันกำลังจะเขียนกระดาษซึ่งไม่ใช่สำหรับการเรียนรู้ด้วยเครื่องจักร / การประชุมการทำเหมืองข้อมูล ดังนั้นฉันสามารถอ้างถึงการวัดค่า f เหมือนกันกับความถูกต้องในบริบทนี้ ยกตัวอย่างเช่นฉันมี f- วัด 0.82 แล้วฉันจะบอกได้ว่าลักษณนามของฉันบรรลุการทำนายที่แม่นยำ 82%

2
ตัวชี้วัดที่ดีในการประเมินคุณภาพของ PCA คืออะไรเพื่อเลือกจำนวนขององค์ประกอบ
อะไรคือการวัดที่ดีสำหรับการประเมินคุณภาพของการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันใช้อัลกอริทึมนี้กับชุดข้อมูล วัตถุประสงค์ของฉันคือลดจำนวนฟีเจอร์ (ข้อมูลซ้ำซ้อนมาก) ฉันรู้ว่าเปอร์เซ็นต์ของความแปรปรวนที่เก็บไว้เป็นตัวบ่งชี้ที่ดีว่าเราเก็บข้อมูลไว้มากน้อยเพียงใดจะมีตัวชี้วัดข้อมูลอื่นที่ฉันสามารถใช้เพื่อให้แน่ใจว่าฉันลบข้อมูลซ้ำซ้อนและไม่สูญเสียข้อมูลดังกล่าวหรือไม่

1
เทคนิคการขุดข้อมูลในการรณรงค์ของโอบามา
ฉันเจอบทความนี้เกี่ยวกับทีมขุดข้อมูลในแคมเปญเลือกตั้งของโอบามา น่าเสียดายที่บทความมีความคลุมเครือเกี่ยวกับเครื่องจักรจริงของอัลกอริทึมทางสถิติ อย่างไรก็ตามมันฟังดูราวกับว่าเทคนิคทั่วไปเป็นที่รู้จักในสังคมศาสตร์และการเมือง เนื่องจากนี่ไม่ใช่ความเชี่ยวชาญของฉันทุกคนสามารถชี้ให้ฉันที่ (ภาพรวม) วรรณกรรมเกี่ยวกับเทคนิคเหล่านี้ได้หรือไม่

1
ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM
ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

3
คำว่า "เรียนรู้แบบจำลอง" มาจากที่ใด
บ่อยครั้งที่ฉันเคยได้ยินว่าผู้ขุดข้อมูลใช้คำนี้ ในฐานะนักสถิติที่ทำงานเกี่ยวกับการจำแนกปัญหาฉันคุ้นเคยกับคำว่า "ฝึกฝนลักษณนาม" และฉันถือว่า "เรียนรู้ตัวแบบ" หมายถึงสิ่งเดียวกัน ฉันไม่สนใจคำว่า "ฝึกฝนลักษณนาม" ที่ดูเหมือนจะแสดงให้เห็นถึงแนวคิดของการปรับโมเดลให้เหมาะสมเนื่องจากข้อมูลการฝึกอบรมใช้เพื่อให้ได้ค่าประมาณที่ดีขึ้นหรือ "ดีขึ้น" ของพารามิเตอร์โมเดล แต่การเรียนรู้จะหมายถึงการได้รับความรู้ ในภาษาอังกฤษธรรมดา "เรียนรู้แบบจำลอง" จะหมายถึงการรู้ว่ามันคืออะไร แต่ในความเป็นจริงเราไม่เคย "รู้" โมเดล แบบจำลองความเป็นจริงโดยประมาณ แต่ไม่มีแบบจำลองที่ถูกต้อง มันเหมือนที่ Box บอกว่า "ไม่มีรุ่นที่ถูกต้อง แต่บางรุ่นก็มีประโยชน์" ฉันสนใจที่จะฟังการตอบสนองของผู้ปฏิบัติข้อมูล คำนี้มาอย่างไร ถ้าคุณใช้มันคุณชอบมันทำไม

3
เกี่ยวกับการใช้โมเดล bigram (N-gram) เพื่อสร้างฟีเจอร์ vector สำหรับเอกสารข้อความ
วิธีการดั้งเดิมของการสร้างฟีเจอร์สำหรับการขุดข้อความเป็นวิธีถุงแบบคำและสามารถปรับปรุงได้โดยใช้ tf-idf สำหรับการตั้งค่าคุณลักษณะเวกเตอร์ที่แสดงลักษณะของเอกสารข้อความที่กำหนด ในปัจจุบันฉันกำลังพยายามใช้โมเดลภาษาสองแกรมหรือ (N-Gram) เพื่อสร้างเวกเตอร์คุณลักษณะ แต่ไม่ทราบวิธีการทำเช่นนั้นใช่หรือไม่ เราสามารถทำตามวิธีการของคำพูดเช่นการคำนวณจำนวนความถี่ในรูปแบบของ bi-gram แทนที่จะเป็นคำพูดและปรับปรุงมันด้วยวิธีการถ่วงน้ำหนัก tf-idf?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.