คำถามติดแท็ก scikit-learn

ไลบรารีการเรียนรู้ของเครื่องสำหรับ Python ใช้แท็กนี้สำหรับคำถามในหัวข้อใด ๆ ที่ (a) เกี่ยวข้องกับ scikit- เรียนรู้ไม่ว่าจะเป็นส่วนที่สำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่เพียงเกี่ยวกับวิธีการใช้ scikit เรียนรู้

3
ทำไมเราต้องใส่ลักษณนามเพื่อนบ้านที่ใกล้ที่สุด k-?
ดังที่ฉันเข้าใจ k-NN เป็นอัลกอริทึมสำหรับผู้เรียนที่ขี้เกียจและไม่จำเป็นต้องมีขั้นตอนการฝึกอบรม เหตุใดเราจึงต้องใช้.fit()กับ sklearn และจะเกิดอะไรขึ้นเมื่อเราใช้

1
R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน
mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

1
ฟังก์ชั่นการสูญเสีย Scikit Binomial Deviance
นี่คือฟังก์ชั่นการสูญเสียส่วนเบี่ยงเบนทวินามของ GradientBoosting def __call__(self, y, pred, sample_weight=None): """Compute the deviance (= 2 * negative log-likelihood). """ # logaddexp(0, v) == log(1.0 + exp(v)) pred = pred.ravel() if sample_weight is None: return -2.0 * np.mean((y * pred) - np.logaddexp(0.0, pred)) else: return (-2.0 / sample_weight.sum() * np.sum(sample_weight * ((y * pred) …

1
เราจะทำนายเหตุการณ์ที่หายากได้อย่างไร
ฉันกำลังพัฒนารูปแบบการทำนายความเสี่ยงด้านการประกันภัย โมเดลเหล่านี้เป็น "เหตุการณ์ที่หายาก" เช่นการคาดคะเนการไม่แสดงตัวตนของสายการบินการตรวจจับข้อผิดพลาดของฮาร์ดแวร์ ฯลฯ ขณะที่ฉันเตรียมชุดข้อมูลของฉันฉันพยายามใช้การจำแนกประเภท แต่ฉันไม่สามารถรับตัวแยกประเภทที่มีประโยชน์ได้ . ฉันไม่มีประสบการณ์ด้านสถิติและการสร้างแบบจำลองมากไปกว่าหลักสูตรสถิติของโรงเรียนมัธยมดังนั้นฉันจึงสับสน อย่างที่ฉันคิดไว้ฉันคิดว่าจะใช้แบบจำลองกระบวนการปัวซองซึ่งมีความเป็นเนื้อเดียวกัน ฉันจัดประเภทตามข้อมูลเหตุการณ์ (date, lat, lon) เพื่อให้ได้ค่าประมาณความเสี่ยงที่ดี ณ เวลาใดเวลาหนึ่งของแต่ละวัน ฉันอยากรู้ว่าอะไรคือวิธีการ / ขั้นตอนวิธีในการทำนายเหตุการณ์ที่เกิดขึ้นได้ยาก คุณแนะนำอะไรเป็นวิธีแก้ไขปัญหานี้

4
การวิเคราะห์องค์ประกอบหลักและการถดถอยในไพ ธ อน
ฉันกำลังพยายามหาวิธีที่จะสร้างผลงานใน Python ที่ฉันทำใน SAS การใช้ชุดข้อมูลนี้ซึ่งมีปัญหาความหลากหลายทางหลายระดับฉันต้องการทำการวิเคราะห์องค์ประกอบหลักใน Python ฉันได้ดู scikit-learn และ statsmodels แต่ฉันไม่แน่ใจว่าจะเอาท์พุทของพวกเขาและแปลงเป็นโครงสร้างผลลัพธ์เดียวกันกับ SAS สำหรับสิ่งหนึ่ง SAS ดูเหมือนว่าจะดำเนินการ PCA บนเมทริกซ์สหสัมพันธ์เมื่อคุณใช้PROC PRINCOMPแต่ส่วนใหญ่ (ทั้งหมด?) ของไลบรารี Python ดูเหมือนจะใช้ SVD ในชุดข้อมูลคอลัมน์แรกคือตัวแปรตอบกลับและอีก 5 รายการถัดไปคือตัวแปรทำนายที่เรียกว่า pred1-pred5 ใน SAS เวิร์กโฟลว์ทั่วไปคือ: /* Get the PCs */ proc princomp data=indata out=pcdata; var pred1 pred2 pred3 pred4 pred5; run; /* Standardize the response …

2
การใช้ PCA เพื่อทดสอบข้อมูลเพื่อวัตถุประสงค์ในการจำแนกประเภท
ฉันได้เรียนรู้เมื่อเร็ว ๆ นี้เกี่ยวกับ PCA ที่ยอดเยี่ยมและผมเคยทำตัวอย่างที่ระบุไว้ในscikit เรียนรู้เอกสาร ฉันสนใจที่จะทราบว่าฉันสามารถใช้ PCA กับจุดข้อมูลใหม่เพื่อการจำแนกประเภทได้อย่างไร หลังจากแสดงภาพ PCA ในระนาบ 2 มิติ (แกน x, y) ฉันเห็นว่าฉันสามารถวาดเส้นเพื่อแยกจุดข้อมูลเพื่อว่าด้านหนึ่งจะเป็นประเภทหนึ่งและอีกประเภทหนึ่ง ฉันจะวาด "ขอบเขต" นี้และนำไปใช้กับจุดข้อมูลใหม่ได้อย่างไร

1
การทำนายความน่าจะเป็นป่าแบบสุ่มเทียบกับคะแนนโหวตส่วนใหญ่
Scikit เรียนรู้ดูเหมือนว่าจะใช้การทำนายความน่าจะเป็นแทนการลงคะแนนเสียงข้างมากสำหรับเทคนิคการรวมตัวแบบโดยไม่มีการอธิบายว่าทำไม (1.9.2.1. ป่าสุ่ม) มีคำอธิบายที่ชัดเจนว่าเพราะเหตุใด นอกจากนี้ยังมีบทความหรือบทความทบทวนที่ดีสำหรับเทคนิคการรวมตัวแบบต่างๆที่สามารถนำมาใช้สำหรับการบรรจุถุงแบบฟอเรสต์? ขอบคุณ!

2
เอาต์พุตของ Scikit SVM ในการจัดประเภทแบบหลายคลาสจะให้ฉลากเหมือนกันเสมอ
ฉันกำลังใช้ Scikit เรียนรู้ด้วยรหัสต่อไปนี้: clf = svm.SVC(C=1.0, tol=1e-10, cache_size=600, kernel='rbf', gamma=0.0, class_weight='auto') จากนั้นจัดทำและคาดการณ์ชุดข้อมูลที่มีป้ายกำกับ 7 รายการที่แตกต่างกัน ฉันได้ผลลัพธ์ที่แปลก ไม่ว่าจะใช้เทคนิคการตรวจสอบความถูกต้องแบบไขว้ใดฉันใช้ป้ายกำกับที่คาดการณ์ไว้ในชุดการตรวจสอบความถูกต้องจะเป็นป้ายกำกับ 7 ฉันพยายามที่พารามิเตอร์อื่น ๆ บางคนรวมทั้งคนเริ่มต้นเล่ม ( svm.SVC()) แต่ตราบใดที่การใช้วิธีการที่ฉันเคอร์เนลrbfแทนpolyหรือlinearมันก็จะไม่ทำงานในขณะที่มันทำงานจริงๆดีสำหรับการและpolylinear นอกจากนี้ฉันได้ลองทำนายข้อมูลรถไฟแทนข้อมูลการตรวจสอบแล้วและมันก็พอดี ไม่มีใครเห็นปัญหาแบบนี้มาก่อนและรู้ว่าเกิดอะไรขึ้นที่นี่? ฉันไม่เคยดูรายละเอียดชั้นเรียนของฉัน แต่ฉันรู้ว่ามันควรจะประมาณ 30% ของพวกเขาคือ 7, 14% คือ 4 ฉันลองใช้การปรับใช้ 1-vs-rest ด้วยตนเองและยังไม่เป็นประโยชน์

1
ฉันจะรวมเอานวัตกรรมล้ำสมัยที่การสังเกตที่ 48 ในโมเดล ARIMA ของฉันได้อย่างไร
ฉันกำลังทำงานกับชุดข้อมูล หลังจากใช้เทคนิคการระบุตัวแบบบางอย่างฉันก็ออกมาพร้อมกับแบบจำลอง ARIMA (0,2,1) ผมใช้detectIOฟังก์ชั่นในแพคเกจTSAในการวิจัยที่จะตรวจพบนวัตกรรมขอบเขต (IO) ที่สังเกต 48th ของชุดข้อมูลเดิมของฉัน ฉันจะรวมค่าผิดปกตินี้ไว้ในแบบจำลองของฉันเพื่อที่ฉันจะสามารถใช้เพื่อวัตถุประสงค์ในการพยากรณ์ได้อย่างไร ฉันไม่ต้องการใช้แบบจำลอง ARIMAX เนื่องจากฉันอาจไม่สามารถคาดการณ์ได้จากสิ่งนั้นใน R มีวิธีอื่นที่ฉันสามารถทำได้หรือไม่ นี่คือค่านิยมของฉันตามลำดับ: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

1
decision_function, predict_proba, และฟังก์ชันทำนายความแตกต่างของปัญหาการถดถอยโลจิสติกคืออะไร
ฉันได้อ่านเอกสารเกี่ยวกับ sklearn แล้ว แต่ฉันไม่สามารถเข้าใจวัตถุประสงค์ของฟังก์ชันเหล่านี้ในบริบทของการถดถอยโลจิสติกส์ เพราะdecision_functionมันบอกว่าระยะห่างระหว่างไฮเปอร์เพลนกับอินสแตนซ์การทดสอบ ข้อมูลเฉพาะนี้มีประโยชน์อย่างไร? และสิ่งนี้เกี่ยวข้องกับpredictและpredict-probaวิธีการอย่างไร

2
ดัชนีแรนด์ที่ปรับเทียบกับข้อมูลซึ่งกันและกันที่ปรับแล้ว
ฉันพยายามประเมินประสิทธิภาพการจัดกลุ่ม ผมอ่านเอกสาร skiscit เรียนรู้เกี่ยวกับตัวชี้วัด ฉันไม่เข้าใจความแตกต่างระหว่าง ARI และ AMI สำหรับฉันดูเหมือนว่าพวกเขาทำสิ่งเดียวกันในสองวิธีที่แตกต่างกัน อ้างจากเอกสารประกอบ: เมื่อได้รับความรู้เกี่ยวกับการกำหนดคลาสความจริงพื้นดิน label_true และการจัดกลุ่มอัลกอริทึมการจัดกลุ่มตัวอย่างเดียวกัน label_pred ดัชนีแรนด์ที่ปรับปรุงแล้วนั้นเป็นฟังก์ชันที่ใช้วัดความคล้ายคลึงกันของการมอบหมายสองอย่างโดยไม่สนใจการเปลี่ยนลำดับ VS เมื่อได้รับความรู้เกี่ยวกับการมอบหมายคลาสความจริงภาคพื้นดิน label_true และการจัดกลุ่มอัลกอริทึมการจัดกลุ่มตัวอย่างเดียวกัน label_pred ของเราข้อมูลร่วมกันเป็นฟังก์ชั่นที่วัดข้อตกลงของการมอบหมายทั้งสองโดยไม่สนใจการเปลี่ยนลำดับ ... AMI โอกาส. ฉันควรใช้ทั้งสองอย่างในการประเมินการจัดกลุ่มของฉันหรือสิ่งนี้ซ้ำซ้อนหรือไม่

3
การระบุคุณสมบัติที่กรองหลังจากการเลือกคุณสมบัติด้วย scikit เรียนรู้
นี่คือรหัสของฉันสำหรับวิธีการเลือกคุณสมบัติใน Python: from sklearn.svm import LinearSVC from sklearn.datasets import load_iris iris = load_iris() X, y = iris.data, iris.target X.shape (150, 4) X_new = LinearSVC(C=0.01, penalty="l1", dual=False).fit_transform(X, y) X_new.shape (150, 3) แต่หลังจากได้ X ใหม่ (ตัวแปรตาม - X_new) ใหม่ฉันจะรู้ได้อย่างไรว่าตัวแปรใดที่ถูกลบและตัวแปรใดที่ถูกพิจารณาในตัวแปรที่อัพเดทใหม่นี้ (อันใดอันหนึ่งที่ถูกลบหรือที่สามอยู่ในข้อมูล) เหตุผลในการรับรหัสนี้คือการใช้การกรองแบบเดียวกันกับข้อมูลการทดสอบใหม่

2
การดำเนินการตรวจสอบข้ามซ้อน
ฉันพยายามที่จะเข้าใจว่าความเข้าใจของฉันเกี่ยวกับการตรวจสอบความถูกต้องแบบซ้อนกันดังนั้นฉันจึงเขียนตัวอย่างของเล่นนี้เพื่อดูว่าฉันพูดถูกหรือไม่: import operator import numpy as np from sklearn import cross_validation from sklearn import ensemble from sklearn.datasets import load_boston # set random state state = 1 # load boston dataset boston = load_boston() X = boston.data y = boston.target outer_scores = [] # outer cross-validation outer = cross_validation.KFold(len(y), n_folds=3, shuffle=True, …

1
ป่าสุ่มสามารถทำได้ดีกว่าข้อผิดพลาดการทดสอบ 2.8% ใน MNIST หรือไม่?
ฉันไม่ได้พบวรรณกรรมใด ๆ เกี่ยวกับการใช้ Random Forests กับ MNIST, CIFAR, STL-10 ฯลฯ ดังนั้นฉันจึงคิดว่าฉันจะลองใช้มันด้วยMNIST ที่ไม่เปลี่ยนแปลง ในRฉันลอง: randomForest(train$x, factor(train$y), test$x, factor(test$y), ntree=500) สิ่งนี้ใช้เวลา 2 ชั่วโมงและมีข้อผิดพลาดการทดสอบ 2.8% ฉันยังได้ลองscikit เรียนรู้ด้วย RandomForestClassifier(n_estimators=2000, max_features="auto", max_depth=None) หลังจาก 70 นาทีฉันได้รับข้อผิดพลาดการทดสอบ 2.9% แต่ด้วย n_estimators = 200 แทนฉันได้รับข้อผิดพลาดการทดสอบ 2.8% หลังจากเพียง 7 นาที ด้วยOpenCVฉันพยายาม rf.train(images.reshape(-1, 28**2), cv2.CV_ROW_SAMPLE, labels.astype('int')) การดำเนินการนี้ใช้เวลา 6.5 นาทีและrfการคาดการณ์ทำให้ข้อผิดพลาดในการทดสอบ 15% ฉันไม่ทราบว่ามีต้นไม้กี่ต้นที่ได้รับการฝึกฝนเนื่องจาก …

4
รูปแบบประวัติเหตุการณ์แบบไม่ต่อเนื่อง (การอยู่รอด) ใน R
ฉันกำลังพยายามปรับโมเดลที่ไม่ต่อเนื่องใน R แต่ฉันไม่แน่ใจว่าจะทำอย่างไร ฉันได้อ่านแล้วว่าคุณสามารถจัดระเบียบตัวแปรตามในแถวต่างกันหนึ่งตัวสำหรับแต่ละการสังเกตเวลาและการใช้glmฟังก์ชั่นที่มีลิงค์ logit หรือ cloglog ในแง่นี้ฉันมีสามคอลัมน์: ID, Event(1 หรือ 0 ในแต่ละช่วงเวลา) และTime Elapsed(ตั้งแต่จุดเริ่มต้นของการสังเกต) รวมทั้ง covariates อื่น ๆ ฉันจะเขียนรหัสเพื่อให้พอดีกับรุ่นได้อย่างไร ตัวแปรตามคืออะไร ฉันเดาว่าฉันสามารถใช้Eventเป็นตัวแปรตามและรวมTime Elapsedอยู่ใน covariates แต่สิ่งที่เกิดขึ้นกับID? ฉันต้องการมันไหม ขอบคุณ
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.