คำถามติดแท็ก svm

Support Vector Machine หมายถึง "ชุดวิธีการเรียนรู้แบบมีผู้สอนที่เกี่ยวข้องซึ่งวิเคราะห์ข้อมูลและจดจำรูปแบบที่ใช้สำหรับการจำแนกประเภทและการวิเคราะห์การถดถอย"

1
มีแอปพลิเคชันที่ SVM ยังเหนือกว่าหรือไม่
อัลกอริทึม SVM นั้นค่อนข้างเก่า - ได้รับการพัฒนาในปี 1960 แต่ได้รับความนิยมอย่างมากในปี 1990 และ 2000 มันเป็นส่วนที่คลาสสิก (และค่อนข้างสวยงาม) ของหลักสูตรการเรียนรู้ของเครื่อง วันนี้ดูเหมือนว่าในการประมวลผลสื่อ (ภาพเสียงและอื่น ๆ ) เครือข่ายประสาทเทียมมีอิทธิพลอย่างสมบูรณ์ในขณะที่ในพื้นที่อื่น ๆ การไล่ระดับสีไล่ระดับมีตำแหน่งที่แข็งแกร่งมาก นอกจากนี้ในการแข่งขันข้อมูลล่าสุดฉันสังเกตว่าไม่มีโซลูชั่นที่ใช้ SVM ฉันกำลังมองหาตัวอย่างแอปพลิเคชันที่ SVM ยังคงให้ผลลัพธ์ที่ทันสมัย ​​(ณ ปี 2016) อัปเดต:ฉันต้องการมีตัวอย่างที่ฉันสามารถให้เช่นนักเรียน / เพื่อนร่วมงานเมื่ออธิบาย SVM เพื่อให้ดูเหมือนว่าวิธีการทางทฤษฎีหรือเลิกใช้หมดจด

4
รูปแบบประวัติเหตุการณ์แบบไม่ต่อเนื่อง (การอยู่รอด) ใน R
ฉันกำลังพยายามปรับโมเดลที่ไม่ต่อเนื่องใน R แต่ฉันไม่แน่ใจว่าจะทำอย่างไร ฉันได้อ่านแล้วว่าคุณสามารถจัดระเบียบตัวแปรตามในแถวต่างกันหนึ่งตัวสำหรับแต่ละการสังเกตเวลาและการใช้glmฟังก์ชั่นที่มีลิงค์ logit หรือ cloglog ในแง่นี้ฉันมีสามคอลัมน์: ID, Event(1 หรือ 0 ในแต่ละช่วงเวลา) และTime Elapsed(ตั้งแต่จุดเริ่มต้นของการสังเกต) รวมทั้ง covariates อื่น ๆ ฉันจะเขียนรหัสเพื่อให้พอดีกับรุ่นได้อย่างไร ตัวแปรตามคืออะไร ฉันเดาว่าฉันสามารถใช้Eventเป็นตัวแปรตามและรวมTime Elapsedอยู่ใน covariates แต่สิ่งที่เกิดขึ้นกับID? ฉันต้องการมันไหม ขอบคุณ
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

1
R ตัวแปรเชิงเส้นถดถอยหมวดหมู่ "ซ่อน" ค่า
นี่เป็นเพียงตัวอย่างที่ฉันเจอหลายครั้งดังนั้นฉันจึงไม่มีข้อมูลตัวอย่าง ใช้แบบจำลองการถดถอยเชิงเส้นใน R: a.lm = lm(Y ~ x1 + x2) x1เป็นตัวแปรต่อเนื่อง x2เป็นหมวดหมู่และมีสามค่าเช่น "ต่ำ", "ปานกลาง" และ "สูง" อย่างไรก็ตามเอาต์พุตที่กำหนดโดย R จะเป็นดังนี้: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 ฉันเข้าใจว่า R แนะนำการเข้ารหัสแบบหลอกบางอย่างเกี่ยวกับปัจจัยดังกล่าว ( …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
รูปแบบการเรียนรู้แบบลึกใดที่สามารถจำแนกหมวดหมู่ที่ไม่ได้เกิดร่วมกัน
ตัวอย่าง: ฉันมีประโยคในรายละเอียดงาน: "วิศวกรอาวุโสของ Java ในสหราชอาณาจักร" ฉันต้องการที่จะใช้รูปแบบการเรียนรู้ที่ลึกที่จะคาดการณ์ว่ามันเป็น 2 ประเภทและEnglish IT jobsถ้าฉันใช้รูปแบบการจำแนกแบบดั้งเดิมมันสามารถทำนายได้เพียง 1 ฉลากที่มีsoftmaxฟังก์ชั่นที่ชั้นสุดท้าย ดังนั้นฉันสามารถใช้โครงข่ายประสาทเทียม 2 แบบในการทำนาย "ใช่" / "ไม่" กับทั้งสองหมวดหมู่ แต่ถ้าเรามีหมวดหมู่มากขึ้นมันก็แพงเกินไป ดังนั้นเราจึงมีรูปแบบการเรียนรู้หรือการเรียนรู้ด้วยเครื่องเพื่อคาดการณ์ 2 หมวดหมู่ขึ้นไปพร้อมกันหรือไม่ "แก้ไข": ด้วย 3 ป้ายกำกับโดยวิธีดั้งเดิมมันจะถูกเข้ารหัสโดย [1,0,0] แต่ในกรณีของฉันมันจะถูกเข้ารหัสโดย [1,1,0] หรือ [1,1,1] ตัวอย่าง: หากเรามี 3 ป้ายกำกับและประโยคอาจเหมาะกับป้ายกำกับเหล่านี้ทั้งหมด ดังนั้นถ้าผลลัพธ์จากฟังก์ชัน softmax คือ [0.45, 0.35, 0.2] เราควรแบ่งมันออกเป็น 3 label หรือ 2 label หรืออาจเป็นหนึ่ง? ปัญหาหลักเมื่อเราทำคือ: …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

2
เมื่อใดที่จะใช้รูปแบบการผสมแบบเกาส์?
ฉันยังใหม่กับการใช้ GMM ฉันไม่สามารถค้นหาความช่วยเหลือที่เหมาะสมออนไลน์ได้ ใครช่วยกรุณาให้ทรัพยากรที่ถูกต้องกับ "วิธีการตัดสินใจว่าการใช้ GMM เหมาะกับปัญหาของฉันหรือไม่" หรือในกรณีที่มีปัญหาการจัดหมวดหมู่ "จะตัดสินใจได้อย่างไรว่าฉันต้องใช้การจำแนกประเภท SVM หรือการจำแนกประเภท GMM"

1
ความแตกต่างระหว่างประเภทของ SVM
ฉันใหม่เพื่อรองรับเครื่องเวกเตอร์ คำอธิบายสั้น ๆ svmฟังก์ชั่นจากe1071แพคเกจใน R มีตัวเลือกต่างๆ: C-การจัดหมวดหมู่ nu-การจัดหมวดหมู่ การจำแนกประเภทหนึ่ง (สำหรับการตรวจจับสิ่งแปลกใหม่) eps-ถดถอย nu-ถดถอย อะไรคือความแตกต่างในการหยั่งรู้ระหว่างห้าประเภท? ควรใช้อันไหนในสถานการณ์ใด

2
เมื่อใช้ SVM ทำไมฉันต้องขยายขนาดคุณสมบัติ
ตามเอกสารของStandardScalerวัตถุใน scikit-learn: เช่นองค์ประกอบหลายอย่างที่ใช้ในฟังก์ชันวัตถุประสงค์ของอัลกอริทึมการเรียนรู้ (เช่นเคอร์เนล RBF ของ Support Vector Machines หรือ L1 และ L1 normalizers โมเดลเชิงเส้น) สมมติว่าคุณลักษณะทั้งหมดอยู่กึ่งกลางรอบ 0 และมีความแปรปรวนในลำดับเดียวกัน หากคุณลักษณะมีความแปรปรวนที่เป็นลำดับความสำคัญมากกว่าที่อื่น ๆ มันอาจครอบงำฟังก์ชันวัตถุประสงค์และทำให้ตัวประมาณไม่สามารถเรียนรู้จากคุณลักษณะอื่นได้อย่างถูกต้องตามที่คาดไว้ ฉันควรปรับขนาดคุณสมบัติของฉันก่อนจัดประเภท มีวิธีง่าย ๆ ที่จะแสดงว่าทำไมฉันควรทำเช่นนี้? การอ้างอิงบทความทางวิทยาศาสตร์จะดียิ่งขึ้น ฉันได้พบหนึ่งแต่อาจมีอื่น ๆ อีกมากมาย

2
เคอร์เนล SVM ใดที่จะใช้สำหรับปัญหาการจำแนกประเภทไบนารี
ฉันเป็นผู้เริ่มต้นเมื่อพูดถึงการสนับสนุนเครื่องเวกเตอร์ มีแนวทางบางอย่างที่บอกว่าเคอร์เนลใด (เช่นเส้นตรงพหุนาม) เหมาะที่สุดสำหรับปัญหาเฉพาะหรือไม่? ในกรณีของฉันฉันต้องจำแนกหน้าเว็บตามว่ามีข้อมูลเฉพาะหรือไม่เช่นฉันมีปัญหาการจำแนกเลขฐานสอง คุณสามารถพูดโดยทั่วไปว่าเคอร์เนลใดเหมาะที่สุดสำหรับงานนี้? หรือฉันต้องลองหลายชุดในชุดข้อมูลเฉพาะของฉันเพื่อค้นหาชุดที่ดีที่สุด โดยวิธีการที่ฉันใช้ห้องสมุดหลามscikit เรียนรู้ที่ใช้ประโยชน์จากห้องสมุด libSVM

2
การถดถอย SVM พร้อมข้อมูลระยะยาว
ฉันมีตัวแปรประมาณ 500 ตัวต่อผู้ป่วยแต่ละตัวแปรมีหนึ่งค่าอย่างต่อเนื่องและวัดที่จุดเวลาที่ต่างกันสามจุด (หลังจาก 2 เดือนและหลังจาก 1 ปี) ด้วยการถดถอยฉันต้องการที่จะทำนายผลการรักษาสำหรับผู้ป่วยใหม่ เป็นไปได้ไหมที่จะใช้การถดถอย SVM กับข้อมูลตามยาว

2
การใช้พารามิเตอร์ Gamma พร้อมเครื่องเวกเตอร์สนับสนุน
เมื่อใช้libsvmพารามิเตอร์γγ\gammaเป็นพารามิเตอร์สำหรับฟังก์ชั่นเคอร์เนล ค่าเริ่มต้นของมันคือการตั้งค่าเป็นγ=1จำนวนคุณสมบัติγ=1number of features.\gamma = \frac{1}{\text{number of features.}} มีคำแนะนำเชิงทฤษฎีสำหรับการตั้งค่าพารามิเตอร์นี้นอกเหนือจากวิธีการที่มีอยู่เช่นการค้นหาแบบตารางหรือไม่?

1
จะเปรียบเทียบเหตุการณ์ที่สังเกตได้กับเหตุการณ์ที่คาดหวังได้อย่างไร
สมมติว่าฉันมีตัวอย่างหนึ่งความถี่ของเหตุการณ์ที่เป็นไปได้ 4 เหตุการณ์: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 และฉันมีโอกาสที่จะเกิดเหตุการณ์ที่คาดหวัง: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 ด้วยผลรวมของความถี่ที่สังเกตได้จากเหตุการณ์ทั้งสี่ของฉัน (18) ฉันสามารถคำนวณความถี่ที่คาดหวังของเหตุการณ์ได้ใช่ไหม expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
วิธีการรับขอบเขตการตัดสินใจจาก linear SVM ใน R?
ฉันต้องการแพคเกจที่สามารถให้สมการสำหรับโมเดล SVM เชิงเส้นได้ ขณะนี้ฉันใช้e1071เช่นนั้น: library(e1071) m = svm(data, labels, type='C', kernel='linear', cost=cost, probability=FALSE, scale=scale) w = t(m$coefs) %*% data[m$index,] #Weight vector b = -model$rho #Offset อย่างไรก็ตามฉันไม่แน่ใจว่าe1071::svm()จะเลือกคลาสบวกและลบได้อย่างไรดังนั้นฉันคิดว่านี่อาจทำให้ชุดข้อมูลแตกต่างกัน ทุกคนสามารถยืนยันได้ว่าฟังก์ชั่นนี้ตัดสินใจว่าคลาสใดเป็นบวก นอกจากนี้ยังมีแพ็คเกจที่ดีกว่าสำหรับสิ่งนี้หรือไม่?
9 r  svm  e1071 

2
วิธีการเลือกตัวแปรทางพันธุกรรมขั้นตอนวิธีใน R สำหรับตัวแปรอินพุต SVM?
ฉันใช้แพคเกจkernlabใน R เพื่อสร้าง SVM สำหรับการจำแนกข้อมูล SVM ทำงานได้อย่างดีในการให้ 'คาดการณ์' ของความแม่นยำที่เหมาะสมอย่างไรก็ตามรายการตัวแปรอินพุตของฉันมีขนาดใหญ่กว่าที่ฉันต้องการและฉันไม่แน่ใจว่ามีความสำคัญสัมพัทธ์ของตัวแปรที่แตกต่างกันอย่างไร ฉันต้องการใช้อัลกอริธึมทางพันธุกรรมเพื่อเลือกชุดย่อยของตัวแปรอินพุตที่สร้าง SVM ที่ได้รับการฝึกอบรม / เหมาะสมที่สุด ฉันต้องการความช่วยเหลือในการเลือกแพ็กเกจ R ที่จะใช้เมื่อพยายามใช้งาน GA นี้ (และอาจเป็นตัวอย่างสั้น ๆ ของ psuedo) ฉันดูแพ็คเกจ R GA / P ส่วนใหญ่อยู่ที่นั่น ( RGP , genalg , subselect , GALGO ) แต่ฉันกำลังดิ้นรนในเชิงแนวคิดเพื่อดูว่าฉันจะส่งผ่านฟังก์ชัน ksvm ของฉันเป็นส่วนหนึ่งของฟังก์ชั่นการออกกำลังกายและใส่ข้อมูลของฉันได้อย่างไร อาเรย์ตัวแปรเป็นกลุ่มประชากร ... ความช่วยเหลือความคิดหรือการผลักไปในทิศทางที่ถูกต้องได้รับสุดซึ้ง ขอบคุณ รหัสที่แก้ปัญหานี้เพิ่มด้านล่างในการแก้ไขในภายหลัง # Prediction function to …

1
วิธีที่ดีที่สุดในการจัดการชุดข้อมูลมัลติคลาสที่ไม่สมดุลด้วย SVM
ฉันกำลังพยายามสร้างแบบจำลองการทำนายด้วย SVM บนข้อมูลที่ไม่สมดุล เลเบล / เอาต์พุตของฉันมีสามคลาส, บวก, เป็นกลางและลบ ฉันจะบอกว่าตัวอย่างบวกทำประมาณ 10 - 20% ของข้อมูลของฉันเป็นกลางประมาณ 50 - 60% และลบประมาณ 30 - 40% ฉันพยายามที่จะสร้างความสมดุลให้กับชั้นเรียนเนื่องจากค่าใช้จ่ายที่เกี่ยวข้องกับการทำนายที่ไม่ถูกต้องในชั้นเรียนนั้นไม่เหมือนกัน วิธีหนึ่งคือการสุ่มข้อมูลการฝึกอบรมซ้ำและสร้างชุดข้อมูลที่มีความสมดุลเท่ากันซึ่งใหญ่กว่าแบบเดิม ที่น่าสนใจเมื่อฉันทำเช่นนั้นฉันมักจะได้รับการคาดการณ์ที่ดีกว่าสำหรับชั้นเรียนอื่น (เช่นเมื่อฉันสร้างความสมดุลให้กับข้อมูลฉันเพิ่มจำนวนตัวอย่างสำหรับชั้นเรียนที่เป็นบวก แต่จากการคาดการณ์ตัวอย่าง ทุกคนสามารถอธิบายได้โดยทั่วไปว่าทำไมสิ่งนี้เกิดขึ้น ถ้าฉันเพิ่มจำนวนตัวอย่างสำหรับคลาสลบฉันจะได้อะไรที่คล้ายกับคลาสบวกจากการคาดการณ์ตัวอย่าง (เช่นการคาดคะเนที่ดีขึ้น) นอกจากนี้ยังเปิดกว้างมากสำหรับความคิดอื่น ๆ เกี่ยวกับวิธีที่ฉันสามารถจัดการกับข้อมูลที่ไม่สมดุลทั้งผ่านการกำหนดค่าใช้จ่ายที่แตกต่างกันในการจัดประเภทที่ผิดพลาดหรือการใช้ตุ้มน้ำหนักระดับใน LibSVM (ไม่แน่ใจว่าจะเลือก /

2
หนึ่งจะนำการตรวจสอบข้ามไปใช้อย่างเหมาะสมในบริบทของการเลือกพารามิเตอร์การเรียนรู้สำหรับเครื่องเวกเตอร์สนับสนุนได้อย่างไร
แพคเกจ libsvm ที่ยอดเยี่ยมมีอินเทอร์เฟซหลามและไฟล์ "easy.py" ที่ค้นหาพารามิเตอร์การเรียนรู้ (ค่าใช้จ่าย & แกมม่า) โดยอัตโนมัติซึ่งเพิ่มความแม่นยำของลักษณนามสูงสุด ภายในชุดพารามิเตอร์การเรียนรู้ของผู้สมัครที่ได้รับความแม่นยำถูกดำเนินการโดยการตรวจสอบข้าม แต่ฉันรู้สึกว่าสิ่งนี้ทำลายวัตถุประสงค์ของการตรวจสอบข้าม นั่นคือตราบเท่าที่พารามิเตอร์การเรียนรู้สามารถเลือกได้ด้วยวิธีการที่อาจทำให้เกิดข้อมูลมากเกินไปฉันรู้สึกว่าวิธีการที่เหมาะสมกว่านั้นคือการใช้การตรวจสอบข้ามในระดับการค้นหา: ทำการค้นหา บนชุดข้อมูลการฝึกอบรมจากนั้นประเมินความถูกต้องสูงสุดของ SVM ซึ่งเป็นผลมาจากพารามิเตอร์การเรียนรู้ที่ได้รับการคัดเลือกในที่สุดโดยการประเมินภายในชุดข้อมูลการทดสอบแยกต่างหาก หรือฉันกำลังพลาดบางสิ่งที่นี่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.