คำถามติดแท็ก libsvm

LIBSVM เป็นไลบรารีซอฟต์แวร์แบบบูรณาการสำหรับเครื่องเวกเตอร์ที่สนับสนุนการจัดประเภทเวกเตอร์การสนับสนุน (C-SVC, nu-SVC) การถดถอย (epsilon-SVR, nu-SVR) และการประมาณค่าการกระจาย (SVM ชั้นเดียว)

7
อะไรคืออิทธิพลของ C ใน SVM ที่มีเคอร์เนลเชิงเส้น?
ขณะนี้ฉันกำลังใช้ SVM กับเคอร์เนลเชิงเส้นเพื่อจัดประเภทข้อมูลของฉัน ไม่มีข้อผิดพลาดในชุดฝึกอบรม ฉันลองหลายค่าสำหรับพารามิเตอร์ ( ) สิ่งนี้ไม่เปลี่ยนข้อผิดพลาดในชุดทดสอบ10 - 5 , … , 10 2CCC10−5,…,10210−5,…,10210^{-5}, \dots, 10^2 ตอนนี้ฉันสงสัยว่า: นี่เป็นข้อผิดพลาดที่เกิดจากการผูกทับทิมสำหรับlibsvmฉันที่ใช้ ( rb-libsvm ) หรือนี่เป็นการอธิบายทางทฤษฎีหรือไม่? พารามิเตอร์ควรเปลี่ยนประสิทธิภาพของตัวจําแนกเสมอ?CCC

2
รูปแบบข้อมูล libsvm [ปิด]
ฉันใช้เครื่องมือ libsvm ( http://www.csie.ntu.edu.tw/~cjlin/libsvm/ ) เพื่อรองรับการจำแนกเวกเตอร์ อย่างไรก็ตามฉันสับสนเกี่ยวกับรูปแบบของข้อมูลอินพุต จาก README: รูปแบบของไฟล์ข้อมูลการฝึกอบรมและการทดสอบคือ: <label> <index1>:<value1> <index2>:<value2> ... . . . แต่ละบรรทัดมีอินสแตนซ์และสิ้นสุดด้วยอักขระ '\ n' สำหรับการจัดหมวดหมู่<label>เป็นจำนวนเต็มที่ระบุคลาสป้ายกำกับ (รองรับหลายคลาส) สำหรับการถดถอย<label>คือค่าเป้าหมายซึ่งอาจเป็นจำนวนจริงใด ๆ สำหรับ SVM แบบชั้นเดียวไม่ได้ใช้เพื่อให้เป็นหมายเลขใดก็ได้ ทั้งคู่<index>:<value>ให้ค่าคุณลักษณะ (คุณลักษณะ): <index>เป็นจำนวนเต็มเริ่มต้นจาก 1 และ<value> เป็นจำนวนจริง ข้อยกเว้นเพียงอย่างเดียวคือเคอร์เนลที่คำนวณล่วงหน้าซึ่ง <index>เริ่มต้นจาก 0; ดูส่วนของเมล็ดที่คำนวณล่วงหน้าได้ ดัชนีจะต้องอยู่ในลำดับ ASCENDING ฉลากในไฟล์ทดสอบใช้เพื่อคำนวณความแม่นยำหรือข้อผิดพลาดเท่านั้น หากไม่ทราบให้กรอกตัวเลขใด ๆ ในคอลัมน์แรก ฉันมีคำถามต่อไปนี้: การใช้งาน<index>คืออะไร? มันมีจุดประสงค์อะไร มีความสอดคล้องกันระหว่างค่าดัชนีเดียวกันของอินสแตนซ์ข้อมูลที่ต่างกันหรือไม่? ถ้าฉันพลาด / ข้ามดัชนีระหว่างนั้นล่ะ …

1
องศาอิสระเป็นหมายเลขที่ไม่ใช่จำนวนเต็มหรือไม่
เมื่อฉันใช้ GAM มันให้ DF ที่เหลือกับฉันคือ (บรรทัดสุดท้ายในรหัส) นั่นหมายความว่าอย่างไร? นอกเหนือไปจากตัวอย่างของ GAM โดยทั่วไปแล้วจำนวนองศาความเป็นอิสระจะเป็นจำนวนที่ไม่ใช่จำนวนเต็มหรือไม่26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

1
คำเตือน libsvm“ ถึงจำนวนสูงสุดของการวนซ้ำ” และการตรวจสอบความถูกต้องข้าม
ฉันกำลังใช้ libsvm ในโหมด C-SVC กับเคอร์เนลโพลิโนเมียลระดับ 2 และฉันต้องฝึก SVM หลายตัว ชุดฝึกอบรมแต่ละชุดมี 10 คุณสมบัติและ 5,000 เวกเตอร์ ในระหว่างการฝึกอบรมฉันได้รับคำเตือนนี้สำหรับ SVM ส่วนใหญ่ที่ฉันฝึก: WARNING: reaching max number of iterations optimization finished, #iter = 10000000 มีคนช่วยอธิบายอธิบายคำเตือนนี้ได้อย่างไรและอาจจะหลีกเลี่ยงได้อย่างไร ฉันต้องการใช้การตรวจสอบข้ามสำหรับรุ่นของฉันเพื่อกำหนดตัวเลือกที่ดีที่สุดสำหรับแกมม่าและ C แผนของฉันคือลองใช้การรวมกันของค่า 10 ค่าเหล่านี้: 0.00001, 0.0001, 0.001, 0.01, 0.1, 1, 10, 100, 1,000, 10,000, 10,000 สำหรับพารามิเตอร์ทั้งสองและดูว่าชุดค่าผสมใดให้ความแม่นยำที่ดีที่สุดระหว่างการตรวจสอบ เพียงพอหรือไม่ ฉันควรใช้ค่ามากขึ้นในช่วงเวลานี้หรือฉันควรเลือกช่วงเวลาที่กว้างขึ้น?

3
SVM สำหรับข้อมูลที่ไม่สมดุล
ฉันต้องการใช้ Support Vector Machines (SVMs) ในชุดข้อมูลของฉัน ก่อนที่ฉันจะพยายามแก้ปัญหาฉันได้รับคำเตือนว่า SVM ไม่ทำงานได้ดีกับข้อมูลที่ไม่สมดุลอย่างยิ่ง ในกรณีของฉันฉันสามารถมีได้มากถึง 95-98% 0 และ 2-5% 1 ฉันพยายามค้นหาทรัพยากรที่พูดคุยเกี่ยวกับการใช้ SVM ในข้อมูลที่กระจัดกระจาย / ไม่สมดุล แต่สิ่งที่ฉันพบคือ 'sparseSVMs' (ซึ่งใช้เวกเตอร์สนับสนุนจำนวนเล็กน้อย) ฉันหวังว่าบางคนสามารถอธิบายสั้น ๆ : SVM คาดว่าจะทำอย่างไรกับชุดข้อมูลดังกล่าว ซึ่งหากมีการปรับเปลี่ยนจะต้องทำกับอัลกอริทึม SVM แหล่งข้อมูล / เอกสารใดที่กล่าวถึงเรื่องนี้

4
เป็นไปได้หรือไม่ที่จะผนวกข้อมูลการฝึกอบรมเข้ากับโมเดล SVM ที่มีอยู่
ฉันใช้ libsvm และสังเกตว่าทุกครั้งที่ฉันเรียก svmtrain () ฉันจะสร้างรูปแบบใหม่และดูเหมือนว่าจะไม่มีตัวเลือกในการใส่ข้อมูลในรูปแบบที่มีอยู่ เป็นไปได้ที่จะทำอย่างไร ฉันแค่ไม่เห็นแง่มุมนี้ใน libsvm?
14 svm  libsvm 

1
Caret glmnet กับ cv.glmnet
ดูเหมือนจะมีความสับสนมากในการเปรียบเทียบการใช้glmnetภายในcaretเพื่อค้นหาแลมบ์ดาที่ดีที่สุดและใช้cv.glmnetในการทำงานเดียวกัน มีการตั้งคำถามมากมายเช่น: โมเดลการจำแนกประเภท train.glmnet vs. cv.glmnet วิธีที่เหมาะสมในการใช้ glmnet กับคาเร็ตคืออะไร? การตรวจสอบข้าม `glmnet 'โดยใช้` คาเร็ต' แต่ไม่ได้รับคำตอบซึ่งอาจเป็นเพราะความสามารถในการทำซ้ำของคำถาม ตามคำถามแรกฉันให้ตัวอย่างที่คล้ายกัน แต่มีคำถามเดียวกัน: ทำไม lambdas โดยประมาณแตกต่างกันอย่างไร library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to …

2
มีปัญหากับ e1071 libsvm?
ฉันมีชุดข้อมูลที่มีสองคลาสที่ทับซ้อนกันเจ็ดจุดในแต่ละชั้นคะแนนอยู่ในพื้นที่สองมิติ ใน R และฉันกำลังเรียกใช้svmจากe1071แพคเกจเพื่อสร้างการแยกไฮเปอร์เพลนสำหรับคลาสเหล่านี้ ฉันใช้คำสั่งต่อไปนี้: svm(x, y, scale = FALSE, type = 'C-classification', kernel = 'linear', cost = 50000) ที่xมีจุดข้อมูลของฉันและyมีป้ายกำกับของพวกเขา คำสั่งส่งกลับ svm-object ซึ่งฉันใช้ในการคำนวณพารามิเตอร์ (เวกเตอร์ปกติ) และ (สกัดกั้น) ของการแยกไฮเปอร์เพลนขwwwbbb รูปที่ (a) ด้านล่างแสดงคะแนนของฉันและไฮเปอร์เพลนที่ส่งคืนโดยsvmคำสั่ง จุดสีน้ำเงินที่มีสัญลักษณ์ O แสดงที่มาของพื้นที่เส้นประแสดงขอบระยะทางวงกลมคือจุดที่ไม่เป็นศูนย์ (ตัวแปรสแลค)ξξ\xi รูปที่ (b) แสดงไฮเปอร์เพลนอีกอันหนึ่งซึ่งเป็นการแปลแบบขนานที่ดีที่สุดด้วย 5 (b_new = b_optimal - 5) ไม่ยากที่จะเห็นว่าสำหรับไฮเปอร์เพลนนี้ฟังก์ชันวัตถุประสงค์ (ซึ่งถูกย่อโดยการจำแนกประเภท C-svm) จะมีค่าต่ำกว่าไฮเปอร์เพลนที่ดีที่สุดที่แสดงในรูป ( ก) ดังนั้นดูเหมือนว่าจะมีปัญหากับฟังก์ชั่นนี้หรือไม่? …

1
การทดสอบที่แน่นอนของฟิชเชอร์และการกระจาย hypergeometric
ฉันต้องการที่จะเข้าใจการทดสอบที่แม่นยำของฟิชเชอร์มากขึ้นดังนั้นฉันจึงคิดค้นตัวอย่างของเล่นต่อไปนี้โดยที่ f และ m สอดคล้องกับเพศชายและเพศหญิงและ n และ y สอดคล้องกับ "การบริโภคโซดา" เช่นนี้: > soda_gender f m n 0 5 y 5 0 เห็นได้ชัดว่านี่คือการทำให้เข้าใจง่ายมาก แต่ฉันไม่ต้องการให้บริบทเข้ามาขวางทาง ที่นี่ฉันเพิ่งสันนิษฐานว่าผู้ชายไม่ดื่มโซดาและหญิงดื่มโซดาและต้องการดูว่าวิธีการทางสถิติมาถึงข้อสรุปเดียวกัน เมื่อฉันทำการทดสอบฟิชเชอร์ที่แน่นอนใน R ฉันจะได้ผลลัพธ์ต่อไปนี้: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 …

2
เอาต์พุตของ Scikit SVM ในการจัดประเภทแบบหลายคลาสจะให้ฉลากเหมือนกันเสมอ
ฉันกำลังใช้ Scikit เรียนรู้ด้วยรหัสต่อไปนี้: clf = svm.SVC(C=1.0, tol=1e-10, cache_size=600, kernel='rbf', gamma=0.0, class_weight='auto') จากนั้นจัดทำและคาดการณ์ชุดข้อมูลที่มีป้ายกำกับ 7 รายการที่แตกต่างกัน ฉันได้ผลลัพธ์ที่แปลก ไม่ว่าจะใช้เทคนิคการตรวจสอบความถูกต้องแบบไขว้ใดฉันใช้ป้ายกำกับที่คาดการณ์ไว้ในชุดการตรวจสอบความถูกต้องจะเป็นป้ายกำกับ 7 ฉันพยายามที่พารามิเตอร์อื่น ๆ บางคนรวมทั้งคนเริ่มต้นเล่ม ( svm.SVC()) แต่ตราบใดที่การใช้วิธีการที่ฉันเคอร์เนลrbfแทนpolyหรือlinearมันก็จะไม่ทำงานในขณะที่มันทำงานจริงๆดีสำหรับการและpolylinear นอกจากนี้ฉันได้ลองทำนายข้อมูลรถไฟแทนข้อมูลการตรวจสอบแล้วและมันก็พอดี ไม่มีใครเห็นปัญหาแบบนี้มาก่อนและรู้ว่าเกิดอะไรขึ้นที่นี่? ฉันไม่เคยดูรายละเอียดชั้นเรียนของฉัน แต่ฉันรู้ว่ามันควรจะประมาณ 30% ของพวกเขาคือ 7, 14% คือ 4 ฉันลองใช้การปรับใช้ 1-vs-rest ด้วยตนเองและยังไม่เป็นประโยชน์

4
รูปแบบประวัติเหตุการณ์แบบไม่ต่อเนื่อง (การอยู่รอด) ใน R
ฉันกำลังพยายามปรับโมเดลที่ไม่ต่อเนื่องใน R แต่ฉันไม่แน่ใจว่าจะทำอย่างไร ฉันได้อ่านแล้วว่าคุณสามารถจัดระเบียบตัวแปรตามในแถวต่างกันหนึ่งตัวสำหรับแต่ละการสังเกตเวลาและการใช้glmฟังก์ชั่นที่มีลิงค์ logit หรือ cloglog ในแง่นี้ฉันมีสามคอลัมน์: ID, Event(1 หรือ 0 ในแต่ละช่วงเวลา) และTime Elapsed(ตั้งแต่จุดเริ่มต้นของการสังเกต) รวมทั้ง covariates อื่น ๆ ฉันจะเขียนรหัสเพื่อให้พอดีกับรุ่นได้อย่างไร ตัวแปรตามคืออะไร ฉันเดาว่าฉันสามารถใช้Eventเป็นตัวแปรตามและรวมTime Elapsedอยู่ใน covariates แต่สิ่งที่เกิดขึ้นกับID? ฉันต้องการมันไหม ขอบคุณ
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

2
เคอร์เนล SVM ใดที่จะใช้สำหรับปัญหาการจำแนกประเภทไบนารี
ฉันเป็นผู้เริ่มต้นเมื่อพูดถึงการสนับสนุนเครื่องเวกเตอร์ มีแนวทางบางอย่างที่บอกว่าเคอร์เนลใด (เช่นเส้นตรงพหุนาม) เหมาะที่สุดสำหรับปัญหาเฉพาะหรือไม่? ในกรณีของฉันฉันต้องจำแนกหน้าเว็บตามว่ามีข้อมูลเฉพาะหรือไม่เช่นฉันมีปัญหาการจำแนกเลขฐานสอง คุณสามารถพูดโดยทั่วไปว่าเคอร์เนลใดเหมาะที่สุดสำหรับงานนี้? หรือฉันต้องลองหลายชุดในชุดข้อมูลเฉพาะของฉันเพื่อค้นหาชุดที่ดีที่สุด โดยวิธีการที่ฉันใช้ห้องสมุดหลามscikit เรียนรู้ที่ใช้ประโยชน์จากห้องสมุด libSVM

2
การใช้พารามิเตอร์ Gamma พร้อมเครื่องเวกเตอร์สนับสนุน
เมื่อใช้libsvmพารามิเตอร์γγ\gammaเป็นพารามิเตอร์สำหรับฟังก์ชั่นเคอร์เนล ค่าเริ่มต้นของมันคือการตั้งค่าเป็นγ=1จำนวนคุณสมบัติγ=1number of features.\gamma = \frac{1}{\text{number of features.}} มีคำแนะนำเชิงทฤษฎีสำหรับการตั้งค่าพารามิเตอร์นี้นอกเหนือจากวิธีการที่มีอยู่เช่นการค้นหาแบบตารางหรือไม่?
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.