คำถามติดแท็ก svm

Support Vector Machine หมายถึง "ชุดวิธีการเรียนรู้แบบมีผู้สอนที่เกี่ยวข้องซึ่งวิเคราะห์ข้อมูลและจดจำรูปแบบที่ใช้สำหรับการจำแนกประเภทและการวิเคราะห์การถดถอย"

7
อะไรคืออิทธิพลของ C ใน SVM ที่มีเคอร์เนลเชิงเส้น?
ขณะนี้ฉันกำลังใช้ SVM กับเคอร์เนลเชิงเส้นเพื่อจัดประเภทข้อมูลของฉัน ไม่มีข้อผิดพลาดในชุดฝึกอบรม ฉันลองหลายค่าสำหรับพารามิเตอร์ ( ) สิ่งนี้ไม่เปลี่ยนข้อผิดพลาดในชุดทดสอบ10 - 5 , … , 10 2CCC10−5,…,10210−5,…,10210^{-5}, \dots, 10^2 ตอนนี้ฉันสงสัยว่า: นี่เป็นข้อผิดพลาดที่เกิดจากการผูกทับทิมสำหรับlibsvmฉันที่ใช้ ( rb-libsvm ) หรือนี่เป็นการอธิบายทางทฤษฎีหรือไม่? พารามิเตอร์ควรเปลี่ยนประสิทธิภาพของตัวจําแนกเสมอ?CCC

5
Support Vector Machine (SVM) ทำงานอย่างไร
อย่างไรเครื่องสนับสนุนเวกเตอร์ (SVM)การทำงานและสิ่งที่แตกต่างจากตัวจําแนกเชิงเส้นอื่น ๆ เช่นเป็น Linear Perceptron , เชิงเส้นวิเคราะห์จำแนกหรือถดถอยโลจิสติ ? * * * * (* ฉันกำลังคิดในแง่ของแรงจูงใจพื้นฐานสำหรับอัลกอริทึมกลยุทธ์การปรับให้เหมาะสมความสามารถในการวางนัยทั่วไปและความซับซ้อนของเวลาทำงาน )

4
จะอธิบายได้อย่างไรว่าเคอร์เนลคืออะไร
ตัวแยกประเภทการเรียนรู้ของเครื่องจำนวนมาก (เช่นสนับสนุนเครื่องเวกเตอร์) อนุญาตให้หนึ่งเพื่อระบุเคอร์เนล อะไรจะเป็นวิธีที่ใช้งานง่ายในการอธิบายว่าเคอร์เนลคืออะไร? แง่มุมหนึ่งที่ฉันนึกถึงก็คือความแตกต่างระหว่างเมล็ดเชิงเส้นและไม่ใช่เชิงเส้น ในแง่ง่ายฉันสามารถพูดถึง 'ฟังก์ชั่นการตัดสินใจเชิงเส้น' และ 'ฟังก์ชั่นการตัดสินใจที่ไม่ใช่เชิงเส้น' อย่างไรก็ตามฉันไม่แน่ใจว่าการเรียกเคอร์เนล 'ฟังก์ชั่นการตัดสินใจ' เป็นความคิดที่ดีหรือไม่ ข้อเสนอแนะ?


3
ตัวอย่าง: การถดถอย LASSO โดยใช้ glmnet สำหรับผลลัพธ์ไบนารี
ฉันเริ่มตะลุยกับการใช้งานglmnetกับการถดถอยแบบ LASSOซึ่งผลลัพธ์ของความสนใจของฉันนั้นเป็นแบบขั้วคู่ ฉันได้สร้างกรอบข้อมูลจำลองขนาดเล็กด้านล่าง: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

1
ช่วยฉันเข้าใจ Support Vector Machines
ฉันเข้าใจพื้นฐานของจุดมุ่งหมายของเครื่องเวกเตอร์สนับสนุนในแง่ของการจำแนกอินพุตที่กำหนดเป็นคลาสที่แตกต่างกันหลายอย่าง แต่สิ่งที่ฉันไม่เข้าใจคือรายละเอียดบางอย่างที่น่าสนใจ สำหรับผู้เริ่มฉันสับสนเล็กน้อยจากการใช้ตัวแปรสแลค วัตถุประสงค์ของพวกเขาคืออะไร? ฉันกำลังทำปัญหาการจำแนกประเภทที่ฉันได้อ่านค่าความดันจากเซ็นเซอร์ที่ฉันวางไว้บนพื้นรองเท้าของรองเท้า ตัวแบบจะนั่งยืนและเดินเป็นเวลาสองสามนาทีในขณะที่ข้อมูลความดันถูกบันทึก ฉันต้องการฝึกฝนตัวจําแนกเพื่อให้สามารถระบุได้ว่าบุคคลนั้นกำลังนั่งยืนหรือเดินและสามารถทำสิ่งนั้นสำหรับข้อมูลการทดสอบในอนาคต ฉันต้องลองตัวจําแนกประเภทใด วิธีที่ดีที่สุดสำหรับฉันในการฝึกอบรมตัวจําแนกจากข้อมูลที่ฉันจับคืออะไร? ฉันมี 1,000 รายการสำหรับการนั่งยืนและเดิน (รวม 3x1000 = 3000) และพวกเขาทั้งหมดมีรูปแบบเวกเตอร์คุณลักษณะต่อไปนี้ (pressurefromsensor1, pressurefromsensor2, pressurefromsensor3, pressurefromsensor4)

4
อะไรทำให้เคอร์เนลเกาส์เซียนมีมนต์ขลังสำหรับ PCA และโดยทั่วไปแล้ว?
ฉันอ่านเกี่ยวกับเคอร์เนล PCA ( 1 , 2 , 3 ) กับเกาส์เซียนและเมล็ดพหุนาม เคอร์เนลเกาส์เซียนนั้นแยกข้อมูลที่ไม่เป็นเชิงเส้นออกจากกันได้อย่างไรอย่างดีเป็นพิเศษ? กรุณาให้การวิเคราะห์ที่ใช้งานง่ายเช่นเดียวกับที่เกี่ยวข้องกับคณิตศาสตร์ถ้าเป็นไปได้ อะไรคือคุณสมบัติของเคอร์เนลเกาส์เซียน (มีอุดมคติ ) ที่เมล็ดอื่นไม่มี โครงข่ายประสาทเทียม SVM และเครือข่าย RBF เป็นสิ่งสำคัญσσ\sigma ทำไมเราไม่ใส่บรรทัดฐานพูด Cauchy PDF และคาดหวังผลลัพธ์เดียวกัน

5
โครงข่ายประสาทเทียมเทียบกับเครื่องเวกเตอร์สนับสนุน: เป็นอันดับสองที่เหนือกว่าอย่างแน่นอนหรือไม่
ผู้เขียนบทความจำนวนมากที่ฉันอ่านยืนยันว่า SVM เป็นเทคนิคที่เหนือกว่าในการเผชิญกับปัญหาการถดถอย / การจำแนกประเภทของพวกเขาทราบว่าพวกเขาไม่สามารถรับผลลัพธ์ที่คล้ายกันผ่าน NNs บ่อยครั้งที่การเปรียบเทียบระบุว่า SVM แทน NNs มีทฤษฎีการก่อตั้งที่แข็งแกร่ง เข้าถึงโลกที่เหมาะสมเนื่องจากการเขียนโปรแกรมสมการกำลังสอง ไม่มีปัญหาในการเลือกพารามิเตอร์ที่เหมาะสม มีความเสี่ยงที่จะเกิดการแพ้น้อยกว่า ต้องการหน่วยความจำน้อยลงเพื่อจัดเก็บแบบจำลองการทำนาย ให้ผลลัพธ์ที่อ่านง่ายขึ้นและการตีความทางเรขาคณิต มันเป็นความคิดที่ยอมรับกันอย่างกว้างขวางหรือไม่? อย่าอ้างทฤษฎีบทอาหารกลางวันแบบไม่มีข้อความหรือข้อความที่คล้ายกันคำถามของฉันคือการใช้เทคนิคเหล่านั้นในทางปฏิบัติ ในอีกด้านหนึ่งปัญหาเชิงนามธรรมประเภทใดที่คุณจะต้องเผชิญกับ NN อย่างแน่นอน

4
ทำไมต้องกังวลกับปัญหาสองอย่างเมื่อทำการปรับแต่ง SVM?
เมื่อกำหนดจุดข้อมูลและป้ายกำกับy 1 , … , y n ∈ { - 1 , 1 } , ปัญหาระยะขอบ SVM ที่ยากคือx1,…,xn∈Rdx1,…,xn∈Rdx_1, \ldots, x_n \in \mathbb{R}^dy1,…,yn∈{−1,1}y1,…,yn∈{−1,1}y_1, \ldots, y_n \in \left \{-1, 1 \right\} s.t.minimizew,w012wTwminimizew,w012wTw \text{minimize}_{w, w_0} \quad \frac{1}{2} w^T w s.t.∀i:yi(wTxi+w0)≥1s.t.∀i:yi(wTxi+w0)≥1 \text{s.t.} \quad \forall i: y_i (w^T x_i + w_0) \ge 1 ซึ่งเป็นโปรแกรมกำลังสองที่มีตัวแปรที่จะปรับให้เหมาะสมสำหรับและข้อ จำกัด …
50 svm 

2
ทำไม Convolutional Neural Networks ไม่ใช้ Support Vector Machine เพื่อจัดประเภท?
ในช่วงไม่กี่ปีที่ผ่านมา Convolutional Neural Networks (CNNs) ได้กลายเป็นสุดยอดของการรับรู้วัตถุในคอมพิวเตอร์วิสัยทัศน์ โดยทั่วไปแล้วซีเอ็นเอ็นประกอบด้วยหลายชั้น convolutional ตามมาด้วยสองชั้นเชื่อมต่ออย่างเต็มที่ สัญชาตญาณที่อยู่เบื้องหลังสิ่งนี้คือเลเยอร์ convolutional เรียนรู้การแสดงข้อมูลอินพุตที่ดีขึ้นและเลเยอร์ที่เชื่อมต่ออย่างสมบูรณ์จากนั้นเรียนรู้ที่จะจำแนกการแสดงนี้ตามชุดฉลาก อย่างไรก็ตามก่อนที่ CNNs จะเริ่มครอบครอง Support Vector Machines (SVMs) เป็นสิ่งที่ล้ำสมัย ดังนั้นจึงมีเหตุผลที่จะบอกว่า SVM ยังคงเป็นลักษณนามที่แข็งแกร่งกว่าเครือข่ายนิวรัลสองชั้นที่เชื่อมต่อเต็มที่ ดังนั้นฉันสงสัยว่าทำไม CNN ที่ล้ำสมัยมักใช้เลเยอร์ที่เชื่อมต่ออย่างเต็มที่เพื่อการจำแนกประเภทมากกว่า SVM ด้วยวิธีนี้คุณจะได้สิ่งที่ดีที่สุดทั้งสองโลก: การแสดงคุณสมบัติที่แข็งแกร่งและตัวจําแนกที่แข็งแกร่งมากกว่าการแสดงคุณสมบัติที่แข็งแกร่ง แต่เป็นตัวจําแนกที่อ่อนแอเท่านั้น ... ความคิดใด ๆ

2
เคอร์เนลเชิงเส้นและเคอร์เนลที่ไม่ใช่เชิงเส้นสำหรับเครื่องเวกเตอร์สนับสนุน?
เมื่อใช้เครื่องสนับสนุนเวกเตอร์มีแนวทางในการเลือกเคอร์เนลเชิงเส้นกับเคอร์เนลแบบไม่เชิงเส้นเช่น RBF หรือไม่? ฉันเคยได้ยินว่าเคอร์เนลที่ไม่ใช่เชิงเส้นมีแนวโน้มที่จะไม่ทำงานได้ดีเมื่อจำนวนของคุณลักษณะมีขนาดใหญ่ มีการอ้างอิงใด ๆ เกี่ยวกับปัญหานี้หรือไม่?

5
ทางเลือกของ Gradient Descent คืออะไร?
Gradient Descent มีปัญหาในการติดอยู่ใน Local Minima เราจำเป็นต้องใช้เวลาเอ็กซ์โพเนนเชียลของการไล่ระดับสีเพื่อค้นหาค่าต่ำสุดของโลก ใครสามารถบอกฉันเกี่ยวกับทางเลือกอื่น ๆ ของการไล่ระดับสีแบบลาดเอียงที่ใช้ในการเรียนรู้เครือข่ายประสาทเทียมพร้อมกับข้อดีข้อเสีย

5
เราตีความน้ำหนักของคุณสมบัติ SVM อย่างไร
ฉันกำลังพยายามตีความน้ำหนักของตัวแปรที่กำหนดโดยการปรับ SVM เชิงเส้นให้เหมาะสม (ฉันใช้Scikit เรียนรู้ ): from sklearn import svm svm = svm.SVC(kernel='linear') svm.fit(features, labels) svm.coef_ ฉันไม่พบสิ่งใดในเอกสารที่ระบุวิธีการคำนวณหรือตีความน้ำหนักเหล่านี้โดยเฉพาะ เครื่องหมายของน้ำหนักมีส่วนร่วมกับชั้นเรียนหรือไม่?

3
เปรียบเทียบ SVM และการถดถอยโลจิสติก
ใครช่วยกรุณาเล่าให้ฉันฟังหน่อยว่าจะเลือก SVM หรือ LR ได้ไหม? ฉันต้องการที่จะเข้าใจสัญชาตญาณเบื้องหลังสิ่งที่แตกต่างระหว่างเกณฑ์การปรับให้เหมาะสมของการเรียนรู้ไฮเปอร์เพลนของทั้งสองโดยมีจุดมุ่งหมายที่เกี่ยวข้องดังนี้: SVM: พยายามเพิ่มระยะห่างระหว่างเวกเตอร์สนับสนุนที่ใกล้ที่สุด LR: เพิ่มความน่าจะเป็นระดับหลังให้มากที่สุด ลองพิจารณาพื้นที่ของคุณสมบัติเชิงเส้นสำหรับทั้ง SVM และ LR ความแตกต่างบางประการที่ฉันรู้แล้ว: SVM นั้นถูกกำหนดไว้แล้ว (แต่เราสามารถใช้แบบจำลอง Platts สำหรับคะแนนความน่าจะเป็น) ในขณะที่ LR นั้นน่าจะเป็น สำหรับพื้นที่เคอร์เนล SVM นั้นเร็วกว่า (จัดเก็บเพียงสนับสนุนเวกเตอร์)

3
SVM การ overfitting คำสาปของมิติ
ชุดข้อมูลของฉันมีขนาดเล็ก (120 ตัวอย่าง) แต่จำนวนของคุณสมบัติมีขนาดใหญ่แตกต่างกันไปจาก (1,000-200,000) แม้ว่าฉันจะเลือกคุณสมบัติเพื่อเลือกชุดย่อยของคุณสมบัติ คำถามแรกของฉันคืออะไร SVM จัดการกับการล้นได้อย่างไรถ้าทั้งหมด ประการที่สองเมื่อฉันศึกษาเพิ่มเติมเกี่ยวกับการ overfitting ในกรณีของการจัดหมวดหมู่ฉันก็สรุปได้ว่าแม้แต่ชุดข้อมูลที่มีคุณสมบัติจำนวนน้อยก็สามารถทำให้พอดีได้ ถ้าเราไม่มีฟีเจอร์ที่สัมพันธ์กับเลเบลของคลาสการ overfitting จะเกิดขึ้นต่อไป ดังนั้นตอนนี้ฉันสงสัยว่าอะไรคือจุดของการจำแนกอัตโนมัติถ้าเราไม่สามารถหาคุณสมบัติที่เหมาะสมสำหรับฉลากระดับ ในกรณีของการจำแนกเอกสารหมายถึงการสร้างพจนานุกรมคำที่เกี่ยวข้องกับฉลากด้วยตนเองซึ่งใช้เวลานานมาก ฉันเดาว่าสิ่งที่ฉันพยายามจะพูดคือถ้าไม่มีการเลือกคุณสมบัติที่เหมาะสมมันเป็นเรื่องยากมากที่จะสร้างแบบจำลองทั่วไป? นอกจากนี้หากผลการทดลองไม่แสดงว่าผลลัพธ์มีค่าต่ำ / ไม่มีการสะสมเกินก็จะไม่มีความหมาย มีวิธีวัดหรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.