คำถามติดแท็ก kernel-trick

วิธีการใช้เคอร์เนลในการเรียนรู้ของเครื่องเพื่อสรุปเทคนิคเชิงเส้นตรงกับสถานการณ์ไม่เชิงเส้นโดยเฉพาะอย่างยิ่ง SVM, PCA และ GPs อย่าสับสนกับ [kernel-smoothing] สำหรับการประมาณความหนาแน่นของเคอร์เนล (KDE) และการถดถอยของเคอร์เนล

4
จะอธิบายได้อย่างไรว่าเคอร์เนลคืออะไร
ตัวแยกประเภทการเรียนรู้ของเครื่องจำนวนมาก (เช่นสนับสนุนเครื่องเวกเตอร์) อนุญาตให้หนึ่งเพื่อระบุเคอร์เนล อะไรจะเป็นวิธีที่ใช้งานง่ายในการอธิบายว่าเคอร์เนลคืออะไร? แง่มุมหนึ่งที่ฉันนึกถึงก็คือความแตกต่างระหว่างเมล็ดเชิงเส้นและไม่ใช่เชิงเส้น ในแง่ง่ายฉันสามารถพูดถึง 'ฟังก์ชั่นการตัดสินใจเชิงเส้น' และ 'ฟังก์ชั่นการตัดสินใจที่ไม่ใช่เชิงเส้น' อย่างไรก็ตามฉันไม่แน่ใจว่าการเรียกเคอร์เนล 'ฟังก์ชั่นการตัดสินใจ' เป็นความคิดที่ดีหรือไม่ ข้อเสนอแนะ?


3
ตัวอย่าง: การถดถอย LASSO โดยใช้ glmnet สำหรับผลลัพธ์ไบนารี
ฉันเริ่มตะลุยกับการใช้งานglmnetกับการถดถอยแบบ LASSOซึ่งผลลัพธ์ของความสนใจของฉันนั้นเป็นแบบขั้วคู่ ฉันได้สร้างกรอบข้อมูลจำลองขนาดเล็กด้านล่าง: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

2
“ เคอร์เนล” ในภาษาอังกฤษธรรมดาคืออะไร
มีประเพณีที่แตกต่างกันหลายประการ: การประมาณความหนาแน่นของเคอร์เนล เคล็ดลับเคอร์เนล เคอร์เนลทำให้เรียบ โปรดอธิบายความหมายของ "เคอร์เนล" ในภาษาอังกฤษด้วยคำพูดของคุณ

4
อะไรทำให้เคอร์เนลเกาส์เซียนมีมนต์ขลังสำหรับ PCA และโดยทั่วไปแล้ว?
ฉันอ่านเกี่ยวกับเคอร์เนล PCA ( 1 , 2 , 3 ) กับเกาส์เซียนและเมล็ดพหุนาม เคอร์เนลเกาส์เซียนนั้นแยกข้อมูลที่ไม่เป็นเชิงเส้นออกจากกันได้อย่างไรอย่างดีเป็นพิเศษ? กรุณาให้การวิเคราะห์ที่ใช้งานง่ายเช่นเดียวกับที่เกี่ยวข้องกับคณิตศาสตร์ถ้าเป็นไปได้ อะไรคือคุณสมบัติของเคอร์เนลเกาส์เซียน (มีอุดมคติ ) ที่เมล็ดอื่นไม่มี โครงข่ายประสาทเทียม SVM และเครือข่าย RBF เป็นสิ่งสำคัญσσ\sigma ทำไมเราไม่ใส่บรรทัดฐานพูด Cauchy PDF และคาดหวังผลลัพธ์เดียวกัน

2
เคอร์เนลเชิงเส้นและเคอร์เนลที่ไม่ใช่เชิงเส้นสำหรับเครื่องเวกเตอร์สนับสนุน?
เมื่อใช้เครื่องสนับสนุนเวกเตอร์มีแนวทางในการเลือกเคอร์เนลเชิงเส้นกับเคอร์เนลแบบไม่เชิงเส้นเช่น RBF หรือไม่? ฉันเคยได้ยินว่าเคอร์เนลที่ไม่ใช่เชิงเส้นมีแนวโน้มที่จะไม่ทำงานได้ดีเมื่อจำนวนของคุณลักษณะมีขนาดใหญ่ มีการอ้างอิงใด ๆ เกี่ยวกับปัญหานี้หรือไม่?

4
SVM จะ 'ค้นหา' พื้นที่ที่ไม่มีขีด จำกัด ได้อย่างไรซึ่งการแยกเชิงเส้นเป็นไปได้เสมอ?
สัญชาตญาณที่อยู่เบื้องหลังความจริงที่ว่า SVM พร้อมเคอร์เนล Gaussian มีพื้นที่มิติคุณลักษณะ dimensional nite คืออะไร?

3
วิธีการพิสูจน์ว่าฟังก์ชันพื้นฐานของเรเดียนเป็นเคอร์เนล
วิธีการพิสูจน์ว่าเรเดียนพื้นฐานฟังก์ชั่นเป็นเคอร์เนล? เท่าที่ฉันเข้าใจเพื่อพิสูจน์ว่าเราต้องพิสูจน์ข้อใดข้อหนึ่งต่อไปนี้:k(x,y)=exp(−||x−y||2)2σ2)k(x,y)=exp⁡(−||x−y||2)2σ2)k(x, y) = \exp(-\frac{||x-y||^2)}{2\sigma^2}) สำหรับชุดเวกเตอร์ใด ๆเมทริกซ์ =เป็น semidefinite บวกx1,x2,...,xnx1,x2,...,xnx_1, x_2, ..., x_nK(x1,x2,...,xn)K(x1,x2,...,xn)K(x_1, x_2, ..., x_n)(k(xi,xj))n×n(k(xi,xj))n×n(k(x_i, x_j))_{n \times n} การแมปสามารถนำเสนอเช่น =\ΦΦ\Phik(x,y)k(x,y)k(x, y)⟨Φ(x),Φ(y)⟩⟨Φ(x),Φ(y)⟩\langle\Phi(x), \Phi(y)\rangle ความช่วยเหลือใด ๆ
34 svm  kernel-trick 

3
มีปัญหาการเรียนรู้ภายใต้การดูแลที่ชัดเจน (ลึก) เครือข่ายประสาทเทียมไม่สามารถทำได้ดีกว่าวิธีการอื่น ๆ ?
ฉันเคยเห็นผู้คนใช้ความพยายามอย่างมากกับ SVM และ Kernels และพวกเขาดูน่าสนใจทีเดียวในฐานะผู้เริ่มต้นในการเรียนรู้ของเครื่อง แต่ถ้าเราคาดหวังว่าเกือบตลอดเวลาเราจะพบทางออกที่ดีกว่าในแง่ของเครือข่ายประสาท (ลึก) ความหมายของการลองใช้วิธีการอื่นในยุคนี้คืออะไร? นี่คือข้อ จำกัด ของฉันในหัวข้อนี้ เราคิดถึงการเรียนรู้แบบมีผู้ควบคุมเท่านั้น การถดถอยและการจำแนก การอ่านผลลัพธ์จะไม่ถูกนับ เฉพาะความแม่นยำในปัญหาการเรียนรู้ภายใต้การควบคุมเท่านั้นที่จะนับ การคำนวณต้นทุนไม่ได้พิจารณา ฉันไม่ได้บอกว่าวิธีการอื่นใดไร้ประโยชน์

2
ช่วงการค้นหาใดในการพิจารณาพารามิเตอร์ C และ gamma ที่เหมาะสมที่สุดของ SVM
ฉันกำลังใช้ SVM เพื่อจัดหมวดหมู่และฉันกำลังพยายามหาพารามิเตอร์ที่เหมาะสมที่สุดสำหรับเมล็ดเชิงเส้นและ RBF สำหรับเคอร์เนลเชิงเส้นฉันใช้การเลือกพารามิเตอร์ที่ผ่านการตรวจสอบความถูกต้องเพื่อกำหนด C และสำหรับเคอร์เนล RBF ฉันใช้การค้นหากริดเพื่อกำหนด C และแกมม่า ฉันมีคุณสมบัติ 20 (เป็นตัวเลข) และ 70 ตัวอย่างการฝึกอบรมที่ควรแบ่งออกเป็น 7 คลาส ฉันควรใช้ช่วงการค้นหาใดในการพิจารณาค่าที่เหมาะสมที่สุดสำหรับพารามิเตอร์ C และแกมมา

3
ความแตกต่างระหว่าง SVM และ perceptron
ฉันสับสนเล็กน้อยกับความแตกต่างระหว่าง SVM และ perceptron ให้ฉันพยายามสรุปความเข้าใจของฉันที่นี่และอย่าลังเลที่จะแก้ไขเมื่อฉันผิดและเติมสิ่งที่ฉันพลาดไป Perceptron ไม่พยายามเพิ่มประสิทธิภาพการแยก "ระยะทาง" ตราบใดที่มันพบไฮเปอร์เพลนที่แยกทั้งสองเซตมันก็ดี SVM ในอีกทางหนึ่งพยายามที่จะเพิ่ม "เวกเตอร์สนับสนุน" ให้มากที่สุดนั่นคือระยะห่างระหว่างจุดตัวอย่างที่ตรงข้ามกันสองจุดที่ใกล้เคียงที่สุด SVM มักจะพยายามใช้ "ฟังก์ชั่นเคอร์เนล" เพื่อฉายจุดตัวอย่างไปยังพื้นที่มิติสูงเพื่อให้แยกได้เป็นเส้นตรงในขณะที่ Perceptron ถือว่าจุดตัวอย่างนั้นแยกออกจากกันเป็นเส้นตรง

4
ความแตกต่างของเมล็ดใน SVM
ใครช่วยบอกความแตกต่างระหว่างเมล็ดใน SVM ได้ไหม: เชิงเส้น พหุนาม เกาส์เซียน (RBF) sigmoid เพราะอย่างที่เรารู้ว่าเคอร์เนลถูกใช้เพื่อแมปพื้นที่อินพุตของเราไปสู่พื้นที่คุณลักษณะมิติสูง และในพื้นที่ของคุณลักษณะนั้นเราพบว่าขอบเขตแบ่งเป็นเชิงเส้น .. พวกเขาจะใช้เมื่อใด (ภายใต้เงื่อนไขใด) และทำไม

3
แผนที่คุณลักษณะสำหรับเคอร์เนลเกาส์เซียน
ใน SVM เคอร์เนล Gaussian ถูกกำหนดเป็น: ที่x, y \ in \ mathbb {R ^ n} ผมไม่ทราบว่าสมการที่ชัดเจนของ\ พี ฉันอยากรู้K(x,y)=exp(−∥x−y∥222σ2)=ϕ(x)Tϕ(y)K(x,y)=exp⁡(−‖x−y‖222σ2)=ϕ(x)Tϕ(y)K(x,y)=\exp\left({-\frac{\|x-y\|_2^2}{2\sigma^2}}\right)=\phi(x)^T\phi(y)x,y∈Rnx,y∈Rnx, y\in \mathbb{R^n}ϕϕ\phi ฉันยังต้องการที่จะทราบว่า ∑iciϕ(xi)=ϕ(∑icixi)∑iciϕ(xi)=ϕ(∑icixi)\sum_ic_i\phi(x_i)=\phi \left(\sum_ic_ix_i \right)ที่ci∈Rci∈Rc_i\in \mathbb RR ตอนนี้ฉันคิดว่ามันไม่เท่ากันเพราะการใช้เคอร์เนลจัดการกับสถานการณ์ที่ Linearierier ไม่ทำงาน ฉันรู้ϕϕ\phiโปรเจ็กต์ x ถึงพื้นที่ไม่มีที่สิ้นสุด ดังนั้นถ้ามันยังคงเป็นเส้นตรงไม่ว่าจะเป็นมิติใด svm ยังคงไม่สามารถทำการจำแนกที่ดีได้

3
Gradient Descent เป็นไปได้สำหรับ kernelized SVMs (ถ้าเป็นเช่นนั้นทำไมผู้คนถึงใช้ Quadratic Programming)
เหตุใดผู้คนจึงใช้เทคนิคการเขียนโปรแกรม Quadratic (เช่น SMO) เมื่อต้องรับมือกับ kernelized SVM เกิดอะไรขึ้นกับ Gradient Descent มันเป็นไปไม่ได้ที่จะใช้กับเมล็ดหรือมันช้าเกินไป (และทำไม) นี่คือบริบทอีกเล็กน้อย: พยายามทำความเข้าใจ SVM ให้ดีขึ้นเล็กน้อยฉันใช้ Gradient Descent เพื่อฝึกอบรมตัวจําแนก SVM เชิงเส้นโดยใช้ฟังก์ชันต้นทุนต่อไปนี้: J(w,b)=C∑i=1mmax(0,1−y(i)(wt⋅x(i)+b))+12wt⋅wJ(w,b)=C∑i=1mmax(0,1−y(i)(wt⋅x(i)+b))+12wt⋅wJ(\mathbf{w}, b) = C {\displaystyle \sum\limits_{i=1}^{m} max\left(0, 1 - y^{(i)} (\mathbf{w}^t \cdot \mathbf{x}^{(i)} + b)\right)} \quad + \quad \dfrac{1}{2} \mathbf{w}^t \cdot \mathbf{w} ฉันใช้สัญลักษณ์ต่อไปนี้: ww\mathbf{w}เป็นตุ้มน้ำหนักคุณลักษณะของโมเดลและคือพารามิเตอร์ biasbbb x(i)x(i)\mathbf{x}^{(i)}เป็นเวกเตอร์คุณลักษณะของอินสแตนซ์การฝึกอบรมของithithi^\text{th} y(i)y(i)y^{(i)}เป็นคลาสเป้าหมาย (-1 หรือ …

1
สิ่งที่ฟังก์ชั่นอาจเป็นเคอร์เนล?
ในบริบทของการเรียนรู้ของเครื่องและการจดจำรูปแบบที่มีแนวคิดที่เรียกว่าเคอร์เนลเคล็ดลับ เผชิญปัญหาที่ฉันถูกขอให้ตรวจสอบว่าฟังก์ชันอาจเป็นฟังก์ชันเคอร์เนลหรือไม่ควรทำอะไรอย่างแน่นอน ฉันควรตรวจสอบก่อนว่าพวกเขาอยู่ในรูปแบบของฟังก์ชั่นเคอร์เนลสามหรือสี่อย่างเช่นพหุนาม RBF และ Gaussian หรือไม่? ถ้าอย่างนั้นฉันควรทำยังไงดี? ฉันควรแสดงว่าเป็นบวกแน่นอนหรือไม่ มีคนช่วยแก้ปัญหาตัวอย่างเพื่อแสดงวิธีแก้ปัญหาแบบทีละขั้นตอนได้หรือไม่? เหมือนเช่นเป็นฟังก์ชันเคอร์เนลฉ( x ) = exเสื้อx'f(x)=extx′f(x)=e^{x^tx'} (สมมติว่าเราไม่ทราบว่ามันเป็นเคอร์เนล Gaussian)?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.