คำถามติดแท็ก kernel-trick

วิธีการใช้เคอร์เนลในการเรียนรู้ของเครื่องเพื่อสรุปเทคนิคเชิงเส้นตรงกับสถานการณ์ไม่เชิงเส้นโดยเฉพาะอย่างยิ่ง SVM, PCA และ GPs อย่าสับสนกับ [kernel-smoothing] สำหรับการประมาณความหนาแน่นของเคอร์เนล (KDE) และการถดถอยของเคอร์เนล

4
วิธีการฉายเวกเตอร์ใหม่บนพื้นที่ PCA?
หลังจากทำการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันต้องการฉายเวกเตอร์ใหม่ลงบนพื้นที่ PCA (เช่นค้นหาพิกัดในระบบพิกัด PCA) ผมได้คำนวณ PCA ในภาษา R prcompโดยใช้ ตอนนี้ฉันควรคูณเวกเตอร์ของฉันด้วยเมทริกซ์การหมุน PCA ควรจัดองค์ประกอบหลักในเมทริกซ์นี้เป็นแถวหรือคอลัมน์?
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

3
ใช้“ เคล็ดลับเคอร์เนล” กับวิธีการเชิงเส้น?
เคล็ดลับเคอร์เนลจะใช้ในโมเดลการเรียนรู้หลายเครื่อง (เช่นSVM ) มันถูกนำมาใช้ครั้งแรกในกระดาษ "รากฐานทางทฤษฎีของวิธีการทำงานที่มีศักยภาพในการเรียนรู้การจดจำรูปแบบ" กระดาษในปี 1964 คำนิยามของวิกิพีเดียบอกว่ามันเป็น วิธีการใช้อัลกอริธึมลักษณนามลักษณนามเชิงเส้นเพื่อแก้ปัญหาที่ไม่ใช่เชิงเส้นโดยการทำแผนที่การสังเกตที่ไม่ใช่เชิงเส้นดั้งเดิมลงในพื้นที่มิติที่สูงขึ้นซึ่งจะใช้ตัวจําแนกเชิงเส้นในภายหลัง สิ่งนี้ทำให้การจำแนกเชิงเส้นในพื้นที่ใหม่เทียบเท่ากับการจัดหมวดหมู่ที่ไม่ใช่เชิงเส้นในพื้นที่เดิม ตัวอย่างหนึ่งของโมเดลเชิงเส้นตรงที่ได้รับการขยายไปสู่ปัญหาที่ไม่ใช่เชิงเส้นเป็นPCA เคอร์เนล เคล็ดลับเคอร์เนลสามารถนำไปใช้กับโมเดลเชิงเส้นใด ๆ หรือมีข้อ จำกัด บางอย่าง

2
เหตุผลของฟังก์ชันความแปรปรวนMatérnคืออะไร?
ฟังก์ชันความแปรปรวนร่วมMatérnมักใช้เป็นฟังก์ชันเคอร์เนลในกระบวนการแบบเกาส์เซียน มันถูกกำหนดเช่นนี้ Cν(d)=σ221−νΓ(ν)(2ν−−√dρ)νKν(2ν−−√dρ)Cν(d)=σ221−νΓ(ν)(2νdρ)νKν(2νdρ) {\displaystyle C_{\nu }(d)=\sigma ^{2}{\frac {2^{1-\nu }}{\Gamma (\nu )}}{\Bigg (}{\sqrt {2\nu }}{\frac {d}{\rho }}{\Bigg )}^{\nu }K_{\nu }{\Bigg (}{\sqrt {2\nu }}{\frac {d}{\rho }}{\Bigg )}} โดยที่dddคือฟังก์ชันระยะทาง (เช่น Euclidean distance), ΓΓ\Gammaคือฟังก์ชันแกมม่า, KνKνK_\nuคือฟังก์ชัน Bessel ที่แก้ไขของชนิดที่สอง, ρρ\rhoและνν\nuเป็นพารามิเตอร์เชิงบวก νν\nuใช้เวลานานมากในการเลือกเป็น3232\frac{3}{2}หรือ5252\frac{5}{2}ในทางปฏิบัติ หลายครั้งที่เคอร์เนลนี้ทำงานได้ดีกว่าเคอร์เนล Gaussian มาตรฐานเนื่องจาก 'ราบรื่นน้อย' แต่ยกเว้นว่ามีเหตุผลอื่นอีกไหมทำไมจึงเลือกใช้เคอร์เนลนี้ สัญชาตญาณทางเรขาคณิตบางอย่างเกี่ยวกับวิธีการทำงานหรือคำอธิบายของสูตรลับที่ดูเหมือนจะได้รับการชื่นชมอย่างมาก


1
ความแตกต่างระหว่าง Primal, Dual และ Kernel Ridge Regression
ความแตกต่างระหว่างPrimal , DualและKernel Ridge Regression คืออะไร? ผู้คนกำลังใช้ทั้งสามและเนื่องจากความแตกต่างของสัญลักษณ์ที่ทุกคนใช้ในแหล่งที่แตกต่างกันเป็นเรื่องยากสำหรับฉันที่จะติดตาม ดังนั้นใครบางคนสามารถบอกฉันด้วยคำพูดง่ายๆสิ่งที่แตกต่างระหว่างสามคนนี้คืออะไร? นอกจากนี้สิ่งที่อาจเป็นข้อดีหรือข้อเสียของแต่ละคนและสิ่งที่มีความซับซ้อนของพวกเขา?

1
เคอร์เนล PCA มีข้อดีเหนือกว่า PCA มาตรฐานอย่างไร
ฉันต้องการใช้อัลกอริทึมในกระดาษซึ่งใช้เคอร์เนล SVD เพื่อแยกเมทริกซ์ข้อมูล ดังนั้นฉันได้อ่านเนื้อหาเกี่ยวกับวิธีเคอร์เนลและเคอร์เนล PCA เป็นต้น แต่มันก็ยังคลุมเครือสำหรับฉันโดยเฉพาะเมื่อพูดถึงรายละเอียดทางคณิตศาสตร์และฉันมีคำถามสองสามข้อ ทำไมวิธีเคอร์เนล หรือประโยชน์ของวิธีการเคอร์เนลคืออะไร? จุดประสงค์ที่เข้าใจง่ายคืออะไร? มันสมมติว่าพื้นที่มิติที่สูงขึ้นมากเป็นจริงในปัญหาโลกแห่งความจริงและสามารถเปิดเผยความสัมพันธ์ที่ไม่เชิงเส้นในข้อมูลเมื่อเทียบกับวิธีการที่ไม่ใช่เคอร์เนล? ตามวัสดุวิธีการเคอร์เนลฉายข้อมูลลงในพื้นที่คุณลักษณะมิติสูง แต่พวกเขาไม่จำเป็นต้องคำนวณพื้นที่คุณลักษณะใหม่อย่างชัดเจน แต่ก็เพียงพอที่จะคำนวณเฉพาะผลิตภัณฑ์ภายในระหว่างรูปภาพของจุดข้อมูลทั้งหมดในพื้นที่คุณลักษณะ เหตุใดจึงต้องฉายลงในพื้นที่มิติที่สูงขึ้น ในทางตรงกันข้าม SVD ลดพื้นที่คุณสมบัติ ทำไมพวกเขาทำมันในทิศทางที่แตกต่างกัน? วิธีการเคอร์เนลค้นหาขนาดที่สูงขึ้นในขณะที่ SVD แสวงหามิติที่ต่ำกว่า สำหรับฉันมันฟังดูแปลก ๆ ที่จะรวมมันเข้าด้วยกัน จากบทความที่ฉันกำลังอ่าน ( Symeonidis et al. 2010 ) การแนะนำ Kernel SVD แทน SVD สามารถแก้ไขปัญหาการกระจัดกระจายในข้อมูลและปรับปรุงผลลัพธ์ จากการเปรียบเทียบในรูปเราจะเห็นว่า KPCA ได้รับ eigenvector ที่มีความแปรปรวนสูงกว่า (eigenvalue) มากกว่า PCA ฉันคิดว่า? เนื่องจากความแตกต่างที่ใหญ่ที่สุดของการประมาณค่าของจุดบน eigenvector (พิกัดใหม่) …
18 pca  svd  kernel-trick 

3
Kernel PCA ที่มีเคอร์เนลเชิงเส้นเทียบเท่ากับ PCA มาตรฐานหรือไม่
ถ้าในเคอร์เนล PCAฉันเลือกเคอร์เนลเชิงเส้นK(x,y)=x⊤yK(x,y)=x⊤yK(\mathbf{x},\mathbf{y}) = \mathbf x^\top \mathbf yผลลัพธ์จะแตกต่างจากlinear PCA ปกติหรือไม่ วิธีการแก้ปัญหานั้นแตกต่างกันโดยพื้นฐานหรือมีความสัมพันธ์ที่ชัดเจนบางอย่างอยู่หรือไม่?
17 pca  kernel-trick 

1
วิธีการทำความเข้าใจผลกระทบของ RBF SVM
ฉันจะเข้าใจว่า RBF Kernel ใน SVM ทำอะไรได้บ้าง? ฉันหมายถึงฉันเข้าใจคณิตศาสตร์ แต่มีวิธีรับความรู้สึกเมื่อเคอร์เนลนี้จะมีประโยชน์หรือไม่ ผลลัพธ์จาก kNN เกี่ยวข้องกับ SVM / RBF หรือไม่เนื่องจาก RBF มีระยะห่างของเวกเตอร์ มีวิธีรับความรู้สึกสำหรับเคอร์เนลพหุนามหรือไม่? ฉันรู้มิติที่สูงขึ้น แต่ฉันต้องการได้สัญชาตญาณว่าเมล็ดทำอะไรมากกว่าลองใช้เมล็ดที่เป็นไปได้ทั้งหมดและเลือกประสบความสำเร็จมากที่สุด
17 svm  kernel-trick 

6
การใช้ SVM ที่เร็วที่สุด
คำถามทั่วไปเพิ่มเติม ฉันใช้ rbf SVM สำหรับการสร้างแบบจำลองการคาดการณ์ ฉันคิดว่าโปรแกรมปัจจุบันของฉันต้องใช้เวลาเพิ่มขึ้นเล็กน้อย ฉันใช้ scikit เรียนรู้ด้วยการค้นหากริดแบบหยาบไปจนถึงแบบละเอียด + การตรวจสอบความถูกต้องไขว้ การวิ่ง SVM แต่ละครั้งใช้เวลาประมาณหนึ่งนาที แต่ด้วยการวนซ้ำทั้งหมดฉันยังพบว่ามันช้าเกินไป สมมติว่าในที่สุดฉันก็มีหลายเธรดส่วนการตรวจสอบความถูกต้องข้ามหลายคอร์คำแนะนำใด ๆ ในการเร่งความเร็วโปรแกรมของฉัน มีการใช้งาน SVM ที่เร็วขึ้นหรือไม่ ฉันเคยได้ยิน GPU SVM บางตัวแล้ว แต่ยังไม่ได้เจาะเข้าไปมากนัก ผู้ใช้คนใดและเร็วกว่ากันไหม

5
เคอร์เนล SVM: ฉันต้องการความเข้าใจที่เข้าใจง่ายเกี่ยวกับการแมปไปยังพื้นที่คุณลักษณะมิติที่สูงขึ้นและวิธีนี้ทำให้การแยกเชิงเส้นเป็นไปได้
ฉันพยายามที่จะเข้าใจสัญชาตญาณที่อยู่เบื้องหลังเคอร์เนล SVM ตอนนี้ฉันเข้าใจวิธีการทำงานของ SVM แบบเส้นตรงโดยที่บรรทัดการตัดสินใจจะแยกข้อมูลออกมาให้ดีที่สุดเท่าที่จะทำได้ ฉันยังเข้าใจหลักการที่อยู่เบื้องหลังการย้ายข้อมูลไปยังพื้นที่มิติที่สูงขึ้นและวิธีนี้จะทำให้การค้นหาเส้นการตัดสินใจเชิงเส้นในพื้นที่ใหม่นี้ง่ายขึ้น สิ่งที่ฉันไม่เข้าใจก็คือวิธีที่เคอร์เนลใช้ในการฉายจุดข้อมูลไปยังพื้นที่ใหม่นี้ สิ่งที่ฉันรู้เกี่ยวกับเคอร์เนลคือมันแสดงถึง "ความคล้ายคลึงกัน" ได้อย่างมีประสิทธิภาพระหว่างจุดข้อมูลสองจุด แต่สิ่งนี้เกี่ยวข้องกับการฉายภาพอย่างไร

1
ทำความเข้าใจเกี่ยวกับการถดถอยกระบวนการแบบเกาส์ผ่านมุมมองฟังก์ชั่นพื้นฐานมิติที่ไม่มีที่สิ้นสุด
บ่อยครั้งมีการกล่าวกันว่าการถดถอยของกระบวนการเกาส์เซียนสอดคล้องกับการถดถอยเชิงเส้นแบบเบย์ด้วยฟังก์ชั่นพื้นฐานจำนวนไม่ จำกัด ตอนนี้ฉันกำลังพยายามที่จะเข้าใจในรายละเอียดเพื่อให้ได้สัญชาตญาณว่ารุ่นใดที่ฉันสามารถแสดงโดยใช้ GPR คุณคิดว่านี่เป็นวิธีการที่ดีในการพยายามทำความเข้าใจ GPR หรือไม่? ในหนังสือGaussian Processes สำหรับการเรียนรู้ของเครื่อง Rasmussen และ Williams แสดงให้เห็นว่าชุดของกระบวนการ gaussian ที่อธิบายโดยเคอร์เนลเลขชี้กำลังเชิงเอ็กซ์โพเรนเชียลพารามิเตอร์สามารถอธิบายได้อย่างเท่าเทียมกันว่าเป็นการถดถอยแบบเบย์ด้วยความเชื่อก่อนหน้านี้w∼N(0,σ 2 p I)กับน้ำหนักและจำนวนฟังก์ชันพื้นฐานพื้นฐานของรูปแบบ ดังนั้นพารามิเตอร์ของเคอร์เนลสามารถแปลได้อย่างเต็มที่ในการกำหนดพารามิเตอร์ของฟังก์ชันพื้นฐานk(x,x′;l)=σ2pexp(−(x−x)22l2)k(x,x′;l)=σp2exp⁡(−(x−x)22l2)k(x,x';l)= \sigma_p^2\exp\left(-\frac{(x-x)^2}{2l^2}\right)w∼N(0,σ2pI)w∼N(0,σp2I)w \sim \mathcal{N}(0,\sigma_p^2 I)ϕc(x;l)=exp(−(x−c)22l2)ϕc(x;l)=exp⁡(−(x−c)22l2)\phi_c(x;l)=\exp\left(-\frac{(x-c)^2}{2l^2}\right) parameterisation ของเคอร์เนล differentiable สามารถแปลเป็น parameterisation ของฟังก์ชั่นพื้นฐานและพื้นฐานหรือมีเมล็ดที่แตกต่างกันได้หรือไม่เช่นหมายเลขของฟังก์ชั่นพื้นฐานขึ้นอยู่กับการกำหนดค่าหรือไม่ ความเข้าใจของฉันจนถึงตอนนี้สำหรับฟังก์ชันเคอร์เนลคงที่ k (x, x ') ทฤษฎีของ Mercer'sบอกเราว่าสามารถแสดงเป็นk(x,x′)k(x,x′)k(x,x') โดยที่ ϕ iเป็นฟังก์ชันไม่ว่าจะเป็นจำนวนจริงหรือจำนวนเชิงซ้อน ดังนั้นสำหรับเคอร์เนลที่กำหนดโมเดลการถดถอยแบบเบย์ที่สอดคล้องกันจะมี w ∼ Nก่อนหน้า ( 0 , diag)k ( x …

2
จะพิสูจน์ได้อย่างไรว่าไม่มีพื้นที่ จำกัด สำหรับเคอร์เนล Gaussian RBF?
วิธีการพิสูจน์ว่าสำหรับฟังก์ชันพื้นฐานของรัศมีไม่มีคุณลักษณะพื้นที่ จำกัด มิติHดังกล่าวว่าสำหรับบางΦ:Rn→Hเรามีk(x,Y)=⟨Φ(x),Φ(Y)⟩?k(x,y)=exp(−||x−y||2)2σ2)k(x,y)=exp⁡(−||x−y||2)2σ2)k(x, y) = \exp(-\frac{||x-y||^2)}{2\sigma^2})HHHΦ:Rn→HΦ:Rn→H\Phi: \text{R}^n \to Hk(x,y)=⟨Φ(x),Φ(y)⟩k(x,y)=⟨Φ(x),Φ(y)⟩k(x, y) = \langle \Phi(x), \Phi(y)\rangle

3
ฉันควรใช้ Kernel Trick ทุกครั้งที่เป็นไปได้สำหรับข้อมูลที่ไม่ใช่เชิงเส้นหรือไม่?
เมื่อเร็ว ๆ นี้ฉันได้เรียนรู้เกี่ยวกับการใช้ Kernel trick ซึ่งจะแมปข้อมูลลงในช่องว่างมิติที่สูงขึ้นเพื่อพยายามทำให้ข้อมูลในมิติเหล่านั้นเป็นเส้นตรง มีกรณีใดบ้างที่ฉันควรหลีกเลี่ยงการใช้เทคนิคนี้? มันเป็นเพียงเรื่องของการหาฟังก์ชั่นเคอร์เนลที่ใช่หรือไม่? สำหรับข้อมูลเชิงเส้นแน่นอนว่าไม่มีประโยชน์ แต่สำหรับข้อมูลที่ไม่ใช่เชิงเส้นสิ่งนี้ดูเหมือนจะมีประโยชน์เสมอ การใช้ตัวจําแนกเชิงเส้นเป็นเรื่องง่ายกว่าที่ไม่ใช่เชิงเส้นในแง่ของเวลาการฝึกอบรมและความยืดหยุ่น

3
เคอร์เนลคืออะไรและอะไรที่ทำให้แตกต่างจากฟังก์ชั่นอื่น ๆ
ดูเหมือนว่าจะมีอัลกอริทึมการเรียนรู้ของเครื่องจำนวนมากที่อาศัยฟังก์ชั่นเคอร์เนล SVMs และ NNs เป็นชื่อ แต่มีสองอย่าง ดังนั้นความหมายของฟังก์ชั่นเคอร์เนลคืออะไรและข้อกำหนดสำหรับมันที่จะถูกต้องคืออะไร?

1
จะเลือกเคอร์เนลสำหรับ kernel PCA ได้อย่างไร?
อะไรคือวิธีเลือกเคอร์เนลที่จะส่งผลให้มีการแยกข้อมูลที่ดีในเอาต์พุตข้อมูลขั้นสุดท้ายโดย kernel PCA (การวิเคราะห์องค์ประกอบหลัก) และวิธีใดที่จะปรับพารามิเตอร์ของเคอร์เนลให้เหมาะสม? เงื่อนไขของคนธรรมดาถ้าเป็นไปได้จะได้รับการชื่นชมอย่างมากและการเชื่อมโยงไปยังเอกสารที่อธิบายวิธีการดังกล่าวก็จะดี

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.