สถิติและข้อมูลขนาดใหญ่ kernel-trick

4

หลังจากทำการวิเคราะห์องค์ประกอบหลัก (PCA) ฉันต้องการฉายเวกเตอร์ใหม่ลงบนพื้นที่ PCA (เช่นค้นหาพิกัดในระบบพิกัด PCA) ผมได้คำนวณ PCA ในภาษา R prcompโดยใช้ ตอนนี้ฉันควรคูณเวกเตอร์ของฉันด้วยเมทริกซ์การหมุน PCA ควรจัดองค์ประกอบหลักในเมทริกซ์นี้เป็นแถวหรือคอลัมน์?

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

3

ใช้“ เคล็ดลับเคอร์เนล” กับวิธีการเชิงเส้น?

เคล็ดลับเคอร์เนลจะใช้ในโมเดลการเรียนรู้หลายเครื่อง (เช่นSVM ) มันถูกนำมาใช้ครั้งแรกในกระดาษ "รากฐานทางทฤษฎีของวิธีการทำงานที่มีศักยภาพในการเรียนรู้การจดจำรูปแบบ" กระดาษในปี 1964 คำนิยามของวิกิพีเดียบอกว่ามันเป็น วิธีการใช้อัลกอริธึมลักษณนามลักษณนามเชิงเส้นเพื่อแก้ปัญหาที่ไม่ใช่เชิงเส้นโดยการทำแผนที่การสังเกตที่ไม่ใช่เชิงเส้นดั้งเดิมลงในพื้นที่มิติที่สูงขึ้นซึ่งจะใช้ตัวจําแนกเชิงเส้นในภายหลัง สิ่งนี้ทำให้การจำแนกเชิงเส้นในพื้นที่ใหม่เทียบเท่ากับการจัดหมวดหมู่ที่ไม่ใช่เชิงเส้นในพื้นที่เดิม ตัวอย่างหนึ่งของโมเดลเชิงเส้นตรงที่ได้รับการขยายไปสู่ปัญหาที่ไม่ใช่เชิงเส้นเป็นPCA เคอร์เนล เคล็ดลับเคอร์เนลสามารถนำไปใช้กับโมเดลเชิงเส้นใด ๆ หรือมีข้อ จำกัด บางอย่าง

20 machine-learning kernel-trick

2

เหตุผลของฟังก์ชันความแปรปรวนMatérnคืออะไร?

ฟังก์ชันความแปรปรวนร่วมMatérnมักใช้เป็นฟังก์ชันเคอร์เนลในกระบวนการแบบเกาส์เซียน มันถูกกำหนดเช่นนี้ Cν(d)=σ221−νΓ(ν)(2ν−−√dρ)νKν(2ν−−√dρ)Cν(d)=σ221−νΓ(ν)(2νdρ)νKν(2νdρ) {\displaystyle C_{\nu }(d)=\sigma ^{2}{\frac {2^{1-\nu }}{\Gamma (\nu )}}{\Bigg (}{\sqrt {2\nu }}{\frac {d}{\rho }}{\Bigg )}^{\nu }K_{\nu }{\Bigg (}{\sqrt {2\nu }}{\frac {d}{\rho }}{\Bigg )}} โดยที่dddคือฟังก์ชันระยะทาง (เช่น Euclidean distance), ΓΓ\Gammaคือฟังก์ชันแกมม่า, KνKνK_\nuคือฟังก์ชัน Bessel ที่แก้ไขของชนิดที่สอง, ρρ\rhoและνν\nuเป็นพารามิเตอร์เชิงบวก νν\nuใช้เวลานานมากในการเลือกเป็น3232\frac{3}{2}หรือ5252\frac{5}{2}ในทางปฏิบัติ หลายครั้งที่เคอร์เนลนี้ทำงานได้ดีกว่าเคอร์เนล Gaussian มาตรฐานเนื่องจาก 'ราบรื่นน้อย' แต่ยกเว้นว่ามีเหตุผลอื่นอีกไหมทำไมจึงเลือกใช้เคอร์เนลนี้ สัญชาตญาณทางเรขาคณิตบางอย่างเกี่ยวกับวิธีการทำงานหรือคำอธิบายของสูตรลับที่ดูเหมือนจะได้รับการชื่นชมอย่างมาก

19 spatial gaussian-process kernel-trick

1

Gaussian RBF กับเคอร์เนล Gaussian

ความแตกต่างระหว่างการทำการถดถอยเชิงเส้นด้วยฟังก์ชั่น Gaussian Radial Basis (RBF) และการถดถอยเชิงเส้นด้วยเคอร์เนล Gaussian คืออะไร?

18 regression normal-distribution kernel-trick

1

ความแตกต่างระหว่าง Primal, Dual และ Kernel Ridge Regression

ความแตกต่างระหว่างPrimal , DualและKernel Ridge Regression คืออะไร? ผู้คนกำลังใช้ทั้งสามและเนื่องจากความแตกต่างของสัญลักษณ์ที่ทุกคนใช้ในแหล่งที่แตกต่างกันเป็นเรื่องยากสำหรับฉันที่จะติดตาม ดังนั้นใครบางคนสามารถบอกฉันด้วยคำพูดง่ายๆสิ่งที่แตกต่างระหว่างสามคนนี้คืออะไร? นอกจากนี้สิ่งที่อาจเป็นข้อดีหรือข้อเสียของแต่ละคนและสิ่งที่มีความซับซ้อนของพวกเขา?

18 regression kernel-trick ridge-regression

1

เคอร์เนล PCA มีข้อดีเหนือกว่า PCA มาตรฐานอย่างไร

ฉันต้องการใช้อัลกอริทึมในกระดาษซึ่งใช้เคอร์เนล SVD เพื่อแยกเมทริกซ์ข้อมูล ดังนั้นฉันได้อ่านเนื้อหาเกี่ยวกับวิธีเคอร์เนลและเคอร์เนล PCA เป็นต้น แต่มันก็ยังคลุมเครือสำหรับฉันโดยเฉพาะเมื่อพูดถึงรายละเอียดทางคณิตศาสตร์และฉันมีคำถามสองสามข้อ ทำไมวิธีเคอร์เนล หรือประโยชน์ของวิธีการเคอร์เนลคืออะไร? จุดประสงค์ที่เข้าใจง่ายคืออะไร? มันสมมติว่าพื้นที่มิติที่สูงขึ้นมากเป็นจริงในปัญหาโลกแห่งความจริงและสามารถเปิดเผยความสัมพันธ์ที่ไม่เชิงเส้นในข้อมูลเมื่อเทียบกับวิธีการที่ไม่ใช่เคอร์เนล? ตามวัสดุวิธีการเคอร์เนลฉายข้อมูลลงในพื้นที่คุณลักษณะมิติสูง แต่พวกเขาไม่จำเป็นต้องคำนวณพื้นที่คุณลักษณะใหม่อย่างชัดเจน แต่ก็เพียงพอที่จะคำนวณเฉพาะผลิตภัณฑ์ภายในระหว่างรูปภาพของจุดข้อมูลทั้งหมดในพื้นที่คุณลักษณะ เหตุใดจึงต้องฉายลงในพื้นที่มิติที่สูงขึ้น ในทางตรงกันข้าม SVD ลดพื้นที่คุณสมบัติ ทำไมพวกเขาทำมันในทิศทางที่แตกต่างกัน? วิธีการเคอร์เนลค้นหาขนาดที่สูงขึ้นในขณะที่ SVD แสวงหามิติที่ต่ำกว่า สำหรับฉันมันฟังดูแปลก ๆ ที่จะรวมมันเข้าด้วยกัน จากบทความที่ฉันกำลังอ่าน ( Symeonidis et al. 2010 ) การแนะนำ Kernel SVD แทน SVD สามารถแก้ไขปัญหาการกระจัดกระจายในข้อมูลและปรับปรุงผลลัพธ์ จากการเปรียบเทียบในรูปเราจะเห็นว่า KPCA ได้รับ eigenvector ที่มีความแปรปรวนสูงกว่า (eigenvalue) มากกว่า PCA ฉันคิดว่า? เนื่องจากความแตกต่างที่ใหญ่ที่สุดของการประมาณค่าของจุดบน eigenvector (พิกัดใหม่) …

18 pca svd kernel-trick

3

Kernel PCA ที่มีเคอร์เนลเชิงเส้นเทียบเท่ากับ PCA มาตรฐานหรือไม่

ถ้าในเคอร์เนล PCAฉันเลือกเคอร์เนลเชิงเส้นK(x,y)=x⊤yK(x,y)=x⊤yK(\mathbf{x},\mathbf{y}) = \mathbf x^\top \mathbf yผลลัพธ์จะแตกต่างจากlinear PCA ปกติหรือไม่ วิธีการแก้ปัญหานั้นแตกต่างกันโดยพื้นฐานหรือมีความสัมพันธ์ที่ชัดเจนบางอย่างอยู่หรือไม่?

17 pca kernel-trick

1

วิธีการทำความเข้าใจผลกระทบของ RBF SVM

ฉันจะเข้าใจว่า RBF Kernel ใน SVM ทำอะไรได้บ้าง? ฉันหมายถึงฉันเข้าใจคณิตศาสตร์ แต่มีวิธีรับความรู้สึกเมื่อเคอร์เนลนี้จะมีประโยชน์หรือไม่ ผลลัพธ์จาก kNN เกี่ยวข้องกับ SVM / RBF หรือไม่เนื่องจาก RBF มีระยะห่างของเวกเตอร์ มีวิธีรับความรู้สึกสำหรับเคอร์เนลพหุนามหรือไม่? ฉันรู้มิติที่สูงขึ้น แต่ฉันต้องการได้สัญชาตญาณว่าเมล็ดทำอะไรมากกว่าลองใช้เมล็ดที่เป็นไปได้ทั้งหมดและเลือกประสบความสำเร็จมากที่สุด

17 svm kernel-trick

6

การใช้ SVM ที่เร็วที่สุด

คำถามทั่วไปเพิ่มเติม ฉันใช้ rbf SVM สำหรับการสร้างแบบจำลองการคาดการณ์ ฉันคิดว่าโปรแกรมปัจจุบันของฉันต้องใช้เวลาเพิ่มขึ้นเล็กน้อย ฉันใช้ scikit เรียนรู้ด้วยการค้นหากริดแบบหยาบไปจนถึงแบบละเอียด + การตรวจสอบความถูกต้องไขว้ การวิ่ง SVM แต่ละครั้งใช้เวลาประมาณหนึ่งนาที แต่ด้วยการวนซ้ำทั้งหมดฉันยังพบว่ามันช้าเกินไป สมมติว่าในที่สุดฉันก็มีหลายเธรดส่วนการตรวจสอบความถูกต้องข้ามหลายคอร์คำแนะนำใด ๆ ในการเร่งความเร็วโปรแกรมของฉัน มีการใช้งาน SVM ที่เร็วขึ้นหรือไม่ ฉันเคยได้ยิน GPU SVM บางตัวแล้ว แต่ยังไม่ได้เจาะเข้าไปมากนัก ผู้ใช้คนใดและเร็วกว่ากันไหม

16 machine-learning svm predictive-models scikit-learn kernel-trick

5

เคอร์เนล SVM: ฉันต้องการความเข้าใจที่เข้าใจง่ายเกี่ยวกับการแมปไปยังพื้นที่คุณลักษณะมิติที่สูงขึ้นและวิธีนี้ทำให้การแยกเชิงเส้นเป็นไปได้

ฉันพยายามที่จะเข้าใจสัญชาตญาณที่อยู่เบื้องหลังเคอร์เนล SVM ตอนนี้ฉันเข้าใจวิธีการทำงานของ SVM แบบเส้นตรงโดยที่บรรทัดการตัดสินใจจะแยกข้อมูลออกมาให้ดีที่สุดเท่าที่จะทำได้ ฉันยังเข้าใจหลักการที่อยู่เบื้องหลังการย้ายข้อมูลไปยังพื้นที่มิติที่สูงขึ้นและวิธีนี้จะทำให้การค้นหาเส้นการตัดสินใจเชิงเส้นในพื้นที่ใหม่นี้ง่ายขึ้น สิ่งที่ฉันไม่เข้าใจก็คือวิธีที่เคอร์เนลใช้ในการฉายจุดข้อมูลไปยังพื้นที่ใหม่นี้ สิ่งที่ฉันรู้เกี่ยวกับเคอร์เนลคือมันแสดงถึง "ความคล้ายคลึงกัน" ได้อย่างมีประสิทธิภาพระหว่างจุดข้อมูลสองจุด แต่สิ่งนี้เกี่ยวข้องกับการฉายภาพอย่างไร

15 machine-learning svm kernel-trick

1

ทำความเข้าใจเกี่ยวกับการถดถอยกระบวนการแบบเกาส์ผ่านมุมมองฟังก์ชั่นพื้นฐานมิติที่ไม่มีที่สิ้นสุด

บ่อยครั้งมีการกล่าวกันว่าการถดถอยของกระบวนการเกาส์เซียนสอดคล้องกับการถดถอยเชิงเส้นแบบเบย์ด้วยฟังก์ชั่นพื้นฐานจำนวนไม่ จำกัด ตอนนี้ฉันกำลังพยายามที่จะเข้าใจในรายละเอียดเพื่อให้ได้สัญชาตญาณว่ารุ่นใดที่ฉันสามารถแสดงโดยใช้ GPR คุณคิดว่านี่เป็นวิธีการที่ดีในการพยายามทำความเข้าใจ GPR หรือไม่? ในหนังสือGaussian Processes สำหรับการเรียนรู้ของเครื่อง Rasmussen และ Williams แสดงให้เห็นว่าชุดของกระบวนการ gaussian ที่อธิบายโดยเคอร์เนลเลขชี้กำลังเชิงเอ็กซ์โพเรนเชียลพารามิเตอร์สามารถอธิบายได้อย่างเท่าเทียมกันว่าเป็นการถดถอยแบบเบย์ด้วยความเชื่อก่อนหน้านี้w∼N(0,σ 2 p I)กับน้ำหนักและจำนวนฟังก์ชันพื้นฐานพื้นฐานของรูปแบบ ดังนั้นพารามิเตอร์ของเคอร์เนลสามารถแปลได้อย่างเต็มที่ในการกำหนดพารามิเตอร์ของฟังก์ชันพื้นฐานk(x,x′;l)=σ2pexp(−(x−x)22l2)k(x,x′;l)=σp2exp⁡(−(x−x)22l2)k(x,x';l)= \sigma_p^2\exp\left(-\frac{(x-x)^2}{2l^2}\right)w∼N(0,σ2pI)w∼N(0,σp2I)w \sim \mathcal{N}(0,\sigma_p^2 I)ϕc(x;l)=exp(−(x−c)22l2)ϕc(x;l)=exp⁡(−(x−c)22l2)\phi_c(x;l)=\exp\left(-\frac{(x-c)^2}{2l^2}\right) parameterisation ของเคอร์เนล differentiable สามารถแปลเป็น parameterisation ของฟังก์ชั่นพื้นฐานและพื้นฐานหรือมีเมล็ดที่แตกต่างกันได้หรือไม่เช่นหมายเลขของฟังก์ชั่นพื้นฐานขึ้นอยู่กับการกำหนดค่าหรือไม่ ความเข้าใจของฉันจนถึงตอนนี้สำหรับฟังก์ชันเคอร์เนลคงที่ k (x, x ') ทฤษฎีของ Mercer'sบอกเราว่าสามารถแสดงเป็นk(x,x′)k(x,x′)k(x,x') โดยที่ ϕ iเป็นฟังก์ชันไม่ว่าจะเป็นจำนวนจริงหรือจำนวนเชิงซ้อน ดังนั้นสำหรับเคอร์เนลที่กำหนดโมเดลการถดถอยแบบเบย์ที่สอดคล้องกันจะมี w ∼ Nก่อนหน้า ( 0 , diag)k ( x …

14 gaussian-process kernel-trick basis-function

2

จะพิสูจน์ได้อย่างไรว่าไม่มีพื้นที่ จำกัด สำหรับเคอร์เนล Gaussian RBF?

วิธีการพิสูจน์ว่าสำหรับฟังก์ชันพื้นฐานของรัศมีไม่มีคุณลักษณะพื้นที่ จำกัด มิติHดังกล่าวว่าสำหรับบางΦ:Rn→Hเรามีk(x,Y)=⟨Φ(x),Φ(Y)⟩?k(x,y)=exp(−||x−y||2)2σ2)k(x,y)=exp⁡(−||x−y||2)2σ2)k(x, y) = \exp(-\frac{||x-y||^2)}{2\sigma^2})HHHΦ:Rn→HΦ:Rn→H\Phi: \text{R}^n \to Hk(x,y)=⟨Φ(x),Φ(y)⟩k(x,y)=⟨Φ(x),Φ(y)⟩k(x, y) = \langle \Phi(x), \Phi(y)\rangle

14 machine-learning svm kernel-trick

3

ฉันควรใช้ Kernel Trick ทุกครั้งที่เป็นไปได้สำหรับข้อมูลที่ไม่ใช่เชิงเส้นหรือไม่?

เมื่อเร็ว ๆ นี้ฉันได้เรียนรู้เกี่ยวกับการใช้ Kernel trick ซึ่งจะแมปข้อมูลลงในช่องว่างมิติที่สูงขึ้นเพื่อพยายามทำให้ข้อมูลในมิติเหล่านั้นเป็นเส้นตรง มีกรณีใดบ้างที่ฉันควรหลีกเลี่ยงการใช้เทคนิคนี้? มันเป็นเพียงเรื่องของการหาฟังก์ชั่นเคอร์เนลที่ใช่หรือไม่? สำหรับข้อมูลเชิงเส้นแน่นอนว่าไม่มีประโยชน์ แต่สำหรับข้อมูลที่ไม่ใช่เชิงเส้นสิ่งนี้ดูเหมือนจะมีประโยชน์เสมอ การใช้ตัวจําแนกเชิงเส้นเป็นเรื่องง่ายกว่าที่ไม่ใช่เชิงเส้นในแง่ของเวลาการฝึกอบรมและความยืดหยุ่น

13 machine-learning svm kernel-trick heuristic

3

เคอร์เนลคืออะไรและอะไรที่ทำให้แตกต่างจากฟังก์ชั่นอื่น ๆ

ดูเหมือนว่าจะมีอัลกอริทึมการเรียนรู้ของเครื่องจำนวนมากที่อาศัยฟังก์ชั่นเคอร์เนล SVMs และ NNs เป็นชื่อ แต่มีสองอย่าง ดังนั้นความหมายของฟังก์ชั่นเคอร์เนลคืออะไรและข้อกำหนดสำหรับมันที่จะถูกต้องคืออะไร?

13 svm terminology kernel-trick

1

จะเลือกเคอร์เนลสำหรับ kernel PCA ได้อย่างไร?

อะไรคือวิธีเลือกเคอร์เนลที่จะส่งผลให้มีการแยกข้อมูลที่ดีในเอาต์พุตข้อมูลขั้นสุดท้ายโดย kernel PCA (การวิเคราะห์องค์ประกอบหลัก) และวิธีใดที่จะปรับพารามิเตอร์ของเคอร์เนลให้เหมาะสม? เงื่อนไขของคนธรรมดาถ้าเป็นไปได้จะได้รับการชื่นชมอย่างมากและการเชื่อมโยงไปยังเอกสารที่อธิบายวิธีการดังกล่าวก็จะดี

13 pca cross-validation dimensionality-reduction kernel-trick manifold-learning

คำถามติดแท็ก kernel-trick