คำถามติดแท็ก kernel-trick

วิธีการใช้เคอร์เนลในการเรียนรู้ของเครื่องเพื่อสรุปเทคนิคเชิงเส้นตรงกับสถานการณ์ไม่เชิงเส้นโดยเฉพาะอย่างยิ่ง SVM, PCA และ GPs อย่าสับสนกับ [kernel-smoothing] สำหรับการประมาณความหนาแน่นของเคอร์เนล (KDE) และการถดถอยของเคอร์เนล


1
ความสัมพันธ์ระหว่างจำนวนเวกเตอร์สนับสนุนและจำนวนของคุณสมบัติ
ฉันใช้ SVM กับชุดข้อมูลที่กำหนดและทำการสังเกตต่อไปนี้: ถ้าฉันเปลี่ยนจำนวนของคุณสมบัติสำหรับการสร้างตัวจําแนก ฉันต้องการทราบวิธีอธิบายสถานการณ์ประเภทนี้

1
เคอร์เนล k เพื่อนบ้านที่ใกล้ที่สุด
ฉันใหม่กับเมล็ดและมีอุปสรรคในขณะที่พยายาม kernelise kNN รอบคัดเลือกโซน ฉันใช้เคอร์เนลพหุนาม: K(x,y)=(1+⟨x,y⟩)dK(x,y)=(1+⟨x,y⟩)dK(\mathbf{x},\mathbf{y}) = (1 + \langle \mathbf{x},\mathbf{y} \rangle)^d Euclidean ทั่วไปของคุณใช้ตัวชี้วัดระยะทางต่อไปนี้: d(x,y)=||x−y||d(x,y)=||x−y||d(\mathbf{x}, \mathbf{y}) = \vert\vert \mathbf{x} - \mathbf{y} \vert\vert ปล่อยให้f(x)f(x)f(\mathbf{x})แม็พxx\mathbf{x}ลงในฟีเจอร์มิติที่สูงขึ้น จากนั้นสแควร์ของตัวชี้วัดระยะทางด้านบนในพื้นที่ฮิลแบร์ตสามารถแสดงได้ด้วยผลิตภัณฑ์ภายใน: d2(f(x),f(y))=K(x,x)−2K(x,y)+K(y,y)d2(f(x),f(y))=K(x,x)−2K(x,y)+K(y,y)d^2(f(x), f(y)) = K(\mathbf{x},\mathbf{x}) - 2K(\mathbf{x}, \mathbf{y}) + K(\mathbf{y} ,\mathbf{y}) โปรดทราบว่าถ้าเราปล่อยให้d=1d=1d = 1ข้างต้นจะทำให้ระยะทางแบบยุคลิดลดลง คำถาม ปัญหาหลักที่ฉันมีคือฉันไม่สามารถดูว่า kernelising kNN ให้ผลลัพธ์ที่ดีขึ้นตามที่แสดงโดยการทดลองเช่นบทความนี้ (คำเตือนลิงค์ PDF โดยตรง!)

5
วิธีการคำนวณเคอร์เนล Gaussian ได้อย่างมีประสิทธิภาพในจำนวน [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน3 ปีที่ผ่านมา ฉันมีอาร์เรย์ numpy ที่มีคอลัมน์mและnแถวคอลัมน์ที่มีมิติและ datapoints แถว ตอนนี้ฉันต้องคำนวณค่าเคอร์เนลสำหรับการรวมกันของจุดข้อมูล สำหรับเคอร์เนลเชิงเส้นฉันทำได้ง่ายๆK(xi,xj)=⟨xi,xj⟩K(xi,xj)=⟨xi,xj⟩K(\mathbf{x}_i,\mathbf{x}_j) = \langle \mathbf{x}_i,\mathbf{x}_j \rangledot(X,X.T) ฉันจะคำนวณค่าทั้งหมดสำหรับเคอร์เนล Gaussianอย่างมีประสิทธิภาพด้วยs ?K(xi,xj)=exp−∥xi−xj∥22s2K(xi,xj)=exp⁡−‖xi−xj‖22s2K(\mathbf{x}_i,\mathbf{x}_j) = \exp{-\frac{\|\mathbf{x}_i-\mathbf{x}_j\|_2^2}{s^2}}

1
วิธี Nystroem สำหรับการประมาณเคอร์เนล
ฉันได้อ่านเกี่ยวกับวิธีNyströmสำหรับการประมาณเคอร์เนลระดับต่ำ วิธีนี้ถูกนำมาใช้ในการเรียนรู้ scikit [1] เป็นวิธีการฉายตัวอย่างข้อมูลไปยังการประมาณระดับต่ำของการแมปฟีเจอร์เคอร์เนล ตามความรู้ของฉันที่สุดให้ชุดฝึกอบรมและฟังก์ชันเคอร์เนลมันสร้างการประมาณอันดับต่ำของเคอร์เนลเมทริกซ์โดยใช้ SVD กับและC{xi}ni=1{xi}i=1n\{x_i\}_{i=1}^nn×nn×nn \times nKKKWWWCCC K=[WK21KT21K22]K=[WK21TK21K22]K = \left [ \begin{array}{cc} W & K_{21}^T \\ K_{21} & K_{22} \end{array} \right ] C=[WK21]C=[WK21]C = \left [\begin{array}{cc} W \\ K_{21} \end{array}\right ] ,W∈Rl×lW∈Rl×lW \in \mathbb{R}^{l\times l} อย่างไรก็ตามฉันไม่เข้าใจว่าการประมาณระดับต่ำของเมทริกซ์เคอร์เนลสามารถใช้เพื่อฉายตัวอย่างใหม่ไปยังพื้นที่คุณลักษณะเคอร์เนลโดยประมาณได้อย่างไร เอกสารที่ฉันได้พบ (เช่น [2]) ไม่ได้ช่วยอะไรมากเพราะมันเป็นการสอนน้อย นอกจากนี้ฉันยังสงสัยเกี่ยวกับความซับซ้อนในการคำนวณของวิธีนี้ทั้งในขั้นตอนการฝึกอบรมและการทดสอบ [1] http://scikit-learn.org/stable/modules/kernel_approximation.html#nystroem-kernel-approx [2] http://www.jmlr.org/papers/volume13/kumar12a/kumar12a.pdf

2
ทฤษฎีบทของ Mercer ทำงานในสิ่งที่ตรงกันข้ามหรือไม่?
เพื่อนร่วมงานที่มีฟังก์ชั่นและสำหรับวัตถุประสงค์ของเรามันเป็นกล่องดำ ฟังก์ชั่นวัดความคล้ายคลึงของสองวัตถุs ( , B )ssss ( a , b )s(a,b)s(a,b) เรารู้แน่ว่ามีคุณสมบัติเหล่านี้:sss คะแนนความคล้ายคลึงกันคือตัวเลขจริงระหว่าง 0 ถึง 1 รวม เฉพาะวัตถุที่เหมือนตัวเองเท่านั้นที่มีคะแนน 1 ดังนั้นหมายถึงและในทางกลับกันa = bs ( a , b ) = 1s(a,b)=1s(a,b)=1a = ba=ba=b เราจะรับประกันว่า(ขก)s ( a , b ) = s ( b , a )s(a,b)=s(b,a)s(a,b) = s(b,a) ตอนนี้เขาต้องการทำงานกับอัลกอริธึมที่ต้องการระยะทางเป็นอินพุทและขึ้นอยู่กับอินพุตที่ตอบสนองความจริงของระยะทาง ความคิดของฉันคือเราสามารถรักษาคะแนนความคล้ายคลึงกันราวกับว่าพวกเขาเป็นผลมาจากเคอร์เนล RBF ที่มีระยะทาง …

1
Support Vector Machine มีความไวต่อความสัมพันธ์ระหว่างคุณลักษณะหรือไม่
ฉันต้องการฝึกอบรม SVM เพื่อจำแนกกรณีและปัญหา (TRUE / FALSE) ตาม 20 คุณลักษณะ ฉันรู้ว่าคุณลักษณะเหล่านั้นบางอย่างมีความสัมพันธ์สูง ดังนั้นคำถามของฉันคือ: SVM มีความไวต่อความสัมพันธ์หรือความซ้ำซ้อนระหว่างคุณสมบัติหรือไม่ การอ้างอิงใด ๆ

1
ประสิทธิภาพการถดถอยของเคอร์เนลเคอร์เนล
การถดถอยของสันสามารถแสดงเป็น Y^= (X'X +aผมd)- 1X xy^=(X′X+aId)−1Xx\hat{y} = (\mathbf{X'X} + a\mathbf{I}_d)^{-1}\mathbf{X}x ที่ไหน Y^y^\hat{y}เป็นป้ายที่คาดการณ์ระบุเมทริกซ์วัตถุที่เรากำลังพยายามที่จะหาฉลากและเมทริกซ์ของวัตถุเช่นนั้น:IdId\mathbf{I}_dd×dd×dd \times dxx\mathbf{x}XX\mathbf{X}n×dn×dn \times dnnnxi=(xi,1,...,xi,d)∈Rdxi=(xi,1,...,xi,d)∈Rd\mathbf{x}_i = (x_{i,1}, ..., x_{i,d})\in \mathbb{R}^d X=⎛⎝⎜⎜⎜⎜⎜x1,1x2,1⋮xn,1x1,2x2,2⋮x1,2……⋱…x1,dx2,d⋮xn,d⎞⎠⎟⎟⎟⎟⎟X=(x1,1x1,2…x1,dx2,1x2,2…x2,d⋮⋮⋱⋮xn,1x1,2…xn,d) \mathbf{X} = \begin{pmatrix} x_{1,1} & x_{1,2} & \ldots & x_{1,d}\\ x_{2,1} & x_{2,2} & \ldots & x_{2,d}\\ \vdots & \vdots & \ddots & \vdots\\ x_{n,1} & x_{1,2} &\ldots …

1
วิธีสร้างเคอร์เนล perceptron อย่างง่าย?
ปัญหาการจัดหมวดหมู่ที่มีขอบเขตไม่เชิงเส้นไม่สามารถแก้ไขได้โดยง่ายตรอน รหัส R ต่อไปนี้มีวัตถุประสงค์เพื่อเป็นตัวอย่างและเป็นไปตามตัวอย่างนี้ใน Python): nonlin <- function(x, deriv = F) { if (deriv) x*(1-x) else 1/(1+exp(-x)) } X <- matrix(c(-3,1, -2,1, -1,1, 0,1, 1,1, 2,1, 3,1), ncol=2, byrow=T) y <- c(0,0,1,1,1,0,0) syn0 <- runif(2,-1,1) for (iter in 1:100000) { l1 <- nonlin(X %*% syn0) l1_error <- y - l1 …

1
มีวิธีใดบ้างสำหรับการปรับจูนพารามิเตอร์พารามิเตอร์เคอร์เนล SVM
ผมมีข้อมูลบางอย่างที่มีอยู่บนกราฟ ) จุดยอดอยู่ในหนึ่งในสองคลาสy i ∈ { - 1 , 1 }และฉันสนใจที่จะฝึกอบรม SVM เพื่อแยกความแตกต่างระหว่างสองคลาส หนึ่งเคอร์เนลที่เหมาะสมสำหรับการนี้คือการแพร่กระจายเคอร์เนล , K = ประสบการณ์( - β L ) ,ที่Lเป็นLaplacianของGและβเป็นปรับพารามิเตอร์G=(V,E)G=(V,E)G=(V,E)yi∈{−1,1}yi∈{−1,1}y_i\in\{-1,1\}K=exp(−βL),K=exp⁡(−βL),K=\exp(-\beta L),LLLGGGββ\beta การปรับ SVM ต้องเลือกของ hyperparameters ดังนั้นฉันมีการปรับแต่งโดยทั่วไปเราใช้การตรวจสอบข้ามปัญหานี้ แต่ดูเหมือนจะไม่เหมาะสมที่นี่เนื่องจากการละเว้นจุดสุดยอดiจากGเปลี่ยนกราฟทั้งหมดอาจเพิ่มจำนวนของส่วนประกอบที่เชื่อมต่อ! หากจำนวนของส่วนประกอบที่เชื่อมต่อมีการเปลี่ยนแปลงจุดยอดบางอย่างจะไม่สามารถเข้าถึงได้จากจุดอื่นและเรากำลังเผชิญกับชุดข้อมูลที่แตกต่างจากที่เราเริ่มต้น นั่นคือไม่เพียง แต่เราจะหายไปจุดสุดยอดที่นำออกไปฉันแต่เรายังขาดข้อมูลเกี่ยวกับจุดอื่น ๆ ทั้งหมดที่ jθ=(β,C).θ=(β,C).\theta=(\beta, C).iiiGGGiiijjj ในกราฟที่อยู่ติดกับจุดสุดยอดนั้น แนวคิดพื้นฐานของการตรวจสอบข้ามคือเราต้องการประมาณว่าโมเดลจะทำงานอย่างไรเมื่อนำเสนอด้วยข้อมูลใหม่ ในปัญหามาตรฐานการละเว้นข้อมูลบางส่วนของคุณสำหรับการทดสอบจะไม่เปลี่ยนค่าของข้อมูลการฝึกอบรมที่เหลืออยู่ อย่างไรก็ตามในกรณีของข้อมูลกราฟมันไม่ชัดเจนว่ามันหมายถึงอะไรสำหรับรุ่นที่จะเห็นข้อมูล "ใหม่" ในการตั้งค่า CV การละเว้นจุดยอดหรือขอบมีแนวโน้มที่จะเปลี่ยนแปลงข้อมูลทั้งหมด ตัวอย่างเช่นลองนึกภาพกราฟซึ่งเป็นกราฟk- star ซึ่งหนึ่งจุดยอดมีk edge to …

1
นอกเหนือจากเมล็ดฟิชเชอร์
ชั่วครู่หนึ่งดูเหมือนว่าFisher Kernelsอาจจะได้รับความนิยมเนื่องจากพวกมันดูเหมือนจะเป็นวิธีในการสร้างเมล็ดจากแบบจำลองความน่าจะเป็น อย่างไรก็ตามฉันไม่ค่อยเห็นพวกเขาใช้ในทางปฏิบัติและฉันมีสิทธิ์ที่ดีที่พวกเขามักจะไม่ทำงานได้ดี พวกเขาพึ่งพาการคำนวณข้อมูลฟิชเชอร์ - การอ้างอิง Wikipedia: ข้อมูลฟิชเชอร์เป็นข้อมูลเชิงลบของความคาดหวังของอนุพันธ์อันดับสองเกี่ยวกับ ar ของลอการิทึมธรรมชาติของ f ข้อมูลอาจถูกมองว่าเป็นมาตรวัดของ "ความโค้ง" ของเส้นโค้งการสนับสนุนใกล้กับค่าประมาณความน่าจะเป็นสูงสุด (MLE) ของθ เท่าที่ฉันสามารถบอกได้ว่านี่หมายความว่าฟังก์ชั่นเคอร์เนลระหว่างสองจุดคือระยะทางตามพื้นผิวโค้งนี้ - ใช่ไหม? อย่างไรก็ตามนี่อาจเป็นปัญหาสำหรับใช้ในวิธีเคอร์เนลเช่น MLE อาจเป็นการประเมินที่แย่มากสำหรับรุ่นที่กำหนด ความโค้งของเส้นโค้งการสนับสนุนรอบ ๆ MLE อาจไม่มีประโยชน์ใด ๆ สำหรับการแยกแยะระหว่างอินสแตนซ์ตัวอย่างเช่นถ้าพื้นผิวที่มีโอกาสสูงแหลมมาก ดูเหมือนว่าจะทิ้งข้อมูลจำนวนมากเกี่ยวกับโมเดล หากเป็นกรณีนี้มีวิธีการสร้างเมล็ดที่ทันสมัยกว่าจากวิธีการที่น่าจะเป็นหรือไม่? ตัวอย่างเช่นเราสามารถใช้ชุดการระงับเพื่อใช้การประมาณค่า MAP ด้วยวิธีเดียวกันได้หรือไม่ แนวคิดอื่น ๆ ของระยะทางหรือความคล้ายคลึงกันจากวิธีความน่าจะเป็นสามารถทำงานเพื่อสร้างฟังก์ชั่นเคอร์เนล (ที่ถูกต้อง)?

2
วิธีการใดของเคอร์เนลที่ให้ความน่าจะเป็นผลลัพธ์ที่ดีที่สุด
เมื่อเร็ว ๆ นี้ฉันได้ใช้การปรับขนาดเอาต์พุต SVM ของแพลตเพื่อประเมินความน่าจะเป็นของเหตุการณ์เริ่มต้น ทางเลือกที่ตรงกว่าดูเหมือนจะเป็น "Kernel logistic Regression" (KLR) และ "Import Vector Machine" ที่เกี่ยวข้อง ใครสามารถบอกได้ว่าวิธีการของเคอร์เนลที่ให้ความน่าจะเป็น - เอาท์พุทเป็นปัจจุบันของศิลปะ? มีการนำ R-KLR ไปใช้งานจริงหรือไม่? ขอบคุณมากสำหรับความช่วยเหลือของคุณ!

1
SVMs = การจับคู่เทมเพลตเป็นอย่างไร
ฉันอ่านเกี่ยวกับ SVM และเรียนรู้ว่าพวกเขากำลังแก้ไขปัญหาการปรับให้เหมาะสมและแนวคิดของกำไรขั้นต้นนั้นสมเหตุสมผลมาก ตอนนี้การใช้เมล็ดพวกเขาสามารถค้นหาขอบเขตการแยกแบบไม่เป็นเชิงเส้นได้ซึ่งยอดเยี่ยม จนถึงตอนนี้ฉันไม่รู้จริงๆเลยว่า SVM (เครื่องเคอร์เนลพิเศษ) และเครื่องเคอร์เนลเกี่ยวข้องกับเครือข่ายประสาทอย่างไร พิจารณาความคิดเห็นโดยYann Lecun => ที่นี่ : kernel methods were a form of glorified template matching และที่นี่ด้วย : ตัวอย่างเช่นบางคนตื่นตากับวิธีเคอร์เนลเพราะคณิตศาสตร์น่ารักที่เข้ากับมัน แต่อย่างที่ฉันเคยพูดไปแล้วในตอนท้ายในที่สุดเครื่องเคอร์เนลเป็นเครือข่ายที่ตื้น ไม่มีอะไรผิดปกติ (SVM เป็นวิธีที่ยอดเยี่ยม) แต่มีข้อ จำกัด ที่น่ากลัวซึ่งเราทุกคนควรทราบ ดังนั้นคำถามของฉันคือ: SVM เกี่ยวข้องกับเครือข่ายประสาทอย่างไร มันเป็นเครือข่ายตื้นอย่างไร SVM แก้ปัญหาการเพิ่มประสิทธิภาพด้วยฟังก์ชั่นวัตถุประสงค์ที่กำหนดไว้อย่างดีมันทำการจับคู่แม่แบบอย่างไร? เทมเพลตที่นี่ตรงกับข้อมูลใด ฉันเดาว่าความคิดเห็นเหล่านี้ต้องการความเข้าใจอย่างถ่องแท้เกี่ยวกับช่องว่างมิติสูงอวนประสาทและเครื่องเคอร์เนล แต่จนถึงตอนนี้ฉันได้ลองแล้วและไม่สามารถเข้าใจตรรกะที่อยู่เบื้องหลัง แต่ก็เป็นเรื่องที่น่าสนใจอย่างยิ่งที่จะต้องทราบความเชื่อมโยงระหว่างเทคนิค ml ที่แตกต่างกันสองอย่าง แก้ไข: ฉันคิดว่าการเข้าใจ SVM จากมุมมองของระบบประสาทจะดีมาก ฉันกำลังมองหาคำตอบที่ได้รับการสนับสนุนทางคณิตศาสตร์อย่างละเอียดสำหรับคำถามสองข้อข้างต้นเพื่อที่จะเข้าใจการเชื่อมโยงระหว่าง SVM …

1
ข้อ จำกัด ของวิธีการเคอร์เนลคืออะไรและเมื่อใดที่จะใช้วิธีเคอร์เนล
วิธีการเคอร์เนลมีประสิทธิภาพมากในงานการจัดหมวดหมู่ที่ได้รับการควบคุม ดังนั้นสิ่งที่เป็นข้อ จำกัด ของวิธีการเคอร์เนลและเมื่อใช้วิธีเคอร์เนล? โดยเฉพาะอย่างยิ่งในยุคข้อมูลขนาดใหญ่ความก้าวหน้าของวิธีการเคอร์เนลคืออะไร? อะไรคือความแตกต่างระหว่างวิธีเคอร์เนลและการเรียนรู้แบบหลายตัวอย่าง? หากข้อมูลมี500x10000, 500เป็นนับตัวอย่างและ10000เป็นมิติของแต่ละคุณลักษณะแล้วในกรณีนี้เราสามารถใช้วิธีการเคอร์เนล?

1
R ตัวแปรเชิงเส้นถดถอยหมวดหมู่ "ซ่อน" ค่า
นี่เป็นเพียงตัวอย่างที่ฉันเจอหลายครั้งดังนั้นฉันจึงไม่มีข้อมูลตัวอย่าง ใช้แบบจำลองการถดถอยเชิงเส้นใน R: a.lm = lm(Y ~ x1 + x2) x1เป็นตัวแปรต่อเนื่อง x2เป็นหมวดหมู่และมีสามค่าเช่น "ต่ำ", "ปานกลาง" และ "สูง" อย่างไรก็ตามเอาต์พุตที่กำหนดโดย R จะเป็นดังนี้: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 ฉันเข้าใจว่า R แนะนำการเข้ารหัสแบบหลอกบางอย่างเกี่ยวกับปัจจัยดังกล่าว ( …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.