คำตอบสั้น ๆ : ไม่มีความแตกต่างระหว่าง Primal และ Dual - เป็นเพียงเกี่ยวกับวิธีการแก้ปัญหา การถดถอยของสันเคอร์เนลเป็นหลักเช่นเดียวกับการถดถอยสันปกติ แต่ใช้เคล็ดลับเคอร์เนลเพื่อไปที่ไม่ใช่เชิงเส้น
การถดถอยเชิงเส้น
ก่อนอื่นการถดถอยเชิงเส้นแบบ Least Squares แบบปกติพยายามที่จะใส่เส้นตรงกับชุดของจุดข้อมูลในลักษณะที่ผลรวมของข้อผิดพลาดกำลังสองน้อยที่สุด
เรา parametrize เส้นแบบที่ดีที่สุดกับWwและแต่ละจุดข้อมูล( xฉัน , Y ฉัน )(xi,yi)เราต้องการW T xฉัน ≈ YwTxi≈yiฉัน ให้อีฉัน = Y ฉัน - W T xฉันei=yi−wTxiเป็นข้อผิดพลาด - ระยะห่างระหว่างค่าคาดการณ์และความจริง ดังนั้นเป้าหมายของเราคือการลดผลรวมของความคลาดเคลื่อนกำลังสองน้อยที่สุด∑ e 2 i = ‖ e ‖ 2 = ‖ X w - y ‖ 2∑e2i=∥e∥2=∥Xw−y∥2โดยที่X = [ - x 1- - x 2- ⋮ - x n- ]X=⎡⎣⎢⎢⎢⎢—x1——x2—⋮—xn—⎤⎦⎥⎥⎥⎥- เมทริกซ์ข้อมูลกับแต่ละxฉันxiเป็นแถวและY=(y ที่1,...,Yn) y=(y1, ... ,yn)เวกเตอร์ที่มีทุกปีฉันyi's
ดังนั้นวัตถุประสงค์คือmin w ‖ X w - y ‖ 2minw∥Xw−y∥2และวิธีแก้ไขคือw = ( X T X ) - 1 X T yw=(XTX)−1XTy (รู้จักกันในชื่อ "สมการปกติ")
สำหรับจุดที่มองไม่เห็นข้อมูลใหม่xxเราคาดการณ์ค่าเป้าหมายของYเป็นY = W T xy^y^=wTx
การถดถอยของสัน
เมื่อมีตัวแปรที่สัมพันธ์กันจำนวนมากในตัวแบบการถดถอยเชิงเส้นสัมประสิทธิ์wwสามารถกำหนดได้ไม่ดีและมีความแปรปรวนจำนวนมาก หนึ่งของการแก้ปัญหาในการแก้ไขปัญหานี้คือการ จำกัด น้ำหนักWwเพื่อให้พวกเขาจะไม่เกินงบประมาณบางC Cนี่คือเทียบเท่ากับการใช้L 2L2 -regularization ยังเป็นที่รู้จักในฐานะ "ผุน้ำหนัก" มันจะลดความแปรปรวนที่ค่าใช้จ่ายของบางครั้งหายไปผลลัพธ์ที่ถูกต้อง (เช่นโดยการแนะนำอคติบางอย่าง)
เป้าหมายตอนนี้กลายเป็นmin w ‖ X w - y ‖ 2 + λ‖ w ‖ 2minw∥Xw−y∥2+λ∥w∥2โดย λλเป็นพารามิเตอร์การทำให้เป็นมาตรฐาน เราจะได้คำตอบดังต่อไปนี้: w = ( X T X + λฉัน) - 1 X Tw=(XTX+λI)−1XTy Y มันคล้ายกันมากกับการถดถอยเชิงเส้นปกติ แต่ที่นี่เราเพิ่ม λλแต่ละองค์ประกอบเส้นทแยงมุมของ X TXTX X
โปรดทราบว่าเราสามารถเขียนwwเป็นw = X T ได้อีกครั้ง( X X T + λฉัน) - 1ปีw=XT(XXT+λI)−1y (ดูที่นี่สำหรับรายละเอียด) สำหรับจุดที่มองไม่เห็นข้อมูลใหม่ xxเราคาดการณ์ค่าเป้าหมายของปีเป็นปีy^ = x T W = x T X T( X X T + λI ) - 1y^=xTw=xTXT(XXT+λI)−1yปี ให้ α = ( X X T + λฉัน) - 1α=(XXT+λI)−1yปี แล้ว Y = x T X T α = n Σฉัน= 1 α ฉัน ⋅ x T xฉันy^=xTXTα=∑i=1nαi⋅xTxi
ริดจ์ถดถอยแบบคู่
เราสามารถดูวัตถุประสงค์ของเราได้ - และกำหนดปัญหาโปรแกรมกำลังสองต่อไปนี้:
ต่ำสุดe , w n ∑ i = 1 e 2 imine,w∑i=1ne2i st e i = y i - w T x iei=yi−wTxiสำหรับi=1. .ni=1..nและ ‖ W ‖ 2 ⩽∥w∥2⩽C C
มันเป็นวัตถุประสงค์เดียวกัน แต่แสดงออกค่อนข้างแตกต่างกันและที่นี่มีข้อ จำกัด เกี่ยวกับขนาดของwwอย่างชัดเจน เพื่อแก้ปัญหานั้นเราได้นิยาม Lagrangian L p ( w , e ; C )Lp(w,e;C) - นี่คือรูปแบบดั้งเดิมที่มีตัวแปรดั้งเดิมwwและe eแล้วเราจะเพิ่มประสิทธิภาพของมัน WRT eeและW wเพื่อให้ได้สูตรคู่เราใส่eeและwwกลับไปที่L P ( W , E ; CLp(w,e;C) )
ดังนั้นL p ( w , e ; C ) = ‖ e ‖ 2 + β T ( y - X w - e ) - λ( ‖ W ‖ 2 - CLp(w,e;C)=∥e∥2+βT(y−Xw−e)−λ(∥w∥2−C) ) ด้วยการใช้อนุพันธ์ wrt wwและ eeเราได้ e =12 βe=12βและw=12 λ XTw=12λXTββ โดยให้α=12 λบีตาα=12λβและวางEeและWwกลับไปLP(W,E;C)Lp(w,e;C)เราได้รับคู่ลากรองจ์Ld(α,λ;C)=-λ2‖α‖2+2λα T Y - λ ‖ X T α ‖ - λLd(α,λ;C)=−λ2∥α∥2+2λαTy−λ∥XTα∥−λC C หากเราหาอนุพันธ์ wrt ααเราจะได้ α = ( X X T - λ I ) - 1 yα=(XXT−λI)−1y - คำตอบเดียวกับ Kernel Ridge Regression ไม่จำเป็นต้องใช้อนุพันธ์ wrt λλ - ขึ้นอยู่กับ CCซึ่งเป็นพารามิเตอร์การทำให้เป็นมาตรฐาน - และมันก็ทำให้พารามิเตอร์ λλ normalization เช่นกัน
ถัดไปใส่ααไปยังโซลูชันรูปแบบเบื้องต้นสำหรับwwและรับw =12 λ XTβ=XTw=12λXTβ=XTαα ดังนั้นรูปแบบที่สองให้วิธีการแก้ปัญหาเช่นเดียวกับสันถดถอยปกติและเป็นเพียงวิธีที่แตกต่างกันในการแก้ปัญหาเดียวกัน
การถดถอยของเคอร์เนลเคอร์เนล
Kernels are used to calculate inner product of two vectors in some feature space without even visiting it. We can view a kernel kk as k(x1,x2)=ϕ(x1)Tϕ(x2)k(x1,x2)=ϕ(x1)Tϕ(x2), although we don't know what ϕ(⋅)ϕ(⋅) is - we only know it exists. There are many kernels, e.g. RBF, Polynonial, etc.
We can use kernels to make our Ridge Regression non-linear. Suppose we have a kernel k(x1,x2)=ϕ(x1)Tϕ(x2)k(x1,x2)=ϕ(x1)Tϕ(x2). Let Φ(X)Φ(X) be a matrix where each row is ϕ(xi)ϕ(xi), i.e. Φ(X)=[—ϕ(x1)——ϕ(x2)—⋮—ϕ(xn)—]Φ(X)=⎡⎣⎢⎢⎢⎢⎢—ϕ(x1)——ϕ(x2)—⋮—ϕ(xn)—⎤⎦⎥⎥⎥⎥⎥
Now we can just take the solution for Ridge Regression and replace every XX with Φ(X)Φ(X): w=Φ(X)T(Φ(X)Φ(X)T+λI)−1yw=Φ(X)T(Φ(X)Φ(X)T+λI)−1y. For a new unseen data point xx we predict its target value ˆyy^ as ˆy=ϕ(x)TΦ(X)T(Φ(X)Φ(X)T+λI)−1yy^=ϕ(x)TΦ(X)T(Φ(X)Φ(X)T+λI)−1y.
First, we can replace Φ(X)Φ(X)TΦ(X)Φ(X)T by a matrix KK, calculated as (K)ij=k(xi,xj)(K)ij=k(xi,xj). Then, ϕ(x)TΦ(X)Tϕ(x)TΦ(X)T is n∑i=1ϕ(x)Tϕ(xi)=n∑i=1k(x,xj)∑i=1nϕ(x)Tϕ(xi)=∑i=1nk(x,xj). So here we managed to express every dot product of the problem in terms of kernels.
Finally, by letting α=(K+λI)−1yα=(K+λI)−1y (as previously), we obtain ˆy=n∑i=1αik(x,xj)y^=∑i=1nαik(x,xj)
References