ความสัมพันธ์ระหว่างการถดถอยของสันเขากับการถดถอย PCA


19

ฉันจำได้ว่ามีการอ่านการเชื่อมต่อระหว่างสันเขา (กับการทำให้เป็นมาตรฐาน2 ) และการถดถอย PCA: ในขณะที่ใช้การถดถอยปกติกับ hyperparameterถ้าแล้วการถดถอยนั้นเทียบเท่ากับการลบ ตัวแปร PC ที่มีค่าลักษณะเฉพาะน้อยที่สุด λ λ →การ02λλ0

  • ทำไมเรื่องนี้ถึงเป็นจริง?
  • สิ่งนี้เกี่ยวข้องกับกระบวนการเพิ่มประสิทธิภาพหรือไม่ ฉันจะคาดหวังให้เทียบเท่ากับ OLS อย่างไร้เดียงสา
  • ใครบ้างมีการอ้างอิงสำหรับเรื่องนี้?

1
คุณช่วยอธิบายวิธีการเชื่อมโยง PCA และการถดถอยให้ชัดเจนขึ้นได้อย่างไร การถดถอยนั้นขึ้นอยู่กับตัวแปรอิสระในขณะที่ไม่มีการเรียงลำดับใด ๆ ใน PCA แล้วคุณใช้ตัวแปร PCA กับอะไร มันไม่สามารถเป็นเพียงตัวแปรอิสระเพราะมันมีส่วนเกี่ยวข้องกับการถดถอยเล็กน้อย แต่ถ้ามันใช้กับตัวแปรทั้งหมดแล้ว eigenvector ก็คือการรวมกันเชิงเส้นของพวกมันทั้งหมด มันอาจหมายถึงสิ่งที่อาจจะลบใด ๆองค์ประกอบดังกล่าวจากชุดเพราะมันเกี่ยวข้องกับตัวแปรตาม?
whuber

1
การเชื่อมต่อ (เท่าที่ฉันเข้าใจ) ก็คือถ้าคุณใช้การปรับให้เป็นมาตรฐานเล็กน้อยมากการถดถอยปกติ L2 จะเป็นการลบตัวแปรที่มีค่าลักษณะเฉพาะน้อยที่สุด ดังนั้นการทำ SVD บนเมทริกซ์การออกแบบและการลบตัวแปรด้วยค่าลักษณะเฉพาะที่เล็กที่สุดนั้นเทียบเท่ากับการถดถอยที่มีโทษแบบ "นุ่มนวล" ... นี่เป็นคำอธิบายที่ใกล้เคียงที่สุดที่ฉันพบ: sites.stat.psu edu / ~ jiali / course / stat597e / notes2 / lreg.pdf
Jose G

3
การอ้างอิงของคุณดูเหมือนจะแสดงสิ่งที่ตรงกันข้ามกับสิ่งที่คุณพูดในความคิดเห็นของคุณ: สำหรับขนาดเล็กλมีการเปลี่ยนแปลงเล็กน้อยในผลลัพธ์ ไม่มีอะไรถูกลบเลย ในความเป็นจริงสไลด์หลาย ๆ ตัวดูเหมือนจะชี้ให้เห็นถึงความแตกต่างระหว่างการถดถอยL2ถูกลงโทษ (ซึ่งการประมาณการลดลงเหลือ0 ) และ "การถดถอย PCA" (ซึ่งองค์ประกอบที่เล็กที่สุดจะถูกลบออกทั้งหมด - ซึ่งอาจเป็นสิ่งที่แย่มาก บางสถานการณ์)
whuber

2
อืม .. พบการอ้างอิงอื่น: statweb.stanford.edu/~owen/courses/305/Rudyregularization.pdf ในสไลด์ " และส่วนประกอบหลัก" มันบอกว่า ridge ถดถอยโครงการ y บนองค์ประกอบเหล่านี้ด้วย dj ขนาดใหญ่ * ถอนหายใจ *yridge
Jose G

3
คุณสังเกตเห็นว่าหน้า 14 ข้ออ้างอิงล่าสุดตอบคำถามของคุณอย่างชัดเจนหรือไม่
whuber

คำตอบ:


23

ให้เป็นศูนย์กลางn × Pเมทริกซ์ทำนายและพิจารณาความคุ้มค่าจากการสลายตัวเอกพจน์X = U S VกับSเป็นเมทริกซ์ทแยงมุมกับองค์ประกอบในแนวทแยง sฉันXn×pX=USVSsi

ค่าติดตั้งของสี่เหลี่ยมน้อยสามัญ (OLS) ถดถอยจะได้รับจากY O L S = X β O L S = X ( XX ) - 1 XY = U U Y ค่าติดตั้งของการถดถอยสันจะได้รับจากY r ฉันวันที่กรัมE = X β r ฉันd กรัมE = X ( XX

y^OLS=XβOLS=X(XX)1Xy=UUy.
ค่าติดตั้งของ PCA ถดถอย (PCR) กับkส่วนประกอบจะได้รับจาก Y PCR=XPCβPCR=U
y^ridge=Xβridge=X(XX+λI)1Xy=Udiag{si2si2+λ}Uy.
kที่มี kคนตามด้วยเลขศูนย์
Y^PR=XPAβPR=ยูdผมaก.{1,...,1,0,...0}ยูY,
k

จากที่นี่เราจะเห็นว่า:

  1. ถ้าแล้วY R ฉันd กรัมE = Y O L Sλ=0Y^Rผมdก.อี=Y^OLS

  2. λ>0sผมsผม2λ

  3. kλ=0kλ=

  4. ซึ่งหมายความว่าการถดถอยของสันสามารถมองได้ว่าเป็น "เวอร์ชั่นต่อเนื่อง" ของ PCR

    sผมX

  5. การถดถอยบนสันมีแนวโน้มที่จะทำงานได้ดีขึ้นในทางปฏิบัติ (เช่นมีประสิทธิภาพที่ผ่านการตรวจสอบความถูกต้องสูงกว่า)

  6. λ0Y^Rผมdก.อีY^OLSsผม

การอ้างอิงที่ดีอย่างหนึ่งคือองค์ประกอบของการเรียนรู้เชิงสถิติส่วนที่ 3.4.1 "การถดถอยแนว"


ดูเพิ่มเติมที่เธรดนี้: การตีความการทำให้เป็นมาตรฐานของสันเขาในการถดถอยและโดยเฉพาะคำตอบของ @BrianBorchers


sผม-βLอีasเสื้อ-sQยูaRอีs

k
ยูวินิจฉัย(11,12,...,1k,0,...,0)ยูTY

นี่คือสิ่งที่สวยงาม
xxx222

6

องค์ประกอบของการเรียนรู้ทางสถิติมีการอภิปรายที่ดีเกี่ยวกับการเชื่อมต่อ

วิธีที่ฉันตีความการเชื่อมต่อและตรรกะนี้เป็นดังนี้:

  • PCA เป็นการรวมกันแบบเส้นตรงของตัวแปรคุณลักษณะพยายามเพิ่มความแปรปรวนของข้อมูลที่อธิบายโดยพื้นที่ใหม่
  • ข้อมูลที่ทนทุกข์ทรมานจากความหลากสี (หรือตัวทำนายมากกว่าแถวข้อมูล) นำไปสู่เมทริกซ์ความแปรปรวนร่วมที่ไม่มีอันดับเต็ม
  • ด้วยเมทริกซ์ความแปรปรวนร่วมนี้เราไม่สามารถกลับไปหาวิธีแก้ปัญหากำลังสองน้อยที่สุดได้ สิ่งนี้ทำให้การประมาณค่าตัวเลขของสัมประสิทธิ์กำลังสองน้อยที่สุดจะเพิ่มขึ้นจนถึงระยะอนันต์
  • การถดถอยของสันนำเสนอบทลงโทษแลมบ์ดาใน Covariance Matrix เพื่ออนุญาตให้เมทริกซ์ผกผันและการลู่เข้าของสัมประสิทธิ์ LS

การเชื่อมต่อ PCA คือ Ridge Regression กำลังคำนวณการรวมตัวเชิงเส้นของคุณสมบัติเพื่อกำหนดตำแหน่งที่เกิดความสัมพันธ์แบบหลายจุด การรวมคุณสมบัติเชิงเส้น (การวิเคราะห์องค์ประกอบหลัก) ที่มีความแปรปรวนน้อยที่สุด (และด้วยเหตุนี้ค่าเอกพจน์ที่น้อยลงและค่าลักษณะเฉพาะที่มีขนาดเล็กลงใน PCA) จึงเป็นการลงโทษที่ยากที่สุด

คิดแบบนี้ สำหรับชุดค่าผสมเชิงเส้นของคุณลักษณะที่มีความแปรปรวนน้อยที่สุดเราได้พบคุณลักษณะที่เหมือนกันมากที่สุด เนื่องจาก Ridge ไม่ลดชุดคุณลักษณะไม่ว่าทิศทางใดที่ชุดค่าผสมเชิงเส้นนี้จะอธิบายคุณสมบัติดั้งเดิมที่สอดคล้องกับทิศทางนั้นจะถูกลงโทษมากที่สุด


2

Xβ=Y,
X
X=ยูSVT,
S=วินิจฉัย(sผม)

β

βOLS=VS-1ยูT
sผม

S-1β

Sสันเขา-1=วินิจฉัย(sผมsผม2+α),βสันเขา= VSสันเขา-1ยูT

S-1

SPCA-1=วินิจฉัย(1sผมθ(sผม-γ)),βPCA= VSPCA-1ยูT
θγ

ทั้งสองวิธีจึงลดผลกระทบของ subspaces ที่สอดคล้องกับค่าขนาดเล็ก PCA ทำอย่างนั้นในขณะที่สันเขาเป็นวิธีที่นุ่มนวลกว่า

SmyReg-1=วินิจฉัย(R(sผม)),
R(x)x0R(x)x-1x

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.