การถดถอยในการตั้งค่า


15

ฉันพยายามดูว่าจะไปถดถอยสัน , เชือก , หลักถดถอยส่วนประกอบ (PCR) หรือสแควน้อยบางส่วน (PLS) ในสถานการณ์ที่มีจำนวนมากของตัวแปร / คุณสมบัติ ( ) และขนาดเล็กจำนวนตัวอย่าง ( n < p ) และเป้าหมายของฉันคือการทำนายpn<p

นี่คือความเข้าใจของฉัน:

  1. ริดจ์ถดถอยหดค่าสัมประสิทธิ์การถดถอย แต่ใช้ค่าสัมประสิทธิ์ทั้งหมดโดยไม่ต้องทำให้พวกเขา00

  2. LASSOยังลดค่าสัมประสิทธิ์ลง แต่ก็ทำให้พวกมันเป็นซึ่งหมายความว่ามันสามารถทำการเลือกตัวแปรได้เช่นกัน0

  3. การถดถอยองค์ประกอบหลักตัดชิ้นส่วนเพื่อที่จะกลายเป็นน้อยกว่าn ; มันจะทิ้งองค์ประกอบp - npnpn

  4. สี่เหลี่ยมจัตุรัสที่น้อยที่สุดบางส่วนยังสร้างชุดของการรวมเชิงเส้นของอินพุตสำหรับการถดถอย แต่ต่างจาก PCR ที่ใช้ (นอกเหนือจากX ) สำหรับการลดขนาด ความแตกต่างในทางปฏิบัติที่สำคัญระหว่างการถดถอย PCR และ PLS คือ PCR มักต้องการส่วนประกอบมากกว่า PLS เพื่อให้เกิดข้อผิดพลาดในการทำนายเดียวกัน ( ดูที่นี่ )yX

พิจารณาข้อมูลดัมมีดังต่อไปนี้ (ข้อมูลจริงที่ฉันพยายามจะทำงานคล้ายกัน):

#random population of 200 subjects with 1000 variables 

M <- matrix(rep(0,200*100),200,1000)
for (i in 1:200) {
set.seed(i)
  M[i,] <- ifelse(runif(1000)<0.5,-1,1)
}
rownames(M) <- 1:200

#random yvars 
set.seed(1234)
u <- rnorm(1000)
g <- as.vector(crossprod(t(M),u))
h2 <- 0.5 
set.seed(234)
y <- g + rnorm(200,mean=0,sd=sqrt((1-h2)/h2*var(g)))

myd <- data.frame(y=y, M)

การใช้สี่วิธี:

 require(glmnet)

 # LASSO 
 fit1=glmnet(M,y, family="gaussian", alpha=1)

 # Ridge   
 fit1=glmnet(M,y, family="gaussian", alpha=0)

 # PLS
 require(pls)
 fit3 <- plsr(y ~ ., ncomp = 198, data = myd, validation = "LOO")
 # taking 198 components and using leave-one-out cross validation 
 summary(fit3)
 plot(RMSEP(fit3), legendpos = "topright")

 # PCR 
 fit4 <- pcr(y ~ ., ncomp = 198, data = myd, validation = "LOO")

คำอธิบายที่ดีที่สุดของข้อมูลคือ:

  1. ส่วนใหญ่แล้ว p > 10 n ;p>np>10n

  2. ตัวแปร ( และY ) มีความสัมพันธ์ซึ่งกันและกันด้วยองศาที่ต่างกันXY

คำถามของฉันคือกลยุทธ์ใดที่ดีที่สุดสำหรับสถานการณ์นี้ ทำไม?


6
ฉันไม่มีคำตอบเฉพาะหน้า แต่บทที่ 18 ขององค์ประกอบของการเรียนรู้ทางสถิตินั้นอุทิศให้กับหัวข้อนี้และครอบคลุมฉันคิดว่าเทคนิคทั้งหมดที่คุณพูดถึง
shadowtalker


@ssdecontrol ขอบคุณสำหรับหนังสือที่คุณโพสต์ มีประโยชน์มาก
Christina

คำตอบ:


30

ฉันคิดว่าไม่มีคำตอบเดียวสำหรับคำถามของคุณ - ขึ้นอยู่กับสถานการณ์ข้อมูลและสิ่งที่คุณพยายามทำ การปรับเปลี่ยนบางอย่างสามารถหรือควรปรับเปลี่ยนเพื่อให้บรรลุเป้าหมาย อย่างไรก็ตามการสนทนาทั่วไปต่อไปนี้สามารถช่วยได้

ก่อนที่จะกระโดดไปลงในวิธีการที่สูงขึ้นช่วยให้การสนทนาของรูปแบบพื้นฐานแรก: สแควน้อย (LS) ถดถอย มีเหตุผลสองประการที่พารามิเตอร์การประมาณกำลังสองน้อยที่สุดของแบบจำลองเต็มรูปแบบไม่เป็นที่พอใจ:

  1. คุณภาพการทำนาย: การประมาณกำลังสองน้อยที่สุดมักจะมีอคติเล็กน้อย แต่มีความแปรปรวนสูง คุณภาพการทำนายบางครั้งสามารถปรับปรุงได้โดยการลดขนาดของค่าสัมประสิทธิ์การถดถอยหรือโดยการตั้งค่าค่าสัมประสิทธิ์บางค่าเท่ากับศูนย์ วิธีนี้ความลำเอียงเพิ่มขึ้น แต่ความแปรปรวนของการทำนายลดลงอย่างมีนัยสำคัญซึ่งนำไปสู่การทำนายที่ปรับปรุงโดยรวม การแลกเปลี่ยนระหว่างอคติและความแปรปรวนนี้สามารถมองเห็นได้ง่ายโดยการแยกข้อผิดพลาดกำลังสองเฉลี่ย (MSE) MSE ที่เล็กลงนำไปสู่การทำนายค่าใหม่ที่ดีขึ้น

  2. การตีความ : หากมีตัวแปรทำนายจำนวนมากมันก็สมเหตุสมผลที่จะระบุตัวที่มีค่ามากที่สุดและตั้งค่าให้เป็นศูนย์ซึ่งไม่เกี่ยวข้องกับการทำนาย ดังนั้นเราจึงกำจัดตัวแปรที่จะอธิบายรายละเอียดบางอย่างเท่านั้น แต่เราเก็บไว้ซึ่งคำอธิบายที่สำคัญของตัวแปรตอบกลับ

วิธีการเลือกตัวแปรจึงเข้ามาในฉาก ด้วยการเลือกตัวแปรใช้ชุดย่อยของตัวแปรอินพุตทั้งหมดเท่านั้นส่วนที่เหลือจะถูกตัดออกจากโมเดล ที่ดีที่สุดชุดย่อยถดถอย Fi NDS ย่อยของขนาดสำหรับแต่ละk { 0 , 1 , . . , p }ที่ให้ RSS ที่เล็กที่สุด อัลกอริธึมอิเล็กทรอนิกส์เป็นอัลกอริธึมLeaps and Bounds ที่เรียกว่าซึ่งสามารถจัดการตัวแปร regressor ได้สูงถึง30หรือ40ตัว ด้วยชุดข้อมูลที่มีขนาดใหญ่กว่า40kk{0,1,...,p}304040ตัวแปรอินพุตการค้นหาผ่านชุดย่อยที่เป็นไปได้ทั้งหมดจะกลายเป็นไปไม่ได้ ดังนั้นการเลือกแบบขั้นตอนไปข้างหน้าและการเลือกแบบขั้นตอนย้อนหลังจึงเป็นประโยชน์ การเลือกแบบย้อนหลังสามารถใช้ได้เมื่อเพื่อให้มีโมเดลที่ดี ประสิทธิภาพการคำนวณของวิธีการเหล่านี้เป็นที่น่าสงสัยเมื่อpn>ppสูงมาก

ในหลาย ๆ สถานการณ์เรามีอินพุตจำนวนมาก (เป็นของคุณ) ซึ่งมักจะมีความสัมพันธ์สูง (เช่นในกรณีของคุณ) ในกรณีที่มีความสัมพันธ์อย่างมาก regressors, OLS นำไปสู่การพารามิเตอร์ instable ตัวเลขคือไม่น่าเชื่อถือประมาณการ เพื่อหลีกเลี่ยงปัญหานี้เราใช้วิธีการที่ใช้ทิศทางอินพุตที่ได้รับ วิธีการเหล่านี้ผลิตจำนวนเล็ก ๆ ของผลรวมเชิงเส้นZ k , k = 1 , 2 , . . , qของอินพุตดั้งเดิมx jβzk,k=1,2,...,qxjซึ่งถูกใช้เป็นอินพุตในการถดถอย

วิธีการต่างๆในการสร้างชุดค่าผสมเชิงเส้น องค์ประกอบหลักถดถอย (PCR)มองหาการเปลี่ยนแปลงของข้อมูลต้นฉบับในชุดใหม่ของตัวแปร uncorrelated เรียกว่าองค์ประกอบหลัก

yXyXβγγqpXyy

λ0λ

ββ βด้วยการกำหนดข้อ จำกัด ขนาดบนค่าสัมประสิทธิ์ปรากฏการณ์นี้สามารถป้องกันได้

Xpq

Yiความแตกต่างระหว่าง L1 และ L2 ก็คือ L2 คือผลรวมของกำลังสองของน้ำหนักขณะที่ L1 เป็นผลรวมของน้ำหนัก L1-norm มีแนวโน้มที่จะสร้างสัมประสิทธิ์กระจัดกระจายและมีการเลือกคุณสมบัติในตัว L1-norm ไม่มีวิธีวิเคราะห์ แต่ L2-norm ทำ สิ่งนี้ทำให้สามารถคำนวณโซลูชัน L2-norm ได้อย่างมีประสิทธิภาพ L2-norm มีวิธีแก้ปัญหาที่ไม่ซ้ำกันในขณะที่ L1-norm ไม่มี

s0sควรเลือก adaptly เพื่อลดการประมาณการของข้อผิดพลาดการคาดการณ์คาดว่า

pN

การวิเคราะห์องค์ประกอบหลักเป็นวิธีที่มีประสิทธิภาพสำหรับการค้นหาการรวมกันเชิงเส้นของคุณลักษณะที่แสดงชุดรูปแบบขนาดใหญ่ในชุดข้อมูล แต่สิ่งที่เราค้นหาที่นี่คือการผสมผสานแบบเส้นตรงที่มีทั้งความแปรปรวนสูงและความสัมพันธ์อย่างมีนัยสำคัญกับผลลัพธ์ ดังนั้นเราต้องการส่งเสริมการวิเคราะห์องค์ประกอบหลักเพื่อหาชุดค่าผสมเชิงเส้นของคุณสมบัติที่มีความสัมพันธ์สูงกับผลลัพธ์ - องค์ประกอบหลักที่มีการดูแล (ดูหน้า 678, อัลกอริทึม 18.1, ในหนังสือองค์ประกอบของการเรียนรู้ทางสถิติ )

สี่เหลี่ยมจัตุรัสที่น้อยที่สุดบางส่วนลงน้ำหนักจะมีเสียงดัง แต่ไม่ทิ้งไป เป็นผลให้คุณสมบัติที่มีเสียงดังจำนวนมากสามารถปนเปื้อนการคาดการณ์ PLS ที่ จำกัด สามารถดูได้ว่าเป็นองค์ประกอบหลักที่มีการควบคุมดูแลที่มีเสียงดังและด้วยเหตุนี้เราอาจไม่คาดหวังว่ามันจะทำงานได้ดีในทางปฏิบัติ องค์ประกอบหลักภายใต้การดูแลสามารถให้ผลผลิตข้อผิดพลาดการทดสอบต่ำกว่าPLS เกณฑ์ อย่างไรก็ตามมันไม่ได้สร้างแบบจำลองที่กระจัดกระจายที่เกี่ยวข้องกับคุณสมบัติจำนวนเล็กน้อยเท่านั้น

p


1
Bias2+Variance

2
คุณหมายถึงอะไรเมื่อคุณพูดว่า "L2-norm มีวิธีแก้ปัญหาที่ไม่เหมือนกันในขณะที่ L1-norm ไม่มี" วัตถุประสงค์ของบ่วงบาศนั้นโค้งมน ...
Andrew M
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.