ฉันต้องการค้นหาตัวทำนายสำหรับตัวแปรพึ่งพาต่อเนื่องจากชุดของตัวแปรอิสระ 30 ตัว ฉันใช้ Lasso regression ตามที่นำมาใช้ในแพ็คเกจglmnetใน R ต่อไปนี้เป็นตัวอย่างรหัสจำลอง
# generate a dummy dataset with 30 predictors (10 useful & 20 useless)
y=rnorm(100)
x1=matrix(rnorm(100*20),100,20)
x2=matrix(y+rnorm(100*10),100,10)
x=cbind(x1,x2)
# use crossvalidation to find the best lambda
library(glmnet)
cv <- cv.glmnet(x,y,alpha=1,nfolds=10)
l <- cv$lambda.min
alpha=1
# fit the model
fits <- glmnet( x, y, family="gaussian", alpha=alpha, nlambda=100)
res <- predict(fits, s=l, type="coefficients")
res
คำถามของฉันคือวิธีตีความผลลัพธ์:
ถูกต้องหรือไม่ที่จะบอกว่าในผลลัพธ์สุดท้ายตัวทำนายทั้งหมดที่แสดงสัมประสิทธิ์ที่แตกต่างจากศูนย์นั้นสัมพันธ์กับตัวแปรตามหรือไม่
นั่นจะเป็นรายงานที่เพียงพอในบริบทของการตีพิมพ์วารสารหรือไม่? หรือเป็นที่คาดว่าจะให้สถิติทดสอบสำหรับความสำคัญของสัมประสิทธิ์? (บริบทคือพันธุศาสตร์ของมนุษย์)
การคำนวณค่า p หรือสถิติทดสอบอื่น ๆ มีความสมเหตุสมผลหรือไม่ มันจะเป็นไปได้ยังไง? มีการใช้โพรซีเดอร์ใน R หรือไม่?
พล็อตการถดถอยแบบง่าย (จุดข้อมูลถูกพล็อตแบบพอดี) สำหรับตัวทำนายทุกตัวเป็นวิธีที่เหมาะสมในการมองเห็นข้อมูลนี้หรือไม่?
บางทีใครบางคนสามารถให้ตัวอย่างง่ายๆของบทความที่ตีพิมพ์แสดงการใช้ Lasso ในบริบทของข้อมูลจริงและวิธีการรายงานในวารสาร?
cv
สำหรับขั้นตอนการทำนายด้วยหรือไม่