คำถามติดแท็ก lars

5
วิธีการหดตัวมีวิธีแก้ปัญหาอย่างไร?
เทศกาลวันหยุดที่มีให้ฉันมีโอกาสที่จะขดตัวถัดไปในกองไฟที่มีองค์ประกอบของการเรียนรู้ทางสถิติ มาจากมุมมองเศรษฐมิติ (บ่อยครั้ง) ฉันมีปัญหาในการเข้าใจการใช้งานของวิธีการหดตัวเช่นการถดถอยสันสัน, เชือกและการถดถอยมุมน้อย (LAR) โดยทั่วไปฉันสนใจในการประมาณค่าพารามิเตอร์ของตัวเองและในการบรรลุความเป็นกลางหรืออย่างน้อยที่สุด วิธีการหดตัวไม่ได้ทำอย่างนั้น สำหรับฉันแล้วดูเหมือนว่าวิธีการเหล่านี้จะใช้เมื่อนักสถิติกังวลว่าฟังก์ชั่นการถดถอยจะตอบสนองต่อตัวทำนายมากเกินไปซึ่งจะถือว่าตัวทำนายนั้นสำคัญกว่า (วัดจากขนาดของสัมประสิทธิ์) มากกว่าที่เป็นจริง กล่าวอีกนัยหนึ่งคือ overfitting แต่โดยทั่วไปแล้ว OLS จะให้การประมาณที่ไม่เอนเอียงและสอดคล้องกัน (เชิงอรรถ) ฉันมักจะดูปัญหาของการไม่ให้ข้อมูลมากไปกว่าการประเมินที่ใหญ่เกินไป ESL กล่าวถึงจุดหลังนี้) การประมาณค่าสัมประสิทธิ์ที่ไม่เอนเอียง / สม่ำเสมอนำไปสู่การทำนายผลลัพธ์ที่ไม่เอนเอียง / สม่ำเสมอ วิธีการหดตัวผลักดันการคาดการณ์ให้ใกล้เคียงกับผลลัพธ์เฉลี่ยมากกว่า OLS ซึ่งดูเหมือนว่าจะทิ้งข้อมูลไว้ในตาราง เพื่อย้ำอีกครั้งฉันไม่เห็นว่าปัญหาวิธีหดตัวกำลังพยายามแก้ไข ฉันพลาดอะไรไปรึเปล่า? เชิงอรรถ: เราต้องการเงื่อนไขการจัดอันดับคอลัมน์แบบเต็มเพื่อระบุค่าสัมประสิทธิ์ สมมติฐานค่าเฉลี่ยเชิงเงื่อนไข / ศูนย์สำหรับข้อผิดพลาดและข้อคาดหวังตามเงื่อนไขเชิงเส้นกำหนดการตีความที่เราสามารถให้กับค่าสัมประสิทธิ์

5
การใช้ LASSO จากแพ็คเกจ lars (หรือ glmnet) ใน R เพื่อเลือกตัวแปร
ขออภัยถ้าคำถามนี้เจอพื้นฐานเล็กน้อย ฉันกำลังมองหาที่จะใช้การเลือกตัวแปร LASSO สำหรับตัวแบบการถดถอยเชิงเส้นหลายแบบในอาร์ฉันมีตัวทำนาย 15 ตัวซึ่งหนึ่งในนั้นคือหมวดหมู่ (นั่นจะทำให้เกิดปัญหาหรือไม่) หลังจากตั้งค่าและฉันฉันใช้คำสั่งต่อไปนี้:xxxyyy model = lars(x, y) coef(model) coef(model)ปัญหาของฉันคือเมื่อฉันใช้ สิ่งนี้จะส่งกลับเมทริกซ์ที่มี 15 แถวโดยเพิ่มตัวทำนายพิเศษหนึ่งตัวในแต่ละครั้ง อย่างไรก็ตามไม่มีข้อเสนอแนะว่าควรเลือกรุ่นใด ฉันพลาดอะไรไปหรือเปล่า มีวิธีที่ฉันจะได้รับแพคเกจ lars เพื่อส่งกลับแบบ " ดีที่สุด " เพียงหนึ่งรุ่นหรือไม่? มีโพสต์อื่น ๆ ที่แนะนำให้ใช้glmnetแทน แต่ดูเหมือนจะซับซ้อนกว่านี้ ความพยายามดังต่อไปนี้โดยใช้และเดียวกัน ฉันพลาดอะไรที่นี่ไหม: xxxyyy cv = cv.glmnet(x, y) model = glmnet(x, y, type.gaussian="covariance", lambda=cv$lambda.min) predict(model, type="coefficients") คำสั่งสุดท้ายส่งกลับรายการตัวแปรของฉันส่วนใหญ่มีค่าสัมประสิทธิ์แม้ว่าบาง = 0 นี่เป็นตัวเลือกที่ถูกต้องของรุ่น " …

2
ข้อดีของการทำ "เชือกคู่" หรือทำเชือกสองครั้ง?
ฉันเคยได้ยินวิธีการใช้ lasso สองครั้ง (เช่น double-lasso) ซึ่งคุณทำการ lasso บนชุดตัวแปรดั้งเดิมพูด S1, รับชุด sparse เรียกว่า S2 แล้วทำการ lasso อีกครั้งใน set S2 เพื่อรับ set S3 . มีคำศัพท์วิธีการสำหรับเรื่องนี้หรือไม่? นอกจากนี้ข้อดีของการทำบ่วงบาศสองครั้งคืออะไร?

2
LASSO / LARS เทียบกับวิธีทั่วไป (GETS)
ฉันสงสัยว่าทำไมการเลือกรูปแบบ LASSO และ LARS ถึงได้รับความนิยมถึงแม้ว่าพวกเขาจะเป็นเพียงรูปแบบของการเลือกไปข้างหน้าอย่างชาญฉลาด (และทำให้ต้องพึ่งพาเส้นทาง) ในทำนองเดียวกันทำไม General to Specific (GETT) จึงมีวิธีการในการเลือกรูปแบบเป็นส่วนใหญ่ถึงแม้ว่าพวกเขาจะทำได้ดีกว่า LARS / LASSO เพราะพวกเขาไม่ประสบปัญหาการถดถอยขั้นตอนที่ชาญฉลาด? (การอ้างอิงพื้นฐานสำหรับ GETS: http://www.federalreserve.gov/pubs/ifdp/2005/838/ifdp838.pdf - อัลกอริทึมใหม่ในการเริ่มต้นนี้ด้วยการค้นหาแบบกว้างและแผนผังที่หลีกเลี่ยงการพึ่งพาพา ธ และแสดงให้เห็นถึง มักจะทำได้ดีกว่า LASSO / LARS) ดูเหมือนแปลก ๆ LARS / LASSO ดูเหมือนจะได้รับการเปิดเผยและการอ้างอิงมากกว่า General to Specific (GET) ทุกคนมีความคิดอะไรบ้าง? ไม่พยายามเริ่มการถกเถียงอย่างจริงจังมองหาคำอธิบายที่สมเหตุสมผลว่าทำไมวรรณกรรมดูเหมือนจะให้ความสำคัญกับ LASSO / LARS มากกว่า GET และมีคนเพียงไม่กี่คนที่ชี้ให้เห็นถึงข้อบกพร่องของ LASSO / LARS

2
คำจำกัดความที่แน่นอนของการวัด Deviance ในแพ็คเกจ glmnet พร้อม crossvalidation?
สำหรับการวิจัยปัจจุบันของฉันฉันใช้วิธี Lasso ผ่านแพ็คเกจ glmnet ใน R บนตัวแปรที่ขึ้นกับทวินาม ใน glmnet แลมบ์ดาที่ดีที่สุดจะพบได้ผ่านการตรวจสอบข้ามและแบบจำลองผลลัพธ์สามารถนำมาเปรียบเทียบกับมาตรการต่าง ๆ เช่นข้อผิดพลาดการแบ่งประเภทหรือการเบี่ยงเบน คำถามของฉัน: กำหนด deviance ใน glmnet อย่างไร มันคำนวณอย่างไร (ในกระดาษที่สอดคล้องกัน "เส้นทางการทำให้เป็นมาตรฐานสำหรับโมเดลเชิงเส้นทั่วไปผ่านพิกัดโคตร" โดย Friedman et al. ฉันพบเฉพาะความคิดเห็นนี้เกี่ยวกับการเบี่ยงเบนที่ใช้ใน cv.glmnet: "หมายถึงการเบี่ยงเบน (ลบสองเท่า ข้อมูล) "(หน้า 17))

1
R - Lasso Regression - แลมบ์ดาที่แตกต่างกันต่อการถดถอย
ฉันต้องการทำสิ่งต่อไปนี้: 1) การถดถอย OLS (ไม่มีเงื่อนไขการลงโทษ) เพื่อรับค่าสัมประสิทธิ์เบต้า ; หมายถึงตัวแปรที่ใช้ในการถดถอย ฉันทำสิ่งนี้ด้วยb∗jbj∗b_{j}^{*}jjj lm.model = lm(y~ 0 + x) betas = coefficients(lm.model) 2) การถดถอยของ Lasso ที่มีเงื่อนไขการลงโทษเกณฑ์การคัดเลือกจะต้องเป็นเกณฑ์ข้อมูล Bayesian (BIC) ที่กำหนดโดย λj=log(T)T|b∗j|λj=log⁡(T)T|bj∗|\lambda _{j} = \frac{\log (T)}{T|b_{j}^{*}|} โดยที่หมายถึงหมายเลขตัวแปร / regressor,สำหรับจำนวนการสังเกตและสำหรับ betas เริ่มต้นที่ได้รับในขั้นตอนที่ 1) ฉันต้องการให้ผลลัพธ์การถดถอยสำหรับค่าเฉพาะเจาะจงซึ่งแตกต่างกันสำหรับ regressor แต่ละตัวที่ใช้ ดังนั้นถ้ามีสามตัวแปรจะมีสามค่าที่แตกต่างกัน\jjjTTTb∗jbj∗b_{j}^{*}λjλj\lambda_jλjλj\lambda_j จากนั้นปัญหาการปรับให้เหมาะสมของ OLS-Lasso minbϵRn={∑t=1T(yt−b⊤Xt)2+T∑j=1m(λt|bj|)}minbϵRn={∑t=1T(yt−b⊤Xt)2+T∑j=1m(λt|bj|)}\underset{b\epsilon \mathbb{R}^{n} }{min} = \left \{ \sum_{t=1}^{T}(y_{t}-b^{\top} X_{t} …
11 r  regression  glmnet  lars 
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.