คำถามติดแท็ก ridge-regression

วิธีการทำให้เป็นมาตรฐานสำหรับแบบจำลองการถดถอยซึ่งย่อค่าสัมประสิทธิ์เป็นศูนย์

3
เมื่อใดที่ฉันควรใช้บ่วงบาศกับสันเขา?
กล่าวว่าฉันต้องการประมาณค่าพารามิเตอร์จำนวนมากและฉันต้องการลงโทษบางส่วนเพราะฉันเชื่อว่าพวกเขาควรมีผลเพียงเล็กน้อยเมื่อเทียบกับคนอื่น ฉันจะตัดสินใจว่าจะใช้รูปแบบการลงโทษได้อย่างไร การถดถอยของสันเขาจะเหมาะสมกว่าเมื่อใด เมื่อใดที่ฉันควรใช้บ่วงบาศ

6
ทำไม L1 จึงเป็นแบบอย่างสำหรับรุ่นที่กระจัดกระจาย
ฉันกำลังอ่านหนังสือเกี่ยวกับการถดถอยเชิงเส้น มีประโยคบางส่วนเกี่ยวกับบรรทัดฐาน L1 และ L2 ฉันรู้ว่าพวกเขาเพียงแค่ไม่เข้าใจว่าทำไมมาตรฐาน L1 สำหรับรุ่นที่กระจัดกระจาย ใครสามารถใช้คำอธิบายง่ายๆ?

2
เมื่อใดจึงควรใช้วิธีการทำให้เป็นมาตรฐานสำหรับการถดถอย
ในสถานการณ์ใดที่เราควรพิจารณาใช้วิธีการทำให้เป็นมาตรฐาน (สันเขา, บาศหรือการถดถอยมุมน้อยที่สุด) แทนที่จะเป็น OLS? ในกรณีนี้จะช่วยคัดท้ายการสนทนาความสนใจหลักของฉันคือการปรับปรุงความแม่นยำในการทำนาย

2
เหตุใดการถดถอยของสันจึงเรียกว่า“ สันเขา” ทำไมมันถึงต้องการและอะไรจะเกิดขึ้นเมื่อไปไม่มีที่สิ้นสุด?
การประมาณค่าสัมประสิทธิ์การถดถอยริดจ์เป็นค่าที่ลดค่าβ^Rβ^R\hat{\beta}^R RSS+λ∑j=1pβ2j.RSS+λ∑j=1pβj2. \text{RSS} + \lambda \sum_{j=1}^p\beta_j^2. คำถามของฉันคือ: หากเราจะเห็นว่านิพจน์ด้านบนลดลงเป็น RSS ปกติ เกิดอะไรขึ้นถ้า ? ฉันไม่เข้าใจคำอธิบายในตำราของพฤติกรรมของสัมประสิทธิ์λ=0λ=0\lambda = 0λ→∞λ→∞\lambda \to \infty เพื่อช่วยในการทำความเข้าใจแนวคิดเบื้องหลังคำเฉพาะทำไมคำที่เรียกว่าการถดถอย RIDGE? (ทำไมต้องริดจ์?) และมีอะไรผิดปกติกับการถดถอยปกติ / ทั่วไปที่มีความต้องการที่จะแนะนำแนวคิดใหม่ที่เรียกว่าการถดถอยของสันเขา? ข้อมูลเชิงลึกของคุณจะดีมาก

5
มุมมองแบบรวมเกี่ยวกับการหดตัว: ความสัมพันธ์ (ถ้ามี) ระหว่างความขัดแย้งของสไตน์การถดถอยของสันเขาและผลกระทบแบบสุ่มในแบบผสมคืออะไร?
พิจารณาสามปรากฏการณ์ต่อไปนี้ ความขัดแย้งของสไตน์: ได้รับข้อมูลจากการแจกแจงปกติหลายตัวแปรในค่าเฉลี่ยตัวอย่างไม่ใช่ค่าประมาณที่ดีมากของค่าเฉลี่ยที่แท้จริง เราสามารถได้ค่าประมาณที่มีความคลาดเคลื่อนกำลังสองต่ำกว่าถ้ามีการลดขนาดพิกัดทั้งหมดของค่าเฉลี่ยตัวอย่างไปยังศูนย์ [หรือไปสู่ค่าเฉลี่ยของพวกเขาหรือจริงต่อค่าใด ๆ ถ้าฉันเข้าใจถูกต้อง]Rn,n≥3Rn,n≥3\mathbb R^n, \: n\ge 3 หมายเหตุ: มักจะเป็นสูตรของสไตน์โดยพิจารณาจากจุดข้อมูลเดียว ; โปรดแก้ไขฉันหากนี่เป็นสิ่งสำคัญและสูตรของฉันด้านบนไม่ถูกต้องRnRn\mathbb R^n สันถดถอย: ให้ตัวแปรและตัวแปรอิสระบางตัว , การถดถอยมาตรฐานมีแนวโน้ม เพื่อให้ข้อมูลเหมาะสมและนำไปสู่ประสิทธิภาพที่ไม่ดีตัวอย่าง หนึ่งมักจะสามารถลดการหดตัวโดยอิงต่อศูนย์:YX β = ( X ⊤ X ) - 1 X ⊤ Y β β = ( X ⊤ X + λ ฉัน) - 1 X ⊤ Yyy\mathbf yXX\mathbf …

5
วิธีการหดตัวมีวิธีแก้ปัญหาอย่างไร?
เทศกาลวันหยุดที่มีให้ฉันมีโอกาสที่จะขดตัวถัดไปในกองไฟที่มีองค์ประกอบของการเรียนรู้ทางสถิติ มาจากมุมมองเศรษฐมิติ (บ่อยครั้ง) ฉันมีปัญหาในการเข้าใจการใช้งานของวิธีการหดตัวเช่นการถดถอยสันสัน, เชือกและการถดถอยมุมน้อย (LAR) โดยทั่วไปฉันสนใจในการประมาณค่าพารามิเตอร์ของตัวเองและในการบรรลุความเป็นกลางหรืออย่างน้อยที่สุด วิธีการหดตัวไม่ได้ทำอย่างนั้น สำหรับฉันแล้วดูเหมือนว่าวิธีการเหล่านี้จะใช้เมื่อนักสถิติกังวลว่าฟังก์ชั่นการถดถอยจะตอบสนองต่อตัวทำนายมากเกินไปซึ่งจะถือว่าตัวทำนายนั้นสำคัญกว่า (วัดจากขนาดของสัมประสิทธิ์) มากกว่าที่เป็นจริง กล่าวอีกนัยหนึ่งคือ overfitting แต่โดยทั่วไปแล้ว OLS จะให้การประมาณที่ไม่เอนเอียงและสอดคล้องกัน (เชิงอรรถ) ฉันมักจะดูปัญหาของการไม่ให้ข้อมูลมากไปกว่าการประเมินที่ใหญ่เกินไป ESL กล่าวถึงจุดหลังนี้) การประมาณค่าสัมประสิทธิ์ที่ไม่เอนเอียง / สม่ำเสมอนำไปสู่การทำนายผลลัพธ์ที่ไม่เอนเอียง / สม่ำเสมอ วิธีการหดตัวผลักดันการคาดการณ์ให้ใกล้เคียงกับผลลัพธ์เฉลี่ยมากกว่า OLS ซึ่งดูเหมือนว่าจะทิ้งข้อมูลไว้ในตาราง เพื่อย้ำอีกครั้งฉันไม่เห็นว่าปัญหาวิธีหดตัวกำลังพยายามแก้ไข ฉันพลาดอะไรไปรึเปล่า? เชิงอรรถ: เราต้องการเงื่อนไขการจัดอันดับคอลัมน์แบบเต็มเพื่อระบุค่าสัมประสิทธิ์ สมมติฐานค่าเฉลี่ยเชิงเงื่อนไข / ศูนย์สำหรับข้อผิดพลาดและข้อคาดหวังตามเงื่อนไขเชิงเส้นกำหนดการตีความที่เราสามารถให้กับค่าสัมประสิทธิ์

3
ทำไมสันถึงประเมินได้ดีกว่า OLS ด้วยการเพิ่มค่าคงที่ในแนวทแยง
ฉันเข้าใจว่าการประเมินการถดถอยของสันเขาเป็นที่ลดผลรวมที่เหลือของสแควร์และลดขนาดของββ\betaββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin⁡[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[ \text{RSS} + \lambda \|\beta\|^2_2\big] แต่ผมไม่เข้าใจความสำคัญของความจริงที่ว่าβridgeβridge\beta_\text{ridge}แตกต่างจากβOLSβOLS\beta_\text{OLS}โดยเฉพาะการเพิ่มค่าคงที่ขนาดเล็กเพื่อเส้นทแยงมุมของX'XX′XX′XX'Xอันที่จริง βOLS=(X′X)−1X′yβOLS=(X′X)−1X′y\beta_\text{OLS} = (X'X)^{-1}X'y หนังสือของฉันกล่าวว่าสิ่งนี้ทำให้การประมาณมีเสถียรภาพมากขึ้นเชิงตัวเลข - เพราะเหตุใด ความเสถียรเชิงตัวเลขเกี่ยวข้องกับการหดตัวต่อ 0 ของการประมาณสันหรือไม่หรือเป็นแค่เรื่องบังเอิญ?

2
ทำไมการหดตัวจึงใช้งานได้
เพื่อที่จะแก้ปัญหาของการเลือกแบบจำลองจำนวนของวิธีการ (LASSO, การถดถอยของสันเขา ฯลฯ ) จะลดค่าสัมประสิทธิ์ของตัวแปรทำนายไปทางศูนย์ ฉันกำลังมองหาคำอธิบายที่เข้าใจง่ายว่าทำไมสิ่งนี้จึงปรับปรุงความสามารถในการทำนาย หากผลที่แท้จริงของตัวแปรมีขนาดใหญ่มากทำไมไม่ลดขนาดพารามิเตอร์ส่งผลให้การคาดการณ์แย่ลง?

6
การถดถอยของสันเขาไร้ประโยชน์ในมิติที่สูง ( ) หรือไม่? OLS จะล้มเหลวได้อย่างไร
พิจารณาปัญหาการถดถอยที่ดีเก่ากับพยากรณ์และขนาดของกลุ่มตัวอย่างnภูมิปัญญาปกติคือตัวประมาณค่า OLS จะ overfit และโดยทั่วไปแล้วจะดีกว่าโดยตัวประมาณถดถอยสัน:มันเป็นมาตรฐานที่จะใช้การตรวจสอบข้ามที่จะหาที่ดีที่สุด regularization พารามิเตอร์\ที่นี่ฉันใช้ CV 10 เท่า ปรับปรุงการชี้แจง:เมื่อ , โดย "OLS ตัวประมาณ" ฉันเข้าใจ "ตัวประมาณค่าต่ำสุด - บรรทัดฐาน OLS" ที่กำหนดโดยpppβ = ( X ⊤ X + λ ฉัน) - 1 X ⊤ Y λnnnβ^=(X⊤X+λI)−1X⊤y.β^=(X⊤X+λI)−1X⊤y.\hat\beta = (X^\top X + \lambda I)^{-1}X^\top y.λλ\lambdaβ OLS = ( X ⊤ X ) + …

5
จะหาวิธีการแก้ปัญหาการถดถอยของสันเขาได้อย่างไร?
ฉันกำลังมีปัญหาบางอย่างกับการได้มาของวิธีแก้ปัญหาการถดถอยของสันเขา ฉันรู้วิธีการแก้ปัญหาการถดถอยโดยไม่มีคำศัพท์ β=(XTX)−1XTy.β=(XTX)−1XTy.\beta = (X^TX)^{-1}X^Ty. แต่หลังจากเพิ่มคำศัพท์ L2เข้ากับฟังก์ชั่นค่าใช้จ่ายλ∥β∥22λ‖β‖22\lambda\|\beta\|_2^2 β=(XTX+λI)−1XTy.β=(XTX+λI)−1XTy.\beta = (X^TX + \lambda I)^{-1}X^Ty.


1
การตรวจสอบความถูกต้องไขว้ซ้อนกันเป็นสิ่งที่จำเป็นจริงๆและสามารถสร้างความแตกต่างในทางปฏิบัติเมื่อใด?
เมื่อใช้การตรวจสอบข้ามที่จะทำแบบเลือก (เช่นเช่น hyperparameter จูน) และการประเมินประสิทธิภาพของรูปแบบที่ดีที่สุดควรใช้ซ้อนกันตรวจสอบข้าม ลูปภายนอกคือการประเมินประสิทธิภาพของโมเดลและลูปด้านในคือเลือกโมเดลที่ดีที่สุด รุ่นจะถูกเลือกในชุดฝึกอบรมภายนอก (โดยใช้วง CV ภายใน) และวัดประสิทธิภาพของชุดการทดสอบภายนอกที่สอดคล้องกัน สิ่งนี้ได้รับการพูดคุยและอธิบายในหลาย ๆ หัวข้อ (เช่นที่นี่การฝึกอบรมกับชุดข้อมูลแบบเต็มหลังจากการตรวจสอบข้ามได้หรือไม่ , ดูคำตอบโดย @DikranMarsupial) และชัดเจนสำหรับฉันทั้งหมด การทำเฉพาะการตรวจสอบความถูกต้องไขว้แบบง่าย (ไม่ซ้อนกัน) สำหรับการเลือกทั้งโมเดลและการประมาณประสิทธิภาพสามารถให้ผลการประเมินประสิทธิภาพแบบเอนเอียงในเชิงบวก @DikranMarsupial มีกระดาษ 2010 ว่าหัวข้อนี้ ( ในกว่ากระชับในรุ่นต่อมาการคัดเลือกและการคัดเลือกอคติในการประเมินผลการปฏิบัติงาน ) มาตรา 4.3 ถูกเรียกว่าเป็นมากกว่ากระชับในรุ่นเลือกจริงๆกังวลของแท้ในการปฏิบัติ? - และกระดาษแสดงว่าคำตอบคือใช่ จากทั้งหมดที่กล่าวมาตอนนี้ฉันกำลังทำงานกับหลายตัวแปรการถดถอยหลายสันเขาและฉันไม่เห็นความแตกต่างระหว่าง CV ที่เรียบง่ายและซ้อนกันและ CV ที่ซ้อนกันดังนั้นในกรณีนี้ดูเหมือนว่าเป็นภาระการคำนวณที่ไม่จำเป็น คำถามของฉันคือ: ภายใต้เงื่อนไขใด CV ง่าย ๆ จะให้อคติที่สังเกตได้ซึ่งหลีกเลี่ยงด้วย CV แบบซ้อน? CV ที่ซ้อนกันมีความสำคัญในทางปฏิบัติเมื่อใดและจะไม่สำคัญมากเมื่อไหร่? มีกฎของหัวแม่มือหรือไม่? …

3
จะประมาณค่าพารามิเตอร์การหดตัวใน Lasso หรือการถดถอยสันด้วยตัวแปร> 50K ได้อย่างไร?
ฉันต้องการใช้ Lasso หรือการถดถอยสันสำหรับโมเดลที่มีตัวแปรมากกว่า 50,000 ตัว ฉันต้องการทำเช่นนั้นโดยใช้แพคเกจซอฟต์แวร์ในอาร์ฉันสามารถประมาณการพารามิเตอร์การหดตัว ( )?λλ\lambda การแก้ไข: นี่คือจุดที่ฉันตื่นขึ้นมา: set.seed (123) Y <- runif (1000) Xv <- sample(c(1,0), size= 1000*1000, replace = T) X <- matrix(Xv, nrow = 1000, ncol = 1000) mydf <- data.frame(Y, X) require(MASS) lm.ridge(Y ~ ., mydf) plot(lm.ridge(Y ~ ., mydf, lambda = seq(0,0.1,0.001))) คำถามของฉันคือ: …

2
หากการคาดการณ์มีเพียงความสนใจทำไมต้องใช้บ่วงบาศเหนือสันเขา?
ในหน้า 223 ในบทนำสู่การเรียนรู้เชิงสถิติผู้เขียนสรุปความแตกต่างระหว่างการถดถอยของสันเขาและบ่วง พวกเขาให้ตัวอย่าง (รูปที่ 6.9) เมื่อ "lasso มีแนวโน้มที่จะมีประสิทธิภาพสูงกว่าการถดถอยสันในแง่ของอคติความแปรปรวนและ MSE" ฉันเข้าใจว่าทำไมบ่วงบาศจึงเป็นที่ต้องการ: มันส่งผลให้เกิดการแก้ปัญหาแบบเบาบางเนื่องจากมันลดค่าสัมประสิทธิ์จำนวนมากเป็น 0 ทำให้เกิดแบบจำลองที่เข้าใจง่าย แต่ฉันไม่เข้าใจว่ามันจะทำได้ดีกว่าสันเขาเมื่อมีเพียงการคาดการณ์เท่านั้นที่มีความสนใจ (เช่นมันจะทำให้ MSE ลดลงอย่างมีนัยสำคัญในตัวอย่างได้อย่างไร) ด้วยสันเขาหากนักทำนายหลายคนแทบไม่ส่งผลกระทบต่อการตอบสนอง (โดยมีผู้ทำนายไม่กี่คนที่มีเอฟเฟกต์ขนาดใหญ่) สัมประสิทธิ์ของพวกเขาจะไม่ถูกย่อเป็นจำนวนเล็ก ๆ ใกล้กับศูนย์มาก ... ? แล้วทำไมรุ่นสุดท้ายถึงมีประสิทธิภาพแย่กว่าเชือก

2
การทำตาข่ายสุทธิแบบยืดหยุ่นคืออะไรและจะแก้ไขข้อเสียของ Ridge (
การปรับสภาพสุทธิแบบยืดหยุ่นเป็นที่นิยมของ Lasso & Ridge เสมอเนื่องจากดูเหมือนว่าจะแก้ไขข้อเสียของวิธีการเหล่านี้ สัญชาตญาณคืออะไรและอะไรคือคณิตศาสตร์ที่อยู่เบื้องหลังตาข่ายยืดหยุ่น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.