คำถามติดแท็ก ridge-regression

วิธีการทำให้เป็นมาตรฐานสำหรับแบบจำลองการถดถอยซึ่งย่อค่าสัมประสิทธิ์เป็นศูนย์

1
มีเงื่อนไขที่ชัดเจนภายใต้เส้นทางบ่วงบาศริดจ์หรืออีลาสติกที่ยืดหยุ่นเป็นโมโนโทนหรือไม่?
คำถามที่จะสรุปจากพล็อต Lasso นี้ (glmnet)แสดงให้เห็นถึงเส้นทางการแก้ปัญหาสำหรับ Lasso Estimatorที่ไม่ใช่แบบโมโนโทนิก นั่นคือบางส่วนของเมล็ดกาแฟเติบโตในค่าสัมบูรณ์ก่อนที่จะหดตัว ฉันใช้โมเดลเหล่านี้กับชุดข้อมูลหลายประเภทและไม่เคยเห็นพฤติกรรมนี้ "ในป่า" และจนถึงทุกวันนี้ได้สันนิษฐานว่าพวกเขามักพูดซ้ำซาก มีเงื่อนไขที่ชัดเจนซึ่งรับประกันว่าเส้นทางของโซลูชันจะเป็นเสียงเดียวหรือไม่? มันมีผลต่อการตีความผลลัพธ์หรือไม่หากเส้นทางเปลี่ยนทิศทาง?

3
ฉันจะประเมินข้อผิดพลาดมาตรฐานสัมประสิทธิ์ได้อย่างไรเมื่อใช้การถดถอยแบบสัน
ฉันใช้การถดถอยแบบสันบนข้อมูลที่มีค่าหลายระดับสูง ใช้ OLS ฉันได้รับข้อผิดพลาดมาตรฐานขนาดใหญ่ในค่าสัมประสิทธิ์เนื่องจากความหลากหลายทางชีวภาพ ฉันรู้ว่าการถดถอยของสันเขาเป็นวิธีการจัดการกับปัญหานี้ แต่ในการนำไปใช้ทั้งหมดของการถดถอยสันที่ฉันได้ดูไม่มีข้อผิดพลาดมาตรฐานที่รายงานสำหรับสัมประสิทธิ์ ฉันต้องการประเมินว่าการถดถอยของสันเขาช่วยได้มากน้อยเพียงใดโดยดูว่ามันลดความผิดพลาดมาตรฐานของสัมประสิทธิ์ที่เฉพาะเจาะจงได้อย่างไร มีวิธีการประเมินพวกเขาในการถดถอยสัน?

1
ความแตกต่างระหว่าง Primal, Dual และ Kernel Ridge Regression
ความแตกต่างระหว่างPrimal , DualและKernel Ridge Regression คืออะไร? ผู้คนกำลังใช้ทั้งสามและเนื่องจากความแตกต่างของสัญลักษณ์ที่ทุกคนใช้ในแหล่งที่แตกต่างกันเป็นเรื่องยากสำหรับฉันที่จะติดตาม ดังนั้นใครบางคนสามารถบอกฉันด้วยคำพูดง่ายๆสิ่งที่แตกต่างระหว่างสามคนนี้คืออะไร? นอกจากนี้สิ่งที่อาจเป็นข้อดีหรือข้อเสียของแต่ละคนและสิ่งที่มีความซับซ้อนของพวกเขา?

2
ทำไมตัวแยกประเภทการถดถอยของริดจ์ทำงานได้ค่อนข้างดีสำหรับการจัดประเภทข้อความ
ในระหว่างการทดสอบการจำแนกข้อความฉันพบว่าตัวจําแนกประเภทสันเขาสร้างผลลัพธ์ที่ยอดการทดสอบอย่างต่อเนื่องระหว่างตัวจําแนกเหล่านั้นซึ่งถูกกล่าวถึงมากขึ้นและถูกนําไปใช้ในงานการขุดข้อความเช่น SVM, NB, kNN เป็นต้น ในการเพิ่มประสิทธิภาพลักษณนามแต่ละตัวในงานการจัดหมวดหมู่ข้อความเฉพาะนี้ยกเว้นการปรับแต่งง่าย ๆ เกี่ยวกับพารามิเตอร์ ผลดังกล่าวยังได้กล่าวถึงDikran กระเป๋า ไม่ได้มาจากภูมิหลังทางสถิติหลังจากอ่านผ่านสื่อออนไลน์ฉันยังไม่สามารถหาสาเหตุหลักของเรื่องนี้ได้ มีใครให้ข้อมูลเชิงลึกเกี่ยวกับผลลัพธ์ดังกล่าวบ้าง

3
ใช้การทำให้เป็นมาตรฐานเมื่อทำการอนุมานเชิงสถิติ
ฉันรู้เกี่ยวกับประโยชน์ของการทำให้เป็นปกติเมื่อสร้างแบบจำลองการทำนาย (อคติกับความแปรปรวนป้องกันการโอเวอร์) แต่ฉันสงสัยว่ามันเป็นความคิดที่ดีหรือไม่ที่จะทำการทำให้เป็นมาตรฐาน (lasso, ridge, elastic net) เมื่อจุดประสงค์หลักของแบบจำลองการถดถอยนั้นอนุมานถึงสัมประสิทธิ์ ฉันชอบที่จะได้ยินความคิดของผู้คนรวมถึงลิงก์ไปยังวารสารทางวิชาการหรือบทความที่ไม่ใช่ด้านวิชาการที่กล่าวถึงเรื่องนี้

2
LASSO และสันเขาจากมุมมองแบบเบย์: แล้วพารามิเตอร์การจูนล่ะ?
การประมาณค่าถดถอยแบบปรับโทษเช่น LASSO และสันถูกกล่าวว่าสอดคล้องกับตัวประมาณแบบเบย์กับนักบวชบางคน ฉันเดา (เนื่องจากฉันไม่ทราบเกี่ยวกับสถิติของ Bayesian มากพอ) ว่าสำหรับพารามิเตอร์การปรับค่าคงที่มีรูปธรรมที่สอดคล้องกันมาก่อน ตอนนี้ผู้ใช้งานประจำจะปรับพารามิเตอร์การปรับให้เหมาะสมโดยการตรวจสอบข้าม มีสิ่งที่เทียบเท่ากับการทำแบบเบย์หรือไม่และมีการนำมาใช้ทั้งหมดหรือไม่? หรือวิธีการแบบเบย์แก้ไขพารามิเตอร์การจูนอย่างมีประสิทธิภาพก่อนที่จะเห็นข้อมูลหรือไม่? (ฉันเดาว่าหลังจะเป็นอันตรายต่อประสิทธิภาพการทำนาย)

3
การใช้การถดถอยของสันเขา: การเลือกกริดอัจฉริยะสำหรับ ?
ฉันกำลังใช้ Ridge Regression ในโมดูล Python / C และฉันเจอปัญหา "น้อย" นี้ แนวคิดก็คือฉันต้องการตัวอย่างองศาอิสระที่มีประสิทธิภาพมากกว่าหรือน้อยกว่าระยะห่างเท่ากัน (เช่นพล็อตในหน้า 65 ใน "องค์ประกอบของการเรียนรู้ทางสถิติ" ) เช่นตัวอย่าง: ที่เป็นค่าลักษณะเฉพาะของเมทริกซ์จากเพื่อ P วิธีง่ายๆในการตั้งค่าขีด จำกัด แรกคือให้ (สมมติว่า\ lambda _ {\ max} \ gg d_i ^ 2 ) โดยที่cdf(λ)=∑i=1pd2id2i+λ,df(λ)=∑i=1pdi2di2+λ,\mathrm{df}(\lambda)=\sum_{i=1}^{p}\frac{d_i^2}{d_i^2+\lambda},d2idi2d_i^2XTXXTXX^TXdf(λmax)≈0df(λmax)≈0\mathrm{df}(\lambda_{\max})\approx 0df(λmin)=pdf(λmin)=p\mathrm{df}(\lambda_{\min})=pλmax=∑pid2i/cλmax=∑ipdi2/c\lambda_{\max}=\sum_i^p d_i^2/cλmax≫d2iλmax≫di2\lambda_{\max} \gg d_i^2cccเป็นค่าคงที่ขนาดเล็กและแสดงถึงระดับอิสระขั้นต่ำที่คุณต้องการสุ่มตัวอย่าง (เช่นc=0.1c=0.1c=0.1 ) ขีด จำกัด ที่สองเป็นของหลักสูตรλmin=0λmin=0\lambda_{\min}=0 0 ตามชื่อเรื่องแล้วฉันต้องตัวอย่างλλ\lambdaจากλminλmin\lambda_{\min}ถึงλmaxλmax\lambda_{\max}ในระดับหนึ่งซึ่งdf(λ)df(λ)\mathrm{df}(\lambda)ถูกสุ่มตัวอย่าง (โดยประมาณ) พูดใน0.10.10.1ช่วงจากcccถึงppp ... มีวิธีง่ายๆในการทำเช่นนี้หรือไม่? ฉันคิดว่าการแก้สมการdf(λ)df(λ)\mathrm{df}(\lambda)สำหรับแต่ละλλ\lambdaโดยใช้วิธี …

2
เหตุใด Lasso หรือ ElasticNet จึงทำงานได้ดีกว่า Ridge เมื่อฟีเจอร์นั้นสัมพันธ์กัน
ฉันมีฟีเจอร์ 150 ชุดและส่วนใหญ่มีความสัมพันธ์ซึ่งกันและกัน เป้าหมายของฉันคือการทำนายค่าของตัวแปรที่ไม่ต่อเนื่องซึ่งเป็นช่วง1-8 ขนาดตัวอย่างของฉันคือ550และฉันใช้การตรวจสอบความถูกต้องข้าม10 เท่า AFAIK ในบรรดาวิธีการทำให้เป็นมาตรฐาน (Lasso, ElasticNet และ Ridge) Ridge มีความเข้มงวดมากขึ้นในการเชื่อมโยงระหว่างคุณลักษณะต่างๆ นั่นคือเหตุผลที่ฉันคาดว่าด้วย Ridge ฉันควรได้คำทำนายที่แม่นยำยิ่งขึ้น อย่างไรก็ตามผลลัพธ์ของฉันแสดงว่าค่าคลาดเคลื่อนสัมบูรณ์เฉลี่ยของ Lasso หรือ Elastic อยู่ที่ประมาณ0.61ในขณะที่คะแนนนี้เท่ากับ0.97สำหรับการถดถอยของสัน ฉันสงสัยว่าอะไรจะเป็นคำอธิบายสำหรับสิ่งนี้ นี่เป็นเพราะฉันมีคุณสมบัติมากมายและ Lasso ทำงานได้ดีขึ้นเพราะทำให้การเลือกคุณสมบัติเรียงลำดับโดยกำจัดคุณสมบัติที่ซ้ำซ้อนออกไป

1
การย้อนกลับของการถดถอยสัน: รับเมทริกซ์การตอบสนองและค่าสัมประสิทธิ์การถดถอยค้นหาตัวทำนายที่เหมาะสม
พิจารณาปัญหาการถดถอย OLS มาตรฐาน\newcommand{\Y}{\mathbf Y}\newcommand{\X}{\mathbf X}\newcommand{\B}{\boldsymbol\beta}\DeclareMathOperator*{argmin}{argmin}: ฉันมีเมทริกซ์YY\YและXX\Xและฉันต้องการหาเพื่อลด โซลูชันได้รับโดย\ hat \ B = \ argmin_ \ B \ {L \} = (\ X ^ \ top \ X) ^ + \ X ^ \ top \ Yββ\B β = argmin β { L } = ( X ⊤ X ) + X …

2
ทำไมการถดถอยของสันเขาถึงไม่ลดทอนสัมประสิทธิ์ให้เป็นศูนย์อย่างเช่นบ่วงบาศ?
เมื่ออธิบายการถดถอยของ LASSO ไดอะแกรมของเพชรและวงกลมมักถูกนำมาใช้ ได้มีการกล่าวกันว่าเนื่องจากรูปร่างของข้อ จำกัด ใน LASSO เป็นเพชรวิธีแก้ปัญหาที่น้อยที่สุดที่ได้รับอาจแตะที่มุมของเพชรเพื่อให้เกิดการหดตัวของตัวแปรบางตัว อย่างไรก็ตามในการถดถอยของสันเขาเนื่องจากมันเป็นวงกลมมันมักจะไม่ได้สัมผัสกับแกน ฉันไม่เข้าใจว่าทำไมมันไม่สามารถแตะแกนหรืออาจมีความน่าจะเป็นต่ำกว่า LASSO เพื่อลดขนาดพารามิเตอร์บางอย่าง ทำไม LASSO และสันถึงมีความแปรปรวนต่ำกว่าสี่เหลี่ยมจัตุรัสน้อยที่สุด? ข้างต้นคือความเข้าใจของฉันเกี่ยวกับสันและ LASSO และฉันอาจผิด ใครสามารถช่วยฉันเข้าใจว่าทำไมวิธีการถดถอยทั้งสองนี้จึงมีความแปรปรวนต่ำกว่า

1
ภายใต้เงื่อนไขอะไรคือการถดถอยสันสามารถให้การปรับปรุงมากกว่าการถดถอยกำลังสองน้อยที่สุดธรรมดาได้?
สันเขาถดถอยประมาณการพารามิเตอร์ในแบบจำลองเชิงเส้นโดย\ hat {\ boldsymbol \ beta} _ \ lambda = (\ mathbf X ^ \ top \ mathbf X + \ lambda \ mathbf I) ^ {- 1} \ mathbf X ^ \ top \ mathbf y โดยที่\ lambdaเป็นพารามิเตอร์การทำให้เป็นมาตรฐาน เป็นที่ทราบกันดีว่ามันมักจะทำงานได้ดีกว่าการถดถอย OLS (ด้วย\ lambda = 0 ) เมื่อมีตัวทำนายที่สัมพันธ์กันจำนวนมากββ\boldsymbol \betay=Xβy=Xβ\mathbf y = …

1
อะไรคือช่วงปกติของค่าที่เป็นไปได้สำหรับพารามิเตอร์การหดตัวในการถดถอยเชิงลงโทษ
ในเชือกหรือสันเขาถดถอยหนึ่งมีการระบุพารามิเตอร์การหดตัวโดยมักจะเรียกว่าหรือ\ค่านี้มักถูกเลือกผ่านการตรวจสอบความถูกต้องของข้อมูลโดยการตรวจสอบค่าต่าง ๆ เกี่ยวกับข้อมูลการฝึกอบรมและดูว่าค่าใดให้ผลดีที่สุดเช่นจากข้อมูลการทดสอบ ช่วงหนึ่งของค่าควรตรวจสอบคืออะไร? มันเป็น ?λλ\lambdaαα\alphaR2R2R^2( 0 , 1 )(0,1)(0,1)

2
ทำไมการหดตัวจึงใช้งานได้จริงมีอะไรพิเศษเกี่ยวกับ 0
มีการโพสต์ในเว็บไซต์นี้แล้วพูดคุยเกี่ยวกับปัญหาเดียวกัน: ทำไมการหดตัวทำงานอย่างไร แต่ถึงแม้ว่าคำตอบจะได้รับความนิยม แต่ฉันไม่เชื่อว่าส่วนสำคัญของคำถามจะได้รับการแก้ไข ค่อนข้างชัดเจนว่าการแนะนำอคติบางอย่างในการประมาณค่าช่วยลดความแปรปรวนและอาจปรับปรุงคุณภาพการประมาณค่า อย่างไรก็ตาม: 1) ทำไมความเสียหายที่เกิดขึ้นจากการแนะนำมีอคติน้อยกว่าเมื่อเทียบกับการได้รับความแปรปรวน 2) ทำไมมันใช้งานได้เสมอ? ตัวอย่างเช่นในกรณีของการถดถอยสัน: ทฤษฎีบทการดำรงอยู่ 3) อะไรที่น่าสนใจเกี่ยวกับ 0 (ต้นกำเนิด) เห็นได้ชัดว่าเราสามารถหดได้ทุกที่ที่เราชอบ (เช่นตัวประมาณสไตน์ ) แต่มันจะทำงานได้ดีเท่าที่มา? 4) ทำไมรูปแบบการเข้ารหัสสากลที่หลากหลายจึงต้องการบิตที่น้อยลงรอบจุดกำเนิด? มีสมมติฐานเหล่านี้ก็น่าจะเป็นมากขึ้นหรือไม่ คำตอบที่มีการอ้างอิงถึงทฤษฎีบทที่พิสูจน์แล้วหรือผลที่คาดหวัง

1
การทำให้เป็นมาตรฐานสำหรับโมเดล ARIMA
ฉันตระหนักถึง LASSO, สันและชนิดยืดหยุ่นสุทธิของการทำให้เป็นระเบียบในแบบจำลองการถดถอยเชิงเส้น คำถาม: การประมาณแบบลงโทษนี้ (หรือคล้ายกัน) สามารถนำไปใช้กับแบบจำลอง ARIMA (ที่มีส่วน MA ที่ไม่ว่างเปล่า) ได้หรือไม่? pmaxpmaxp_{max}qmaxqmaxq_{max}p⩽pmaxp⩽pmaxp \leqslant p_{max}q⩽qmaxq⩽qmaxq \leqslant q_{max} คำถามเพิ่มเติมของฉันคือ: เราสามารถรวมคำทั้งหมดได้สูงสุด ( , ) แต่จะลงโทษขนาดของสัมประสิทธิ์ (อาจเป็นไปได้จนหมดศูนย์) มันสมเหตุสมผลไหมpmaxpmaxp_{max}qmaxqmaxq_{max} ถ้าเป็นเช่นนั้นมีการนำไปใช้ใน R หรือซอฟต์แวร์อื่น ๆ หรือไม่? ถ้าไม่ปัญหาคืออะไร โพสต์ที่เกี่ยวข้องบ้างที่สามารถพบได้ที่นี่

1
การถดถอยในการตั้งค่า
ฉันพยายามดูว่าจะไปถดถอยสัน , เชือก , หลักถดถอยส่วนประกอบ (PCR) หรือสแควน้อยบางส่วน (PLS) ในสถานการณ์ที่มีจำนวนมากของตัวแปร / คุณสมบัติ ( ) และขนาดเล็กจำนวนตัวอย่าง ( n < p ) และเป้าหมายของฉันคือการทำนายpppn<pn<pn np>10np>10np>10n ตัวแปร ( และY ) มีความสัมพันธ์ซึ่งกันและกันด้วยองศาที่ต่างกันXXXYYY คำถามของฉันคือกลยุทธ์ใดที่ดีที่สุดสำหรับสถานการณ์นี้ ทำไม?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.