สถิติและข้อมูลขนาดใหญ่ regularization

2

ฉันกำลังพยายามปรับตัวแบบการถดถอยเชิงเส้นหลายตัวแปรที่มีตัวแปรทำนาย 60 ตัวและการสังเกต 30 ครั้งดังนั้นฉันจึงใช้แพ็คเกจglmnetสำหรับการถดถอยแบบปกติเพราะ p> n ฉันได้อ่านเอกสารและคำถามอื่น ๆ แล้ว แต่ฉันก็ยังไม่สามารถตีความผลลัพธ์ได้นี่คือตัวอย่างโค้ด (ที่มีตัวทำนาย 20 ตัวและตัวสังเกต 10 ข้อเพื่อลดความซับซ้อน): ฉันสร้างเมทริกซ์ x พร้อมแถว num = การสังเกต num และ num cols = ตัวทำนาย NUM และเวกเตอร์ y ซึ่งแสดงถึงตัวแปรตอบสนอง > x=matrix(rnorm(10*20),10,20) > y=rnorm(10) ฉันพอดีกับรูปแบบ glmnet ที่ปล่อยให้อัลฟาเป็นค่าเริ่มต้น (= 1 สำหรับการลงโทษบ่วงบาศ) > fit1=glmnet(x,y) > print(fit1) ฉันเข้าใจว่าฉันได้รับการทำนายที่แตกต่างจากการลดค่าแลมบ์ดา (เช่นการลงโทษ) Call: glmnet(x …

36 r regression regularization glmnet

2

หากการคาดการณ์มีเพียงความสนใจทำไมต้องใช้บ่วงบาศเหนือสันเขา?

ในหน้า 223 ในบทนำสู่การเรียนรู้เชิงสถิติผู้เขียนสรุปความแตกต่างระหว่างการถดถอยของสันเขาและบ่วง พวกเขาให้ตัวอย่าง (รูปที่ 6.9) เมื่อ "lasso มีแนวโน้มที่จะมีประสิทธิภาพสูงกว่าการถดถอยสันในแง่ของอคติความแปรปรวนและ MSE" ฉันเข้าใจว่าทำไมบ่วงบาศจึงเป็นที่ต้องการ: มันส่งผลให้เกิดการแก้ปัญหาแบบเบาบางเนื่องจากมันลดค่าสัมประสิทธิ์จำนวนมากเป็น 0 ทำให้เกิดแบบจำลองที่เข้าใจง่าย แต่ฉันไม่เข้าใจว่ามันจะทำได้ดีกว่าสันเขาเมื่อมีเพียงการคาดการณ์เท่านั้นที่มีความสนใจ (เช่นมันจะทำให้ MSE ลดลงอย่างมีนัยสำคัญในตัวอย่างได้อย่างไร) ด้วยสันเขาหากนักทำนายหลายคนแทบไม่ส่งผลกระทบต่อการตอบสนอง (โดยมีผู้ทำนายไม่กี่คนที่มีเอฟเฟกต์ขนาดใหญ่) สัมประสิทธิ์ของพวกเขาจะไม่ถูกย่อเป็นจำนวนเล็ก ๆ ใกล้กับศูนย์มาก ... ? แล้วทำไมรุ่นสุดท้ายถึงมีประสิทธิภาพแย่กว่าเชือก

35 machine-learning prediction lasso regularization ridge-regression

2

การทำตาข่ายสุทธิแบบยืดหยุ่นคืออะไรและจะแก้ไขข้อเสียของ Ridge (

การปรับสภาพสุทธิแบบยืดหยุ่นเป็นที่นิยมของ Lasso & Ridge เสมอเนื่องจากดูเหมือนว่าจะแก้ไขข้อเสียของวิธีการเหล่านี้ สัญชาตญาณคืออะไรและอะไรคือคณิตศาสตร์ที่อยู่เบื้องหลังตาข่ายยืดหยุ่น

35 regression lasso regularization ridge-regression elastic-net

4

(เพราะเหตุใด) โมเดลที่ติดตั้งมากเกินไปมักจะมีค่าสัมประสิทธิ์จำนวนมากหรือไม่

ฉันจินตนาการว่าสัมประสิทธิ์ของตัวแปรที่ใหญ่กว่าคือยิ่งความสามารถในการรุ่นนั้นต้อง "แกว่ง" ในมิตินั้นให้โอกาสเพิ่มขึ้นเพื่อให้พอดีกับเสียง แม้ว่าฉันคิดว่าฉันมีความรู้สึกที่สมเหตุสมผลของความสัมพันธ์ระหว่างความแปรปรวนในแบบจำลองและค่าสัมประสิทธิ์ขนาดใหญ่ แต่ฉันไม่มีความรู้สึกที่ดีเท่ากับว่าทำไมพวกเขาถึงเกิดขึ้นในแบบจำลองที่พอดี มันไม่ถูกต้องหรือไม่ที่จะบอกว่าพวกเขาเป็นอาการของการบรรจุเกินและการหดตัวของสัมประสิทธิ์เป็นเทคนิคที่ใช้ในการลดความแปรปรวนในแบบจำลองหรือไม่? การทำให้เป็นมาตรฐานผ่านการหดตัวของสัมประสิทธิ์ดูเหมือนว่าจะทำงานบนหลักการที่ว่าค่าสัมประสิทธิ์ขนาดใหญ่เป็นผลมาจากตัวแบบที่มีการ overfitted แต่บางทีฉันอาจตีความแรงจูงใจที่อยู่เบื้องหลังเทคนิค สัญชาตญาณของฉันที่ค่าสัมประสิทธิ์ขนาดใหญ่มักจะมีอาการของการสะสมมากเกินไปมาจากตัวอย่างต่อไปนี้: สมมติว่าเราต้องการให้พอดีกับจุดที่ทุกคนนั่งอยู่บนแกน x เราสามารถสร้างพหุนามที่มีการแก้ปัญหาเป็นจุดเหล่านี้:(x-x_n) สมมติว่าจุดที่เราอยู่ที่xเทคนิคนี้ให้ค่าสัมประสิทธิ์ทั้งหมด> = 10 (ยกเว้นหนึ่งค่าสัมประสิทธิ์) เมื่อเราเพิ่มคะแนนมากขึ้น (และเพิ่มระดับพหุนาม) ขนาดของสัมประสิทธิ์เหล่านี้จะเพิ่มขึ้นอย่างรวดเร็วF ( x ) = ( x - x 1 ) ( x - x 2 ) . . . ( x - x n - 1 ) ( x - …

33 regression variance linear-model bias regularization

1

การถดถอยด้วยการทำให้เป็นมาตรฐาน L1 เหมือนกับ Lasso และการทำให้เป็นมาตรฐานของ L2 เหมือนกับการถดถอยแบบสันหรือไม่ และวิธีการเขียน“ Lasso”?

ฉันวิศวกรซอฟต์แวร์เครื่องเรียนรู้การเรียนรู้โดยเฉพาะอย่างยิ่งผ่านแอนดรูอึ้งของหลักสูตรการเรียนรู้เครื่อง ขณะศึกษาการถดถอยเชิงเส้นด้วยการทำให้เป็นระเบียบฉันพบคำศัพท์ที่สับสน: การถดถอยด้วยการทำให้เป็นมาตรฐาน L1 หรือการทำให้เป็นมาตรฐาน L2 เชือก สันเขาถดถอย ดังนั้นคำถามของฉัน: การถดถอยด้วยการทำให้เป็นมาตรฐาน L1 เหมือนกับ LASSO หรือไม่ การถดถอยด้วยการทำให้เป็นมาตรฐาน L2 เหมือนกับการถดถอยริดจ์หรือไม่ "LASSO" ใช้ในการเขียนอย่างไร? มันควรจะเป็น "การถดถอยแบบ LASSO" หรือไม่? ฉันเคยเห็นการใช้งานเช่น " เชือกที่เหมาะสมกว่า " หากคำตอบคือ "ใช่" สำหรับ 1 และ 2 ข้างต้นเหตุใดจึงมีชื่อแตกต่างกันสำหรับคำสองคำนี้ "L1" และ "L2" มาจากวิทยาการคอมพิวเตอร์ / คณิตศาสตร์และ "LASSO" และ "Ridge" จากสถิติหรือไม่ การใช้คำเหล่านี้สร้างความสับสนเมื่อฉันเห็นโพสต์ที่ชอบ: " ความแตกต่างระหว่างการทำให้เป็นมาตรฐาน L1 และ L2 …

33 regression terminology lasso regularization ridge-regression

4

สัน, เชือกและยางยืด

วิธีเปรียบเทียบมาตรฐานของสันเขา LASSO และ elasticnet ทำอย่างไร? อะไรคือข้อดีและข้อเสียของพวกเขา? เอกสารทางเทคนิคที่ดีหรือบันทึกการบรรยายจะได้รับการชื่นชมเช่นกัน

33 references lasso regularization ridge-regression elastic-net

2

ทฤษฎีเบื้องหลังการถดถอยกำลังสองน้อยที่สุด

ใครสามารถแนะนำการอธิบายที่ดีของทฤษฎีที่อยู่เบื้องหลังการถดถอยกำลังสองน้อยที่สุด (มีให้ทางออนไลน์) สำหรับคนที่เข้าใจ SVD และ PCA? ฉันดูแหล่งข้อมูลออนไลน์มากมายและไม่พบสิ่งใดที่มีการผสมผสานที่ถูกต้องของความแม่นยำและการเข้าถึง ฉันได้ดูเป็นองค์ประกอบของการเรียนรู้ทางสถิติซึ่งได้รับการแนะนำในความคิดเห็นในคำถามที่ถามเกี่ยวกับการรอการตรวจสอบ , สี่เหลี่ยมอย่างน้อยบางส่วน (PLS) ถดถอยคืออะไรและวิธีการที่แตกต่างจาก OLS? แต่ฉันไม่คิดว่าการอ้างอิงนี้จะทำให้เกิดความยุติธรรมในหัวข้อ (สั้นเกินไปที่จะทำเช่นนั้นและไม่ได้ให้ทฤษฎีเกี่ยวกับเรื่องนี้มากนัก) จากสิ่งที่ฉันได้อ่าน PLS ใช้ประโยชน์จากการรวมกันเชิงเส้นของตัวแปรทำนายที่เพิ่มความแปรปรวนร่วมภายใต้ข้อ จำกัดและz_i ^ Tz_j = 0ถ้าฉัน \ neq j , ที่\ varphi_izi=Xφizi=Xφiz_i=X \varphi_iyTziyTzi y^Tz_i Z T ฉัน Z J = 0 ฉัน≠ เจφ ฉัน∥φi∥=1‖φi‖=1\|\varphi_i\|=1zTizj=0ziTzj=0z_i^Tz_j=0i≠ji≠ji \neq jφiφi\varphi_iจะถูกเลือกซ้ำตามลำดับที่พวกเขาเพิ่มความแปรปรวนร่วมสูงสุด แต่หลังจากทั้งหมดที่ฉันอ่านฉันยังคงไม่แน่ใจว่ามันเป็นเรื่องจริงและถ้าเป็นเช่นนั้นวิธีการที่จะดำเนินการ

33 regression references regularization svd partial-least-squares

2

การทำให้เป็นมาตรฐานของ Tikhonov เหมือนกับการถดถอยของสันเขาหรือไม่?

การทำให้เป็นมาตรฐาน Tikhonov และการถดถอยสันเป็นคำที่มักใช้ราวกับว่าพวกเขาเหมือนกัน เป็นไปได้หรือไม่ที่จะระบุอย่างชัดเจนว่าความแตกต่างคืออะไร?

32 regression terminology regularization ridge-regression tikhonov-regularization

4

เหตุใดจึงต้องใช้การทำให้เป็นมาตรฐานในการถดถอยพหุนามแทนที่จะลดระดับลง

เมื่อทำการถดถอยตัวอย่างเช่นพารามิเตอร์ไฮเปอร์สองตัวที่เลือกมักจะเป็นความสามารถของฟังก์ชัน (เช่นเลขชี้กำลังที่ใหญ่ที่สุดของพหุนาม) และปริมาณของการทำให้เป็นมาตรฐาน สิ่งที่ฉันสับสนคือทำไมไม่เพียงแค่เลือกฟังก์ชั่นความจุต่ำแล้วไม่สนใจการทำให้เป็นมาตรฐาน ด้วยวิธีนี้มันจะไม่เหมาะ ถ้าฉันมีฟังก์ชั่นที่มีความจุสูงพร้อมกับการทำให้เป็นมาตรฐานนั่นก็ไม่ใช่แค่ฟังก์ชั่นความจุต่ำและไม่มีการทำให้เป็นปกติ

32 regression machine-learning optimization regularization polynomial

2

การทำให้เป็นมาตรฐาน L1 จะทำงานได้ดีกว่า L2 และในทางกลับกันหรือไม่

หมายเหตุ: ฉันรู้ว่า L1 มีคุณสมบัติการเลือกคุณสมบัติ ฉันพยายามที่จะเข้าใจว่าจะเลือกแบบใดเมื่อการเลือกคุณสมบัติไม่เกี่ยวข้องอย่างสมบูรณ์ จะตัดสินใจใช้การทำให้เป็นมาตรฐาน (L1 หรือ L2) ได้อย่างไร ข้อดีและข้อเสียของการทำให้เป็นมาตรฐาน L1 / L2 แต่ละอย่างมีอะไรบ้าง แนะนำให้เลือกใช้คุณลักษณะที่ 1 โดยใช้ L1 แล้วใช้ L2 กับตัวแปรที่เลือกเหล่านี้หรือไม่

30 regression lasso regularization ridge-regression

1

การเลือกคุณสมบัติและรุ่นที่มี glmnet บนข้อมูล Methylation (p >> N)

ฉันต้องการใช้ GLM และ Elastic Net เพื่อเลือกคุณลักษณะที่เกี่ยวข้องเหล่านั้น + สร้างแบบจำลองการถดถอยเชิงเส้น (เช่นทั้งการคาดคะเนและความเข้าใจดังนั้นมันจะดีกว่าถ้าปล่อยให้มีพารามิเตอร์ค่อนข้างน้อย) ผลลัพธ์จะต่อเนื่อง มันคือยีนต่อราย ฉันได้อ่านเกี่ยวกับแพ็คเกจแล้ว แต่ฉันไม่แน่ใจ 100% เกี่ยวกับขั้นตอนการปฏิบัติตาม:200002000020000505050glmnet ดำเนินการ CV เพื่อเลือกแลมบ์ดา: cv <- cv.glmnet(x,y,alpha=0.5) (Q1) เมื่อได้รับข้อมูลอินพุตแล้วคุณจะเลือกค่าอัลฟาที่ต่างออกไปหรือไม่ (Q2)ฉันต้องทำอย่างอื่นก่อนสร้างแบบจำลองหรือไม่ พอดีกับรุ่น: model=glmnet(x,y,type.gaussian="covariance",lambda=cv$lambda.min) (Q3) มีอะไรดีไปกว่า "ความแปรปรวนร่วม" หรือไม่? (Q4)หากเลือกแลมบ์ดาโดย CV ทำไมขั้นตอนนี้จึงจำเป็นต้องใช้nlambda=? (Q5)ดีกว่าที่จะใช้lambda.minหรือlambda.1se? รับค่าสัมประสิทธิ์เพื่อดูว่าพารามิเตอร์ใดมีหลุด ("."): predict(model, type="coefficients") ในหน้าช่วยเหลือมีหลายpredictวิธีการ (เช่นpredict.fishnet, predict.glmnet, predict.lognetฯลฯ ) แต่มีคำว่า "ธรรมดา" ทำนายตามที่ฉันเห็นในตัวอย่าง (Q6)ฉันควรใช้predictหรือpredict.glmnetอื่น ๆ หรือ? แม้จะเป็นสิ่งที่ฉันได้อ่านเกี่ยวกับวิธีการทำให้เป็นมาตรฐาน …

29 r regularization glmnet elastic-net underdetermined

2

การติดตั้งโมเดล ARIMAX ด้วยการทำให้เป็นปกติหรือการลงโทษ (เช่นกับเชือก, ตาข่ายยางยืดหรือการถดถอยสัน)

ฉันใช้ฟังก์ชั่นauto.arima ()ในแพ็คเกจพยากรณ์เพื่อให้พอดีกับรุ่น ARMAX ที่มีตัวแปรหลากหลาย อย่างไรก็ตามฉันมักจะมีตัวแปรจำนวนมากให้เลือกและมักจะจบลงด้วยรูปแบบสุดท้ายที่ทำงานกับชุดย่อยของพวกเขา ฉันไม่ชอบเทคนิค ad-hoc สำหรับการเลือกตัวแปรเพราะฉันเป็นมนุษย์และมีอคติ แต่อนุกรมเวลาการตรวจสอบข้ามเป็นเรื่องยากดังนั้นฉันจึงไม่พบวิธีที่ดีในการลองชุดย่อยที่แตกต่างกันของตัวแปรที่มีอยู่โดยอัตโนมัติและ ฉันกำลังปรับโมเดลของฉันโดยใช้วิจารณญาณที่ดีที่สุดของฉันเอง เมื่อฉันพอดีกับโมเดล glm ฉันสามารถใช้ elastic net หรือ lasso สำหรับการทำให้เป็นปกติและการเลือกตัวแปรผ่านแพ็คเกจglmnet มีชุดเครื่องมือที่มีอยู่ใน R สำหรับใช้ net elastic ในโมเดล ARMAX หรือฉันจะต้องหมุนเอง นี่เป็นความคิดที่ดีใช่ไหม แก้ไข: มันสมเหตุสมผลหรือไม่ที่จะคำนวณเงื่อนไข AR และ MA ด้วยตนเอง (พูดถึง AR5 และ MA5) และใช้ glmnet เพื่อให้พอดีกับโมเดลหรือไม่ แก้ไข 2: ดูเหมือนว่าแพ็กเกจFitARทำให้ฉันเป็นส่วนหนึ่ง แต่ไม่ใช่ทั้งหมดในนั้น

29 r time-series lasso regularization elastic-net

1

เหตุใดฉันจึงได้รับโซลูชัน lasso แบบปิดไม่ถูกต้อง

ปัญหา lassoมีรูปแบบการปิด: \ beta_j ^ {\ text {lasso}} = \ mathrm {sgn} (\ beta ^ {\ text {LS}} _ j) (| \ beta_j ^ {\ text {LS }} | - \ alpha) ^ + ถ้าXมีคอลัมน์แบบออโธเทนเน็ต นี่ก็แสดงให้เห็นในกระทู้นี้: ที่มาของรูปแบบปิดวิธีการแก้เชือกβlasso=argminβ∥y−Xβ∥22+α∥β∥1βlasso=argminβ⁡‖y−Xβ‖22+α‖β‖1\beta^{\text{lasso}}= \operatorname*{argmin}_\beta \| y-X\beta\|^2_2 + \alpha \| \beta\|_1βlassoj=sgn(βLSj)(|βLSj|−α)+βjlasso=sgn(βjLS)(|βjLS|−α)+ \beta_j^{\text{lasso}}= \mathrm{sgn}(\beta^{\text{LS}}_j)(|\beta_j^{\text{LS}}|-\alpha)^+ XXX อย่างไรก็ตามฉันไม่เข้าใจว่าทำไมไม่มีโซลูชันแบบปิดโดยทั่วไป ใช้ subifferentials …

28 regression lasso regularization

2

มาตรฐานก่อน Lasso จำเป็นจริงๆหรือ?

ฉันได้อ่านเหตุผลหลักสามข้อสำหรับการกำหนดค่ามาตรฐานให้กับตัวแปรก่อนหน้าบางอย่างเช่นLassoการถดถอย: 1) การตีความค่าสัมประสิทธิ์ 2) ความสามารถในการจัดอันดับความสำคัญของค่าสัมประสิทธิ์โดยขนาดสัมพัทธ์ของการประมาณค่าสัมประสิทธิ์หลังการหดตัว 3) ไม่ต้องมีการสกัดกั้น แต่ฉันสงสัยเกี่ยวกับจุดที่สำคัญที่สุด เรามีเหตุผลหรือไม่ที่จะคิดว่าการสร้างมาตรฐานจะช่วยปรับปรุงการวางนัยทั่วไปของตัวอย่าง? นอกจากนี้ฉันไม่สนใจว่าฉันไม่ต้องการการสกัดกั้นในแบบจำลองของฉันหรือไม่ เพิ่มหนึ่งไม่เจ็บฉัน

28 normalization lasso standardization regularization shrinkage

1

องศาอิสระเป็นหมายเลขที่ไม่ใช่จำนวนเต็มหรือไม่

เมื่อฉันใช้ GAM มันให้ DF ที่เหลือกับฉันคือ (บรรทัดสุดท้ายในรหัส) นั่นหมายความว่าอย่างไร? นอกเหนือไปจากตัวอย่างของ GAM โดยทั่วไปแล้วจำนวนองศาความเป็นอิสระจะเป็นจำนวนที่ไม่ใช่จำนวนเต็มหรือไม่26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

คำถามติดแท็ก regularization