สถิติและข้อมูลขนาดใหญ่ regularization

1

ความต้องการสำหรับการจัดศูนย์กลางและข้อมูลที่เป็นมาตรฐานในการถดถอย

พิจารณาการถดถอยเชิงเส้นด้วยการทำให้เป็นมาตรฐาน: เช่นค้นหาที่ย่อเล็กสุด| | A x - b | | 2 + λ | | x | |xxx||Ax−b||2+λ||x||1||Ax−b||2+λ||x||1||Ax - b||^2+\lambda||x||_1 โดยปกติคอลัมน์ของ A จะเป็นมาตรฐานที่จะมีค่าเฉลี่ยศูนย์และบรรทัดฐานของหน่วยในขณะที่ bbbอยู่ตรงกลางให้มีค่าเฉลี่ยเป็นศูนย์ ฉันต้องการตรวจสอบให้แน่ใจว่าการทำความเข้าใจเกี่ยวกับเหตุผลในการกำหนดมาตรฐานและการจัดกึ่งกลางถูกต้องหรือไม่ ด้วยการทำให้คอลัมน์และbเป็นศูนย์ทำให้เราไม่จำเป็นต้องมีคำดักจับอีกต่อไป มิฉะนั้นวัตถุประสงค์จะเป็น| | A x - x 0 1 - b | | 2 + λ | | x | | 1 . ด้วยการสร้างบรรทัดฐานของคอลัมน์ A เท่ากับ …

16 regression lasso regularization standardization

1

วิธีการเปรียบเทียบแบบใดที่จะใช้สำหรับโมเดล lmer: lsmeans หรือ glht

ฉันกำลังวิเคราะห์ชุดข้อมูลโดยใช้โมเดลเอฟเฟกต์ผสมกับเอฟเฟ็กต์คงที่หนึ่งรายการ (เงื่อนไข) และเอฟเฟกต์แบบสุ่มสองรายการ (ผู้เข้าร่วมเนื่องจากการออกแบบภายในและคู่ของเรื่อง) รูปแบบที่ถูกสร้างขึ้นด้วยแพคเกจ:lme4exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp) ต่อไปฉันทำการทดสอบอัตราส่วนความน่าจะเป็นของโมเดลนี้เทียบกับโมเดลโดยไม่มีผลกระทบคงที่ (เงื่อนไข) และมีความแตกต่างอย่างมีนัยสำคัญ ชุดข้อมูลของฉันมี 3 เงื่อนไขดังนั้นฉันจึงต้องการเปรียบเทียบหลายรายการ แต่ฉันไม่แน่ใจว่าจะใช้วิธีใด ฉันพบคำถามที่คล้ายกันจำนวนหนึ่งใน CrossValidated และฟอรัมอื่น ๆ แต่ฉันยังสับสนอยู่ จากสิ่งที่ฉันเห็นผู้คนแนะนำให้ใช้ 1.lsmeansแพคเกจ - lsmeans(exp.model,pairwise~condition)ซึ่งทำให้ผมส่งออกต่อไปนี้: condition lsmean SE df lower.CL upper.CL Condition1 0.6538060 0.03272705 47.98 0.5880030 0.7196089 Condition2 0.7027413 0.03272705 47.98 0.6369384 0.7685443 Condition3 0.7580522 0.03272705 47.98 0.6922493 0.8238552 Confidence level used: 0.95 $contrasts …

16 r repeated-measures multiple-comparisons post-hoc lsmeans bayesian posterior marginal integral anova time-series regularization machine-learning pca computational-statistics references inference regression cross-validation python random-forest chi-squared spearman-rho r machine-learning confidence-interval bagging clustering feature-selection model-selection bic hypothesis-testing kurtosis r regression residuals terminology

2

เหตุใดการสูญเสียบรรทัดฐาน L2 จึงมีโซลูชันที่ไม่เหมือนใครและการสูญเสีย norm L1 อาจมีวิธีแก้ปัญหาที่หลากหลาย

http://www.chioka.in/differences-between-l1-and-l2-as-loss-function-and-regularization/ ถ้าคุณดูที่ด้านบนสุดของโพสต์นี้ผู้เขียนกล่าวว่า L2 norm มีทางออกที่ไม่เหมือนใครและ L1 norm อาจมีวิธีแก้ปัญหามากมาย ฉันเข้าใจสิ่งนี้ในแง่ของการทำให้เป็นมาตรฐาน แต่ไม่ใช่ในแง่ของการใช้ L1 norm หรือ L2 norm ในฟังก์ชันการสูญเสีย หากคุณดูกราฟของฟังก์ชั่นของสเกลาร์ x (x ^ 2 และ | x |) คุณจะเห็นว่าทั้งคู่มีวิธีแก้ปัญหาที่ไม่เหมือนใคร

16 regression lasso regularization

2

ทำไมการหดตัวจึงใช้งานได้จริงมีอะไรพิเศษเกี่ยวกับ 0

มีการโพสต์ในเว็บไซต์นี้แล้วพูดคุยเกี่ยวกับปัญหาเดียวกัน: ทำไมการหดตัวทำงานอย่างไร แต่ถึงแม้ว่าคำตอบจะได้รับความนิยม แต่ฉันไม่เชื่อว่าส่วนสำคัญของคำถามจะได้รับการแก้ไข ค่อนข้างชัดเจนว่าการแนะนำอคติบางอย่างในการประมาณค่าช่วยลดความแปรปรวนและอาจปรับปรุงคุณภาพการประมาณค่า อย่างไรก็ตาม: 1) ทำไมความเสียหายที่เกิดขึ้นจากการแนะนำมีอคติน้อยกว่าเมื่อเทียบกับการได้รับความแปรปรวน 2) ทำไมมันใช้งานได้เสมอ? ตัวอย่างเช่นในกรณีของการถดถอยสัน: ทฤษฎีบทการดำรงอยู่ 3) อะไรที่น่าสนใจเกี่ยวกับ 0 (ต้นกำเนิด) เห็นได้ชัดว่าเราสามารถหดได้ทุกที่ที่เราชอบ (เช่นตัวประมาณสไตน์ ) แต่มันจะทำงานได้ดีเท่าที่มา? 4) ทำไมรูปแบบการเข้ารหัสสากลที่หลากหลายจึงต้องการบิตที่น้อยลงรอบจุดกำเนิด? มีสมมติฐานเหล่านี้ก็น่าจะเป็นมากขึ้นหรือไม่ คำตอบที่มีการอ้างอิงถึงทฤษฎีบทที่พิสูจน์แล้วหรือผลที่คาดหวัง

15 regularization ridge-regression shrinkage

1

การทำให้เป็นมาตรฐานสำหรับโมเดล ARIMA

ฉันตระหนักถึง LASSO, สันและชนิดยืดหยุ่นสุทธิของการทำให้เป็นระเบียบในแบบจำลองการถดถอยเชิงเส้น คำถาม: การประมาณแบบลงโทษนี้ (หรือคล้ายกัน) สามารถนำไปใช้กับแบบจำลอง ARIMA (ที่มีส่วน MA ที่ไม่ว่างเปล่า) ได้หรือไม่? pmaxpmaxp_{max}qmaxqmaxq_{max}p⩽pmaxp⩽pmaxp \leqslant p_{max}q⩽qmaxq⩽qmaxq \leqslant q_{max} คำถามเพิ่มเติมของฉันคือ: เราสามารถรวมคำทั้งหมดได้สูงสุด ( , ) แต่จะลงโทษขนาดของสัมประสิทธิ์ (อาจเป็นไปได้จนหมดศูนย์) มันสมเหตุสมผลไหมpmaxpmaxp_{max}qmaxqmaxq_{max} ถ้าเป็นเช่นนั้นมีการนำไปใช้ใน R หรือซอฟต์แวร์อื่น ๆ หรือไม่? ถ้าไม่ปัญหาคืออะไร โพสต์ที่เกี่ยวข้องบ้างที่สามารถพบได้ที่นี่

15 time-series arima lasso regularization ridge-regression

4

การพิสูจน์สูตรเทียบเท่าของการถดถอยสัน

ฉันได้อ่านหนังสือยอดนิยมที่สุดในการเรียนรู้เชิงสถิติ 1- องค์ประกอบของการเรียนรู้ทางสถิติ 2- เบื้องต้นเกี่ยวกับการเรียนรู้ทางสถิติ ทั้งสองพูดถึงว่าการถดถอยของสันมีสองสูตรที่เทียบเท่า มีหลักฐานทางคณิตศาสตร์ที่เข้าใจได้ของผลลัพธ์นี้หรือไม่? ฉันยังผ่านการตรวจสอบข้ามแต่ฉันไม่สามารถหาหลักฐานที่ชัดเจนได้ที่นั่น นอกจากนี้ LASSO จะเพลิดเพลินกับการพิสูจน์ชนิดเดียวกันหรือไม่

15 regression lasso regularization ridge-regression lagrange-multipliers

3

การทำให้เป็นมาตรฐานและการปรับขนาดในการเรียนรู้ออนไลน์?

สมมติว่าฉันมีลักษณนามการถดถอยโลจิสติก ในการเรียนรู้แบบกลุ่มตามปกติฉันมีคำศัพท์ปกติเพื่อป้องกันไม่ให้เกิดการ overfitting และทำให้น้ำหนักของฉันเล็ก ฉันจะทำให้ปกติและปรับขนาดคุณสมบัติของฉัน ในการเรียนรู้ออนไลน์ฉันได้รับกระแสข้อมูลอย่างต่อเนื่อง ฉันทำการอัพเดทโคตรลาดตามแต่ละตัวอย่างแล้วละทิ้งมัน ฉันควรจะใช้การปรับขนาดและคำศัพท์ในการเรียนรู้ออนไลน์หรือไม่ ถ้าใช่ฉันจะทำอย่างไร ตัวอย่างเช่นฉันไม่มีชุดข้อมูลการฝึกอบรมที่จะเทียบเคียง ฉันยังไม่มีชุดการตรวจสอบเพื่อปรับพารามิเตอร์การทำให้เป็นมาตรฐานของฉัน ถ้าไม่ทำไมล่ะ ในการเรียนรู้ออนไลน์ของฉันฉันได้รับตัวอย่างมากมายอย่างต่อเนื่อง สำหรับตัวอย่างใหม่แต่ละครั้งฉันทำนายผล จากนั้นในขั้นตอนต่อไปฉันจะได้รับเป้าหมายที่แท้จริงและทำการอัพเดทลาดลง

15 machine-learning normalization regularization online

4

ไม่มีการกำหนดมาตรฐานสำหรับหน่วยอคติในเครือข่ายประสาทเทียม

ตามบทช่วยสอนนี้เกี่ยวกับการเรียนรู้อย่างลึกซึ้งการลดน้ำหนัก (การทำให้เป็นมาตรฐาน) มักจะไม่นำมาใช้กับเงื่อนไขของอคติขทำไม ความสำคัญ (สัญชาตญาณ) ที่อยู่เบื้องหลังคืออะไร?

15 machine-learning neural-networks bias regularization

1

ที่เล็กที่สุดคืออะไร

กำหนดประมาณการ lassoที่i ^ {th}แถวx_i \ in \ mathbb {R} ^ pของเมทริกซ์การออกแบบX \ in \ mathbb {R} ^ {n \ times p}เป็นเวกเตอร์ ของ covariates สำหรับการอธิบายการตอบสนองแบบสุ่มy_i (สำหรับi = 1, \ dot n )β^λ=argminβ∈Rp12n∥y−Xβ∥22+λ∥β∥1,β^λ=arg⁡minβ∈Rp12n‖y−Xβ‖22+λ‖β‖1,\hat\beta^\lambda = \arg\min_{\beta \in \mathbb{R}^p} \frac{1}{2n} \|y - X \beta\|_2^2 + \lambda \|\beta\|_1,ithithi^{th}xi∈Rpxi∈Rpx_i \in \mathbb{R}^pX∈Rn×pX∈Rn×pX \in \mathbb{R}^{n \times p}yiyiy_ii=1,…ni=1,…ni=1, \dots …

14 lasso regularization

3

วิธีการหาค่าสัมประสิทธิ์การถดถอย

ในการถดถอยสันฟังก์ชันวัตถุประสงค์ที่จะลดลงคือRSS+λ∑β2j.RSS+λ∑βj2.\text{RSS}+\lambda \sum\beta_j^2. สิ่งนี้สามารถเพิ่มประสิทธิภาพโดยใช้วิธีการเพิ่มทวีคูณ หรือมันคือความแตกต่างตรง?

14 regression regularization ridge-regression

1

การถดถอยโลจิสติกแบบเบย์ปกติใน JAGS

มีเอกสารทางคณิตศาสตร์มากมายที่อธิบาย Bayesian Lasso แต่ฉันต้องการทดสอบและแก้ไขรหัส JAGS ที่ฉันสามารถใช้ได้ ใครบางคนสามารถโพสต์ตัวอย่างรหัส BUGS / JAGS ที่ใช้การถดถอยโลจิสติกปกติ? รูปแบบใด ๆ (L1, L2, Elasticnet) จะดี แต่ Lasso เป็นที่ต้องการ ฉันยังสงสัยว่ามีกลยุทธ์การใช้งานทางเลือกที่น่าสนใจหรือไม่

14 bayesian logistic lasso jags regularization

4

บรรทัดฐาน - พิเศษเกี่ยวกับคืออะไร ?

บรรทัดฐานที่ไม่ซ้ำกัน (ส่วนน้อย) เพราะที่เขตแดนระหว่างไม่ใช่นูนและนูน บรรทัดฐานคือ 'มากที่สุดเบาบาง' นูนบรรทัดฐาน (ใช่ไหม?)L1L1L_1p=1p=1p=1L1L1L_1 ฉันเข้าใจว่าบรรทัดฐาน Euclidean มีรากฐานทางเรขาคณิตและมีการตีความที่ชัดเจนเมื่อมิติมีหน่วยเดียวกัน แต่ฉันไม่เข้าใจว่าทำไมมันถึงถูกใช้เป็นพิเศษมากกว่าจำนวนจริงอื่น ๆ : ? ? ทำไมไม่ใช้ช่วงเต็มอย่างต่อเนื่องเป็นพารามิเตอร์p=2p=2p=2p>1p>1p>1p=1.5p=1.5p=1.5p=πp=πp=\pi ฉันกำลังคิดถึงอะไร

13 regression regularization sparse

1

วิธีการแก้ปัญหาแบบปิดเพื่อแก้ไขปัญหา lasso เมื่อ data matrix เป็นแนวทแยง

\newcommand{\diag}{\operatorname{diag}}เรามีปัญหา: มีสมมติฐานว่า: \ sum_ {i = 1} ^ nx_ix_i ^ T = \ diag (\ sigma_1 ^ 2, ... , \ sigma_d ^ 2)minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),minw∈Rd(1n∑i=1n(⟨w,xi⟩−yi)2+2λ||w||1),\min_{w\in\mathbb{R}^{d}}\left( \frac{1}{n}\sum_{i=1}^{n} \left( \langle w,x_{i}\rangle-y_{i} \right)^{2} +2\lambda||w||_1\right),∑i=1nxixTi=diag(σ21,...,σ2d).∑i=1nxixiT=diag⁡(σ12,...,σd2).\sum_{i=1}^nx_ix_i^T=\diag(\sigma_1^2,...,\sigma_d^2). ในกรณีนี้มีวิธีแก้ปัญหาแบบปิดหรือไม่? ฉันมี: (XTX)−1=diag(σ−21,...,σ−2d),(XTX)−1=diag⁡(σ1−2,...,σd−2),(X^TX)^{-1}=\diag\left(\sigma_1^{-2},...,\sigma_d^{-2}\right),ดังนั้นฉันคิดว่าคำตอบคือ : wj=yjmax{0,1−λn|yj|},wj=yjmax{0,1−λn|yj|},w\,^j=y\,^j\max\left\{0,1-\lambda \frac{n}{|y^j|}\right\},สำหรับyj=∑i=1nyixijσ2iyj=∑i=1nyixijσi2y\,^j=\displaystyle\sum_{i=1}^n\frac{y_ix_i\,^j}{\sigma_i^2}แต่ฉันไม่แน่ใจ

13 mathematical-statistics lasso computational-statistics regularization

1

การป้องกันการโอเวอร์โหลดของ LSTM ในชุดข้อมูลขนาดเล็ก

ฉันกำลังสร้างแบบจำลอง 15000 ทวีตสำหรับการคาดการณ์ความเชื่อมั่นโดยใช้เลเยอร์ LSTM เดียวกับหน่วยที่ซ่อนอยู่ 128 หน่วยโดยใช้การแทนคำที่เหมือนคำ 2vec ด้วย 80 มิติ ฉันได้รับความแม่นยำในการสืบเชื้อสาย (38% กับการสุ่ม = 20%) หลังจาก 1 ยุค การฝึกอบรมเพิ่มเติมทำให้ความถูกต้องในการตรวจสอบความถูกต้องเริ่มลดลงเนื่องจากความแม่นยำในการฝึกอบรมเริ่มขึ้น ฉันจึงคิดหาวิธีที่จะทำให้เป็นมาตรฐาน ฉันไม่ต้องการลดจำนวนหน่วยที่ซ่อนอยู่ (128 หน่วยดูเหมือนน้อยไปแล้ว) ขณะนี้ฉันใช้การออกกลางคันด้วยความน่าจะเป็น 50% แต่อาจเพิ่มขึ้นได้ เครื่องมือเพิ่มประสิทธิภาพคืออดัมพร้อมพารามิเตอร์เริ่มต้นสำหรับ Keras ( http://keras.io/optimizers/#adam ) วิธีที่มีประสิทธิภาพในการลดการ overfitting สำหรับโมเดลนี้ในชุดข้อมูลของฉันคืออะไร?

13 deep-learning regularization overfitting lstm

1

การย่อยสลายความแปรปรวนแบบอคติ

ในส่วนที่ 3.2 ของการจดจำรูปแบบของอธิการและการเรียนรู้ของเครื่องจักรเขากล่าวถึงการสลายตัวของความแปรปรวนแบบอคติโดยระบุว่าสำหรับฟังก์ชันการสูญเสียกำลังสองการสูญเสียที่คาดหวังสามารถแยกย่อยเป็นระยะอคติกำลังสอง (ซึ่งอธิบายว่า รุ่น), คำแปรปรวน (ซึ่งอธิบายการแพร่กระจายของการทำนายรอบค่าเฉลี่ย) และคำที่มีเสียงรบกวน (ซึ่งให้เสียงที่แท้จริงของข้อมูล) สามารถทำการไบอัส - แปรปรวนการสลายตัวด้วยฟังก์ชั่นการสูญเสียอื่น ๆ นอกเหนือจากการสูญเสียกำลังสอง? สำหรับชุดข้อมูลโมเดลที่กำหนดมีมากกว่าหนึ่งโมเดลที่มีการสูญเสียที่คาดว่าจะต่ำกว่าทุกโมเดลและถ้าเป็นเช่นนั้นนั่นหมายความว่าอาจมีการผสมผสานระหว่างอคติและความแปรปรวนต่างกัน หากแบบจำลองเกี่ยวข้องกับการทำให้เป็นมาตรฐานจะมีความสัมพันธ์ทางคณิตศาสตร์ระหว่างอคติความแปรปรวนและสัมประสิทธิ์การทำให้เป็นมาตรฐานหรือไม่?λλ\lambda คุณจะคำนวณอคติได้อย่างไรถ้าคุณไม่รู้รูปแบบที่แท้จริง? มีสถานการณ์ที่เหมาะสมหรือไม่ที่จะลดอคติหรือความแปรปรวนมากกว่าการสูญเสียที่คาดหวังไว้ (ผลรวมของความเอนเอียงและความแปรปรวนกำลังสอง)

13 self-study variance bias regularization loss-functions

คำถามติดแท็ก regularization