คำถามติดแท็ก shrinkage

รวมถึงข้อ จำกัด เพิ่มเติม (โดยทั่วไปจะเป็นบทลงโทษสำหรับความซับซ้อน) ในกระบวนการปรับตัวแบบ ใช้เพื่อป้องกันการ overfitting / เพิ่มความแม่นยำในการทำนาย

1
ภายใต้เงื่อนไขอะไรคือการถดถอยสันสามารถให้การปรับปรุงมากกว่าการถดถอยกำลังสองน้อยที่สุดธรรมดาได้?
สันเขาถดถอยประมาณการพารามิเตอร์ในแบบจำลองเชิงเส้นโดย\ hat {\ boldsymbol \ beta} _ \ lambda = (\ mathbf X ^ \ top \ mathbf X + \ lambda \ mathbf I) ^ {- 1} \ mathbf X ^ \ top \ mathbf y โดยที่\ lambdaเป็นพารามิเตอร์การทำให้เป็นมาตรฐาน เป็นที่ทราบกันดีว่ามันมักจะทำงานได้ดีกว่าการถดถอย OLS (ด้วย\ lambda = 0 ) เมื่อมีตัวทำนายที่สัมพันธ์กันจำนวนมากββ\boldsymbol \betay=Xβy=Xβ\mathbf y = …

1
ทำไม“ บ่วงบาศแบบผ่อนคลาย” จึงแตกต่างจากบ่วงมาตรฐาน?
หากเราเริ่มต้นด้วยชุดข้อมูลให้ใช้ Lasso กับมันและหาทางออกเราสามารถใช้ Lasso อีกครั้งกับชุดข้อมูลโดยที่คือชุดที่ไม่ใช่ ดัชนีเป็นศูนย์ของเพื่อรับโซลูชันซึ่งเรียกว่าโซลูชัน 'relax LASSO' (แก้ไขให้ฉันถ้าฉันผิด!) วิธีการแก้ปัญหาต้องเป็นไปตามเงื่อนไขKarush – Kuhn – Tucker (KKT)สำหรับแต่เนื่องจากรูปแบบของเงื่อนไข KKT สำหรับก็ไม่เป็นไปตามนี้หรือไม่ ถ้าเป็นเช่นนั้นการทำ LASSO ครั้งที่สองคืออะไร?( X, วาย)(X,Y)(X,Y)βLβL\beta^L( XS, วาย)(XS,Y)(X_S, Y)SSSβLβL\beta^LβR LβRL\beta^{RL}βLβL\beta^L( X, วาย)(X,Y)(X,Y)( XS, วาย)(XS,Y)(X_S, Y) คำถามนี้เป็นคำถามที่ตามมา: ข้อดีของการทำ "double lasso" หรือการแสดง lasso สองครั้ง?

2
ทำไมการหดตัวจึงใช้งานได้จริงมีอะไรพิเศษเกี่ยวกับ 0
มีการโพสต์ในเว็บไซต์นี้แล้วพูดคุยเกี่ยวกับปัญหาเดียวกัน: ทำไมการหดตัวทำงานอย่างไร แต่ถึงแม้ว่าคำตอบจะได้รับความนิยม แต่ฉันไม่เชื่อว่าส่วนสำคัญของคำถามจะได้รับการแก้ไข ค่อนข้างชัดเจนว่าการแนะนำอคติบางอย่างในการประมาณค่าช่วยลดความแปรปรวนและอาจปรับปรุงคุณภาพการประมาณค่า อย่างไรก็ตาม: 1) ทำไมความเสียหายที่เกิดขึ้นจากการแนะนำมีอคติน้อยกว่าเมื่อเทียบกับการได้รับความแปรปรวน 2) ทำไมมันใช้งานได้เสมอ? ตัวอย่างเช่นในกรณีของการถดถอยสัน: ทฤษฎีบทการดำรงอยู่ 3) อะไรที่น่าสนใจเกี่ยวกับ 0 (ต้นกำเนิด) เห็นได้ชัดว่าเราสามารถหดได้ทุกที่ที่เราชอบ (เช่นตัวประมาณสไตน์ ) แต่มันจะทำงานได้ดีเท่าที่มา? 4) ทำไมรูปแบบการเข้ารหัสสากลที่หลากหลายจึงต้องการบิตที่น้อยลงรอบจุดกำเนิด? มีสมมติฐานเหล่านี้ก็น่าจะเป็นมากขึ้นหรือไม่ คำตอบที่มีการอ้างอิงถึงทฤษฎีบทที่พิสูจน์แล้วหรือผลที่คาดหวัง

5
การหดตัวของเจมส์ - สไตน์ 'อยู่ในป่า'?
ฉันถูกจับโดยความคิดเรื่องการหดตัวของเจมส์ - สไตน์ (นั่นคือฟังก์ชั่นแบบไม่เชิงเส้นของการสังเกตเพียงครั้งเดียวของเวกเตอร์ที่มีบรรทัดฐานอิสระอาจเป็นตัวประมาณที่ดีกว่าของวิธีการของตัวแปรสุ่ม ) อย่างไรก็ตามฉันไม่เคยเห็นมันในงานที่นำไปใช้ เห็นได้ชัดว่าฉันอ่านไม่ดีพอ มีตัวอย่างคลาสสิกที่เจมส์ - สไตน์ปรับปรุงการประมาณค่าในการตั้งค่าที่ใช้หรือไม่? ถ้าไม่การหดตัวแบบนี้เป็นเพียงความอยากรู้ทางปัญญาหรือไม่?

4
การเลือกลงโทษที่เหมาะสมที่สุดสำหรับบ่วงบาศ
มีผลการวิเคราะห์หรือเอกสารทดลองใด ๆ เกี่ยวกับตัวเลือกที่ดีที่สุดของสัมประสิทธิ์ของระยะเวลาการลงโทษตามความเหมาะสมฉันหมายถึงพารามิเตอร์ที่เพิ่มความน่าจะเป็นในการเลือกแบบจำลองที่ดีที่สุดหรือลดความสูญเสียที่คาดหวังให้น้อยที่สุด ฉันถามเพราะบ่อยครั้งที่มันเป็นไปไม่ได้ที่จะเลือกพารามิเตอร์โดยการตรวจสอบข้ามหรือ bootstrap เพราะทั้งสองกรณีมีปัญหาเป็นจำนวนมากหรือเนื่องจากขนาดของปัญหาในมือ เพียงผลบวกฉันรู้คือ Candes และวางแผนการคัดเลือกตัวแบบใกล้เหมาะโดยℓ 1ลดℓ1ℓ1\ell_1ℓ1ℓ1\ell_1

2
การหดตัวคืออะไร?
การหดตัวของคำถูกโยนลงไปมากในบางวงการ แต่สิ่งที่หดตัวดูเหมือนจะไม่มีคำจำกัดความที่ชัดเจน หากฉันมีอนุกรมเวลา (หรือการรวบรวมการสังเกตของกระบวนการบางอย่าง) อะไรคือวิธีการที่แตกต่างกันที่ฉันสามารถวัดการหดตัวเชิงประจักษ์บางประเภทในซีรีย์ การหดตัวเชิงทฤษฎีประเภทต่างๆที่ฉันสามารถพูดคุยเกี่ยวกับคืออะไร? การหดตัวสามารถช่วยในการทำนายได้อย่างไร ผู้คนสามารถให้ข้อมูลเชิงลึกหรือการอ้างอิงที่ดีได้หรือไม่?

1
สัญชาตญาณความเป็นอิสระของลาซโซ
Zou และคณะ "ใน" องศาอิสระ "ของเชือก" (2007) แสดงให้เห็นว่าจำนวนของค่าสัมประสิทธิ์ที่ไม่ใช่ศูนย์เป็นค่าประมาณที่เป็นกลางและสม่ำเสมอสำหรับองศาอิสระของเชือก ดูเหมือนว่าฉันจะต่อต้านได้ง่าย สมมติว่าเรามีรูปแบบการถดถอย (โดยที่ตัวแปรมีค่าเฉลี่ยเป็นศูนย์) y=βx+ε.y=βx+ε.y=\beta x + \varepsilon. สมมติว่า OLS ไม่ จำกัด ประเมินของเป็นβ O L S = 0.5 มันอาจตรงกับประมาณการ LASSO ที่ประมาณβสำหรับความรุนแรงที่ต่ำมากββ\betaβ^OLS=0.5β^OLS=0.5\hat\beta_{OLS}=0.5ββ\beta สมมติต่อไปว่าประมาณการเชือกสำหรับความเข้มโทษโดยเฉพาะอย่างยิ่งเป็นβ L S S O , λ * = 0.4 ตัวอย่างเช่นλ ∗อาจเป็น "ดีที่สุด" λสำหรับชุดข้อมูลที่อยู่ในมือโดยใช้การตรวจสอบข้าม λ∗λ∗\lambda^*β^LASSO,λ∗=0.4β^LASSO,λ∗=0.4\hat\beta_{LASSO,\lambda^*}=0.4λ∗λ∗\lambda^*λλ\lambda หากฉันเข้าใจอย่างถูกต้องทั้งสองกรณีระดับความเป็นอิสระเท่ากับ 1 เนื่องจากทั้งสองครั้งมีค่าสัมประสิทธิ์การถดถอยที่ไม่ใช่ศูนย์ คำถาม: มาได้อย่างไรองศาอิสระในทั้งสองกรณีจะเหมือนกันแม้ว่าβ L S S …

1
การเลือกช่วงและความหนาแน่นของกริดสำหรับพารามิเตอร์การทำให้เป็นมาตรฐานใน LASSO
ฉันกำลังศึกษาLASSO (อย่างน้อยการหดตัวแบบสัมบูรณ์และผู้ดำเนินการคัดเลือก) ในเวลาเดียวกัน ฉันเห็นว่าค่าที่ดีที่สุดสำหรับพารามิเตอร์การทำให้เป็นมาตรฐานสามารถเลือกได้โดยการตรวจสอบความถูกต้องข้าม ฉันเห็นด้วยในการถดถอยของสันเขาและวิธีการมากมายที่ใช้การทำให้เป็นมาตรฐานเราสามารถใช้ CV เพื่อค้นหาพารามิเตอร์การทำให้เป็นมาตรฐานที่ดีที่สุด (การลงโทษ) ตอนนี้คำถามของฉันเกี่ยวกับค่าเริ่มต้นสำหรับขอบเขตบนและล่างของพารามิเตอร์และวิธีการกำหนดความยาวของลำดับ จะเฉพาะเจาะจงเช่นสมมติเรามีปัญหา Lasso และเราต้องการที่จะหาค่าที่ดีที่สุดสำหรับการลงโทษ\แล้วเราจะเลือกขอบเขตล่างและบนสำหรับอย่างไร และมีค่าเท่าไรที่แยกระหว่างสองค่า ? λ λ ∈ [ = ? , b = ? ] ( b - a )L o กรัมLฉันk อีลิตรฉันชั่วโมงo o d= ( y- x β)'( y- x β) + λ ∑ | β|1LogLikelihood=(y−xβ)′(y−xβ)+λ∑|β|1 LogLikelihood = (y-x\beta)'(y-x\beta) …

2
หากการหดตัวถูกนำไปใช้อย่างชาญฉลาดมันจะทำงานได้ดีขึ้นสำหรับผู้ประมาณค่าที่มีประสิทธิภาพมากกว่าหรือไม่
สมมติว่าฉันมีตัวประมาณสองตัวและที่เป็นตัวประมาณที่สอดคล้องกันของพารามิเตอร์เดียวกันและนั่น ด้วยในแง่ของ psd ดังนั้น asymptoticallyจะมีประสิทธิภาพมากกว่า\ตัวประมาณสองค่านี้ขึ้นอยู่กับฟังก์ชันการสูญเสียที่แตกต่างกันβˆ1β^1\widehat{\beta}_1βˆ2β^2\widehat{\beta}_2β0β0\beta_0n−−√(βˆ1−β0)→dN(0,V1),n−−√(βˆ2−β0)→dN(0,V2)n(β^1−β0)→dN(0,V1),n(β^2−β0)→dN(0,V2)\sqrt{n}(\widehat{\beta}_1 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_1), \quad \sqrt{n}(\widehat{\beta}_2 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_2)V1≤V2V1≤V2V_1 \leq V_2βˆ1β^1\widehat{\beta}_1βˆ2β^2\widehat{\beta}_2 ตอนนี้ฉันต้องการค้นหาเทคนิคการหดตัวเพื่อปรับปรุงคุณสมบัติตัวอย่าง จำกัด ของตัวประมาณของฉัน สมมติว่าผมพบว่าเทคนิคการหดตัวที่ช่วยเพิ่มประมาณการในตัวอย่างแน่นอนและทำให้ฉันมีค่าของ MSE เท่ากับ\นี่หมายความว่าฉันสามารถหาเทคนิคการหดตัวที่เหมาะสมเพื่อนำไปใช้กับ ที่จะให้ MSE ไม่มากไปกว่าหรือไม่? βˆ2β^2\widehat{\beta}_2γˆ2γ^2\widehat{\gamma}_2βˆ1β^1\widehat{\beta}_1 γˆ2γ^2\widehat{\gamma}_2 กล่าวอีกนัยหนึ่งถ้าการหดตัวถูกนำไปใช้อย่างชาญฉลาดมันจะทำงานได้ดีขึ้นสำหรับเครื่องมือประมาณค่าที่มีประสิทธิภาพมากกว่าหรือไม่

1
เครื่องมือประมาณการ James-Stein ที่มีความแปรปรวนไม่เท่ากัน
ทุกคำสั่งที่ฉันพบของตัวประมาณ James-Stein ถือว่าตัวแปรสุ่มที่ถูกประมาณนั้นมีความแปรปรวน (และหน่วย) เหมือนกัน แต่ตัวอย่างทั้งหมดเหล่านี้ยังพูดถึงว่าตัวประมาณ JS สามารถใช้ในการประมาณปริมาณโดยไม่เกี่ยวข้องกัน ตัวอย่างเช่นวิกิพีเดียคือความเร็วของแสงการบริโภคกาแฟในไต้หวันและน้ำหนักหมูในมอนแทนา แต่สมมุติว่าการวัดปริมาณทั้งสามนี้ของคุณจะมีความแปรปรวน "ที่แท้จริง" ที่แตกต่างกัน สิ่งนี้นำเสนอปัญหาหรือไม่? สิ่งนี้เชื่อมโยงกับปัญหาเชิงแนวคิดที่ใหญ่กว่าซึ่งฉันไม่เข้าใจเกี่ยวข้องกับคำถามนี้: ตัวประเมินเจมส์ - สไตน์: Efron และมอร์ริสคำนวณในปัจจัยการหดตัวอย่างเบสบอลของพวกเขาอย่างไร σ2σ2\sigma^2 cเราคำนวณปัจจัยการหดตัวดังนี้คcc c = 1 - ( k - 3 ) σ2∑ ( y- y¯)2c=1−(k−3)σ2∑(y−y¯)2 c = 1 - \frac{(k-3) \sigma^2} {\sum (y - \bar{y})^2} ฉันคิดว่าเทอมนั้นจริง ๆ แล้ว - ต่างกันสำหรับแต่ละปริมาณที่ประมาณไว้ แต่การสนทนาในคำถามนั้นพูดถึงการใช้ความแปรปรวนร่วมเท่านั้น …

3
วิธีรับช่วงความมั่นใจในการเปลี่ยนแปลงประชากร r-square
ตัวอย่างง่ายๆสมมติว่ามีตัวแบบถดถอยเชิงเส้นสองแบบ รุ่นที่ 1 มีสามทำนาย, x1a, x2bและx2c แบบจำลอง 2 มีตัวทำนายสามตัวจากแบบจำลอง 1 และสองตัวทำนายเพิ่มเติมx2aและx2b มีสมการถดถอยที่ประชากรประชากรแปรปรวนอธิบายคือเป็น สำหรับรุ่นที่ 1 และρ 2 ( 2 )สำหรับรุ่น 2. แปรปรวนเพิ่มขึ้นอธิบายโดยรุ่น 2 ในประชากรที่อยู่Δ ρ 2 = ρ 2 ( 2 ) - ρ 2 ( 1 )ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δρ2=ρ2(2)−ρ2(1)Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} ฉันสนใจในการได้รับข้อผิดพลาดมาตรฐานและช่วงความเชื่อมั่นสำหรับประมาณการของ 2 ในขณะที่ตัวอย่างเกี่ยวข้องกับตัวทำนาย 3 และ 2 ตามลำดับความสนใจงานวิจัยของฉันเกี่ยวข้องกับตัวทำนายจำนวนต่าง ๆ (เช่น …

4
Lasso-ing คำสั่งของความล่าช้าหรือไม่?
สมมติว่าฉันมีข้อมูลตามยาวของรูปแบบ (ฉันมีการสังเกตหลายอย่างนี่เป็นเพียงรูปแบบหนึ่งเดียว) ฉันสนใจในข้อ จำกัด ในการ\ไม่ จำกัดเทียบเท่ากับการ กับsigma_j)Y =(Y1, … ,YJ) ∼ N( μ , Σ )Y=(Y1,…,YJ)∼N(μ,Σ)\mathbf Y = (Y_1, \ldots, Y_J) \sim \mathcal N(\mu, \Sigma)ΣΣ\SigmaΣΣ\SigmaYj=αj+∑ℓ=1j−1ϕℓjYj−ℓ+εjYj=αj+∑ℓ=1j−1ϕℓjYj−ℓ+εj Y_j = \alpha_j + \sum_{\ell = 1} ^ {j - 1} \phi_{\ell j} Y_{j-\ell} + \varepsilon_j εj∼N(0,σj)εj∼N(0,σj)\varepsilon_j \sim N(0, \sigma_j) โดยทั่วไปจะไม่ทำเช่นนี้เนื่องจากต้องมีการประมาณค่าพารามิเตอร์ความแปรปรวนแบบจำลองคือ "lag- " ถ้าเราใช้ นั่นคือเราใช้ก่อนหน้านี้คำศัพท์ในการทำนายจากประวัติO(J2)O(J2)O(J^2)kkkYj=αj+∑ℓ=1kϕℓjYj−ℓ+εj,Yj=αj+∑ℓ=1kϕℓjYj−ℓ+εj, …

1
การทดสอบการเปลี่ยนแปลงแบบสุ่มสำหรับการเลือกคุณสมบัติ
ฉันสับสนเกี่ยวกับการวิเคราะห์การเปลี่ยนแปลงสำหรับการเลือกคุณสมบัติในบริบทการถดถอยโลจิสติก คุณสามารถให้คำอธิบายที่ชัดเจนเกี่ยวกับการทดสอบการเปลี่ยนรูปแบบสุ่มและนำไปใช้กับการเลือกคุณสมบัติได้อย่างไร อาจเป็นไปได้ด้วยอัลกอริทึมและตัวอย่างที่แน่นอน ในที่สุดมันเปรียบเทียบกับวิธีการหดตัวแบบอื่นเช่น Lasso หรือ LAR อย่างไร

2
การกระจายของชิ้นส่วน 'ไม่ได้ผสม' ตามคำสั่งของการผสม
สมมติว่าฉันได้จับคู่ข้อสังเกตวาด iid เป็น Xผม∼ N( 0 ,σ2x) ,Yผม∼ N( 0 ,σ2Y) ,Xผม~ยังไม่มีข้อความ(0,σx2),Yผม~ยังไม่มีข้อความ(0,σY2),X_i \sim \mathcal{N}\left(0,\sigma_x^2\right), Y_i \sim \mathcal{N}\left(0,\sigma_y^2\right), สำหรับ i = 1 , 2 , … , nผม=1,2,...,ni=1,2,\ldots,n. ปล่อยZผม=Xผม+Yผม,Zผม=Xผม+Yผม,Z_i = X_i + Y_i, และแสดงโดย ZผมJZผมJZ_{i_j} JJjค่าที่สังเกตได้มากที่สุดคือ ZZZ. การกระจาย (เงื่อนไข) ของคืออะไรXผมJXผมJX_{i_j}? (หรือเทียบเท่าจากYผมJYผมJY_{i_j}) นั่นคืออะไรคือการกระจายตัวของ XผมXผมX_i เงื่อนไข ZผมZผมZ_i เป็น JJjที่ใหญ่ที่สุดของ nnn ค่าสังเกตของ ZZZ? ฉันเดาว่าเป็น …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.