คำถามติดแท็ก shrinkage

รวมถึงข้อ จำกัด เพิ่มเติม (โดยทั่วไปจะเป็นบทลงโทษสำหรับความซับซ้อน) ในกระบวนการปรับตัวแบบ ใช้เพื่อป้องกันการ overfitting / เพิ่มความแม่นยำในการทำนาย


5
มุมมองแบบรวมเกี่ยวกับการหดตัว: ความสัมพันธ์ (ถ้ามี) ระหว่างความขัดแย้งของสไตน์การถดถอยของสันเขาและผลกระทบแบบสุ่มในแบบผสมคืออะไร?
พิจารณาสามปรากฏการณ์ต่อไปนี้ ความขัดแย้งของสไตน์: ได้รับข้อมูลจากการแจกแจงปกติหลายตัวแปรในค่าเฉลี่ยตัวอย่างไม่ใช่ค่าประมาณที่ดีมากของค่าเฉลี่ยที่แท้จริง เราสามารถได้ค่าประมาณที่มีความคลาดเคลื่อนกำลังสองต่ำกว่าถ้ามีการลดขนาดพิกัดทั้งหมดของค่าเฉลี่ยตัวอย่างไปยังศูนย์ [หรือไปสู่ค่าเฉลี่ยของพวกเขาหรือจริงต่อค่าใด ๆ ถ้าฉันเข้าใจถูกต้อง]Rn,n≥3Rn,n≥3\mathbb R^n, \: n\ge 3 หมายเหตุ: มักจะเป็นสูตรของสไตน์โดยพิจารณาจากจุดข้อมูลเดียว ; โปรดแก้ไขฉันหากนี่เป็นสิ่งสำคัญและสูตรของฉันด้านบนไม่ถูกต้องRnRn\mathbb R^n สันถดถอย: ให้ตัวแปรและตัวแปรอิสระบางตัว , การถดถอยมาตรฐานมีแนวโน้ม เพื่อให้ข้อมูลเหมาะสมและนำไปสู่ประสิทธิภาพที่ไม่ดีตัวอย่าง หนึ่งมักจะสามารถลดการหดตัวโดยอิงต่อศูนย์:YX β = ( X ⊤ X ) - 1 X ⊤ Y β β = ( X ⊤ X + λ ฉัน) - 1 X ⊤ Yyy\mathbf yXX\mathbf …

5
วิธีการหดตัวมีวิธีแก้ปัญหาอย่างไร?
เทศกาลวันหยุดที่มีให้ฉันมีโอกาสที่จะขดตัวถัดไปในกองไฟที่มีองค์ประกอบของการเรียนรู้ทางสถิติ มาจากมุมมองเศรษฐมิติ (บ่อยครั้ง) ฉันมีปัญหาในการเข้าใจการใช้งานของวิธีการหดตัวเช่นการถดถอยสันสัน, เชือกและการถดถอยมุมน้อย (LAR) โดยทั่วไปฉันสนใจในการประมาณค่าพารามิเตอร์ของตัวเองและในการบรรลุความเป็นกลางหรืออย่างน้อยที่สุด วิธีการหดตัวไม่ได้ทำอย่างนั้น สำหรับฉันแล้วดูเหมือนว่าวิธีการเหล่านี้จะใช้เมื่อนักสถิติกังวลว่าฟังก์ชั่นการถดถอยจะตอบสนองต่อตัวทำนายมากเกินไปซึ่งจะถือว่าตัวทำนายนั้นสำคัญกว่า (วัดจากขนาดของสัมประสิทธิ์) มากกว่าที่เป็นจริง กล่าวอีกนัยหนึ่งคือ overfitting แต่โดยทั่วไปแล้ว OLS จะให้การประมาณที่ไม่เอนเอียงและสอดคล้องกัน (เชิงอรรถ) ฉันมักจะดูปัญหาของการไม่ให้ข้อมูลมากไปกว่าการประเมินที่ใหญ่เกินไป ESL กล่าวถึงจุดหลังนี้) การประมาณค่าสัมประสิทธิ์ที่ไม่เอนเอียง / สม่ำเสมอนำไปสู่การทำนายผลลัพธ์ที่ไม่เอนเอียง / สม่ำเสมอ วิธีการหดตัวผลักดันการคาดการณ์ให้ใกล้เคียงกับผลลัพธ์เฉลี่ยมากกว่า OLS ซึ่งดูเหมือนว่าจะทิ้งข้อมูลไว้ในตาราง เพื่อย้ำอีกครั้งฉันไม่เห็นว่าปัญหาวิธีหดตัวกำลังพยายามแก้ไข ฉันพลาดอะไรไปรึเปล่า? เชิงอรรถ: เราต้องการเงื่อนไขการจัดอันดับคอลัมน์แบบเต็มเพื่อระบุค่าสัมประสิทธิ์ สมมติฐานค่าเฉลี่ยเชิงเงื่อนไข / ศูนย์สำหรับข้อผิดพลาดและข้อคาดหวังตามเงื่อนไขเชิงเส้นกำหนดการตีความที่เราสามารถให้กับค่าสัมประสิทธิ์

3
ทำไมสันถึงประเมินได้ดีกว่า OLS ด้วยการเพิ่มค่าคงที่ในแนวทแยง
ฉันเข้าใจว่าการประเมินการถดถอยของสันเขาเป็นที่ลดผลรวมที่เหลือของสแควร์และลดขนาดของββ\betaββ\beta βridge=(λID+X′X)−1X′y=argmin[RSS+λ∥β∥22]βridge=(λID+X′X)−1X′y=argmin⁡[RSS+λ‖β‖22]\beta_\mathrm{ridge} = (\lambda I_D + X'X)^{-1}X'y = \operatorname{argmin}\big[ \text{RSS} + \lambda \|\beta\|^2_2\big] แต่ผมไม่เข้าใจความสำคัญของความจริงที่ว่าβridgeβridge\beta_\text{ridge}แตกต่างจากβOLSβOLS\beta_\text{OLS}โดยเฉพาะการเพิ่มค่าคงที่ขนาดเล็กเพื่อเส้นทแยงมุมของX'XX′XX′XX'Xอันที่จริง βOLS=(X′X)−1X′yβOLS=(X′X)−1X′y\beta_\text{OLS} = (X'X)^{-1}X'y หนังสือของฉันกล่าวว่าสิ่งนี้ทำให้การประมาณมีเสถียรภาพมากขึ้นเชิงตัวเลข - เพราะเหตุใด ความเสถียรเชิงตัวเลขเกี่ยวข้องกับการหดตัวต่อ 0 ของการประมาณสันหรือไม่หรือเป็นแค่เรื่องบังเอิญ?

2
ทำไมการหดตัวจึงใช้งานได้
เพื่อที่จะแก้ปัญหาของการเลือกแบบจำลองจำนวนของวิธีการ (LASSO, การถดถอยของสันเขา ฯลฯ ) จะลดค่าสัมประสิทธิ์ของตัวแปรทำนายไปทางศูนย์ ฉันกำลังมองหาคำอธิบายที่เข้าใจง่ายว่าทำไมสิ่งนี้จึงปรับปรุงความสามารถในการทำนาย หากผลที่แท้จริงของตัวแปรมีขนาดใหญ่มากทำไมไม่ลดขนาดพารามิเตอร์ส่งผลให้การคาดการณ์แย่ลง?

6
การถดถอยของสันเขาไร้ประโยชน์ในมิติที่สูง ( ) หรือไม่? OLS จะล้มเหลวได้อย่างไร
พิจารณาปัญหาการถดถอยที่ดีเก่ากับพยากรณ์และขนาดของกลุ่มตัวอย่างnภูมิปัญญาปกติคือตัวประมาณค่า OLS จะ overfit และโดยทั่วไปแล้วจะดีกว่าโดยตัวประมาณถดถอยสัน:มันเป็นมาตรฐานที่จะใช้การตรวจสอบข้ามที่จะหาที่ดีที่สุด regularization พารามิเตอร์\ที่นี่ฉันใช้ CV 10 เท่า ปรับปรุงการชี้แจง:เมื่อ , โดย "OLS ตัวประมาณ" ฉันเข้าใจ "ตัวประมาณค่าต่ำสุด - บรรทัดฐาน OLS" ที่กำหนดโดยpppβ = ( X ⊤ X + λ ฉัน) - 1 X ⊤ Y λnnnβ^=(X⊤X+λI)−1X⊤y.β^=(X⊤X+λI)−1X⊤y.\hat\beta = (X^\top X + \lambda I)^{-1}X^\top y.λλ\lambdaβ OLS = ( X ⊤ X ) + …

2
สูตร R-squared ที่ปรับแล้วใน lm ใน R คืออะไรและควรตีความอย่างไร
สูตรที่แน่นอนที่ใช้ใน R lm() สำหรับการปรับ R-squared คืออะไร? ฉันจะตีความมันได้อย่างไร ปรับสูตร r-squared ดูเหมือนจะมีสูตรอยู่หลายสูตรในการคำนวณการปรับ R-squared สูตรของ Wherry: 1 - ( 1 - R2) ( n - 1 )( n - v )1−(1−R2)(n−1)(n−v)1-(1-R^2)\frac{(n-1)}{(n-v)} สูตรของ McNemar: 1 - ( 1 - R2) ( n - 1 )( n - v - 1 )1−(1−R2)(n−1)(n−v−1)1-(1-R^2)\frac{(n-1)}{(n-v-1)} สูตรของลอร์ด: 1 - …

2
มาตรฐานก่อน Lasso จำเป็นจริงๆหรือ?
ฉันได้อ่านเหตุผลหลักสามข้อสำหรับการกำหนดค่ามาตรฐานให้กับตัวแปรก่อนหน้าบางอย่างเช่นLassoการถดถอย: 1) การตีความค่าสัมประสิทธิ์ 2) ความสามารถในการจัดอันดับความสำคัญของค่าสัมประสิทธิ์โดยขนาดสัมพัทธ์ของการประมาณค่าสัมประสิทธิ์หลังการหดตัว 3) ไม่ต้องมีการสกัดกั้น แต่ฉันสงสัยเกี่ยวกับจุดที่สำคัญที่สุด เรามีเหตุผลหรือไม่ที่จะคิดว่าการสร้างมาตรฐานจะช่วยปรับปรุงการวางนัยทั่วไปของตัวอย่าง? นอกจากนี้ฉันไม่สนใจว่าฉันไม่ต้องการการสกัดกั้นในแบบจำลองของฉันหรือไม่ เพิ่มหนึ่งไม่เจ็บฉัน

1
ทำไม glmnet ใช้ตาข่ายยืดหยุ่น“ ไร้เดียงสา” จากกระดาษต้นฉบับของ Zou & Hastie
ต้นฉบับกระดาษสุทธิยืดหยุ่นZou & Hastie (2005) กูและการเลือกตัวแปรผ่านสุทธิยืดหยุ่นแนะนำฟังก์ชั่นมีผลขาดทุนสุทธิยืดหยุ่นสำหรับการถดถอยเชิงเส้น (ที่นี่ผมถือว่าตัวแปรทั้งหมดเป็นศูนย์กลางและมีขนาดหน่วยความแปรปรวน): L=1n∥∥y−Xβ∥∥2+λ1∥β∥1+λ2∥β∥22,L=1n‖y−Xβ‖2+λ1‖β‖1+λ2‖β‖22,\mathcal L = \frac{1}{n}\big\lVert y - X\beta\big\rVert^2 + \lambda_1\lVert \beta\rVert_1 + \lambda_2 \lVert \beta\rVert^2_2,แต่เรียกมันว่า "netive elastic net" พวกเขาเป็นที่ถกเถียงกันอยู่ว่ามันทำการหดตัวสองครั้ง (lasso และสัน) มีแนวโน้มที่จะหดตัว - และสามารถปรับปรุงได้โดย rescaling แก้ปัญหาผลลัพธ์ดังนี้:β^∗=(1+λ2)β^.β^∗=(1+λ2)β^.\hat\beta^* = (1+\lambda_2)\hat\beta.พวกเขาให้ข้อโต้แย้งทางทฤษฎีและหลักฐานการทดลองว่าสิ่งนี้นำไปสู่ประสิทธิภาพที่ดีขึ้น อย่างไรก็ตามglmnetกระดาษต่อมาฟรีดแมน, Hastie, & Tibshirani (2010) เส้นทางการทำให้เป็นมาตรฐานสำหรับโมเดลเชิงเส้นทั่วไปผ่านทางโคตรพิกัดไม่ได้ใช้การลดขนาดนี้และมีเชิงอรรถสั้น ๆ ว่า Zou และ Hastie (2005) เรียกว่าการลงโทษนี้ตาข่ายยืดหยุ่นไร้เดียงสาและต้องการรุ่นที่ได้รับการช่วยเหลือซึ่งพวกเขาเรียกว่าตาข่ายยืดหยุ่น เราแยกความแตกต่างนี้ตรงนี้ ไม่มีคำอธิบายเพิ่มเติมใด ๆ (หรือในตำราเรียน …

2
ข้อดีของการทำ "เชือกคู่" หรือทำเชือกสองครั้ง?
ฉันเคยได้ยินวิธีการใช้ lasso สองครั้ง (เช่น double-lasso) ซึ่งคุณทำการ lasso บนชุดตัวแปรดั้งเดิมพูด S1, รับชุด sparse เรียกว่า S2 แล้วทำการ lasso อีกครั้งใน set S2 เพื่อรับ set S3 . มีคำศัพท์วิธีการสำหรับเรื่องนี้หรือไม่? นอกจากนี้ข้อดีของการทำบ่วงบาศสองครั้งคืออะไร?

3
LASSO ที่มีเงื่อนไขการโต้ตอบ - ไม่เป็นไรหากเอฟเฟกต์หลักถูกย่อเป็นศูนย์?
การถดถอยแบบ LASSO จะลดค่าสัมประสิทธิ์เป็นศูนย์จึงเป็นการเลือกแบบจำลองได้อย่างมีประสิทธิภาพ ฉันเชื่อว่าในข้อมูลของฉันมีการโต้ตอบที่มีความหมายระหว่างค่าเล็กน้อยและค่าคงที่ต่อเนื่อง อย่างไรก็ตามไม่จำเป็นว่าเป็น 'เอฟเฟ็กต์หลัก' ของโมเดลจริงที่มีความหมาย (ไม่เป็นศูนย์) แน่นอนฉันไม่ทราบว่าสิ่งนี้เป็นรูปแบบจริงเพราะไม่เป็นที่รู้จัก วัตถุประสงค์ของฉันคือการหาแบบจำลองที่แท้จริงและทำนายผลลัพธ์ให้ใกล้เคียงที่สุด ฉันได้เรียนรู้ว่าวิธีการแบบดั้งเดิมในการสร้างแบบจำลองจะรวมถึงผลกระทบหลักเสมอก่อนที่จะรวมการโต้ตอบ ดังนั้นจึงไม่มีแบบจำลองโดยไม่มีผลกระทบหลักของ covariatesและหากมีปฏิสัมพันธ์ของ covariatesในรูปแบบเดียวกัน ฟังก์ชั่นใน จึงคัดสรรแง่รูปแบบ (เช่นขึ้นอยู่กับการย้อนกลับหรือส่งต่อ AIC) ปฏิบัติตามกฎนี้XXXZZZX∗ ZX* * * *ZX*ZstepR LASSO ดูเหมือนจะทำงานแตกต่างกัน เนื่องจากพารามิเตอร์ทั้งหมดถูกลงโทษมันอาจเกิดขึ้นได้อย่างไม่ต้องสงสัยเลยว่าเอฟเฟกต์หลักจะหดเป็นศูนย์ในขณะที่การทำงานร่วมกันของโมเดลที่ดีที่สุด (เช่นการตรวจสอบความถูกต้องแบบไขว้) ไม่ใช่ศูนย์ นี้ผมพบว่าโดยเฉพาะอย่างยิ่งสำหรับข้อมูลของฉันเมื่อใช้R's glmnetแพคเกจ ฉันได้รับการวิจารณ์ตามกฎข้อแรกที่กล่าวถึงข้างต้นนั่นคือรูปแบบ Lasso ที่ผ่านการตรวจสอบความถูกต้องครั้งสุดท้ายของฉันไม่ได้รวมคำศัพท์หลักที่มีผลกระทบที่สอดคล้องกันของการโต้ตอบที่ไม่เป็นศูนย์ อย่างไรก็ตามกฎนี้ดูเหมือนค่อนข้างแปลกในบริบทนี้ สิ่งที่เกิดขึ้นคือคำถามว่าพารามิเตอร์ในตัวแบบจริงเป็นศูนย์หรือไม่ สมมติว่ามันเป็น แต่การโต้ตอบไม่ใช่ศูนย์จากนั้น LASSO จะระบุสิ่งนี้บางทีจึงหารูปแบบที่ถูกต้อง ในความเป็นจริงดูเหมือนว่าการคาดการณ์จากรุ่นนี้จะแม่นยำกว่าเพราะโมเดลไม่มีผลกระทบหลักที่เป็นศูนย์จริงซึ่งเป็นตัวแปรเสียงได้อย่างมีประสิทธิภาพ ฉันขอปฏิเสธคำวิจารณ์ที่มีพื้นฐานมาจากนี้หรือฉันควรระมัดระวังไว้ก่อนว่า LASSO จะมีผลกระทบหลักก่อนที่จะมีการโต้ตอบหรือไม่?

5
เหตุผลในการไม่ลดขนาดอคติ (การสกัดกั้น) ในการถดถอย
สำหรับตัวแบบเชิงเส้นคำการหดตัวจะเป็นเสมอY= β0+ x β+ εy=β0+xβ+εy=\beta_0+x\beta+\varepsilonP( β)P(β)P(\beta) อะไรคือเหตุผลที่เราไม่ลดขนาดอคติ (การสกัดกั้น) คำว่า ? เราควรย่อคำอคติในโมเดลโครงข่ายประสาทเทียมหรือไม่β0β0\beta_0

4
ค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบคืออะไร?
ความแม่นยำหมายถึง: p = true positives / (true positives + false positives) มันถูกต้องหรือไม่ที่ในฐานะtrue positivesและfalse positivesวิธีที่ 0 ความแม่นยำเข้าใกล้ 1? คำถามเดียวกันสำหรับการเรียกคืน: r = true positives / (true positives + false negatives) ขณะนี้ฉันกำลังใช้การทดสอบทางสถิติที่ฉันต้องการคำนวณค่าเหล่านี้และบางครั้งมันก็เกิดขึ้นที่ตัวส่วนเป็น 0 และฉันสงสัยว่าจะคืนค่าใดให้กับกรณีนี้ PS: ขอโทษแท็กที่ไม่เหมาะสมผมอยากจะใช้recall, precisionและlimitแต่ฉันไม่สามารถสร้างแท็กใหม่ ๆ
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

1
ทำไมตัวประมาณ James-Stein จึงเรียกตัวประมาณว่า
ฉันได้อ่านเกี่ยวกับตัวประมาณ James-Stein มันถูกกำหนดไว้ในบันทึกนี้เป็น θ^=(1−p−2∥X∥2)Xθ^=(1−p−2‖X‖2)X \hat{\theta}=\left(1 - \frac{p-2}{\|X\|^2}\right)X ฉันได้อ่านหลักฐานแล้ว แต่ฉันไม่เข้าใจข้อความต่อไปนี้: ตัวประเมินเจมส์ - สไตน์ย่อตัวส่วนประกอบแต่ละส่วนของเข้าหาจุดกำเนิด ...XXX "ย่อส่วนแต่ละส่วนของไปทางต้นกำเนิด" หมายความว่าอย่างไร ฉันกำลังคิดว่าจะชอบ ซึ่งเป็นจริงในกรณีนี้ตราบใดที่ตั้งแต่ ‖ θ - 0 ‖ 2 < ‖ X - 0 ‖ 2 , ( P + 2 ) < ‖ X ‖ 2 ‖ θ ‖ = ‖ X ‖ 2 - …

2
ตัวประเมิน James-Stein: Efron และ Morris คำนวณ
ฉันมีคำถามเกี่ยวกับการคำนวณปัจจัยเจมส์สไตน์การหดตัวในส่วนกระดาษ 1,977 วิทยาศาสตร์อเมริกันโดยแบรดลีย์ Efron และคาร์ลมอร์ริส "สไตน์ Paradox สถิติ" ฉันรวบรวมข้อมูลสำหรับผู้เล่นเบสบอลและได้รับด้านล่าง: Name, avg45, avgSeason Clemente, 0.400, 0.346 Robinson, 0.378, 0.298 Howard, 0.356, 0.276 Johnstone, 0.333, 0.222 Berry, 0.311, 0.273 Spencer, 0.311, 0.270 Kessinger, 0.289, 0.263 Alvarado, 0.267, 0.210 Santo, 0.244, 0.269 Swoboda, 0.244, 0.230 Unser, 0.222, 0.264 Williams, 0.222, 0.256 Scott, 0.222, …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.