คำถามติดแท็ก penalized

3
LASSO ที่มีเงื่อนไขการโต้ตอบ - ไม่เป็นไรหากเอฟเฟกต์หลักถูกย่อเป็นศูนย์?
การถดถอยแบบ LASSO จะลดค่าสัมประสิทธิ์เป็นศูนย์จึงเป็นการเลือกแบบจำลองได้อย่างมีประสิทธิภาพ ฉันเชื่อว่าในข้อมูลของฉันมีการโต้ตอบที่มีความหมายระหว่างค่าเล็กน้อยและค่าคงที่ต่อเนื่อง อย่างไรก็ตามไม่จำเป็นว่าเป็น 'เอฟเฟ็กต์หลัก' ของโมเดลจริงที่มีความหมาย (ไม่เป็นศูนย์) แน่นอนฉันไม่ทราบว่าสิ่งนี้เป็นรูปแบบจริงเพราะไม่เป็นที่รู้จัก วัตถุประสงค์ของฉันคือการหาแบบจำลองที่แท้จริงและทำนายผลลัพธ์ให้ใกล้เคียงที่สุด ฉันได้เรียนรู้ว่าวิธีการแบบดั้งเดิมในการสร้างแบบจำลองจะรวมถึงผลกระทบหลักเสมอก่อนที่จะรวมการโต้ตอบ ดังนั้นจึงไม่มีแบบจำลองโดยไม่มีผลกระทบหลักของ covariatesและหากมีปฏิสัมพันธ์ของ covariatesในรูปแบบเดียวกัน ฟังก์ชั่นใน จึงคัดสรรแง่รูปแบบ (เช่นขึ้นอยู่กับการย้อนกลับหรือส่งต่อ AIC) ปฏิบัติตามกฎนี้XXXZZZX∗ ZX* * * *ZX*ZstepR LASSO ดูเหมือนจะทำงานแตกต่างกัน เนื่องจากพารามิเตอร์ทั้งหมดถูกลงโทษมันอาจเกิดขึ้นได้อย่างไม่ต้องสงสัยเลยว่าเอฟเฟกต์หลักจะหดเป็นศูนย์ในขณะที่การทำงานร่วมกันของโมเดลที่ดีที่สุด (เช่นการตรวจสอบความถูกต้องแบบไขว้) ไม่ใช่ศูนย์ นี้ผมพบว่าโดยเฉพาะอย่างยิ่งสำหรับข้อมูลของฉันเมื่อใช้R's glmnetแพคเกจ ฉันได้รับการวิจารณ์ตามกฎข้อแรกที่กล่าวถึงข้างต้นนั่นคือรูปแบบ Lasso ที่ผ่านการตรวจสอบความถูกต้องครั้งสุดท้ายของฉันไม่ได้รวมคำศัพท์หลักที่มีผลกระทบที่สอดคล้องกันของการโต้ตอบที่ไม่เป็นศูนย์ อย่างไรก็ตามกฎนี้ดูเหมือนค่อนข้างแปลกในบริบทนี้ สิ่งที่เกิดขึ้นคือคำถามว่าพารามิเตอร์ในตัวแบบจริงเป็นศูนย์หรือไม่ สมมติว่ามันเป็น แต่การโต้ตอบไม่ใช่ศูนย์จากนั้น LASSO จะระบุสิ่งนี้บางทีจึงหารูปแบบที่ถูกต้อง ในความเป็นจริงดูเหมือนว่าการคาดการณ์จากรุ่นนี้จะแม่นยำกว่าเพราะโมเดลไม่มีผลกระทบหลักที่เป็นศูนย์จริงซึ่งเป็นตัวแปรเสียงได้อย่างมีประสิทธิภาพ ฉันขอปฏิเสธคำวิจารณ์ที่มีพื้นฐานมาจากนี้หรือฉันควรระมัดระวังไว้ก่อนว่า LASSO จะมีผลกระทบหลักก่อนที่จะมีการโต้ตอบหรือไม่?

2
KKT เทียบกับสูตรที่ไม่มีข้อ จำกัด ของการถดถอยแบบ lasso
L1 ลงโทษการถดถอย (aka Lasso) จะถูกนำเสนอในสองสูตร ให้ทั้งสองฟังก์ชั่นวัตถุประสงค์เป็น ดังนั้นสูตรที่แตกต่างกันสองอย่างคือ อยู่ภายใต้ และ, การใช้เงื่อนไข Karush-Kuhn-Tucker (KKT) มันง่ายที่จะเห็นว่าเงื่อนไขคงที่สำหรับสูตรแรกนั้นเทียบเท่ากับการไล่ระดับสีของสูตรที่สองและตั้งค่าเท่ากับ 0 สิ่งที่ฉันไม่สามารถหาได้ เป็นวิธีที่เงื่อนไขความหย่อนสมบูรณ์ของสูตรแรกQ1= 12| | Y- Xβ| |22Q2= 12| | Y- Xβ| |22+ λ | | β| |1.Q1=12||Y−Xβ||22Q2=12||Y−Xβ||22+λ||β||1. Q_1 = \frac{1}{2}||Y - X\beta||_2^2 \\ Q_2 =\frac{1}{2}||Y - X\beta||_2^2 + \lambda ||\beta||_1. argminβQ1argminβQ1 \text{argmin}_\beta \; Q_1 | | …

1
อะไรคือช่วงปกติของค่าที่เป็นไปได้สำหรับพารามิเตอร์การหดตัวในการถดถอยเชิงลงโทษ
ในเชือกหรือสันเขาถดถอยหนึ่งมีการระบุพารามิเตอร์การหดตัวโดยมักจะเรียกว่าหรือ\ค่านี้มักถูกเลือกผ่านการตรวจสอบความถูกต้องของข้อมูลโดยการตรวจสอบค่าต่าง ๆ เกี่ยวกับข้อมูลการฝึกอบรมและดูว่าค่าใดให้ผลดีที่สุดเช่นจากข้อมูลการทดสอบ ช่วงหนึ่งของค่าควรตรวจสอบคืออะไร? มันเป็น ?λλ\lambdaαα\alphaR2R2R^2( 0 , 1 )(0,1)(0,1)

1
ทำไม R Squared จึงไม่ใช่มาตรการที่ดีสำหรับการถดถอยที่เหมาะสมเมื่อใช้ LASSO
ฉันได้อ่านในหลาย ๆ ที่ว่า R Squared ไม่ใช่วิธีที่เหมาะสมที่สุดเมื่อแบบจำลองนั้นเหมาะสมกับ LASSO แต่ฉันไม่ชัดเจนเกี่ยวกับว่าทำไมที่เป็น นอกจากนี้คุณสามารถแนะนำทางเลือกที่ดีที่สุดได้หรือไม่

1
ขัดขวางแบบเบย์และแผ่นเปรียบเทียบกับวิธีการลงโทษ
ฉันกำลังอ่านสไลด์ของ Steven Scott เกี่ยวกับแพ็คเกจ BSTS R (คุณสามารถค้นหาได้ที่นี่: สไลด์ ) เมื่อถึงจุดหนึ่งเมื่อพูดถึงการรวมถึง regressors จำนวนมากในโมเดลอนุกรมเวลาเชิงโครงสร้างเขาได้แนะนำค่าสัมประสิทธิ์การถดถอยและสแลบพื้นและบอกว่าพวกเขาดีกว่าเมื่อเทียบกับวิธีการลงโทษ Scott กล่าวซึ่งอ้างถึงตัวอย่างของชุดข้อมูลที่มีตัวทำนาย 100 ตัว: วิธีการลงโทษจะทำการตัดสินใจเพียงครั้งเดียวว่าตัวแปรใดที่จะถูกรวม / แยกออกซึ่งหมายความว่าพวกเขาจะเลือกเซตย่อยของตัวทำนายหนึ่งตัวอย่างเช่นแบบจำลองหนึ่งในเป็นไปได้2 100210021002^{100} "นักบวช Lasso (และที่เกี่ยวข้อง) ไม่กระจัดกระจายพวกเขาชักนำ sparsity ที่โหมด แต่ไม่ได้อยู่ในการกระจายหลัง" เมื่อมาถึงจุดนี้เขาแนะนำ Spike และ Slab Priors ฉันคิดว่าฉันได้รับปรีชาญาณ แต่ฉันต้องการให้แน่ใจว่า: พวกเขาดีขึ้นหรือไม่ในแง่ที่ว่าพวกเขาใช้วิธีการทดสอบแบบบังคับกำลังอันโหดร้ายในการทดสอบแต่ละชุดย่อยของ regressors ข้อเสียเปรียบคือเวลาในการคำนวณใช่หรือไม่? คุณคิดว่าเขาหมายถึงอะไรเมื่อพูดว่า "Lasso (และที่เกี่ยวข้อง) ... แต่ไม่ได้อยู่ในการกระจายหลัง"

2
หากการหดตัวถูกนำไปใช้อย่างชาญฉลาดมันจะทำงานได้ดีขึ้นสำหรับผู้ประมาณค่าที่มีประสิทธิภาพมากกว่าหรือไม่
สมมติว่าฉันมีตัวประมาณสองตัวและที่เป็นตัวประมาณที่สอดคล้องกันของพารามิเตอร์เดียวกันและนั่น ด้วยในแง่ของ psd ดังนั้น asymptoticallyจะมีประสิทธิภาพมากกว่า\ตัวประมาณสองค่านี้ขึ้นอยู่กับฟังก์ชันการสูญเสียที่แตกต่างกันβˆ1β^1\widehat{\beta}_1βˆ2β^2\widehat{\beta}_2β0β0\beta_0n−−√(βˆ1−β0)→dN(0,V1),n−−√(βˆ2−β0)→dN(0,V2)n(β^1−β0)→dN(0,V1),n(β^2−β0)→dN(0,V2)\sqrt{n}(\widehat{\beta}_1 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_1), \quad \sqrt{n}(\widehat{\beta}_2 -\beta_0) \stackrel{d}\rightarrow \mathcal{N}(0, V_2)V1≤V2V1≤V2V_1 \leq V_2βˆ1β^1\widehat{\beta}_1βˆ2β^2\widehat{\beta}_2 ตอนนี้ฉันต้องการค้นหาเทคนิคการหดตัวเพื่อปรับปรุงคุณสมบัติตัวอย่าง จำกัด ของตัวประมาณของฉัน สมมติว่าผมพบว่าเทคนิคการหดตัวที่ช่วยเพิ่มประมาณการในตัวอย่างแน่นอนและทำให้ฉันมีค่าของ MSE เท่ากับ\นี่หมายความว่าฉันสามารถหาเทคนิคการหดตัวที่เหมาะสมเพื่อนำไปใช้กับ ที่จะให้ MSE ไม่มากไปกว่าหรือไม่? βˆ2β^2\widehat{\beta}_2γˆ2γ^2\widehat{\gamma}_2βˆ1β^1\widehat{\beta}_1 γˆ2γ^2\widehat{\gamma}_2 กล่าวอีกนัยหนึ่งถ้าการหดตัวถูกนำไปใช้อย่างชาญฉลาดมันจะทำงานได้ดีขึ้นสำหรับเครื่องมือประมาณค่าที่มีประสิทธิภาพมากกว่าหรือไม่

2
B-Splines VS พหุนามลำดับสูงในการถดถอย
ฉันไม่มีตัวอย่างหรืองานเฉพาะในใจ ฉันเพิ่งใหม่ในการใช้ b-splines และฉันต้องการทำความเข้าใจกับฟังก์ชันนี้ในบริบทการถดถอย สมมติว่าเราต้องการที่จะประเมินความสัมพันธ์ระหว่างตัวแปรตอบสนองและพยากรณ์บางx 1 , x 2 , . . , xพี ตัวทำนายประกอบด้วยตัวแปรตัวเลขบางตัวและตัวแปรบางตัวyyyx1,x2,...,xpx1,x2,...,xpx_1, x_2,...,x_p สมมติว่าหลังจากปรับโมเดลการถดถอยแล้วหนึ่งในตัวแปรตัวเลขเช่นนั้นมีความสำคัญ ตรรกะขั้นตอนหลังจากนั้นคือการประเมินว่าคำสั่งชื่อพหุนามที่สูงขึ้นเช่น: x 2 1และx 3 1จะต้องอธิบายความสัมพันธ์อย่างเพียงพอโดยไม่ต้อง overfittingx1x1x_1x21x12x_1^2x31x13x_1^3 คำถามของฉันคือ: คุณเลือกจุดไหนระหว่าง b-splines หรือพหุนามคำสั่งที่สูงขึ้นอย่างง่าย เช่นใน R: y ~ poly(x1,3) + x2 + x3 VS y ~ bs(x1,3) + x2 + x3 คุณจะใช้พล็อตเพื่อแจ้งการเลือกระหว่างสองสิ่งนี้กับสิ่งที่เกิดขึ้นได้อย่างไรหากไม่ชัดเจนจากพล็อต (เช่น: เนื่องจากจุดข้อมูลจำนวนมาก) คุณจะประเมินเงื่อนไขการโต้ตอบแบบสองทางระหว่างและสมมุติว่าx 3x2x2x_2x3x3x_3 …

1
รูปแบบการเรียนรู้แบบลึกใดที่สามารถจำแนกหมวดหมู่ที่ไม่ได้เกิดร่วมกัน
ตัวอย่าง: ฉันมีประโยคในรายละเอียดงาน: "วิศวกรอาวุโสของ Java ในสหราชอาณาจักร" ฉันต้องการที่จะใช้รูปแบบการเรียนรู้ที่ลึกที่จะคาดการณ์ว่ามันเป็น 2 ประเภทและEnglish IT jobsถ้าฉันใช้รูปแบบการจำแนกแบบดั้งเดิมมันสามารถทำนายได้เพียง 1 ฉลากที่มีsoftmaxฟังก์ชั่นที่ชั้นสุดท้าย ดังนั้นฉันสามารถใช้โครงข่ายประสาทเทียม 2 แบบในการทำนาย "ใช่" / "ไม่" กับทั้งสองหมวดหมู่ แต่ถ้าเรามีหมวดหมู่มากขึ้นมันก็แพงเกินไป ดังนั้นเราจึงมีรูปแบบการเรียนรู้หรือการเรียนรู้ด้วยเครื่องเพื่อคาดการณ์ 2 หมวดหมู่ขึ้นไปพร้อมกันหรือไม่ "แก้ไข": ด้วย 3 ป้ายกำกับโดยวิธีดั้งเดิมมันจะถูกเข้ารหัสโดย [1,0,0] แต่ในกรณีของฉันมันจะถูกเข้ารหัสโดย [1,1,0] หรือ [1,1,1] ตัวอย่าง: หากเรามี 3 ป้ายกำกับและประโยคอาจเหมาะกับป้ายกำกับเหล่านี้ทั้งหมด ดังนั้นถ้าผลลัพธ์จากฟังก์ชัน softmax คือ [0.45, 0.35, 0.2] เราควรแบ่งมันออกเป็น 3 label หรือ 2 label หรืออาจเป็นหนึ่ง? ปัญหาหลักเมื่อเราทำคือ: …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
glmnet จัดการกับการกระจายเกินขนาดได้อย่างไร
ฉันมีคำถามเกี่ยวกับวิธีจำลองข้อความเหนือข้อมูลการนับโดยเฉพาะฉันจะใช้lassoเทคนิคเพื่อลดคุณลักษณะได้อย่างไร สมมติว่าฉันมีบทความออนไลน์ N รายการและจำนวนการเปิดดูหน้าเว็บสำหรับแต่ละบทความ ฉันได้สกัด 1 กรัมและ 2 กรัมสำหรับแต่ละบทความแล้วและฉันต้องการเรียกใช้การถดถอยมากกว่า 1,2- กรัม เนื่องจากฟีเจอร์ (1,2-grams) นั้นมากกว่าวิธีการสังเกตจำนวนมาก Lasso จึงเป็นวิธีที่ดีในการลดจำนวนฟีเจอร์ นอกจากนี้ฉันพบว่าglmnetมันมีประโยชน์จริงๆในการรันการวิเคราะห์บ่วงบาศ อย่างไรก็ตามจำนวนการเปิดดูหน้าเว็บนั้นมีจำนวนมากเกินไป (แปรปรวน> หมายถึง) แต่glmnetไม่มีการเสนอquasipoisson(อย่างชัดเจน) หรือnegative binomialแต่poissonสำหรับการนับข้อมูล วิธีการแก้ปัญหาที่ฉันคิดคือlog transformการนับข้อมูล (วิธีที่ใช้กันทั่วไปในหมู่นักสังคมศาสตร์) และทำให้ตัวแปรตอบสนองคร่าว ๆ ตามการแจกแจงปกติ glmnetเป็นเช่นนี้ผมอาจจะรูปแบบข้อมูลกับครอบครัวของเกาส์โดยใช้ ดังนั้นคำถามของฉันคือ: เหมาะสมหรือไม่ หรือฉันจะใช้ปัวซองglmnetในกรณีglmnetด้ามจับquasipoisson? หรือมีแพ็คเกจ R อื่น ๆ จัดการกับสถานการณ์นี้หรือไม่? ขอบคุณมาก!
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.