คำถามติดแท็ก regression

เทคนิคในการวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร "dependent" และตัวแปร "อิสระ" หนึ่งตัว

1
องศาอิสระเป็นหมายเลขที่ไม่ใช่จำนวนเต็มหรือไม่
เมื่อฉันใช้ GAM มันให้ DF ที่เหลือกับฉันคือ (บรรทัดสุดท้ายในรหัส) นั่นหมายความว่าอย่างไร? นอกเหนือไปจากตัวอย่างของ GAM โดยทั่วไปแล้วจำนวนองศาความเป็นอิสระจะเป็นจำนวนที่ไม่ใช่จำนวนเต็มหรือไม่26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

1
ทำไม glmnet ใช้ตาข่ายยืดหยุ่น“ ไร้เดียงสา” จากกระดาษต้นฉบับของ Zou & Hastie
ต้นฉบับกระดาษสุทธิยืดหยุ่นZou & Hastie (2005) กูและการเลือกตัวแปรผ่านสุทธิยืดหยุ่นแนะนำฟังก์ชั่นมีผลขาดทุนสุทธิยืดหยุ่นสำหรับการถดถอยเชิงเส้น (ที่นี่ผมถือว่าตัวแปรทั้งหมดเป็นศูนย์กลางและมีขนาดหน่วยความแปรปรวน): L=1n∥∥y−Xβ∥∥2+λ1∥β∥1+λ2∥β∥22,L=1n‖y−Xβ‖2+λ1‖β‖1+λ2‖β‖22,\mathcal L = \frac{1}{n}\big\lVert y - X\beta\big\rVert^2 + \lambda_1\lVert \beta\rVert_1 + \lambda_2 \lVert \beta\rVert^2_2,แต่เรียกมันว่า "netive elastic net" พวกเขาเป็นที่ถกเถียงกันอยู่ว่ามันทำการหดตัวสองครั้ง (lasso และสัน) มีแนวโน้มที่จะหดตัว - และสามารถปรับปรุงได้โดย rescaling แก้ปัญหาผลลัพธ์ดังนี้:β^∗=(1+λ2)β^.β^∗=(1+λ2)β^.\hat\beta^* = (1+\lambda_2)\hat\beta.พวกเขาให้ข้อโต้แย้งทางทฤษฎีและหลักฐานการทดลองว่าสิ่งนี้นำไปสู่ประสิทธิภาพที่ดีขึ้น อย่างไรก็ตามglmnetกระดาษต่อมาฟรีดแมน, Hastie, & Tibshirani (2010) เส้นทางการทำให้เป็นมาตรฐานสำหรับโมเดลเชิงเส้นทั่วไปผ่านทางโคตรพิกัดไม่ได้ใช้การลดขนาดนี้และมีเชิงอรรถสั้น ๆ ว่า Zou และ Hastie (2005) เรียกว่าการลงโทษนี้ตาข่ายยืดหยุ่นไร้เดียงสาและต้องการรุ่นที่ได้รับการช่วยเหลือซึ่งพวกเขาเรียกว่าตาข่ายยืดหยุ่น เราแยกความแตกต่างนี้ตรงนี้ ไม่มีคำอธิบายเพิ่มเติมใด ๆ (หรือในตำราเรียน …

3
จะบอกความแตกต่างระหว่างตัวแบบการถดถอยเชิงเส้นและแบบไม่เชิงเส้นได้อย่างไร?
ผมอ่านลิงค์ต่อไปนี้ไม่ใช่การถดถอยเชิงเส้นSAS องค์กรไม่เชิงเส้น ความเข้าใจของฉันจากการอ่านส่วนแรก "การถดถอยเชิงเส้นกับการถดถอยเชิงเส้น" คือว่าสมการด้านล่างนี้เป็นจริงแล้วการถดถอยเชิงเส้นนั้นถูกต้องหรือไม่ ถ้าเป็นเช่นนั้นทำไม y=b1x3+b2x2+b3x+cy=b1x3+b2x2+b3x+cy = b_1x^3 + b_2x^2 + b_3x + c ฉันต้องเข้าใจด้วยหรือไม่ว่าในการถดถอยเชิงเส้นพหุสัมพันธ์ไม่ใช่ปัญหา? ฉันรู้ว่า multicollinearity สามารถเป็นปัญหาในการถดถอยเชิงเส้นได้ดังนั้นหากโมเดลข้างต้นเป็นจริงแล้วการถดถอยเชิงเส้นจะมีความหลากหลายทางชีวภาพหรือไม่

3
หากการถดถอยเชิงเส้นสัมพันธ์กับสหสัมพันธ์ของเพียร์สันมีเทคนิคการถดถอยใด ๆ ที่เกี่ยวข้องกับสหสัมพันธ์ของเคนดัลล์และสเปียร์แมนหรือไม่?
บางทีคำถามนี้อาจไร้เดียงสา แต่: หากการถดถอยเชิงเส้นสัมพันธ์อย่างใกล้ชิดกับสัมประสิทธิ์สหสัมพันธ์ของเพียร์สันมีเทคนิคการถดถอยใด ๆ ที่เกี่ยวข้องกับสัมประสิทธิ์สหสัมพันธ์ของเคนดัลล์และสเปียร์แมนหรือไม่?

1
องศาอิสระที่เหลือที่เหมาะสมหลังจากปล่อยเงื่อนไขจากแบบจำลอง
ฉันกำลังสะท้อนให้เห็นถึงการอภิปรายรอบคำถามนี้และโดยเฉพาะอย่างยิ่งความคิดเห็นแฟรงก์ฮาร์เรลที่ประมาณการของการเปลี่ยนแปลงรูปแบบการลดลง (เช่นหนึ่งจากการที่จำนวนของตัวแปรอธิบายได้รับการทดสอบและปฏิเสธ) ควรใช้เยองศาทั่วไปของเสรีภาพ ศาสตราจารย์ฮาร์เรลล์ชี้ให้เห็นว่าสิ่งนี้จะใกล้เคียงกับองศาอิสระที่เหลืออยู่ของแบบจำลอง "เต็ม" แบบดั้งเดิม (ที่มีตัวแปรทั้งหมด) มากกว่าแบบจำลองสุดท้าย (ซึ่งตัวแปรจำนวนหนึ่งถูกปฏิเสธ) คำถามที่ 1 หากฉันต้องการใช้วิธีการที่เหมาะสมกับบทสรุปและสถิติมาตรฐานทั้งหมดจากแบบจำลองที่ลดลง (แต่ขาดการดำเนินการอย่างเต็มรูปแบบขององศาความเป็นอิสระทั่วไป) วิธีการที่สมเหตุสมผลจะเป็นเพียงแค่ใช้องศาอิสระที่เหลือจาก แบบจำลองเต็มรูปแบบในการประมาณค่าความแปรปรวนที่เหลือเป็นต้น คำถามที่ 2 หากข้างต้นเป็นจริงและฉันต้องการที่จะทำมันRอาจจะง่ายเหมือนการตั้งค่า finalModel$df.residual <- fullModel$df.residual ในบางจุดของแบบฝึกหัดการสร้างแบบจำลองที่ซึ่ง finalModel และ fullModel ถูกสร้างขึ้นด้วย lm () หรือฟังก์ชันที่คล้ายกัน หลังจากที่ฟังก์ชั่นเช่นสรุป () และ confint () ดูเหมือนจะทำงานกับ df.residual ที่ต้องการแม้ว่าจะส่งคืนข้อความแสดงข้อผิดพลาดว่ามีบางคนได้บดบังด้วยวัตถุ finalModel อย่างชัดเจน


2
ความหมายของค่า p ในการถดถอย
เมื่อฉันดำเนินการถดถอยเชิงเส้นในบางแพคเกจซอฟต์แวร์ (เช่น Mathematica) ฉันจะได้รับค่า p ที่เกี่ยวข้องกับพารามิเตอร์แต่ละตัวในรูปแบบ ตัวอย่างเช่นผลลัพธ์ของการถดถอยเชิงเส้นที่สร้างผลลัพธ์จะมีค่า p ที่เกี่ยวข้องกับaและหนึ่งที่มีbax+bax+bax+baaabbbข ค่า p เหล่านี้มีความหมายเกี่ยวกับพารามิเตอร์เหล่านั้นที มีวิธีทั่วไปในการคำนวณพารามิเตอร์สำหรับตัวแบบการถดถอยหรือไม่? p-value ที่เชื่อมโยงกับแต่ละพารามิเตอร์สามารถรวมกันเป็น p-value สำหรับรุ่นทั้งหมดได้หรือไม่? เพื่อให้คำถามทางคณิตศาสตร์เป็นไปตามธรรมชาติฉันกำลังมองหาเฉพาะการตีความค่า p ในแง่ของความน่าจะเป็น

2
เหตุใดบทลงโทษของ Lasso จึงเทียบเท่ากับเลขชี้กำลังสองเท่า (Laplace) ก่อนหน้า?
ฉันได้อ่านจำนวนการอ้างอิงว่า Lasso ประมาณค่าสำหรับพารามิเตอร์การถดถอยเวกเตอร์เทียบเท่ากับโหมดหลังของซึ่งการแจกแจงก่อนหน้าสำหรับแต่ละเป็นการกระจายแบบเลขชี้กำลังสองเท่า (เรียกอีกอย่างว่าการกระจาย Laplace)B B iBBBBBBBiBiB_i ฉันพยายามพิสูจน์เรื่องนี้แล้วจะมีใครช่วยอธิบายรายละเอียดได้บ้างไหม?

4
ชุดของ regressors ชนิดต่าง ๆ โดยใช้ scikit-Learn (หรือโครงร่างหลามอื่น ๆ )
ฉันพยายามที่จะแก้ปัญหาการถดถอย ฉันพบว่า 3 รุ่นทำงานได้ดีกับชุดย่อยของข้อมูลที่แตกต่างกัน: LassoLARS, SVR และการไล่ระดับต้นไม้แบบไล่ระดับ ฉันสังเกตเห็นว่าเมื่อฉันทำการทำนายโดยใช้ทั้ง 3 โมเดลจากนั้นสร้างตารางของ 'เอาท์พุทที่แท้จริง' และเอาท์พุทของโมเดล 3 ของฉันฉันเห็นว่าในแต่ละครั้งที่อย่างน้อยหนึ่งโมเดลนั้นใกล้เคียงกับเอาต์พุตจริง อาจอยู่ค่อนข้างไกล เมื่อฉันคำนวณข้อผิดพลาดน้อยที่สุดที่เป็นไปได้ (ถ้าฉันใช้การทำนายจากตัวทำนายที่ดีที่สุดสำหรับแต่ละตัวอย่างการทดสอบ) ฉันได้รับข้อผิดพลาดซึ่งเล็กกว่าข้อผิดพลาดของแบบจำลองใด ๆ เพียงอย่างเดียว ดังนั้นฉันจึงคิดว่าจะพยายามรวมการทำนายจากแบบจำลองต่าง ๆ ทั้งสามนี้เข้าด้วยกันเป็นชุด คำถามคือทำอย่างไรให้ถูกต้อง? โมเดล 3 แบบของฉันทั้งหมดได้รับการสร้างและปรับแต่งโดยใช้ Scikit-Learn มันมีวิธีการบางอย่างที่สามารถใช้ในการแพ็คแบบจำลองเป็นชุดหรือไม่? ปัญหาตรงนี้คือฉันไม่ต้องการเพียงแค่การคาดคะเนค่าเฉลี่ยจากทั้งสามรุ่นฉันต้องการทำสิ่งนี้ด้วยการถ่วงน้ำหนักซึ่งควรกำหนดน้ำหนักตามคุณสมบัติของตัวอย่างเฉพาะ แม้ว่า Scikit-Learn จะไม่ได้มีฟังก์ชั่นดังกล่าว แต่มันก็ดีถ้ามีคนรู้วิธีที่จะจัดการกับงานนี้ - การหาน้ำหนักของแต่ละรุ่นสำหรับแต่ละตัวอย่างในข้อมูล ฉันคิดว่ามันอาจจะทำได้โดย regressor แยกต่างหากที่สร้างไว้ด้านบนของทั้งสามรุ่นซึ่งจะลองใช้น้ำหนักที่เหมาะสมที่สุดสำหรับแต่ละรุ่น 3 รุ่น แต่ฉันไม่แน่ใจว่านี่เป็นวิธีที่ดีที่สุดในการทำสิ่งนี้หรือไม่

6
ทำไมน้ำหนักที่เล็กลงส่งผลให้ตัวแบบที่เรียบง่ายขึ้นในการทำให้เป็นปกติ
ฉันเสร็จหลักสูตรการเรียนรู้ของ Machine Andrew เมื่อประมาณหนึ่งปีที่แล้วและตอนนี้ฉันกำลังเขียน Math High School Math ของฉันเกี่ยวกับการทำงานของ Logistic Regression และเทคนิคต่าง ๆ เพื่อเพิ่มประสิทธิภาพการทำงาน หนึ่งในเทคนิคเหล่านี้คือการทำให้เป็นมาตรฐาน เป้าหมายของการทำให้เป็นมาตรฐานคือการป้องกันไม่ให้เกิดการล้นเกินโดยการขยายฟังก์ชั่นค่าใช้จ่ายเพื่อรวมเป้าหมายของความเรียบง่ายของแบบจำลอง เราสามารถทำสิ่งนี้ได้โดยการลงโทษขนาดของน้ำหนักโดยการเพิ่มฟังก์ชั่นค่าใช้จ่ายของน้ำหนักแต่ละค่าที่ยกกำลังสองคูณด้วยพารามิเตอร์ปกติ ตอนนี้อัลกอริทึมการเรียนรู้ของเครื่องจะมุ่งที่จะลดขนาดของน้ำหนักในขณะที่ยังคงความถูกต้องในชุดการฝึกอบรม แนวคิดก็คือเราจะไปถึงจุดกึ่งกลางที่เราสามารถสร้างแบบจำลองที่สรุปข้อมูลและไม่พยายามที่จะปรับให้เหมาะกับเสียงรบกวนทั้งหมดโดยมีความซับซ้อนน้อยลง ความสับสนของฉันคือทำไมเราลงโทษขนาดของน้ำหนัก? ทำไมน้ำหนักที่ใหญ่ขึ้นจึงสร้างแบบจำลองที่ซับซ้อนมากขึ้นและน้ำหนักที่เล็กกว่าจึงสร้างแบบจำลองที่เรียบง่ายขึ้น Andrew Ng อ้างว่าในการบรรยายของเขาว่าคำอธิบายนั้นยากสำหรับการสอน แต่ฉันคิดว่าฉันกำลังมองหาคำอธิบายนี้ในตอนนี้ ศ. อึ้งได้ยกตัวอย่างจริง ๆ ว่าฟังก์ชั่นต้นทุนใหม่อาจทำให้น้ำหนักของคุณลักษณะ (เช่น. x ^ 3 และ x ^ 4) มีแนวโน้มเป็นศูนย์เพื่อให้ระดับของแบบจำลองลดลง แต่สิ่งนี้ไม่ได้สร้างความสมบูรณ์ คำอธิบาย ปรีชาญาณของฉันคือน้ำหนักที่น้อยกว่ามักจะเป็นที่ "ยอมรับ" ในคุณสมบัติที่มีเลขชี้กำลังมากกว่าคนที่มีเลขชี้กำลังขนาดเล็ก (เพราะคุณลักษณะที่มีน้ำหนักขนาดเล็กเป็นพื้นฐานของฟังก์ชั่น) น้ำหนักที่เล็กลงแสดงถึง "การมีส่วนร่วม" ที่เล็กลงสำหรับคุณลักษณะที่มีลำดับสูง แต่สัญชาตญาณนี้ไม่เป็นรูปธรรมมาก

5
ฟังก์ชั่นการคูณโดยประมาณของโครงข่ายใยประสาทเทียมโดยที่ไม่สามารถทำให้เป็นมาตรฐานได้หรือไม่?
สมมติว่าเราต้องการถดถอยอย่างง่ายf = x * yโดยใช้เครือข่ายโครงข่ายประสาทในระดับลึก ฉันจำได้ว่ามี reseraches ที่บอกว่า NN ที่มีหนึ่ง hiden layer สามารถ apoximate ฟังก์ชั่นใด ๆ ได้ แต่ฉันได้ลองและไม่มี normalization NN ก็ไม่สามารถประมาณได้แม้แต่การคูณง่าย ๆ นี้ บันทึกการทำข้อมูลให้เป็นมาตรฐานเท่านั้นช่วยm = x*y => ln(m) = ln(x) + ln(y). แต่ดูเหมือนว่าโกง NN สามารถทำสิ่งนี้โดยไม่ใช้บันทึกการทำให้เป็นมาตรฐานได้หรือไม่? เห็นได้ชัดว่า unswer (สำหรับฉัน) - ใช่แล้วดังนั้นคำถามคือสิ่งที่ควรเป็นประเภท / การกำหนดค่า / รูปแบบของ NN เช่นนั้น?

1
การศึกษาระเหยคืออะไร? และมีวิธีที่เป็นระบบในการแสดงหรือไม่?
การศึกษาระเหยคืออะไร? และมีวิธีที่เป็นระบบในการแสดงหรือไม่? ตัวอย่างเช่นฉันมีตัวทำนายในการถดถอยเชิงเส้นซึ่งฉันจะเรียกว่าเป็นแบบจำลองของฉันnnn ฉันจะทำการศึกษาระเหยด้วยวิธีนี้ได้อย่างไร? ฉันควรใช้การวัดใด แหล่งที่มาที่ครอบคลุมหรือตำราเรียนจะได้รับการชื่นชม

2
ข้อดีของการทำ "เชือกคู่" หรือทำเชือกสองครั้ง?
ฉันเคยได้ยินวิธีการใช้ lasso สองครั้ง (เช่น double-lasso) ซึ่งคุณทำการ lasso บนชุดตัวแปรดั้งเดิมพูด S1, รับชุด sparse เรียกว่า S2 แล้วทำการ lasso อีกครั้งใน set S2 เพื่อรับ set S3 . มีคำศัพท์วิธีการสำหรับเรื่องนี้หรือไม่? นอกจากนี้ข้อดีของการทำบ่วงบาศสองครั้งคืออะไร?

2
การแปลงตัวแปรสำหรับการถดถอยหลายครั้งใน R
ฉันพยายามทำการถดถอยหลายRครั้ง อย่างไรก็ตามตัวแปรตามของฉันมีพล็อตต่อไปนี้: นี่คือเมทริกซ์ scatterplot พร้อมตัวแปรทั้งหมดของฉัน ( WARเป็นตัวแปรตาม): ฉันรู้ว่าฉันต้องทำการเปลี่ยนแปลงในตัวแปรนี้ (และอาจเป็นตัวแปรอิสระหรือไม่?) แต่ฉันไม่แน่ใจว่าจำเป็นต้องมีการแปลงที่แน่นอนหรือไม่ ใครบางคนชี้ให้ฉันในทิศทางที่ถูกต้อง? ฉันยินดีที่จะให้ข้อมูลเพิ่มเติมเกี่ยวกับความสัมพันธ์ระหว่างตัวแปรอิสระและตัวแปรตาม กราฟิกการวินิจฉัยจากการถดถอยของฉันมีลักษณะดังนี้: แก้ไข หลังจากเปลี่ยนตัวแปรตามและอิสระโดยใช้การแปลง Yeo-Johnson แผนการวินิจฉัยมีลักษณะดังนี้: ถ้าฉันใช้ GLM กับลิงค์ล็อกกราฟิกวินิจฉัยคือ:

2
การกระจายตัวของ
การกระจายของสัมประสิทธิ์การตัดสินใจคืออะไรหรือ R กำลังสอง, , ในการถดถอยเชิงเส้นหลายตัวแปรเชิงเส้นภายใต้สมมติฐาน ?R2R2R^2H0:β=0H0:β=0H_0:\beta=0 มันขึ้นอยู่กับจำนวนของตัวทำนายและจำนวนตัวอย่างอย่างไร มีนิพจน์แบบปิดสำหรับโหมดของการแจกแจงนี้หรือไม่?kkkn>kn>kn>k โดยเฉพาะฉันมีความรู้สึกว่าการถดถอยอย่างง่าย (ด้วยตัวทำนายหนึ่งตัว ) การแจกแจงนี้มีโหมดเป็นศูนย์ แต่สำหรับการถดถอยหลายครั้งโหมดจะอยู่ในค่าบวกที่ไม่เป็นศูนย์ หากนี่เป็นเรื่องจริงมีคำอธิบายง่ายๆเกี่ยวกับ "การเปลี่ยนเฟส" นี้หรือไม่?xxx ปรับปรุง ในฐานะที่เป็น @Alecos แสดงให้เห็นด้านล่างกระจายแน่นอนยอดเขาที่ศูนย์เมื่อและและไม่ได้อยู่ที่ศูนย์เมื่อ 3 ฉันรู้สึกว่าควรมีมุมมองทางเรขาคณิตในการเปลี่ยนเฟสนี้ พิจารณามุมมองเชิงเรขาคณิตของ OLS:เป็นเวกเตอร์ใน ,กำหนดพื้นที่ย่อย -dimensional จำนวน OLS จะฉาย\ mathbf Yบนสเปซนี้และR ^ 2คือโคไซน์กำลังสองของมุมระหว่าง\ Y mathbfและประมาณการ\ hat {\ mathbf y}k=2k=2k=2k=3k=3k=3k>3k>3k>3yy\mathbf yRnRn\mathbb R^nXX\mathbf Xkkkyy\mathbf yR2R2R^2yy\mathbf yy^y^\hat{\mathbf y} ทีนี้จากคำตอบของ @ Alecos ตามมาว่าถ้าเวกเตอร์ทั้งหมดสุ่มแล้วการกระจายความน่าจะเป็นของมุมนี้จะสูงสุดที่สำหรับและแต่จะมีโหมดที่ค่าอื่น ๆสำหรับ …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.