คำถามติดแท็ก regression-coefficients

พารามิเตอร์ของตัวแบบการถดถอย ส่วนใหญ่แล้วค่าที่ตัวแปรอิสระจะถูกคูณจะได้ค่าทำนายของตัวแปรตาม

17
รวมถึงการมีปฏิสัมพันธ์ แต่ไม่ใช่ผลกระทบหลักในแบบจำลอง
มันเคยถูกต้องหรือไม่ที่จะรวมการโต้ตอบสองทางในแบบจำลองโดยไม่รวมถึงเอฟเฟกต์หลัก ๆ ? ถ้าสมมติฐานของคุณเกี่ยวกับการมีปฏิสัมพันธ์เพียงอย่างเดียวคุณยังจำเป็นต้องใส่เอฟเฟกต์หลัก ๆ หรือไม่?

1
วิธีการตีความสัมประสิทธิ์ในการถดถอยปัวซอง?
ฉันจะตีความผลกระทบหลัก (ค่าสัมประสิทธิ์สำหรับปัจจัยจำลอง) ในการถดถอยปัวซองได้อย่างไร สมมติตัวอย่างต่อไปนี้: treatment <- factor(rep(c(1, 2), c(43, 41)), levels = c(1, 2), labels = c("placebo", "treated")) improved <- factor(rep(c(1, 2, 3, 1, 2, 3), c(29, 7, 7, 13, 7, 21)), levels = c(1, 2, 3), labels = c("none", "some", "marked")) numberofdrugs <- rpois(84, 10) + 1 healthvalue <- …

3
การแปลความหมายของตัวทำนายการแปลงสภาพบันทึกและ / หรือการตอบสนอง
ฉันสงสัยว่ามันจะสร้างความแตกต่างในการตีความไม่ว่าจะเป็นเพียงขึ้นอยู่กับทั้งขึ้นอยู่กับและเป็นอิสระหรือตัวแปรอิสระเท่านั้นที่ถูกเปลี่ยนเข้าสู่ระบบ พิจารณากรณีของ log(DV) = Intercept + B1*IV + Error ฉันสามารถตีความ IV เป็นเปอร์เซ็นต์เพิ่มขึ้น แต่จะเปลี่ยนแปลงได้อย่างไรเมื่อฉันมี log(DV) = Intercept + B1*log(IV) + Error หรือเมื่อฉันมี DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

3
ความแปรปรวนของค่าสัมประสิทธิ์การถดถอยในการถดถอยเชิงเส้นอย่างง่าย
ในการถดถอยเชิงเส้นอย่างง่ายเรามีที่2) ฉันได้รับตัวประมาณ: ที่และเป็นวิธีการที่เป็นตัวอย่างของและy ที่y=β0+β1x+uy=β0+β1x+uy = \beta_0 + \beta_1 x + uu∼iidN(0,σ2)u∼iidN(0,σ2)u \sim iid\;\mathcal N(0,\sigma^2)β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 ,β1^=∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2 , \hat{\beta_1} = \frac{\sum_i (x_i - \bar{x})(y_i - \bar{y})}{\sum_i (x_i - \bar{x})^2}\ , x¯x¯\bar{x}y¯y¯\bar{y}xxxyyy ตอนนี้ผมต้องการที่จะหาแปรปรวนของ\ฉันได้รับสิ่งต่อไปนี้: β^1β^1\hat\beta_1Var(β1^)=σ2(1−1n)∑i(xi−x¯)2 .Var(β1^)=σ2(1−1n)∑i(xi−x¯)2 . \text{Var}(\hat{\beta_1}) = \frac{\sigma^2(1 - \frac{1}{n})}{\sum_i (x_i - \bar{x})^2}\ . รากศัพท์มีดังต่อไปนี้: Var(β1^)=Var(∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2)=1(∑i(xi−x¯)2)2Var(∑i(xi−x¯)(β0+β1xi+ui−1n∑j(β0+β1xj+uj)))=1(∑i(xi−x¯)2)2Var(β1∑i(xi−x¯)2+∑i(xi−x¯)(ui−∑jujn))=1(∑i(xi−x¯)2)2Var(∑i(xi−x¯)(ui−∑jujn))=1(∑i(xi−x¯)2)2×E⎡⎣⎢⎢⎢⎢⎢⎢⎛⎝⎜⎜⎜⎜⎜∑i(xi−x¯)(ui−∑jujn)−E[∑i(xi−x¯)(ui−∑jujn)]=0⎞⎠⎟⎟⎟⎟⎟2⎤⎦⎥⎥⎥⎥⎥⎥=1(∑i(xi−x¯)2)2E⎡⎣(∑i(xi−x¯)(ui−∑jujn))2⎤⎦=1(∑i(xi−x¯)2)2E[∑i(xi−x¯)2(ui−∑jujn)2] , since ui 's are iid=1(∑i(xi−x¯)2)2∑i(xi−x¯)2E(ui−∑jujn)2=1(∑i(xi−x¯)2)2∑i(xi−x¯)2⎛⎝E(u2i)−2×E(ui×(∑jujn))+E(∑jujn)2⎞⎠=1(∑i(xi−x¯)2)2∑i(xi−x¯)2(σ2−2nσ2+σ2n)=σ2∑i(xi−x¯)2(1−1n)Var(β1^)=Var(∑i(xi−x¯)(yi−y¯)∑i(xi−x¯)2)=1(∑i(xi−x¯)2)2Var(∑i(xi−x¯)(β0+β1xi+ui−1n∑j(β0+β1xj+uj)))=1(∑i(xi−x¯)2)2Var(β1∑i(xi−x¯)2+∑i(xi−x¯)(ui−∑jujn))=1(∑i(xi−x¯)2)2Var(∑i(xi−x¯)(ui−∑jujn))=1(∑i(xi−x¯)2)2×E[(∑i(xi−x¯)(ui−∑jujn)−E[∑i(xi−x¯)(ui−∑jujn)]⏟=0)2]=1(∑i(xi−x¯)2)2E[(∑i(xi−x¯)(ui−∑jujn))2]=1(∑i(xi−x¯)2)2E[∑i(xi−x¯)2(ui−∑jujn)2] …

4
จะตีความค่าสัมประสิทธิ์จากแบบจำลองพหุนามได้อย่างไร
ฉันพยายามสร้างพหุนามลำดับที่สองกับข้อมูลบางอย่างที่ฉันมี สมมติว่าฉันพล็อตแบบนี้ด้วยggplot(): ggplot(data, aes(foo, bar)) + geom_point() + geom_smooth(method="lm", formula=y~poly(x, 2)) ฉันเข้าใจ: ดังนั้นคำสั่งที่สองนั้นทำงานได้ค่อนข้างดี ฉันคำนวณด้วย R: summary(lm(data$bar ~ poly(data$foo, 2))) และฉันได้รับ: lm(formula = data$bar ~ poly(data$foo, 2)) # ... # Coefficients: # Estimate Std. Error t value Pr(>|t|) # (Intercept) 3.268162 0.008282 394.623 <2e-16 *** # poly(data$foo, 2)1 -0.122391 0.096225 -1.272 …

2
การถดถอยหลายครั้งหรือสัมประสิทธิ์สหสัมพันธ์บางส่วน? และความสัมพันธ์ระหว่างคนทั้งสอง
ฉันไม่รู้ด้วยซ้ำว่าคำถามนี้สมเหตุสมผลหรือไม่ แต่อะไรคือความแตกต่างระหว่างการถดถอยหลายครั้งและสหสัมพันธ์บางส่วน (นอกเหนือจากความแตกต่างที่ชัดเจนระหว่างสหสัมพันธ์และการถดถอยซึ่งไม่ใช่สิ่งที่ฉันกำลังตั้งเป้าไว้) ฉันต้องการหาข้อมูลต่อไปนี้: ฉันมีตัวแปรอิสระสองตัว ( , ) และอีกหนึ่งตัวแปรขึ้นอยู่กับ ( ) ตอนนี้ทีละตัวแปรอิสระไม่ได้มีความสัมพันธ์กับตัวแปรตาม แต่สำหรับกำหนดจะลดลงเมื่อลดลง ดังนั้นฉันจะวิเคราะห์ว่าโดยวิธีการถดถอยหลายครั้งหรือความสัมพันธ์บางส่วน ?x1x1x_1x2x2x_2yyyx1x1x_1 yyyx2x2x_2 แก้ไขเพื่อหวังปรับปรุงคำถามของฉัน: ฉันพยายามเข้าใจความแตกต่างระหว่างการถดถอยหลายครั้งและสหสัมพันธ์บางส่วน ดังนั้นเมื่อลดลงสำหรับกำหนดเมื่อลดลงนั่นเป็นเพราะผลรวมของและต่อ (การถดถอยหลายครั้ง) หรือเป็นเพราะการลบผลกระทบของ (ความสัมพันธ์บางส่วน)?yyyx1x1x_1x2x2x_2x1x1x_1x2x2x_2yyyx1x1x_1

3
R: การสุ่มฟอเรสต์การโยน NaN / Inf ในข้อผิดพลาด“ การเรียกฟังก์ชันต่างประเทศ” แม้จะไม่มีชุดข้อมูลของ NaN [ปิด]
ฉันใช้คาเร็ตเพื่อรันฟอเรสต์แบบสุ่มที่ผ่านการตรวจสอบความถูกต้องข้ามชุดข้อมูล ตัวแปร Y เป็นปัจจัย ไม่มีชุดข้อมูลของ NaN, Inf's หรือ NA ในชุดข้อมูลของฉัน อย่างไรก็ตามเมื่อใช้ป่าสุ่มฉันได้รับ Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs …

1
การคำนวณซ้ำของเอฟเฟกต์จากโมเดล lmer
ฉันเพิ่งอ่านบทความนี้ซึ่งอธิบายถึงวิธีการคำนวณความสามารถในการทำซ้ำ (ความน่าเชื่อถือหรือความสัมพันธ์ภายในอินทราเน็ต) ของการวัดผ่านการสร้างแบบจำลองเอฟเฟกต์ผสม รหัส R จะเป็น: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

1
องศาอิสระเป็นหมายเลขที่ไม่ใช่จำนวนเต็มหรือไม่
เมื่อฉันใช้ GAM มันให้ DF ที่เหลือกับฉันคือ (บรรทัดสุดท้ายในรหัส) นั่นหมายความว่าอย่างไร? นอกเหนือไปจากตัวอย่างของ GAM โดยทั่วไปแล้วจำนวนองศาความเป็นอิสระจะเป็นจำนวนที่ไม่ใช่จำนวนเต็มหรือไม่26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

3
ลำดับของตัวแปรอธิบายมีความสำคัญเมื่อคำนวณสัมประสิทธิ์การถดถอยหรือไม่
ตอนแรกฉันคิดว่าคำสั่งไม่สำคัญ แต่จากนั้นฉันอ่านเกี่ยวกับกระบวนการ orthogonalization กรัมสำหรับการคำนวณค่าสัมประสิทธิ์การถดถอยหลายและตอนนี้ฉันมีความคิดที่สอง ตามกระบวนการ gram-schmidt ตัวแปรที่อธิบายต่อมาถูกจัดทำดัชนีในหมู่ตัวแปรอื่น ๆ เวกเตอร์ที่เหลือของมันที่เล็กลงนั้นเป็นเพราะเวกเตอร์ที่เหลือของตัวแปรก่อนหน้านั้นจะถูกลบออกจากมัน ดังนั้นค่าสัมประสิทธิ์การถดถอยของตัวแปรอธิบายก็มีขนาดเล็กลงเช่นกัน หากนั่นเป็นจริงเวกเตอร์ที่เหลือของตัวแปรนั้นจะใหญ่กว่าถ้ามันถูกจัดทำดัชนีไว้ก่อนหน้านี้เนื่องจากเวกเตอร์ที่เหลือน้อยกว่าจะถูกลบออกจากมัน ซึ่งหมายความว่าสัมประสิทธิ์การถดถอยจะใหญ่ขึ้นเช่นกัน ตกลงดังนั้นฉันถูกขอให้อธิบายคำถามของฉัน ดังนั้นฉันจึงโพสต์ภาพหน้าจอจากข้อความที่ทำให้ฉันสับสนตั้งแต่แรก ตกลงไปเลย ความเข้าใจของฉันคือว่ามีอย่างน้อยสองตัวเลือกในการคำนวณค่าสัมประสิทธิ์การถดถอย ตัวเลือกแรกจะแสดง (3.6) ในภาพหน้าจอด้านล่าง นี่คือตัวเลือกที่สอง (ฉันต้องใช้หลายภาพหน้าจอ) ถ้าฉันไม่ได้อ่านอะไรผิดพลาด (ซึ่งเป็นไปได้อย่างแน่นอน) ดูเหมือนว่าคำสั่งจะมีความสำคัญในตัวเลือกที่สอง มันมีความสำคัญในตัวเลือกแรกหรือไม่? ทำไมหรือทำไมไม่? หรือกรอบอ้างอิงของฉันสับสนหรือเปล่าว่านี่ไม่ใช่คำถามที่ถูกต้อง? นอกจากนี้ทั้งหมดนี้เกี่ยวข้องกับ Type I Sum of Squares หรือไม่กับ Type II Sum of Squares ขอบคุณล่วงหน้ามากฉันสับสนมาก!

1
มีวิธีใช้เมทริกซ์ความแปรปรวนร่วมเพื่อค้นหาค่าสัมประสิทธิ์สำหรับการถดถอยหลายครั้งหรือไม่?
สำหรับการถดถอยเชิงเส้นอย่างง่ายสัมประสิทธิ์การถดถอยสามารถคำนวณได้โดยตรงจากความแปรปรวน - ความแปรปรวนร่วมเมทริกซ์โดย โดยที่คือดัชนีตัวแปรตามและคือดัชนีของตัวแปรอธิบายC d , eCCC deCd, ECe , eCd,อีCอี,อี C_{d, e}\over C_{e,e} dddอีอีe หากมีเพียงเมทริกซ์ความแปรปรวนร่วมเป็นไปได้หรือไม่ที่จะคำนวณค่าสัมประสิทธิ์สำหรับแบบจำลองที่มีตัวแปรอธิบายหลายค่า? ETA: สำหรับตัวแปรอธิบายสองตัวปรากฏว่า และ analogously สำหรับ\ฉันไม่ได้เห็นวิธีการขยายตัวแปรนี้เป็นตัวแปรสามตัวขึ้นไปทันทีβ1= Co v ( y, x1) v a r ( x2) - Co v ( y, x2) Co v ( x1, x2)v a r ( x1) v a r ( …

3
“ ความเท่าเทียมกันอย่างอื่น” หมายถึงอะไรในการถดถอยหลายครั้ง?
เมื่อเราทำการถดถอยหลายครั้งและบอกว่าเรากำลังดูการเปลี่ยนแปลงเฉลี่ยในตัวแปรสำหรับการเปลี่ยนแปลงในตัวแปรถือค่าคงที่ตัวแปรอื่น ๆ ทั้งหมดค่าใดที่เราถือตัวแปรคงที่ที่? หมายความว่าอย่างไร ศูนย์? มีค่าไหม?yyyxxx ฉันอยากจะคิดว่ามันมีค่า แค่มองหาคำอธิบาย หากใครมีหลักฐานก็คงจะดีเช่นกัน

2
bootstrapping ใน R ทำงานอย่างไร
ฉันได้ดูแพ็คเกจการบูตใน R และในขณะที่ฉันพบไพรเมอร์จำนวนมากเกี่ยวกับวิธีใช้มันฉันยังไม่พบสิ่งใดที่อธิบายสิ่งที่เกิดขึ้น "เบื้องหลัง" ตัวอย่างเช่นในตัวอย่างนี้คู่มือแสดงวิธีการใช้สัมประสิทธิ์การถดถอยมาตรฐานเป็นจุดเริ่มต้นสำหรับการถดถอย bootstrap แต่ไม่ได้อธิบายว่าขั้นตอนการ bootstrap กำลังทำอยู่เพื่อให้ได้สัมประสิทธิ์การถดถอย bootstrap ดูเหมือนว่ามีกระบวนการวนซ้ำบางอย่างที่เกิดขึ้น แต่ฉันไม่สามารถเข้าใจได้อย่างชัดเจนว่าเกิดอะไรขึ้น

1
การตีความประมาณการของการถดถอยโลจิสติก cloglog
ใครช่วยแนะนำฉันเกี่ยวกับวิธีการตีความประมาณการจากการถดถอยโลจิสติกโดยใช้ลิงค์ cloglog? ฉันได้ติดตั้งโมเดลต่อไปนี้ในlme4: glm(cbind(dead, live) ~ time + factor(temp) * biomass, data=mussel, family=binomial(link=cloglog)) ตัวอย่างเช่นเวลาโดยประมาณคือ 0.015 ถูกต้องหรือไม่ที่จะบอกว่าอัตราต่อรองของการตายต่อหน่วยเวลาคูณด้วย exp (0.015) = 1.015113 (เพิ่มขึ้น 1.5% ต่อหน่วยเวลา) กล่าวอีกนัยหนึ่งคือการประมาณค่าที่ได้รับใน cloglog ที่แสดงในอัตราต่อรองของล็อกเช่นเดียวกับกรณีของการถดถอยโลจิสติก logit หรือไม่?

4
ความสำคัญของการทำนายในการถดถอยหลายครั้ง: บางส่วนกับค่าสัมประสิทธิ์มาตรฐาน
ฉันสงสัยว่าความสัมพันธ์ที่แน่นอนระหว่างบางส่วนกับสัมประสิทธิ์ในแบบจำลองเชิงเส้นคืออะไรและฉันควรใช้เพียงหนึ่งหรือทั้งสองเพื่อแสดงความสำคัญและอิทธิพลของปัจจัยต่างๆR2R2R^2 เท่าที่ฉันรู้summaryฉันได้รับการประมาณค่าสัมประสิทธิ์และanovaผลรวมของกำลังสองสำหรับแต่ละปัจจัย - สัดส่วนของผลรวมของกำลังสองของปัจจัยหนึ่งหารด้วยผลรวมของผลบวกของสี่เหลี่ยมบวกส่วนที่เหลือเป็นบางส่วน (รหัสต่อไปนี้อยู่ใน)R2R2R^2R library(car) mod<-lm(education~income+young+urban,data=Anscombe) summary(mod) Call: lm(formula = education ~ income + young + urban, data = Anscombe) Residuals: Min 1Q Median 3Q Max -60.240 -15.738 -1.156 15.883 51.380 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -2.868e+02 6.492e+01 -4.418 5.82e-05 *** income 8.065e-02 9.299e-03 8.674 2.56e-11 …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.