คำถามติดแท็ก regression-coefficients

พารามิเตอร์ของตัวแบบการถดถอย ส่วนใหญ่แล้วค่าที่ตัวแปรอิสระจะถูกคูณจะได้ค่าทำนายของตัวแปรตาม

2
การทดสอบสัมประสิทธิ์นัยสำคัญในการถดถอยโลจิสติก Lasso
[คำถามที่คล้ายกันถูกถามที่นี่โดยไม่มีคำตอบ] ฉันมีโมเดลการถดถอยโลจิสติกที่มีการทำให้เป็นมาตรฐาน L1 (การถดถอยโลจิสติก Lasso) และฉันต้องการทดสอบค่าสัมประสิทธิ์ที่เหมาะสมสำหรับความสำคัญและรับค่า p ของพวกเขา ฉันรู้ว่าการทดสอบของ Wald (ตัวอย่าง) เป็นตัวเลือกในการทดสอบความสำคัญของสัมประสิทธิ์ส่วนบุคคลในการถดถอยแบบเต็มโดยไม่มีการทำให้เป็นมาตรฐาน แต่ด้วย Lasso ฉันคิดว่าปัญหาอื่น ๆ เกิดขึ้นซึ่งไม่อนุญาตให้ใช้สูตร Wald ตามปกติ ตัวอย่างเช่นการประมาณค่าความแปรปรวน neded สำหรับการทดสอบไม่เป็นไปตามการแสดงออกปกติ กระดาษ Lasso ดั้งเดิม http://statweb.stanford.edu/~tibs/lasso/lasso.pdf แนะนำให้ใช้ขั้นตอนการบูตบู๊ตเพื่อประเมินความแปรปรวนของสัมประสิทธิ์ซึ่งอาจต้องใช้ (อีกครั้งฉันคิดว่า) สำหรับการทดสอบ (ส่วน 2.5 วรรคสุดท้ายของหน้า 272 และจุดเริ่มต้นที่ 273): วิธีการหนึ่งคือผ่าน bootstrap:สามารถแก้ไขได้หรือเราอาจปรับให้เหมาะสมกับสำหรับตัวอย่าง bootstrap แต่ละตัวอย่าง การแก้ไขนั้นคล้ายคลึงกับการเลือกชุดย่อยที่ดีที่สุด ( จากคุณสมบัติ ) แล้วใช้ข้อผิดพลาดมาตรฐานกำลังสองน้อยที่สุดสำหรับชุดย่อยนั้นเสื้อเสื้อtเสื้อเสื้อtเสื้อเสื้อt สิ่งที่ฉันเข้าใจคือ: ติดตั้ง Lasso regression ซ้ำ ๆ …

2
เปรียบเทียบนัยสำคัญทางสถิติของความแตกต่างระหว่างการถดถอยพหุนามทั้งสองใน R
ดังนั้นก่อนอื่นเลยฉันทำการค้นคว้าเกี่ยวกับฟอรัมนี้และฉันรู้ว่ามี คำถามที่คล้ายกันมากถูกถาม แต่พวกเขามักจะไม่ได้รับคำตอบที่ถูกต้องหรือบางครั้งคำตอบนั้นไม่ละเอียดพอที่จะเข้าใจ ดังนั้นเวลานี้คำถามของฉันคือฉันมีชุดข้อมูลสองชุดในแต่ละชุดฉันทำการถดถอยพหุนามดังนี้: Ratio<-(mydata2[,c(2)]) Time_in_days<-(mydata2[,c(1)]) fit3IRC <- lm( Ratio~(poly(Time_in_days,2)) ) พหุนามถดถอยพหุนามคือ: ค่าสัมประสิทธิ์คือ: > as.vector(coef(fit3CN)) [1] -0.9751726 -4.0876782 0.6860041 > as.vector(coef(fit3IRC)) [1] -1.1446297 -5.4449486 0.5883757 และตอนนี้ฉันอยากรู้ว่าถ้ามีวิธีใช้ฟังก์ชัน R เพื่อทำการทดสอบที่จะบอกฉันว่ามีนัยสำคัญทางสถิติหรือไม่ในความแตกต่างระหว่างการถดถอยพหุนามทั้งสองที่รู้ว่าช่วงเวลาที่เกี่ยวข้องของวันคือ [ 1,100] จากสิ่งที่ฉันเข้าใจฉันไม่สามารถใช้การทดสอบ anova โดยตรงเพราะค่ามาจากชุดข้อมูลที่แตกต่างกันสองชุดหรือ AIC ซึ่งใช้ในการเปรียบเทียบแบบจำลอง / ข้อมูลจริง ฉันพยายามทำตามคำแนะนำของ @Roland ในคำถามที่เกี่ยวข้อง แต่ฉันอาจเข้าใจผิดบางอย่างเมื่อดูผลลัพธ์ของฉัน: นี่คือสิ่งที่ฉันทำ: ฉันรวมทั้งชุดข้อมูลของฉันเป็นหนึ่ง fเป็นตัวแปรที่ @Roland พูดถึง ฉันใส่ 1s สำหรับเซตแรกและ 0s …

3
เป็นไปได้ใน R (หรือโดยทั่วไป) เพื่อบังคับให้สัมประสิทธิ์การถดถอยเป็นสัญญาณที่แน่นอน?
ฉันกำลังทำงานกับข้อมูลโลกแห่งความจริงและตัวแบบการถดถอยกำลังให้ผลลัพธ์ที่ตรงข้าม โดยปกติฉันเชื่อถือสถิติ แต่ในความเป็นจริงสิ่งเหล่านี้ไม่สามารถเป็นจริงได้ ปัญหาหลักที่ฉันเห็นคือการเพิ่มขึ้นของตัวแปรหนึ่งทำให้การตอบสนองเพิ่มขึ้นเมื่อในความเป็นจริงในความเป็นจริงพวกเขาจะต้องมีความสัมพันธ์เชิงลบ มีวิธีการบังคับให้ลงชื่อเฉพาะสำหรับแต่ละสัมประสิทธิ์การถดถอยหรือไม่? รหัส R ใด ๆ ในการทำเช่นนี้ก็จะได้รับการชื่นชมเช่นกัน ขอบคุณสำหรับความช่วยเหลือใด ๆ !

1
จะเปรียบเทียบการถดถอยสองจุดสำหรับตัวทำนายหนึ่งตัวกับผลลัพธ์ที่แตกต่างกันสองแบบได้อย่างไร
ฉันต้องเปรียบเทียบความถดถอยสองจุดที่: $ y_1 ~ a + b_1x y_2 ~ a + b_2x $ ฉันจะเปรียบเทียบ b1 และ b2 ได้อย่างไร หรือในภาษาของตัวอย่างเฉพาะของฉันในหนูฉันต้องการเปรียบเทียบ antero-posterior diameter ~ a + b1 * humeral length de naso-occipital length ~ a + b2 * humeral length

1
ความแตกต่างระหว่างตัวแบบขอบและแบบมีเงื่อนไข
รุ่นร่อแร่บัญชีสำหรับความสัมพันธ์ในแต่ละคลัสเตอร์ ตัวแบบเงื่อนไขยังคำนึงถึงความสัมพันธ์ภายในแต่ละคลัสเตอร์ด้วย คำถามของฉันคือ: แบบจำลองส่วนขอบมีผลกระทบหลักในประชากรหรือไม่ในขณะที่แบบจำลองแบบมีเงื่อนไขมีผลกระทบหลักภายในกลุ่มและข้ามประชากรหรือไม่ การตีความสัมประสิทธิ์ของโมเดลร่อแร่นั้นเหมือนกับ "โมเดลปกติ" แต่สัมประสิทธิ์ของแบบจำลองตามเงื่อนไขนั้นเป็นอย่างไร

4
วิธีการตีความสัมประสิทธิ์การแปลงลอการิทึมในการถดถอยเชิงเส้น?
สถานการณ์ของฉันคือ ฉันมีตัวแปรพึ่งพาอย่างต่อเนื่อง 1 ตัวและตัวแปรทำนายต่อเนื่อง 1 ตัวที่ฉันเปลี่ยนลอการิทึมเพื่อทำให้ปกติเหลืออยู่สำหรับการถดถอยเชิงเส้นอย่างง่าย ฉันขอขอบคุณความช่วยเหลือใด ๆ เกี่ยวกับวิธีที่ฉันสามารถเชื่อมโยงตัวแปรที่แปลงสภาพเหล่านี้กับบริบทดั้งเดิมของพวกเขา ฉันต้องการใช้การถดถอยเชิงเส้นเพื่อทำนายจำนวนวันที่นักเรียนพลาดโรงเรียนในปี 2011 ตามจำนวนวันที่พวกเขาพลาดในปี 2010 นักเรียนส่วนใหญ่พลาด 0 วันหรือเพียงไม่กี่วันข้อมูลจะเอียงไปทางซ้าย ดังนั้นจึงจำเป็นต้องมีการแปลงสภาพเพื่อใช้การถดถอยเชิงเส้น ฉันใช้ log10 (var + 1) สำหรับทั้งสองตัวแปร (ฉันใช้ +1 สำหรับนักเรียนที่ไม่ได้เรียน 0 วัน) ฉันกำลังใช้การถดถอยเพราะฉันต้องการเพิ่มในปัจจัยการจัดหมวดหมู่ - เพศ / เชื้อชาติ ฯลฯ ปัญหาของฉันคือ: ผู้ชมที่ฉันต้องการย้อนกลับไปจะไม่เข้าใจ log10 (y) = log (ค่าคงที่) + บันทึก (var2) x (และตรงไปตรงมาไม่ทำฉัน) คำถามของฉันคือ: a) มีวิธีที่ดีกว่าในการตีความตัวแปรที่ถูกแปลงในการถดถอยหรือไม่? เช่นเคยพลาด …

1
R ตัวแปรเชิงเส้นถดถอยหมวดหมู่ "ซ่อน" ค่า
นี่เป็นเพียงตัวอย่างที่ฉันเจอหลายครั้งดังนั้นฉันจึงไม่มีข้อมูลตัวอย่าง ใช้แบบจำลองการถดถอยเชิงเส้นใน R: a.lm = lm(Y ~ x1 + x2) x1เป็นตัวแปรต่อเนื่อง x2เป็นหมวดหมู่และมีสามค่าเช่น "ต่ำ", "ปานกลาง" และ "สูง" อย่างไรก็ตามเอาต์พุตที่กำหนดโดย R จะเป็นดังนี้: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 ฉันเข้าใจว่า R แนะนำการเข้ารหัสแบบหลอกบางอย่างเกี่ยวกับปัจจัยดังกล่าว ( …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
ข้อมูลที่มีมิติข้อมูลที่มีความสัมพันธ์สูงและคุณลักษณะยอดนิยม / การแปรสภาพที่ค้นพบ; การทดสอบสมมติฐานหลายรายการ?
ฉันมีชุดข้อมูลที่มีคุณลักษณะ / covariates ที่มีความสัมพันธ์กันประมาณ 5,000 รายการและการตอบกลับแบบไบนารี ข้อมูลถูกมอบให้ฉันฉันไม่ได้เก็บรวบรวม ฉันใช้ Lasso และเพิ่มการไล่ระดับสีเพื่อสร้างแบบจำลอง ฉันใช้การตรวจสอบข้ามแบบซ้อนซ้ำซ้อน ฉันรายงานว่าสัมประสิทธิ์ 40 ที่ใหญ่ที่สุด (สัมบูรณ์) ของ Lasso และ 40 คุณสมบัติที่สำคัญที่สุดในต้นไม้ที่ไล่ระดับสี (ไม่มีอะไรพิเศษเกี่ยวกับ 40 มันดูเหมือนจะเป็นข้อมูลที่สมเหตุสมผล) ฉันยังรายงานความแปรปรวนของปริมาณเหล่านี้ผ่านรอยพับและการวนซ้ำของ CV ฉันชอบที่จะพูดถึงคุณสมบัติ "สำคัญ" โดยไม่มีการพูดถึงค่า p หรือค่านิยมหรืออะไรก็ตาม แต่แทนที่จะคิดว่ากระบวนการนี้เป็นแบบ --- แม้ว่าจะไม่สมบูรณ์และเรียงลำดับแบบสุ่ม --- เข้าใจลึกลงไปในปรากฏการณ์บางอย่าง สมมติว่าฉันได้ทำทั้งหมดนี้อย่างถูกต้อง (เช่นดำเนินการตรวจสอบข้ามอย่างถูกต้องปรับขนาดสำหรับเชือก) วิธีนี้มีเหตุผล? มีปัญหากับตัวอย่างเช่นการทดสอบสมมติฐานหลายรายการการวิเคราะห์หลังเลิกเรียนการค้นพบที่ผิดพลาดหรือไม่? หรือปัญหาอื่น ๆ ? วัตถุประสงค์ ทำนายความน่าจะเป็นของเหตุการณ์ไม่พึงประสงค์ สำคัญที่สุดประมาณการความน่าจะเป็นได้อย่างแม่นยำ ผู้เยาว์เพิ่มเติม - เพื่อการมีสติตรวจสอบ แต่อาจเปิดเผยตัวพยากรณ์ใหม่ที่สามารถตรวจสอบเพิ่มเติมตรวจสอบค่าสัมประสิทธิ์และความสำคัญตามที่กล่าวไว้ข้างต้น ผู้บริโภค …

1
รูปแบบการเรียนรู้แบบลึกใดที่สามารถจำแนกหมวดหมู่ที่ไม่ได้เกิดร่วมกัน
ตัวอย่าง: ฉันมีประโยคในรายละเอียดงาน: "วิศวกรอาวุโสของ Java ในสหราชอาณาจักร" ฉันต้องการที่จะใช้รูปแบบการเรียนรู้ที่ลึกที่จะคาดการณ์ว่ามันเป็น 2 ประเภทและEnglish IT jobsถ้าฉันใช้รูปแบบการจำแนกแบบดั้งเดิมมันสามารถทำนายได้เพียง 1 ฉลากที่มีsoftmaxฟังก์ชั่นที่ชั้นสุดท้าย ดังนั้นฉันสามารถใช้โครงข่ายประสาทเทียม 2 แบบในการทำนาย "ใช่" / "ไม่" กับทั้งสองหมวดหมู่ แต่ถ้าเรามีหมวดหมู่มากขึ้นมันก็แพงเกินไป ดังนั้นเราจึงมีรูปแบบการเรียนรู้หรือการเรียนรู้ด้วยเครื่องเพื่อคาดการณ์ 2 หมวดหมู่ขึ้นไปพร้อมกันหรือไม่ "แก้ไข": ด้วย 3 ป้ายกำกับโดยวิธีดั้งเดิมมันจะถูกเข้ารหัสโดย [1,0,0] แต่ในกรณีของฉันมันจะถูกเข้ารหัสโดย [1,1,0] หรือ [1,1,1] ตัวอย่าง: หากเรามี 3 ป้ายกำกับและประโยคอาจเหมาะกับป้ายกำกับเหล่านี้ทั้งหมด ดังนั้นถ้าผลลัพธ์จากฟังก์ชัน softmax คือ [0.45, 0.35, 0.2] เราควรแบ่งมันออกเป็น 3 label หรือ 2 label หรืออาจเป็นหนึ่ง? ปัญหาหลักเมื่อเราทำคือ: …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 

1
สามารถสร้างมาตรฐาน
ฉันพยายามตีความผลลัพธ์ของบทความที่พวกเขาใช้การถดถอยหลายครั้งเพื่อทำนายผลลัพธ์ต่าง ๆ อย่างไรก็ตาม 's (ค่าสัมประสิทธิ์ B มาตรฐานกำหนดเป็นโดยที่นั้นขึ้นอยู่กับ ตัวแปรและเป็นตัวทำนาย) ที่รายงานดูเหมือนจะไม่ตรงกับที่รายงาน :ββ\betaβx1=Bx1⋅S Dx1S DYβx1=Bx1⋅SDx1SDy\beta_{x_1} = B_{x_1} \cdot \frac{\mathrm{SD}_{x_1}}{\mathrm{SD}_y}Yyyx1x1x_1R2R2R^2 แม้จะมีของ -0.83, -0.29, -0.16, -0.43, 0.25 และ -0.29 แต่รายงานมีค่าเพียง 0.20ββ\betaR2R2R^2 นอกจากนี้ผู้ทำนายทั้งสาม: น้ำหนักค่าดัชนีมวลกายและ% ไขมันเป็นหลายคอลลิแนร์มีความสัมพันธ์รอบ r = 0.8-0.9 ซึ่งกันและกันในเพศเดียวกัน เป็นค่าเป็นไปได้กับเหล่านี้หรือไม่มีความสัมพันธ์แบบตรงระหว่าง 's และหรือไม่?R2R2R^2ββ\betaββ\betaR2R2R^2 นอกจากนี้ปัญหาของตัวทำนายหลายค่าอาจส่งผลต่อของตัวทำนายที่สี่ (VO2max) ซึ่งสัมพันธ์กับ r = 0.4 ด้วยตัวแปรสามตัวดังกล่าวข้างต้นหรือไม่ββ\beta

3
การแลกเปลี่ยนความแปรปรวนแบบอคติสำหรับสัมประสิทธิ์การถดถอยคืออะไรและทำอย่างไรจึงจะได้มา
ในบทความนี้ ( การอนุมานแบบเบย์สำหรับส่วนประกอบความแปรปรวนโดยใช้ข้อผิดพลาดเฉพาะฮาร์วิลล์ 2517) ผู้เขียนอ้างว่า เป็น "ที่รู้จักกันดี ความสัมพันธ์ ", สำหรับการถดถอยเชิงเส้น ที่ \ epsilon \ sim \ mathcal {N} (0, H)(y−Xβ)′H−1(y−Xβ)=(y−Xβ^)′H−1(y−Xβ^)+(β−β^)′(X′H−1X)(β−β^)(y−Xβ)′H−1(y−Xβ)=(y−Xβ^)′H−1(y−Xβ^)+(β−β^)′(X′H−1X)(β−β^)(y-X\beta)'H^{-1}(y-X\beta)=(y-X\hat\beta)'H^{-1}(y-X\hat\beta)+(\beta-\hat\beta)'(X'H^{-1}X)(\beta-\hat\beta)y=Xβ+ϵ,y=Xβ+ϵ,y=X\beta+\epsilon,ϵ∼N(0,H).ϵ∼N(0,H).\epsilon\sim\mathcal{N}(0, H). สิ่งนี้เป็นที่รู้จักกันดีอย่างไร วิธีที่ง่ายที่สุดในการพิสูจน์สิ่งนี้คืออะไร?

1
โมเดลความเป็นอันตรายตามสัดส่วนของค็อกซ์และการตีความค่าสัมประสิทธิ์เมื่อมีปฏิกิริยาต่อผู้ป่วยมากขึ้น
นี่คือสรุปเอาท์พุทของ Coxph-model ที่ฉันใช้ (I ใช้ R และผลลัพธ์ขึ้นอยู่กับรุ่นสุดท้ายที่ดีที่สุดนั่นคือตัวแปรอธิบายที่สำคัญทั้งหมดและการโต้ตอบของพวกเขารวมอยู่ด้วย): coxph(formula = Y ~ LT + Food + Temp2 + LT:Food + LT:Temp2 + Food:Temp2 + LT:Food:Temp2) # Y<-Surv(Time,Status==1) n = 555 coef exp(coef) se(coef) z Pr(>|z|) LT 9.302e+02 Inf 2.822e+02 3.297 0.000979 *** Food 3.397e+03 Inf 1.023e+03 3.321 0.000896 *** Temp2 5.016e+03 …

3
วิธีการใช้คำสัมประสิทธิ์สำหรับปัจจัยและเงื่อนไขเชิงโต้ตอบในสมการเชิงเส้น?
เมื่อใช้ R ฉันได้ติดตั้งโมเดลเชิงเส้นสำหรับตัวแปรการตอบสนองเดี่ยวจากการผสมผสานของตัวทำนายอย่างต่อเนื่องและไม่ต่อเนื่อง นี่เป็นพื้นฐาน uber แต่ฉันมีปัญหาในการเข้าใจว่าค่าสัมประสิทธิ์สำหรับปัจจัยแยกทำงานอย่างไร แนวคิด:เห็นได้ชัดว่าค่าสัมประสิทธิ์ของตัวแปรต่อเนื่อง 'x' ถูกนำมาใช้ในรูปแบบy = coefx(varx) + interceptแต่วิธีการที่ทำงานให้กับปัจจัย z ถ้าปัจจัยที่ไม่ใช่ตัวเลข?y = coefx(varx) + coefz(factorz???) + intercept เฉพาะ:ฉันได้ติดตั้งแบบจำลองใน R เป็นlm(log(c) ~ log(d) + h + a + f + h:a)ตำแหน่งhและfปัจจัยที่ไม่ต่อเนื่องและไม่ใช่ตัวเลข ค่าสัมประสิทธิ์คือ: Coefficients: Estimate (Intercept) -0.679695 log(d) 1.791294 h1 0.870735 h2 -0.447570 h3 0.542033 a 0.037362 f1 …
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.