คำถามติดแท็ก least-squares

อ้างถึงเทคนิคการประมาณค่าทั่วไปที่เลือกค่าพารามิเตอร์เพื่อลดความแตกต่างกำลังสองระหว่างสองปริมาณเช่นค่าที่สังเกตได้ของตัวแปรและค่าที่คาดหวังของการสังเกตที่กำหนดไว้ในค่าพารามิเตอร์ แบบจำลองเชิงเส้นแบบเกาส์นั้นมีความเหมาะสมน้อยที่สุดและกำลังสองน้อยที่สุดคือแนวคิดที่ใช้การหาค่าเฉลี่ย - กำลังสอง - ข้อผิดพลาด (MSE) เป็นวิธีการประเมินตัวประมาณ

3
เมื่อใดที่สี่เหลี่ยมจัตุรัสน้อยสุดเป็นความคิดที่ไม่ดี
ถ้าฉันมีรูปแบบการถดถอย: Y=Xβ+εY=Xβ+ε Y = X\beta + \varepsilon โดยที่ V[ε]=Id∈Rn×nV[ε]=Id∈Rn×n\mathbb{V}[\varepsilon] = Id \in \mathcal{R} ^{n \times n} และE[ε]=(0,…,0)E[ε]=(0,…,0)\mathbb{E}[\varepsilon]=(0, \ldots , 0) , เมื่อจะใช้βOLSβOLS\beta_{\text{OLS}} , สามัญสี่เหลี่ยมน้อยประมาณการของββ\betaเป็นทางเลือกที่ดีสำหรับการประมาณการ? ฉันกำลังพยายามหาตัวอย่างว่ากำลังสองน้อยที่สุดทำงานได้ไม่ดี ดังนั้นฉันกำลังมองหาการกระจายของข้อผิดพลาดที่เป็นไปตามสมมติฐานก่อนหน้า แต่ให้ผลลัพธ์ที่ไม่ดี หากครอบครัวของการกระจายจะถูกกำหนดโดยค่าเฉลี่ยและความแปรปรวนที่จะดี ถ้าไม่มันก็โอเค ฉันรู้ว่า "ผลลัพธ์ที่ไม่ดี" นั้นค่อนข้างคลุมเครือ แต่ฉันคิดว่าแนวคิดนี้เป็นที่เข้าใจได้ เพียงเพื่อหลีกเลี่ยงความสับสนฉันรู้ว่ากำลังสองน้อยที่สุดไม่เหมาะสมและมีตัวประมาณที่ดีกว่าเช่นการถดถอยสัน แต่นั่นไม่ใช่สิ่งที่ฉันตั้งใจ ฉันต้องการตัวอย่างว่ากำลังสองน้อยที่สุดจะผิดธรรมชาติ ฉันสามารถจินตนาการถึงสิ่งต่าง ๆ เช่นข้อผิดพลาดเวกเตอร์ϵϵ\epsilonอาศัยอยู่ในภูมิภาคที่ไม่มีการนูนของRnRn\mathbb{R}^nแต่ฉันไม่แน่ใจเกี่ยวกับสิ่งนั้น แก้ไข 1: เป็นแนวคิดที่จะช่วยให้คำตอบ (ซึ่งฉันไม่สามารถคิดวิธีการเพิ่มเติม) βOLSβOLS\beta_{\text{OLS}}เป็นสีน้ำเงิน ดังนั้นมันอาจช่วยให้คิดได้ว่าเมื่อตัวประมาณค่าที่ไม่เอนเอียงเชิงเส้นจะไม่เป็นความคิดที่ดี แก้ไข 2: ตามที่ไบรอันชี้ให้เห็นหากXX′XX′XX'นั้นมีเงื่อนไขที่ไม่ดีดังนั้นβOLSβOLS\beta_{\text{OLS}}เป็นความคิดที่ไม่ดีเพราะความแปรปรวนมีขนาดใหญ่เกินไปและควรใช้การถดถอยแบบริดจ์แทน ฉันสนใจมากขึ้นในการรู้ว่าการกระจายใดควรεε\varepsilonเพื่อให้สี่เหลี่ยมน้อยทำงานได้ไม่ดี βOLS∼β+(X′X)−1X′εβOLS∼β+(X′X)−1X′ε\beta_{\text{OLS}} …

3
ทำไม OLS ประมาณค่าสัมประสิทธิ์ AR (1) เอนเอียง?
ฉันพยายามที่จะเข้าใจว่าทำไม OLS จึงให้ตัวประมาณค่าแบบอคติของกระบวนการ AR (1) พิจารณา ในรูปแบบนี้มีการละเมิด exogeneity ที่เข้มงวดเช่นและมีความสัมพันธ์กัน แต่และไม่มีความสัมพันธ์กัน แต่ถ้าสิ่งนี้เป็นจริงแล้วเหตุใดความเรียบง่ายที่ตามมาจึงไม่เกิดขึ้น Yเสื้อεเสื้อ= α + βYt - 1+εเสื้อ,~ฉันฉันdยังไม่มีข้อความ( 0 , 1 )Yเสื้อ=α+βYเสื้อ-1+εเสื้อ,εเสื้อ~ผมผมdยังไม่มีข้อความ(0,1). \begin{aligned} y_{t} &= \alpha + \beta y_{t-1} + \epsilon_{t}, \\ \epsilon_{t} &\stackrel{iid}{\sim} N(0,1). \end{aligned} Yเสื้อYเสื้อy_tεเสื้อεเสื้อ\epsilon_tYt - 1Yเสื้อ-1y_{t-1}εเสื้อεเสื้อ\epsilon_tPLIM β^=โคฟ(Yเสื้อ,Yt - 1)วาร์(Yt - 1)=Cov ( α + βYt - 1+εเสื้อ,Yt - …

4
เหตุใดวิธีการกำลังสองน้อยที่สุดและความน่าจะเป็นสูงสุดของการถดถอยจึงไม่เท่ากันเมื่อข้อผิดพลาดไม่กระจายตามปกติ
ชื่อกล่าวมันทั้งหมด ฉันเข้าใจว่ากำลังสองน้อยที่สุดและโอกาสสูงสุดจะให้ผลเหมือนกันสำหรับสัมประสิทธิ์การถดถอยหากข้อผิดพลาดของโมเดลกระจายตามปกติ แต่จะเกิดอะไรขึ้นหากข้อผิดพลาดไม่ได้รับการแจกจ่ายตามปกติ ทำไมทั้งสองวิธีจึงไม่เท่ากันอีกต่อไป?

3
สัญชาตญาณด้านหลังในรูปแบบปิดของ w ในการถดถอยเชิงเส้น
รูปแบบปิดของ w ในการถดถอยเชิงเส้นสามารถเขียนได้ w^=(XTX)−1XTyw^=(XTX)−1XTy\hat{w}=(X^TX)^{-1}X^Ty เราจะอธิบายบทบาทของในสมการนี้ได้อย่างไร(XTX)−1(XTX)−1(X^TX)^{-1}

3
การคำนวณค่า p ในกำลังสองน้อยที่สุด (ไม่เป็นลบ) ข้อ จำกัด
ฉันใช้ Matlab เพื่อดำเนินการแบบไม่ จำกัด สแควร์น้อย (กำลังสองน้อยที่สุดธรรมดา) และมันจะส่งออกสัมประสิทธิ์, สถิติการทดสอบและค่า p โดยอัตโนมัติ คำถามของฉันคือเมื่อทำการ จำกัด กำลังสองน้อยสุด (สัมประสิทธิ์ nonnegative อย่างเคร่งครัด), มันจะออกเฉพาะค่าสัมประสิทธิ์, ไม่มีสถิติทดสอบ, ค่า p เป็นไปได้หรือไม่ที่จะคำนวณค่าเหล่านี้เพื่อให้แน่ใจว่ามีความสำคัญ? และทำไมถึงไม่สามารถใช้งานได้โดยตรงบนซอฟต์แวร์ (หรือซอฟต์แวร์อื่น ๆ สำหรับเรื่องนั้น)

2
เหตุใดความชัน 1 เสมอเมื่อทำการถดถอยข้อผิดพลาดในส่วนที่เหลือโดยใช้ OLS
ฉันกำลังทดสอบความสัมพันธ์ระหว่างข้อผิดพลาดและส่วนที่เหลือโดยใช้การจำลองแบบง่าย ๆ ในอาร์สิ่งหนึ่งที่ฉันพบคือไม่ว่าขนาดตัวอย่างหรือความแปรปรวนข้อผิดพลาดฉันได้สำหรับความชันเสมอเมื่อคุณพอดีกับโมเดล111 e r r o r s ∼ β0+ β1× r e s i d u a l serrors∼β0+β1×residuals {\rm errors} \sim \beta_0 + \beta_1 \times {\rm residuals} นี่คือการจำลองที่ฉันทำ: n <- 10 s <- 2.7 x <- rnorm(n) e <- rnorm(n,sd=s) y <- 0.3 + 1.2*x + e …

1
อะไรคือความหมายของบาร์คู่และ 2 ที่ด้านล่างในช่องสี่เหลี่ยมน้อยที่สุดธรรมดา?
ผมเห็นเครื่องหมายนี้สำหรับสองน้อยสามัญที่นี่ นาทีW∥ Xw - y∥22minw‖Xw−y‖22 \min_w \left\| Xw - y \right\|^2_2 ฉันไม่เคยเห็นแถบคู่และ 2 ที่ด้านล่าง สัญลักษณ์เหล่านี้หมายถึงอะไร พวกเขามีคำศัพท์เฉพาะสำหรับพวกเขาหรือไม่?

2
ค่าเฉลี่ยความหมายแบบมีเงื่อนไขหมายถึงความเป็นกลางและความสอดคล้องของตัวประมาณค่า OLS
พิจารณาโมเดลการถดถอยหลายแบบต่อไปนี้:Y=Xβ+Zδ+U.(1)(1)Y=Xβ+Zδ+U.Y=X\beta+Z\delta+U.\tag{1} นี่คือคือคอลัมน์เวกเตอร์ aเมทริกซ์ ; aคอลัมน์เวกเตอร์ aเมทริกซ์; aเวกเตอร์คอลัมน์; และ , ข้อผิดพลาด, เวกเตอร์คอลัมน์YYYn×1n×1n\times 1XXXn×(k+1)n×(k+1)n\times (k+1)ββ\beta(k+1)×1(k+1)×1(k+1)\times 1ZZZn×ln×ln\times lδδ\deltal×1l×1l\times 1UUUn×1n×1n\times1 คำถาม อาจารย์ของฉันหนังสือแนะนำเศรษฐมิติฉบับที่ 3 โดย James H. Stock and Mark W. Watson, p. 281 และเศรษฐมิติ: Honor's Exam Review Session (PDF) , p. 7 ได้แสดงต่อไปนี้กับฉัน หากเราถือว่าสิ่งที่เรียกว่าความเป็นอิสระแบบมีเงื่อนไขซึ่งตามคำจำกัดความหมายความว่าE(U|X,Z)=E(U|Z),(2)(2)E(U|X,Z)=E(U|Z),E(U|X,Z)=E(U|Z),\tag{2} และถ้าการสันนิษฐานของสี่เหลี่ยมจัตุรัสน้อยที่สุดเป็นไปตามเงื่อนไขยกเว้นค่าศูนย์ที่เป็นเงื่อนไข (ดังนั้นเราจึงถือว่า ) (ดู 1 -3 ด้านล่าง),E(U|X,Z)=0E(U|X,Z)=0E(U|X,Z)=0E(U|X,Z)=E(U|Z)≠0E(U|X,Z)=E(U|Z)≠0E(U|X,Z)=E(U|Z) \neq 0 จากนั้นตัวประมาณ …

1
ทั่วไปกำลังสองน้อยที่สุด: จากสัมประสิทธิ์การถดถอยถึงสัมประสิทธิ์สหสัมพันธ์?
อย่างน้อยกำลังสองที่มีตัวทำนายหนึ่งตัว: Y= βx + ϵY=βx+εy = \beta x + \epsilon หากและเป็นมาตรฐานก่อนการประกอบ (เช่น ) ดังนั้น:y ∼ N ( 0 , 1 )xxxYYy∼ N( 0 , 1 )~ยังไม่มีข้อความ(0,1)\sim N(0,1) rββ\beta RRRr x = β y + ϵββ\betaเหมือนกันในการถดถอยที่สะท้อน:x = βY+ ϵx=βY+εx = \beta y + \epsilon สำหรับทั่วไปกำลังสองน้อยที่สุด (GLS), เดียวกันนำไปใช้? คือถ้าฉันสร้างมาตรฐานข้อมูลของฉันฉันจะได้ค่าสัมประสิทธิ์สหสัมพันธ์โดยตรงจากค่าสัมประสิทธิ์การถดถอยหรือไม่? จากการทดสอบกับข้อมูล GLS ที่สะท้อนจะนำไปสู่ค่าสัมประสิทธิ์แตกต่างกันและฉันไม่แน่ใจว่าฉันเชื่อว่าค่าสัมประสิทธิ์การถดถอยนั้นสอดคล้องกับค่าที่ฉันคาดหวังสำหรับค่าสหสัมพันธ์ …

1
ฉันจะรวมเอานวัตกรรมล้ำสมัยที่การสังเกตที่ 48 ในโมเดล ARIMA ของฉันได้อย่างไร
ฉันกำลังทำงานกับชุดข้อมูล หลังจากใช้เทคนิคการระบุตัวแบบบางอย่างฉันก็ออกมาพร้อมกับแบบจำลอง ARIMA (0,2,1) ผมใช้detectIOฟังก์ชั่นในแพคเกจTSAในการวิจัยที่จะตรวจพบนวัตกรรมขอบเขต (IO) ที่สังเกต 48th ของชุดข้อมูลเดิมของฉัน ฉันจะรวมค่าผิดปกตินี้ไว้ในแบบจำลองของฉันเพื่อที่ฉันจะสามารถใช้เพื่อวัตถุประสงค์ในการพยากรณ์ได้อย่างไร ฉันไม่ต้องการใช้แบบจำลอง ARIMAX เนื่องจากฉันอาจไม่สามารถคาดการณ์ได้จากสิ่งนั้นใน R มีวิธีอื่นที่ฉันสามารถทำได้หรือไม่ นี่คือค่านิยมของฉันตามลำดับ: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

3
ความสัมพันธ์ระหว่างของการถดถอยอย่างง่ายและการถดถอยหลายครั้ง
คำถามพื้นฐานที่เกี่ยวข้องกับการถดถอย OLS ของR2R2R^2 เรียกใช้ OLS regression y ~ x1 เรามีบอกว่า 0.3R2R2R^2 รัน OLS regression y ~ x2 เรามีอีกอันบอกว่า 0.4R2R2R^2 ตอนนี้เราเรียกใช้การถดถอย y ~ x1 + x2 ค่า R ของการถดถอยนี้มีค่าเท่าไหร่ ฉันคิดว่ามันชัดเจนว่าสำหรับการถดถอยหลายครั้งไม่ควรน้อยกว่า 0.4 แต่เป็นไปได้หรือที่จะมากกว่า 0.7?R2R2R^2

3
ความสำคัญของหมวกเมทริกซ์คืออะไรในการถดถอยเชิงเส้น?
ความสำคัญของเมทริกซ์ของหมวกคืออะไรในการวิเคราะห์การถดถอยH=X(X′X)−1X′H=X(X′X)−1X′H=X(X^{\prime}X )^{-1}X^{\prime} มันเป็นเพียงการคำนวณง่ายขึ้น?

4
รูปแบบประวัติเหตุการณ์แบบไม่ต่อเนื่อง (การอยู่รอด) ใน R
ฉันกำลังพยายามปรับโมเดลที่ไม่ต่อเนื่องใน R แต่ฉันไม่แน่ใจว่าจะทำอย่างไร ฉันได้อ่านแล้วว่าคุณสามารถจัดระเบียบตัวแปรตามในแถวต่างกันหนึ่งตัวสำหรับแต่ละการสังเกตเวลาและการใช้glmฟังก์ชั่นที่มีลิงค์ logit หรือ cloglog ในแง่นี้ฉันมีสามคอลัมน์: ID, Event(1 หรือ 0 ในแต่ละช่วงเวลา) และTime Elapsed(ตั้งแต่จุดเริ่มต้นของการสังเกต) รวมทั้ง covariates อื่น ๆ ฉันจะเขียนรหัสเพื่อให้พอดีกับรุ่นได้อย่างไร ตัวแปรตามคืออะไร ฉันเดาว่าฉันสามารถใช้Eventเป็นตัวแปรตามและรวมTime Elapsedอยู่ใน covariates แต่สิ่งที่เกิดขึ้นกับID? ฉันต้องการมันไหม ขอบคุณ
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

1
R ตัวแปรเชิงเส้นถดถอยหมวดหมู่ "ซ่อน" ค่า
นี่เป็นเพียงตัวอย่างที่ฉันเจอหลายครั้งดังนั้นฉันจึงไม่มีข้อมูลตัวอย่าง ใช้แบบจำลองการถดถอยเชิงเส้นใน R: a.lm = lm(Y ~ x1 + x2) x1เป็นตัวแปรต่อเนื่อง x2เป็นหมวดหมู่และมีสามค่าเช่น "ต่ำ", "ปานกลาง" และ "สูง" อย่างไรก็ตามเอาต์พุตที่กำหนดโดย R จะเป็นดังนี้: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 ฉันเข้าใจว่า R แนะนำการเข้ารหัสแบบหลอกบางอย่างเกี่ยวกับปัจจัยดังกล่าว ( …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

1
ความสัมพันธ์ระหว่าง MLE และกำลังสองน้อยที่สุดในกรณีของการถดถอยเชิงเส้น
Hastie และ Tibshirani พูดถึงในหัวข้อ 4.3.2 ของหนังสือของพวกเขาว่าในการตั้งค่าการถดถอยเชิงเส้นแนวทางสแควร์สน้อยที่สุดในความเป็นจริงเป็นกรณีพิเศษของความน่าจะเป็นสูงสุด เราจะพิสูจน์ผลลัพธ์นี้ได้อย่างไร? PS: อะไหล่ไม่มีรายละเอียดทางคณิตศาสตร์

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.