คำถามติดแท็ก linear-model

อ้างถึงโมเดลใด ๆ ที่ตัวแปรสุ่มเกี่ยวข้องกับตัวแปรสุ่มหนึ่งตัวหรือมากกว่าโดยฟังก์ชันที่เป็นเส้นตรงในพารามิเตอร์จำนวน จำกัด

4
(เพราะเหตุใด) โมเดลที่ติดตั้งมากเกินไปมักจะมีค่าสัมประสิทธิ์จำนวนมากหรือไม่
ฉันจินตนาการว่าสัมประสิทธิ์ของตัวแปรที่ใหญ่กว่าคือยิ่งความสามารถในการรุ่นนั้นต้อง "แกว่ง" ในมิตินั้นให้โอกาสเพิ่มขึ้นเพื่อให้พอดีกับเสียง แม้ว่าฉันคิดว่าฉันมีความรู้สึกที่สมเหตุสมผลของความสัมพันธ์ระหว่างความแปรปรวนในแบบจำลองและค่าสัมประสิทธิ์ขนาดใหญ่ แต่ฉันไม่มีความรู้สึกที่ดีเท่ากับว่าทำไมพวกเขาถึงเกิดขึ้นในแบบจำลองที่พอดี มันไม่ถูกต้องหรือไม่ที่จะบอกว่าพวกเขาเป็นอาการของการบรรจุเกินและการหดตัวของสัมประสิทธิ์เป็นเทคนิคที่ใช้ในการลดความแปรปรวนในแบบจำลองหรือไม่? การทำให้เป็นมาตรฐานผ่านการหดตัวของสัมประสิทธิ์ดูเหมือนว่าจะทำงานบนหลักการที่ว่าค่าสัมประสิทธิ์ขนาดใหญ่เป็นผลมาจากตัวแบบที่มีการ overfitted แต่บางทีฉันอาจตีความแรงจูงใจที่อยู่เบื้องหลังเทคนิค สัญชาตญาณของฉันที่ค่าสัมประสิทธิ์ขนาดใหญ่มักจะมีอาการของการสะสมมากเกินไปมาจากตัวอย่างต่อไปนี้: สมมติว่าเราต้องการให้พอดีกับจุดที่ทุกคนนั่งอยู่บนแกน x เราสามารถสร้างพหุนามที่มีการแก้ปัญหาเป็นจุดเหล่านี้:(x-x_n) สมมติว่าจุดที่เราอยู่ที่xเทคนิคนี้ให้ค่าสัมประสิทธิ์ทั้งหมด> = 10 (ยกเว้นหนึ่งค่าสัมประสิทธิ์) เมื่อเราเพิ่มคะแนนมากขึ้น (และเพิ่มระดับพหุนาม) ขนาดของสัมประสิทธิ์เหล่านี้จะเพิ่มขึ้นอย่างรวดเร็วF ( x ) = ( x - x 1 ) ( x - x 2 ) . . . ( x - x n - 1 ) ( x - …

3
R จัดการค่าที่ขาดหายไปใน lm ได้อย่างไร
ฉันต้องการถดถอยเวกเตอร์ B เทียบกับแต่ละคอลัมน์ในเมทริกซ์ A นี่เป็นเรื่องไม่สำคัญหากไม่มีข้อมูลที่หายไป แต่ถ้าเมทริกซ์ A มีค่าที่ขาดหายไปการถดถอยของฉันกับ A นั้นถูก จำกัด ให้รวมแถวเท่านั้น ค่าที่มีอยู่ ( พฤติกรรมna.omitเริ่มต้น) สิ่งนี้สร้างผลลัพธ์ที่ไม่ถูกต้องสำหรับคอลัมน์ที่ไม่มีข้อมูลขาดหายไป ฉันสามารถถอยหลังเมทริกซ์คอลัมน์ B กับคอลัมน์แต่ละคอลัมน์ของเมทริกซ์ A แต่ฉันมีการถดถอยนับพันที่ต้องทำและนี่เป็นการห้ามช้าและไม่เหมาะสม na.excludeฟังก์ชั่นที่ดูเหมือนว่าจะได้รับการออกแบบสำหรับกรณีนี้ แต่ฉันไม่สามารถทำให้การทำงาน ฉันทำอะไรผิดที่นี่ ใช้ R 2.13 บน OSX หากมีความสำคัญ A = matrix(1:20, nrow=10, ncol=2) B = matrix(1:10, nrow=10, ncol=1) dim(lm(A~B)$residuals) # [1] 10 2 (the expected 10 residual values) …

2
เราจำเป็นต้องมีการไล่ระดับสีเพื่อหาค่าสัมประสิทธิ์ของตัวแบบการถดถอยเชิงเส้นหรือไม่?
ผมพยายามที่จะเรียนรู้การเรียนรู้เครื่องใช้วัสดุ Coursera ในการบรรยายครั้งนี้แอนดรูว์อึ้งใช้อัลกอริธึมการไล่ระดับสีเพื่อค้นหาค่าสัมประสิทธิ์ของตัวแบบการถดถอยเชิงเส้นที่จะลดฟังก์ชั่นข้อผิดพลาด (ฟังก์ชันต้นทุน) สำหรับการถดถอยเชิงเส้นเราจำเป็นต้องมีการไล่ระดับสี ดูเหมือนว่าฉันสามารถวิเคราะห์ความแตกต่างของฟังก์ชั่นข้อผิดพลาดและตั้งค่าเป็นศูนย์เพื่อแก้ค่าสัมประสิทธิ์; นั่นถูกต้องใช่ไหม?

5
จะหาค่าตัวประมาณกำลังสองน้อยที่สุดสำหรับการถดถอยเชิงเส้นหลายเส้นได้อย่างไร
ในกรณีที่เรียบง่ายเชิงเส้นถดถอยy=β0+β1xy=β0+β1xy=\beta_0+\beta_1xคุณสามารถได้รับมาอย่างน้อยประมาณตารางβ 1 = Σ ( x ฉัน - ˉ x ) ( Y ฉัน - ˉ Y )β^1=∑(xi−x¯)(yi−y¯)∑(xi−x¯)2β^1=∑(xi−x¯)(yi−y¯)∑(xi−x¯)2\hat\beta_1=\frac{\sum(x_i-\bar x)(y_i-\bar y)}{\sum(x_i-\bar x)^2}เช่นที่คุณไม่จำเป็นต้องรู้ β 0เพื่อประเมิน β 1β^0β^0\hat\beta_0β^1β^1\hat\beta_1 สมมติว่าฉันมีy=β1x1+β2x2y=β1x1+β2x2y=\beta_1x_1+\beta_2x_2 , วิธีการที่ฉันไม่ได้รับมาβ 1โดยไม่ต้องประเมินβ 2 ? หรือเป็นไปไม่ได้?β^1β^1\hat\beta_1β^2β^2\hat\beta_2

5
วิธีจัดการกับข้อมูลแบบลำดับชั้น / ซ้อนในการเรียนรู้ของเครื่อง
ฉันจะอธิบายปัญหาด้วยตัวอย่าง สมมติว่าคุณต้องการที่จะทำนายรายได้ของแต่ละบุคคลที่มีคุณลักษณะบางอย่าง: {อายุ, เพศ, ประเทศ, ภูมิภาค, เมือง} คุณมีชุดข้อมูลการฝึกอบรมเช่นนั้น train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
พิสูจน์ว่าสัมประสิทธิ์ในแบบจำลอง OLS เป็นไปตามการแจกแจงแบบ t ด้วย (nk) องศาอิสระ
พื้นหลัง สมมติว่าเรามีโมเดลกำลังสองน้อยที่สุดซึ่งเรามีค่าสัมประสิทธิ์ในแบบจำลองการถดถอยของเรา kkky=Xβ+ϵy=Xβ+ϵ\mathbf{y}=\mathbf{X}\mathbf{\beta} + \mathbf{\epsilon} โดยที่เป็นเวกเตอร์ของสัมประสิทธิ์ ,คือเมทริกซ์การออกแบบที่กำหนดโดยββ\mathbf{\beta}(k×1)(k×1)(k\times1)XX\mathbf{X} X=⎛⎝⎜⎜⎜⎜⎜⎜11⋮1x11x21xn1x12…⋱………x1(k−1)⋮⋮xn(k−1)⎞⎠⎟⎟⎟⎟⎟⎟X=(1x11x12…x1(k−1)1x21…⋮⋮⋱⋮1xn1……xn(k−1))\mathbf{X} = \begin{pmatrix} 1 & x_{11} & x_{12} & \dots & x_{1\;(k-1)} \\ 1 & x_{21} & \dots & & \vdots \\ \vdots & & \ddots & & \vdots \\ 1 & x_{n1} & \dots & \dots & x_{n\;(k-1)} \end{pmatrix} และข้อผิดพลาดคือ IID ปกติ …

1
องศาอิสระเป็นหมายเลขที่ไม่ใช่จำนวนเต็มหรือไม่
เมื่อฉันใช้ GAM มันให้ DF ที่เหลือกับฉันคือ (บรรทัดสุดท้ายในรหัส) นั่นหมายความว่าอย่างไร? นอกเหนือไปจากตัวอย่างของ GAM โดยทั่วไปแล้วจำนวนองศาความเป็นอิสระจะเป็นจำนวนที่ไม่ใช่จำนวนเต็มหรือไม่26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

7
การทดสอบการพึ่งพาเชิงเส้นระหว่างคอลัมน์ของเมทริกซ์
ฉันมีเมทริกซ์สหสัมพันธ์ของการรักษาความปลอดภัยที่ส่งกลับซึ่งปัจจัยเป็นศูนย์ (นี่เป็นเรื่องที่น่าแปลกใจเล็กน้อยเนื่องจากเมทริกซ์สหสัมพันธ์ตัวอย่างและเมทริกซ์ความแปรปรวนร่วมที่สอดคล้องกันในทางทฤษฎีควรเป็นบวกแน่นอน) สมมติฐานของฉันคือความปลอดภัยอย่างน้อยหนึ่งรายการขึ้นอยู่กับหลักทรัพย์อื่น ๆ มีฟังก์ชั่นใน R ที่ทดสอบเมทริกซ์เชิงเส้นสำหรับการพึ่งพาเชิงเส้นแต่ละคอลัมน์หรือไม่? ตัวอย่างเช่นวิธีหนึ่งคือการสร้างเมทริกซ์ความสัมพันธ์หนึ่งการรักษาความปลอดภัยในแต่ละครั้งและคำนวณปัจจัยในแต่ละขั้นตอน เมื่อดีเทอร์มิแนนต์ = 0 แล้วหยุดตามที่คุณระบุความปลอดภัยซึ่งเป็นการรวมกันเชิงเส้นของหลักทรัพย์อื่น ๆ เทคนิคอื่นใดที่สามารถระบุการพึ่งพาเชิงเส้นในเมทริกซ์นั้นได้รับการชื่นชม

2
โมเดลเชิงเส้นทั่วไปเทียบกับโมเดลเชิงเส้นทั่วไป (พร้อมฟังก์ชันลิงก์เอกลักษณ์)
นี่เป็นโพสต์แรกของฉันดังนั้นโปรดช่วยฉันถ้าฉันไม่ปฏิบัติตามมาตรฐาน! ฉันค้นหาคำถามและไม่มีอะไรเกิดขึ้น คำถามของฉันเกี่ยวข้องกับความแตกต่างในทางปฏิบัติระหว่างการสร้างแบบจำลองเชิงเส้นทั่วไป (GLM) และการสร้างแบบจำลองเชิงเส้นทั่วไป (GZLM) ในกรณีของฉันมันจะเป็นตัวแปรต่อเนื่องไม่กี่อย่างในรูปของโควาเรียตและอีกสองสามปัจจัยใน ANCOVA เทียบกับ GZLM ฉันต้องการตรวจสอบผลกระทบหลักของตัวแปรแต่ละตัวรวมถึงการโต้ตอบสามทางเดียวที่ฉันจะร่างในแบบจำลอง ฉันสามารถเห็นสมมติฐานนี้กำลังทดสอบใน ANCOVA หรือใช้ GZLM ในระดับหนึ่งฉันเข้าใจกระบวนการทางคณิตศาสตร์และการให้เหตุผลเบื้องหลังการใช้โมเดลเชิงเส้นทั่วไปเช่น ANCOVA และฉันค่อนข้างเข้าใจว่า GZLMs อนุญาตให้ฟังก์ชันลิงก์เชื่อมต่อโมเดลเชิงเส้นและตัวแปรตาม (ตกลงฉันโกหกบางทีฉันอาจไม่ เข้าใจคณิตศาสตร์จริงๆ) สิ่งที่ฉันไม่ชอบจริงๆ ไม่เข้าใจว่ามีความแตกต่างในทางปฏิบัติหรือเหตุผลในการดำเนินการวิเคราะห์หนึ่งและไม่ใช่อีกอย่างเมื่อการแจกแจงความน่าจะเป็นที่ใช้ใน GZLM เป็นปกติ (เช่นฟังก์ชั่นลิงค์ตัวตน?) ฉันได้ผลลัพธ์ที่แตกต่างกันมากเมื่อฉันวิ่งไปอีกอันหนึ่ง ฉันจะวิ่งได้ไหม ข้อมูลของฉันค่อนข้างไม่ปกติ แต่ทำงานได้ในระดับหนึ่งทั้งใน ANCOVA และ GZLM ในทั้งสองกรณีสมมติฐานของฉันได้รับการสนับสนุน แต่ใน GZLM ค่า p คือ "ดีกว่า" ความคิดของฉันคือ ANCOVA เป็นโมเดลเชิงเส้นที่มีตัวแปรตามการกระจายตามปกติโดยใช้ฟังก์ชั่นลิงค์ตัวตนซึ่งเป็นสิ่งที่ฉันสามารถป้อนใน GZLM ได้ แต่สิ่งเหล่านี้ยังคงแตกต่างกัน โปรดอธิบายคำถามเหล่านี้ให้ฉันฟังหน่อยถ้าคุณทำได้! จากคำตอบแรกฉันมีคำถามเพิ่มเติม: หากพวกเขาเหมือนกันยกเว้นการทดสอบนัยสำคัญที่ใช้ …

2
Bayesian lasso กับ Lasso สามัญ
ซอฟแวร์การดำเนินงานที่แตกต่างกันสำหรับเชือก ฉันรู้มากพูดคุยเกี่ยวกับวิธีการแบบเบส์เทียบกับวิธีการบ่อยในฟอรั่มที่แตกต่างกัน คำถามของฉันเฉพาะเจาะจงมากกับบ่วงบาศ - อะไรคือความแตกต่างหรือข้อดีของบ่วงเซียนบ่วงบาศกับบ่วงบาศปกติ ? นี่เป็นสองตัวอย่างของการใช้งานในแพ็คเกจ: # just example data set.seed(1233) X <- scale(matrix(rnorm(30),ncol=3))[,] set.seed(12333) Y <- matrix(rnorm(10, X%*%matrix(c(-0.2,0.5,1.5),ncol=1), sd=0.8),ncol=1) require(monomvn) ## Lasso regression reg.las <- regress(X, Y, method="lasso") ## Bayesian Lasso regression reg.blas <- blasso(X, Y) ดังนั้นเมื่อใดฉันจึงควรเลือกวิธีใดวิธีหนึ่ง หรือพวกเขาเหมือนกัน?

2
การคำนวณพีชคณิตเชิงเส้นอย่างน้อยกำลังสองน้อยที่สุด
เพื่อเป็นการตอบคำถามเกี่ยวกับโมเดลเชิงเส้นผสมใน R และเพื่อเป็นการอ้างอิงสำหรับผู้สนใจรักการเริ่มต้น / ขั้นกลางทางสถิติฉันตัดสินใจที่จะโพสต์ในฐานะ "Q & A-style" อิสระขั้นตอนที่เกี่ยวข้องกับการคำนวณ "คู่มือ" ของ ค่าสัมประสิทธิ์และค่าทำนายของการถดถอยเชิงเส้นอย่างง่าย ตัวอย่างคือชุดข้อมูล R ที่สร้างขึ้นmtcarsและจะถูกตั้งค่าเป็นไมล์ต่อแกลลอนที่ใช้โดยยานพาหนะที่ทำหน้าที่เป็นตัวแปรอิสระซึ่งควบคุมน้ำหนักของรถ (ตัวแปรต่อเนื่อง) และจำนวนกระบอกสูบเป็น ปัจจัยที่มีสามระดับ (4, 6 หรือ 8) โดยไม่มีการโต้ตอบ แก้ไข: ถ้าคุณมีความสนใจในคำถามนี้แน่นอนคุณจะพบคำตอบที่มีรายละเอียดและความพึงพอใจในเรื่องนี้โพสต์โดยแมทธิว Drury นอก CV

3
แบบจำลองการถดถอยที่มีความแปรปรวนไม่เท่ากัน
ฉันต้องการให้พอดีกับโมเดลเชิงเส้น (lm) ซึ่งความแปรปรวนของค่าคงที่นั้นขึ้นอยู่กับตัวแปรอธิบายอย่างชัดเจน วิธีที่ฉันรู้ว่าการทำเช่นนี้คือการใช้ GLM กับครอบครัวแกมมาในการจำลองความแปรปรวนและแล้วใส่ลงไปในสิ่งที่ตรงกันข้ามน้ำหนักในการทำงาน LM (ตัวอย่าง: http://nitro.biosci.arizona.edu/r/chapter31 .pdf ) ฉันสงสัยว่า: นี่เป็นเทคนิคเดียวหรือไม่ วิธีการอื่นใดที่เกี่ยวข้อง? แพ็คเกจ / ฟังก์ชัน R ใดที่เกี่ยวข้องกับการสร้างแบบจำลองนี้? (อื่น ๆ แล้ว glm, lm)

1
การทดสอบทางสถิติทั่วไปเป็นแบบจำลองเชิงเส้น
(อัปเดต: ฉันพุ่งลึกเข้าไปในสิ่งนี้และโพสต์ผลลัพธ์ที่นี่ ) รายการทดสอบทางสถิติที่ตั้งชื่อนั้นมีขนาดใหญ่มาก การทดสอบทั่วไปจำนวนมากอาศัยการอนุมานจากโมเดลเชิงเส้นอย่างง่ายเช่นหนึ่งตัวอย่าง t-test คือy = β + εซึ่งทดสอบกับแบบจำลองโมฆะy = μ + εนั่นคือβ = μโดยที่μเป็นโมฆะบางอย่าง ค่า - โดยทั่วไปแล้วμ = 0 ฉันคิดว่านี่เป็นคำแนะนำเพื่อวัตถุประสงค์ในการสอนมากกว่าการเรียนรู้แบบท่องจำที่มีชื่อเมื่อใช้และสมมติฐานของพวกเขาราวกับว่าพวกเขาไม่มีอะไรเกี่ยวข้องกัน วิธีการส่งเสริมนั้นไม่ส่งเสริมความเข้าใจ อย่างไรก็ตามฉันไม่สามารถหาแหล่งรวบรวมที่ดีได้ ฉันสนใจในการเปรียบเทียบระหว่างโมเดลพื้นฐานมากกว่าวิธีการอนุมานจากพวกเขา แม้ว่าเท่าที่ฉันเห็นการทดสอบอัตราส่วนความน่าจะเป็นในตัวแบบเชิงเส้นทั้งหมดนี้ให้ผลลัพธ์แบบเดียวกับการอนุมานแบบ "คลาสสิค" ต่อไปนี้เป็นสิ่งที่ฉันได้เรียนรู้มาโดยไม่คำนึงถึงข้อผิดพลาดและสมมติว่าสมมติฐานว่างทั้งหมดไม่มีผล:ε∼N(0,σ2)ε∼N(0,σ2)\varepsilon \sim \mathcal N(0, \sigma^2) หนึ่งตัวอย่าง t-test: 0y=β0H0:β0=0y=β0H0:β0=0y = \beta_0 \qquad \mathcal{H}_0: \beta_0 = 0 t-test ตัวอย่างแบบจับคู่: y2−y1=β0H0:β0=0y2−y1=β0H0:β0=0y_2-y_1 = \beta_0 \qquad \mathcal{H}_0: …

5
สมมติฐานของตัวแบบเชิงเส้นและจะทำอย่างไรถ้าส่วนที่เหลือไม่ได้รับการแจกแจงแบบปกติ
ฉันสับสนเล็กน้อยว่าสมมติฐานของการถดถอยเชิงเส้นคืออะไร จนถึงตอนนี้ฉันตรวจสอบว่า: ตัวแปรอธิบายทั้งหมดมีความสัมพันธ์เชิงเส้นตรงกับตัวแปรตอบกลับ (ในกรณีนี้) มี collinearity ใด ๆ ในหมู่ตัวแปรอธิบาย (มี collinearity น้อย) ระยะทางของชุดข้อมูลของโมเดลของ Cook ต่ำกว่า 1 (ในกรณีนี้ระยะทางทั้งหมดอยู่ต่ำกว่า 0.4 ดังนั้นจึงไม่มีคะแนนอิทธิพล) ส่วนที่เหลือจะกระจายตามปกติ (อาจไม่เป็นเช่นนั้น) แต่ฉันก็อ่านต่อไปนี้: การฝ่าฝืนกฎเกณฑ์มักเกิดขึ้นเพราะ (ก) การกระจายของตัวแปรตามและ / หรือตัวแปรอิสระเป็นตัวของตัวเองอย่างมีนัยสำคัญที่ไม่ปกติและ / หรือ (ข) ข้อสมมติเชิงเส้นถูกละเมิด คำถามที่ 1 สิ่งนี้ทำให้ฟังดูเหมือนว่าตัวแปรอิสระและตัวแปรตามต้องได้รับการกระจายตามปกติ แต่เท่าที่ฉันรู้ว่านี่ไม่ใช่กรณี ตัวแปรตามของฉันเช่นเดียวกับหนึ่งในตัวแปรอิสระของฉันไม่ได้กระจายตามปกติ พวกเขาควรจะเป็นอย่างไร คำถามที่ 2 พล็อต QQ ของฉันปกติมีลักษณะดังนี้: นั่นแตกต่างจากการแจกแจงแบบปกติเล็กน้อยและshapiro.testยังปฏิเสธสมมติฐานว่าง ๆ ว่าส่วนที่เหลือมาจากการแจกแจงแบบปกติ: > shapiro.test(residuals(lmresult)) W = 0.9171, …

1
ฉันจะทำนายค่าจากอินพุตใหม่ของโมเดลเชิงเส้นใน R ได้อย่างไร?
ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฉันได้สร้างโมเดลเชิงเส้นตรงใน mod = lm(train_y ~ train_x)R: ฉันต้องการส่งรายการของ X และรับการคาดการณ์ / ประเมิน / คาดการณ์ Y ฉันดูpredict()แต่ฉันคิดว่ามันมีไว้สำหรับอย่างอื่นหรือฉันไม่รู้ว่าจะใช้มันอย่างไร ฉันคาดเดาด้วยการใช้สัมประสิทธิ์ของแบบจำลองของฉันฉันสามารถปลั๊กอินตัวแปร test_x แบบตัวต่อตัวและทำนายค่า Y ได้ แต่ฉันเดาว่าจะมีวิธีที่มีประสิทธิภาพมากกว่านี้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.