คำถามติดแท็ก anova

ANOVA ย่อมาจาก Analysis Of VAriance ซึ่งเป็นโมเดลเชิงสถิติและชุดของขั้นตอนสำหรับการเปรียบเทียบค่าเฉลี่ยของหลายกลุ่ม ตัวแปรอิสระในรูปแบบ ANOVA เป็นหมวดหมู่ แต่ตาราง ANOVA สามารถใช้ในการทดสอบตัวแปรต่อเนื่องเช่นกัน

2
ANOVA สองทางเหมาะสมหรือไม่
นี่คือคำอธิบายของการศึกษาของฉัน ฉันกำลังทดลองกับพืชสามชนิด: A, B และ C พืชเหล่านี้ควรจะลดระดับน้ำตาลในเลือดสำหรับผู้ป่วยเบาหวาน ฉันต้องการตรวจสอบว่าต้นไม้สามชนิดใดมีผลต่อการลดระดับน้ำตาลในเลือดได้นานขึ้นหลังจากที่หนูได้รับหนูเพียงครั้งเดียว ทำได้โดยการวัดระดับน้ำตาลในเลือดจากหนูที่เวลา 7 คะแนน (วันที่ 1, 2, 3, 5, 7, 10 และ 14) ดังนั้นจึงมี 4 กลุ่ม (ไม่ถูกรักษารับการรักษาด้วย A ได้รับการรักษาด้วย B และรับการรักษาด้วย C) สำหรับการใช้หนู 3 กลุ่มแต่ละกลุ่ม (n = 3) เป้าหมายของฉันคือ: เพื่อตรวจสอบว่าผลกระทบของการรักษาพืชแต่ละอย่างมีนัยสำคัญเมื่อเทียบกับไม่ได้รับการรักษา เพื่อเปรียบเทียบผลของกลุ่มในแต่ละวัน เพื่อตรวจสอบว่ากลุ่มที่ได้รับการรักษามีผลยาวนานที่สุดหลังจาก 14 วัน ทางออกของฉันคือใช้ ANOVA สองทางเนื่องจากมีมากกว่า 2 กลุ่มและฉันต้องการเปรียบเทียบกลุ่มในแต่ละวันและในที่สุดก็ถึงผลกระทบโดยรวม นี่เป็นวิธีที่ถูกต้องหรือไม่? ฉันจะสามารถจัดอันดับซึ่งจะเป็นพืชที่ดีที่สุดตามด้วยอันดับที่ 2 และ …

3
วิธีรับช่วงความมั่นใจในการเปลี่ยนแปลงประชากร r-square
ตัวอย่างง่ายๆสมมติว่ามีตัวแบบถดถอยเชิงเส้นสองแบบ รุ่นที่ 1 มีสามทำนาย, x1a, x2bและx2c แบบจำลอง 2 มีตัวทำนายสามตัวจากแบบจำลอง 1 และสองตัวทำนายเพิ่มเติมx2aและx2b มีสมการถดถอยที่ประชากรประชากรแปรปรวนอธิบายคือเป็น สำหรับรุ่นที่ 1 และρ 2 ( 2 )สำหรับรุ่น 2. แปรปรวนเพิ่มขึ้นอธิบายโดยรุ่น 2 ในประชากรที่อยู่Δ ρ 2 = ρ 2 ( 2 ) - ρ 2 ( 1 )ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δρ2=ρ2(2)−ρ2(1)Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} ฉันสนใจในการได้รับข้อผิดพลาดมาตรฐานและช่วงความเชื่อมั่นสำหรับประมาณการของ 2 ในขณะที่ตัวอย่างเกี่ยวข้องกับตัวทำนาย 3 และ 2 ตามลำดับความสนใจงานวิจัยของฉันเกี่ยวข้องกับตัวทำนายจำนวนต่าง ๆ (เช่น …

1
ฉันจะรวมเอานวัตกรรมล้ำสมัยที่การสังเกตที่ 48 ในโมเดล ARIMA ของฉันได้อย่างไร
ฉันกำลังทำงานกับชุดข้อมูล หลังจากใช้เทคนิคการระบุตัวแบบบางอย่างฉันก็ออกมาพร้อมกับแบบจำลอง ARIMA (0,2,1) ผมใช้detectIOฟังก์ชั่นในแพคเกจTSAในการวิจัยที่จะตรวจพบนวัตกรรมขอบเขต (IO) ที่สังเกต 48th ของชุดข้อมูลเดิมของฉัน ฉันจะรวมค่าผิดปกตินี้ไว้ในแบบจำลองของฉันเพื่อที่ฉันจะสามารถใช้เพื่อวัตถุประสงค์ในการพยากรณ์ได้อย่างไร ฉันไม่ต้องการใช้แบบจำลอง ARIMAX เนื่องจากฉันอาจไม่สามารถคาดการณ์ได้จากสิ่งนั้นใน R มีวิธีอื่นที่ฉันสามารถทำได้หรือไม่ นี่คือค่านิยมของฉันตามลำดับ: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

1
วิธีการเขียนเทอมข้อผิดพลาดในมาตรการ ANOVA ซ้ำ ๆ ใน R: Error (subject) vs Error (Subject / time)
คำถามของฉันมีความสัมพันธ์อย่างใกล้ชิดกับการโพสต์ก่อนหน้านี้ ระบุข้อผิดพลาด () ระยะในการวัดซ้ำ ANOVA ในการวิจัย อย่างไรก็ตามฉันต้องการรับข้อมูลเชิงลึกเพิ่มเติมเกี่ยวกับวิธีกำหนดคำที่ผิดพลาด สมมติว่าฉันมี ANOVA ซ้ำสองทางปัจจัยระหว่างกลุ่มผลคือการรักษา (ควบคุมเทียบกับยาหลอก) ในขณะที่เวลาคือผลกระทบภายในกลุ่มที่วัดซ้ำ ๆ กันมากกว่า 4 ครั้ง (T1 ~ T4) ID ผู้ป่วยจะถูกบันทึกเป็นหัวเรื่อง ที่นี่ฉันยืมข้อมูลจากตัวอย่างจากบทช่วยสอนในhttp://gjkerns.github.io/R/2012/01/20/power-sample-size.html ดังนั้นข้อมูลจะมีลักษณะเช่นนี้ Time Subject Method NDI 0min 1 Treat 51.01078 15min 1 Treat 47.12314 48hrs 1 Treat 26.63542 96hrs 1 Treat 20.78196 0min 2 Treat 42.61345 15min 2 Treat …

1
ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM
ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

2
จะตีความความแตกต่างที่กำหนดเองเหล่านี้ได้อย่างไร
ฉันกำลังทำ ANOVA ทางเดียว (ต่อสปีชีส์) ด้วยความแตกต่างที่กำหนดเอง [,1] [,2] [,3] [,4] 0.5 -1 0 0 0 5 1 -1 0 0 12.5 0 1 -1 0 25 0 0 1 -1 50 0 0 0 1 ที่ฉันเปรียบเทียบความเข้ม 0.5 กับ 5, 5 กับ 12.5 และอื่น ๆ นี่คือข้อมูลที่ฉันกำลังทำอยู่ ด้วยผลลัพธ์ต่อไปนี้ Generalized least squares fit by …

2
การวิเคราะห์โพสต์ - ฮอคที่ถูกต้องคืออะไรสำหรับการวัด ANOVA ซ้ำสามทาง?
ฉันได้ทำการทดสอบ ANOVA ซ้ำสามทาง การวิเคราะห์หลังการประชุมอะไรถูกต้อง? นี่คือการออกแบบที่สมดุลอย่างสมบูรณ์ (2x2x2) โดยมีปัจจัยหนึ่งที่มีการวัดซ้ำภายในวัตถุ ฉันตระหนักถึงวิธีการหลายตัวแปรในการวัด ANOVA ซ้ำ ๆ ใน R แต่สัญชาตญาณแรกของฉันคือดำเนินการในลักษณะ aov () ที่เรียบง่ายของ ANOVA: aov.repeated <- aov(DV ~ IV1 * IV2 * Time + Error(Subject/Time), data=data) DV = ตัวแปรตอบกลับ IV1 = ตัวแปรอิสระ 1 (2 ระดับ, A หรือ B) IV2 = ตัวแปรอิสระ 2 (2 ระดับ, ใช่หรือไม่) IV3 …

1
สัมประสิทธิ์สหสัมพันธ์ Intraclass vs. F-test (one-way ANOVA)
ฉันสับสนเล็กน้อยเกี่ยวกับค่าสัมประสิทธิ์สหสัมพันธ์ของ intraclass และการวิเคราะห์ความแปรปรวนทางเดียว เมื่อฉันเข้าใจแล้วทั้งคู่ก็บอกคุณว่าการสังเกตแบบเดียวกันภายในกลุ่มนั้นเกี่ยวข้องกับการสังเกตในกลุ่มอื่นอย่างไร ใครช่วยอธิบายสิ่งนี้ให้ดีขึ้นได้บ้างและอาจอธิบายสถานการณ์ที่แต่ละวิธีมีประโยชน์มากกว่ากัน

1
ANOVA ตอบคำถามอะไร
ฉันต้องการเรียนรู้ ANOVA ก่อนที่ฉันจะเริ่มเรียนรู้วิธีการทำงานของอัลกอริธึม (การคำนวณแบบใดที่ต้องทำ) และสาเหตุที่ได้ผลฉันต้องรู้ก่อนว่าเราแก้ปัญหาอะไรกับ ANOVA หรือเราพยายามตอบคำถามใด กล่าวอีกนัยหนึ่ง: อินพุตคืออะไรและเอาต์พุตของอัลกอริทึมคืออะไร ฉันเข้าใจสิ่งที่เราใช้เป็นอินพุต เรามีชุดของตัวเลข แต่ละหมายเลขมาพร้อมกับค่าของตัวแปรเด็ดขาดอย่างน้อยหนึ่งตัวแปร (หรือเรียกอีกอย่างว่า "ปัจจัย") ตัวอย่างเช่น: +------------+------------+-------+ | factor 1 | factor 2 | value | +------------+------------+-------+ | "A" | "a" | 1.0 | | "A" | "a" | 2.4 | | "A" | "b" | 0.3 | | "A" | …
10 anova 

4
รูปแบบประวัติเหตุการณ์แบบไม่ต่อเนื่อง (การอยู่รอด) ใน R
ฉันกำลังพยายามปรับโมเดลที่ไม่ต่อเนื่องใน R แต่ฉันไม่แน่ใจว่าจะทำอย่างไร ฉันได้อ่านแล้วว่าคุณสามารถจัดระเบียบตัวแปรตามในแถวต่างกันหนึ่งตัวสำหรับแต่ละการสังเกตเวลาและการใช้glmฟังก์ชั่นที่มีลิงค์ logit หรือ cloglog ในแง่นี้ฉันมีสามคอลัมน์: ID, Event(1 หรือ 0 ในแต่ละช่วงเวลา) และTime Elapsed(ตั้งแต่จุดเริ่มต้นของการสังเกต) รวมทั้ง covariates อื่น ๆ ฉันจะเขียนรหัสเพื่อให้พอดีกับรุ่นได้อย่างไร ตัวแปรตามคืออะไร ฉันเดาว่าฉันสามารถใช้Eventเป็นตัวแปรตามและรวมTime Elapsedอยู่ใน covariates แต่สิ่งที่เกิดขึ้นกับID? ฉันต้องการมันไหม ขอบคุณ
10 r  survival  pca  sas  matlab  neural-networks  r  logistic  spatial  spatial-interaction-model  r  time-series  econometrics  var  statistical-significance  t-test  cross-validation  sample-size  r  regression  optimization  least-squares  constrained-regression  nonparametric  ordinal-data  wilcoxon-signed-rank  references  neural-networks  jags  bugs  hierarchical-bayesian  gaussian-mixture  r  regression  svm  predictive-models  libsvm  scikit-learn  probability  self-study  stata  sample-size  spss  wilcoxon-mann-whitney  survey  ordinal-data  likert  group-differences  r  regression  anova  mathematical-statistics  normal-distribution  random-generation  truncation  repeated-measures  variance  variability  distributions  random-generation  uniform  regression  r  generalized-linear-model  goodness-of-fit  data-visualization  r  time-series  arima  autoregressive  confidence-interval  r  time-series  arima  autocorrelation  seasonality  hypothesis-testing  bayesian  frequentist  uninformative-prior  correlation  matlab  cross-correlation 

1
การระบุคำ Error () ในการวัด ANOVA ซ้ำ ๆ ใน R
ฉันกำลังมีปัญหากับการกำหนดเงื่อนไขข้อผิดพลาดสำหรับการวัด ANOVA แบบสองทางซ้ำ ๆ ในอาร์ข้อมูลของฉันประกอบด้วยการประเมินความหนาแน่นของไม้สำหรับตำแหน่งรัศมีสามตำแหน่ง (ด้านในกลางและด้านนอก) ตามแกนกลางที่สกัดจากต้นไม้ มีต้นไม้ทั้งหมด 20 ชนิด 6 บุคคลในแต่ละเผ่าพันธุ์และสองแกนจากต้นไม้แต่ละต้น ในการทดสอบผลกระทบของตำแหน่งรัศมีต่อความหนาแน่นของไม้ฉันใช้ ANOVA แบบสองทางต่อไปนี้พร้อมกับข้อความแสดงข้อผิดพลาดที่อธิบายถึงความแปรปรวนระหว่างบุคคล: radpos.aov <- aov(WD ~ Species*Radialposition + Error(Individual), data=Radpos) อย่างไรก็ตามฉันไม่แน่ใจว่าข้อกำหนดคุณสมบัติของข้อผิดพลาดเพียงพอหรือไม่ ฉันควรที่จะคำนึงถึงความแปรปรวนภายในคอร์ด้วยหรือไม่? สำหรับฉันความแปรปรวนนี้เป็นแบบเดียวกันเนื่องจากตำแหน่งในแนวรัศมีซึ่งเป็นปัจจัยหลักที่ฉันสนใจ แม้ว่าฉันจะทุ่มเทเวลาในการอ่านเกี่ยวกับการระบุคำผิดในมาตรการ ANOVA ซ้ำหลายครั้งฉันยังคงมีปัญหากับการระบุคำผิดพลาดจริง ฉันจะขอบคุณความช่วยเหลือเกี่ยวกับเรื่องนี้

1
R ตัวแปรเชิงเส้นถดถอยหมวดหมู่ "ซ่อน" ค่า
นี่เป็นเพียงตัวอย่างที่ฉันเจอหลายครั้งดังนั้นฉันจึงไม่มีข้อมูลตัวอย่าง ใช้แบบจำลองการถดถอยเชิงเส้นใน R: a.lm = lm(Y ~ x1 + x2) x1เป็นตัวแปรต่อเนื่อง x2เป็นหมวดหมู่และมีสามค่าเช่น "ต่ำ", "ปานกลาง" และ "สูง" อย่างไรก็ตามเอาต์พุตที่กำหนดโดย R จะเป็นดังนี้: summary(a.lm) Estimate Std. Error t value Pr(>|t|) (Intercept) 0.521 0.20 1.446 0.19 x1 -0.61 0.11 1.451 0.17 x2Low -0.78 0.22 -2.34 0.005 x2Medium -0.56 0.45 -2.34 0.005 ฉันเข้าใจว่า R แนะนำการเข้ารหัสแบบหลอกบางอย่างเกี่ยวกับปัจจัยดังกล่าว ( …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

5
Omega กำลังสองสำหรับการวัดผลกระทบใน R
หนังสือสถิติที่ฉันกำลังอ่านแนะนำให้โอเมก้ากำลังสองเพื่อวัดผลกระทบของการทดลองของฉัน ฉันได้พิสูจน์แล้วว่าใช้การออกแบบการแบ่งส่วน (ผสมผสานระหว่างการออกแบบภายในและระหว่างวิชา) ว่าปัจจัยภายในเรื่องของฉันมีความสำคัญทางสถิติด้วย p <0.001 และ F = 17 ตอนนี้ฉันกำลังมองหาว่าความแตกต่างใหญ่แค่ไหน ... มีการใช้โอเมก้ากำลังสองหา R (หรือ python หรือไม่ฉันรู้ว่า ... ใครจะฝันได้;) การค้นหาบนอินเทอร์เน็ตสำหรับสิ่งที่เกี่ยวข้องกับ R คือ เจ็บปวด*ฉันไม่รู้ว่าฉันจะหาสิ่งของด้วย C ได้อย่างไร ขอบคุณ!

3
แบคทีเรียหยิบขึ้นมาบนนิ้วมือหลังจากสัมผัสพื้นผิวหลายครั้ง: ข้อมูลที่ไม่ปกติการวัดซ้ำผู้เข้าร่วมข้าม
Intro ฉันมีผู้เข้าร่วมที่สัมผัสพื้นผิวที่ปนเปื้อนด้วยเชื้ออีโคไลในสองเงื่อนไข ( A = สวมถุงมือB = ไม่มีถุงมือ) ฉันต้องการทราบว่ามีความแตกต่างระหว่างปริมาณของแบคทีเรียที่ปลายนิ้วของพวกเขาด้วยและไม่ต้องใส่ถุงมือ แต่ยังรวมถึงจำนวนผู้ติดต่อด้วย ปัจจัยทั้งสองนี้มีส่วนร่วมภายใน วิธีการทดลอง: ผู้เข้าร่วม (n = 35) แตะที่ช่องสี่เหลี่ยมหนึ่งครั้งด้วยนิ้วเดียวกันสำหรับผู้ติดต่อได้สูงสุด 8 ราย (ดูรูปที่ a) จากนั้นฉันกวาดนิ้วของผู้เข้าร่วมและวัดแบคทีเรียที่ปลายนิ้วหลังจากการสัมผัสแต่ละครั้ง จากนั้นใช้นิ้วใหม่เพื่อสัมผัสจำนวนพื้นผิวที่แตกต่างกันและจาก 1 ถึง 8 รายชื่อ (ดูรูป b) นี่คือข้อมูลจริง : ข้อมูลจริง ข้อมูลไม่ปกติดังนั้นดูการกระจายของแบคทีเรียที่ขอบ | NumberContacts ด้านล่าง x = แบคทีเรีย แต่ละด้านคือจำนวนผู้ติดต่อที่แตกต่างกัน MODEL ลองจากlme4 :: glmerตามคำแนะนำของอะมีบาโดยใช้ Gamma (link = "log") และพหุนามสำหรับ NumberContacts: …

2
กำลังตรวจสอบความแตกต่างระหว่างประชากร
บอกว่าเรามีตัวอย่างจากประชากรสองกลุ่ม A: และA Bสมมติว่าประชากรเหล่านี้ทำจากบุคคลและเราเลือกที่จะอธิบายบุคคลในแง่ของคุณสมบัติ คุณสมบัติบางอย่างเหล่านี้มีการจัดหมวดหมู่ (เช่นพวกเขาขับรถไปทำงานหรือไม่) และบางส่วนเป็นตัวเลข (เช่นความสูง) ขอเรียกคุณสมบัติเหล่านี้:X_n เรารวบรวมคุณลักษณะเหล่านี้หลายร้อยรายการ (เช่น n = 200) สมมติว่าใช้งานง่ายโดยไม่มีข้อผิดพลาดหรือเสียงรบกวนในทุกคนX1...XnX1...XnX_1 \ldots X_n เราตั้งสมมติฐานว่าประชากรสองคนนั้นแตกต่างกัน เป้าหมายของเราคือการตอบคำถามสองข้อต่อไปนี้: จริง ๆ แล้วพวกเขาแตกต่างกันอย่างมีนัยสำคัญ? อะไรคือความแตกต่างระหว่างพวกเขา? วิธีการเช่นต้นไม้ตัดสินใจ (เช่นป่าสุ่ม) และการวิเคราะห์การถดถอยเชิงเส้นสามารถช่วยได้ ตัวอย่างเช่นเราสามารถดูความสำคัญของคุณลักษณะในป่าสุ่มหรือสัมประสิทธิ์ที่เหมาะสมในการถดถอยเชิงเส้นเพื่อทำความเข้าใจกับสิ่งที่อาจแยกแยะกลุ่มเหล่านี้และสำรวจความสัมพันธ์ระหว่างคุณลักษณะและประชากร ก่อนที่ฉันจะไปตามเส้นทางนี้ฉันต้องการเข้าใจตัวเลือกของฉันที่นี่สิ่งที่ดีและทันสมัยกับการปฏิบัติที่ไม่ดี โปรดทราบว่าเป้าหมายของฉันไม่ใช่การคาดการณ์ต่อการทดสอบและการค้นหาความแตกต่างที่สำคัญระหว่างกลุ่ม อะไรคือหลักการในการแก้ไขปัญหานี้ ต่อไปนี้เป็นข้อกังวลของฉัน: วิธีการเช่นการวิเคราะห์การถดถอยเชิงเส้นอาจไม่ตอบอย่างเต็มที่ (2) ใช่ไหม? เช่นความพอดีสามารถช่วยค้นหาความแตกต่างบางอย่าง แต่ไม่ใช่ความแตกต่างที่สำคัญทั้งหมด ตัวอย่างเช่นความหลากหลายหลายระดับอาจทำให้เราไม่สามารถค้นหาคุณลักษณะทั้งหมดที่แตกต่างกันในแต่ละกลุ่ม (อย่างน้อยก็ในรูปแบบเดียว) ด้วยเหตุผลเดียวกันฉันคาดหวังว่า ANOVA จะไม่สามารถให้คำตอบเต็ม (2) ได้เช่นกัน ยังไม่ชัดเจนว่าวิธีการคาดการณ์จะตอบได้อย่างไร (1) ตัวอย่างเช่นฟังก์ชั่นการสูญเสียการจำแนกประเภท / การทำนายใดที่เราควรลด และเราจะทดสอบได้อย่างไรว่ากลุ่มแตกต่างกันอย่างมีนัยสำคัญเมื่อเรามีความเหมาะสมหรือไม่? ในที่สุดฉันกังวลว่าคำตอบที่ฉันได้รับ …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.