คำถามติดแท็ก anova

ANOVA ย่อมาจาก Analysis Of VAriance ซึ่งเป็นโมเดลเชิงสถิติและชุดของขั้นตอนสำหรับการเปรียบเทียบค่าเฉลี่ยของหลายกลุ่ม ตัวแปรอิสระในรูปแบบ ANOVA เป็นหมวดหมู่ แต่ตาราง ANOVA สามารถใช้ในการทดสอบตัวแปรต่อเนื่องเช่นกัน

1
ANOVA: การทดสอบสมมติฐานของภาวะปกติสำหรับหลาย ๆ กลุ่มที่มีตัวอย่างไม่กี่ตัวอย่างต่อกลุ่ม
สมมติว่าสถานการณ์ต่อไปนี้: เรามีจำนวนมาก (เช่น 20) กับกลุ่มขนาดเล็ก (เช่น n = 3) ฉันสังเกตเห็นว่าถ้าฉันสร้างค่าจากการกระจายแบบสม่ำเสมอส่วนที่เหลือจะดูปกติประมาณแม้ว่าการกระจายข้อผิดพลาดจะเหมือนกัน รหัส R ต่อไปนี้แสดงให้เห็นถึงพฤติกรรมนี้: n.group = 200 n.per.group = 3 x <- runif(n.group * n.per.group) gr <- as.factor(rep(1:n.group, each = n.per.group)) means <- tapply(x, gr, mean) x.res <- x - means[gr] hist(x.res) ถ้าฉันดูตัวอย่างที่เหลือในกลุ่มที่สามเหตุผลของพฤติกรรมชัดเจน: r1=x1−mean(x1,x2,x3)=x1−x1+x2+x33=23x1−x2−x3.r1=x1−mean(x1,x2,x3)=x1−x1+x2+x33=23x1−x2−x3. r_1 = x_1 - \text{mean}(x1, x2, x3) …

2
ออกเดินทางจากสมมติฐานปกติใน ANOVA: kurtosis หรือความเบ้สำคัญกว่าหรือไม่?
ประยุกต์แบบจำลองเชิงสถิติเชิงเส้นโดย Kutner และคณะ ระบุเกี่ยวกับการออกเดินทางต่อไปนี้จากสมมติฐานปกติของแบบจำลอง ANOVA: ความโด่งของการกระจายข้อผิดพลาด (อย่างใดอย่างหนึ่งมากหรือน้อยกว่ายอดการกระจายปกติ) มีความสำคัญมากกว่าเบ้ของการกระจายในแง่ของผลกระทบต่อการวินิจฉัย ฉันรู้สึกสับสนนิดหน่อยจากคำแถลงนี้และไม่สามารถหาข้อมูลที่เกี่ยวข้องได้ทั้งในหนังสือหรือออนไลน์ ฉันสับสนเพราะฉันยังได้เรียนรู้ว่าแผนการ QQ ที่มีหางหนาเป็นข้อบ่งชี้ว่าสมมติฐานเชิงบรรทัดฐานคือ "ดีพอ" สำหรับโมเดลการถดถอยเชิงเส้นในขณะที่ QQ แปลงที่เบ้เป็นเรื่องที่น่าเป็นห่วงมากกว่า (เช่นการเปลี่ยนแปลงอาจเหมาะสม) . ฉันถูกต้องหรือไม่ว่าการใช้เหตุผลเดียวกันสำหรับ ANOVA และการเลือกคำศัพท์ของพวกเขา ( สำคัญกว่าในแง่ของผลกระทบที่มีต่อการอนุมาน ) ได้รับการคัดเลือกไม่ดี? นั่นคือการแจกแจงแบบเบ้มีผลกระทบที่รุนแรงกว่าและควรหลีกเลี่ยงในขณะที่ปริมาณเคิร์ตซีสปริมาณเล็กน้อยสามารถยอมรับ แก้ไข: ตามที่ได้รับการยอมรับจาก rolando2 มันยากที่จะกล่าวว่าสิ่งหนึ่งสำคัญกว่าอีกกรณีในทุกกรณี แต่ฉันแค่มองหาข้อมูลเชิงลึกทั่วไป ปัญหาหลักของฉันคือฉันได้รับการสอนว่าในการถดถอยเชิงเส้นอย่างง่าย QQ-plot ที่มีหางที่หนักกว่า (= kurtosis?) ก็โอเคเนื่องจากการทดสอบ F นั้นค่อนข้างแข็งแกร่งเทียบกับเรื่องนี้ ในทางกลับกัน QQ-แผนการแปลง (รูปทรงพาราโบลา) มักเป็นปัญหาที่ใหญ่กว่า สิ่งนี้ดูเหมือนจะขัดแย้งกับแนวทางที่ตำราเรียนของฉันให้ ANOVA แม้ว่าแบบจำลอง ANOVA สามารถแปลงเป็นแบบจำลองการถดถอยและควรมีสมมติฐานเดียวกัน ฉันเชื่อว่าฉันมองอะไรบางอย่างหรือมีสมมติฐานที่ผิดพลาด แต่ฉันไม่สามารถเข้าใจได้ว่ามันจะเป็นอะไร

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

2
ความแตกต่างในค่า p รายงานระหว่าง lm และ aov ใน R
อะไรอธิบายถึงความแตกต่างของค่า p ในค่าต่อไปนี้aovและการlmโทร? ความแตกต่างนั้นเกิดจากการคำนวณผลรวมจำนวนสแควร์ประเภทต่างๆหรือไม่ set.seed(10) data=rnorm(12) f1=rep(c(1,2),6) f2=c(rep(1,6),rep(2,6)) summary(aov(data~f1*f2)) summary(lm(data~f1*f2))$coeff

2
ความแตกต่างระหว่าง t-test และ ANOVA ในการถดถอยเชิงเส้น
ฉันสงสัยว่าความแตกต่างระหว่าง t-test และ ANOVA ในการถดถอยเชิงเส้นคืออะไร t-test เพื่อทดสอบว่าหนึ่งในความชันและการสกัดกั้นใดมีค่าเป็นศูนย์หรือไม่ในขณะที่ ANOVA เพื่อทดสอบว่าความชันทั้งหมดมีค่าเป็นศูนย์หรือไม่ นี่เป็นข้อแตกต่างระหว่างพวกเขาเหรอ? ในการถดถอยเชิงเส้นอย่างง่ายนั่นคือมีตัวแปรตัวทำนายเพียงตัวเดียวเท่านั้น t-test และ ANOVA มีความเทียบเท่าหรือไม่และถ้าใช่วิธีการที่พวกเขาใช้สถิติที่แตกต่างกัน (t-test ใช้ t-statistic และ ANOVA ใช้ F-statistic)?

2
จะระบุความแตกต่างที่เฉพาะเจาะจงสำหรับการวัด ANOVA ซ้ำโดยใช้รถยนต์ได้อย่างไร
ฉันพยายามเรียกใช้มาตรการ Anova ใน R ซ้ำแล้วตามด้วยความแตกต่างเฉพาะบนชุดข้อมูลนั้น ฉันคิดว่าวิธีที่ถูกต้องน่าจะใช้ Anova()จากแพ็คเกจรถ ช่วยให้แสดงคำถามของฉันพร้อมตัวอย่างที่นำมาจากการ?Anovaใช้ OBrienKaiserข้อมูล (หมายเหตุ: ฉันสรุปปัจจัยทางเพศจากตัวอย่าง): เรามีการออกแบบที่มีปัจจัยหนึ่งระหว่างวิชาการรักษา (3 ระดับ: การควบคุม A, B) และซ้ำ 2 - วัด (ภายในวิชา) ปัจจัยระยะ (3 ระดับ: แบบทดสอบก่อนเรียนหลังการติดตาม) และชั่วโมง (5 ระดับ: 1 ถึง 5) ตาราง ANOVA มาตรฐานมอบให้โดย (แตกต่างจากตัวอย่าง (Anova) ฉันเปลี่ยนเป็น Type 3 Sums of Squares นั่นคือสิ่งที่สาขาของฉันต้องการ): require(car) phase <- factor(rep(c("pretest", "posttest", "followup"), …

2
Split-Plot ANOVA: การทดสอบเปรียบเทียบแบบใน R
ฉันจะทดสอบเอฟเฟกต์ใน ANOVA แบบแยกส่วนได้อย่างไรโดยใช้การเปรียบเทียบแบบจำลองที่เหมาะสมสำหรับใช้กับXและMข้อโต้แย้งของanova.mlm()ใน R ฉันคุ้นเคยกับ?anova.mlmDalgaard (2007) [1] น่าเสียดายที่มันมีเฉพาะแปรงแบบแยกส่วน การทำเช่นนี้ในการออกแบบแบบสุ่มอย่างสมบูรณ์ด้วยสองปัจจัยภายในวิชา: N <- 20 # 20 subjects total P <- 3 # levels within-factor 1 Q <- 3 # levels within-factor 2 DV <- matrix(rnorm(N* P*Q), ncol=P*Q) # random data in wide format id <- expand.grid(IVw1=gl(P, 1), IVw2=gl(Q, 1)) # intra-subjects layout …

4
ความสัมพันธ์ระหว่าง ANOVA เพื่อเปรียบเทียบวิธีการของหลายกลุ่มและ ANOVA เพื่อเปรียบเทียบแบบจำลองที่ซ้อนกันคืออะไร?
ฉันเคยเห็น ANOVA ใช้สองวิธี: อันดับแรกในข้อความสถิติเบื้องต้นของฉัน ANOVA ถูกนำมาใช้เป็นวิธีเปรียบเทียบกลุ่มสามกลุ่มหรือมากกว่านั้นเพื่อปรับปรุงมากกว่าการเปรียบเทียบแบบคู่เพื่อที่จะตัดสินว่าหนึ่งในวิธีนั้นมีความแตกต่างอย่างมีนัยสำคัญทางสถิติหรือไม่ ประการที่สองในข้อความการเรียนรู้เชิงสถิติของฉันฉันเคยเห็น ANOVA เคยใช้แบบจำลองซ้อนกันสอง (หรือมากกว่า) เพื่อตรวจสอบว่าแบบจำลอง 1 ซึ่งใช้ชุดย่อยของตัวทำนายรุ่น 2 เหมาะกับข้อมูลเท่ากันหรือเต็ม รุ่น 2 ยอดเยี่ยม ตอนนี้ฉันคิดว่าในทางใดทางหนึ่งหรือทั้งสองสิ่งนี้คล้ายกันจริง ๆ เพราะพวกเขาทั้งสองใช้การทดสอบ ANOVA แต่บนพื้นผิวพวกเขาดูเหมือนจะแตกต่างกันมากสำหรับฉัน สำหรับหนึ่งการใช้งานครั้งแรกเปรียบเทียบสามกลุ่มขึ้นไปในขณะที่วิธีที่สองสามารถใช้เพื่อเปรียบเทียบเพียงสองรุ่น มีใครบ้างที่โปรดอธิบายการเชื่อมต่อระหว่างการใช้งานทั้งสองนี้

2
ทำไมตารางโนวาของการถดถอยเหล่านี้จึงเหมือนกัน?
ฉันมีการถดถอยสองอันของ Y และ X ระดับเดียวกันสามระดับโดยรวม n = 15 โดยที่ n = 5 ในแต่ละกลุ่มหรือระดับ X การถดถอยครั้งแรกถือว่า X เป็นหมวดหมู่โดยกำหนดตัวแปรตัวบ่งชี้ให้อยู่ในระดับ 2 และ 3 ที่มีระดับ หนึ่งเป็นข้อมูลอ้างอิง ตัวชี้วัด / หุ่นเป็นเช่น: X1 = 1 ถ้าระดับ = 2, 0 ถ้าอื่น ๆ X2 = 1 ถ้าระดับ = 3, 0 ถ้าอื่น ด้วยเหตุนี้โมเดลที่ติดตั้งของฉันจึงมีลักษณะดังนี้: y = b0 + b1 (x1) + …
11 regression  anova 

2
การอ่านพล็อตแบบกล่องและมัสสุ: สามารถรวบรวมความแตกต่างที่สำคัญระหว่างกลุ่มได้หรือไม่
สมมติว่าเรากำลังดูพล็อตบ็อกซ์และมัสสุนี้: ระหว่างวันพฤหัสบดีและวันศุกร์ฉันคิดว่าส่วนใหญ่จะเห็นว่าดูเหมือนจะมีความแตกต่างอย่างมีนัยสำคัญในเวลานอน นั่นเป็นการคาดเดาทางสถิติที่ถูกต้องใช่มั้ย เราสามารถแยกแยะความแตกต่างอย่างมีนัยสำคัญได้หรือไม่เนื่องจากช่วงควอไทล์ชั้นในนั้นไม่ทับซ้อนกันระหว่างวันพฤหัสบดีและวันศุกร์? สิ่งที่เกี่ยวกับความจริงที่ว่าเคราบนและล่างของวันพฤหัสบดีและวันศุกร์ตามลำดับทับซ้อนกัน? สิ่งนี้มีผลต่อการวิเคราะห์ของเราหรือไม่ มักจะมาพร้อมกับแผนภูมิเช่นนี้จะเป็นแบบ ANOVA แต่ฉันแค่อยากรู้ว่าเราสามารถพูดเกี่ยวกับความแตกต่างระหว่างกลุ่มได้ง่ายๆเพียงแค่ดูที่บ็อกซ์ล็อต

2
เป็นความผิดหรือไม่ที่จะใช้ ANOVA แทนที่จะใช้ t-test เพื่อเปรียบเทียบสองวิธี?
ฉันมีการกระจายเงินเดือนและฉันต้องการเปรียบเทียบความแตกต่างของค่าเฉลี่ยสำหรับชายและหญิง ฉันรู้ว่ามีนักเรียน T-test สำหรับเปรียบเทียบสองวิธี แต่หลังจากแนะนำ ANOVA ฉันได้รับการวิจารณ์ว่า ANOVA นั้นสำหรับเปรียบเทียบมากกว่าสองวิธี มีอะไรผิดพลาดในการใช้มันเพื่อเปรียบเทียบเพียง 2 หมายความว่าอย่างไร

2
การทดสอบของ Bartlett เทียบกับการทดสอบของ Levene
ฉันกำลังพยายามที่จะแก้ไขการละเมิดข้อสมมติฐานของ ANOVA ฉันใช้ชาปิโร - วิลค์เพื่อทดสอบกฎเกณฑ์และได้ทดสอบกับทั้งการทดสอบของ Levene และการทดสอบความแปรปรวนของ Bartlett ตั้งแต่ฉันบันทึกการเปลี่ยนแปลงข้อมูลของฉันเพื่อพยายามแก้ไขความแปรปรวนที่ไม่เท่ากัน ฉันเรียกใช้การทดสอบของ Bartlett ใหม่ในบันทึกการแปลงข้อมูลและยังคงได้รับค่า p อย่างมีนัยสำคัญและจากความอยากรู้อยากเห็นก็ทำการทดสอบของ Levene และได้ค่า p-value ที่ไม่สำคัญ ฉันควรใช้การทดสอบแบบไหน

2
สมมติฐานว่างของ MANOVA คืออะไร
พื้นหลัง เพื่อวิเคราะห์ความแตกต่างในตัวแปรต่อเนื่องระหว่างกลุ่มต่าง ๆ (ที่กำหนดโดยตัวแปรเด็ดขาด) เราสามารถทำการวิเคราะห์ความแปรปรวนแบบทางเดียวได้ หากมีตัวแปรอธิบาย (หมวดหมู่) หลายตัวแปรหนึ่งสามารถดำเนินการ ANOVA แบบแฟคทอเรียล หากต้องการวิเคราะห์ความแตกต่างระหว่างกลุ่มในตัวแปรต่อเนื่องหลายตัว (เช่นตัวแปรตอบสนองหลายตัว) กลุ่มหนึ่งจะต้องทำการวิเคราะห์ความแปรปรวนหลายตัวแปร (MANOVA) คำถาม ฉันแทบจะไม่เข้าใจว่าคน ๆ หนึ่งสามารถทำการทดสอบแบบ ANOVA ได้อย่างไรในตัวแปรตอบสนองหลายอย่างและที่สำคัญกว่านั้นฉันไม่เข้าใจว่าสมมติฐานว่างอาจเป็นเช่นไร เป็นสมมติฐานว่าง: "สำหรับตัวแปรตอบกลับแต่ละค่าหมายความว่าทุกกลุ่มมีค่าเท่ากัน", หรือมันคือ "สำหรับตัวแปรตอบกลับอย่างน้อยหนึ่งค่าหมายความว่าทุกกลุ่มมีค่าเท่ากัน", หรือเป็นอย่างอื่น?H0H0H_0

2
lme4 :: lmer เทียบเท่ากับ ANOVA ที่ทำซ้ำสามทางคืออะไร?
คำถามของฉันอยู่บนพื้นฐานของการตอบสนองซึ่งแสดงให้เห็นว่าlme4::lmerรูปแบบใดที่สอดคล้องกับการวัดความแปรปรวนสองทางแบบ ANOVA: require(lme4) set.seed(1234) d <- data.frame( y = rnorm(96), subject = factor(rep(1:12, 4)), a = factor(rep(1:2, each=24)), b = factor(rep(rep(1:2, each=12))), c = factor(rep(rep(1:2, each=48)))) # standard two-way repeated measures ANOVA: summary(aov(y~a*b+Error(subject/(a*b)), d[d$c == "1",])) # corresponding lmer call: anova(lmer(y ~ a*b+(1|subject) + (1|a:subject) + (1|b:subject), d[d$c == "1",])) …

2
การทดสอบ t และการวิเคราะห์ความแปรปรวนทางเดียวทั้งการทดสอบ Wald หรือไม่
t-test สำหรับการทดสอบว่าค่าเฉลี่ยของตัวอย่างที่กระจายแบบปกติเท่ากับค่าคงที่หรือไม่นั้นเป็นการทดสอบแบบ Wald โดยการประมาณค่าเบี่ยงเบนมาตรฐานของค่าเฉลี่ยตัวอย่างจากข้อมูลการกระจายตัวปกติของปลาที่ค่าเฉลี่ยตัวอย่าง แต่สถิติการทดสอบในการทดสอบ t มีการแจกแจงแบบนักเรียนทีในขณะที่การทดสอบแบบ staistic ในการทดสอบแบบ Wald นั้นมีการกระจายแบบไคสแควร์ ฉันสงสัยว่าจะอธิบายได้อย่างไร ในการวิเคราะห์ความแปรปรวนทางเดียวสถิติทดสอบถูกกำหนดเป็นอัตราส่วนระหว่างความแปรปรวนระหว่างคลาสกับความแปรปรวนภายในคลาส ฉันสงสัยว่ามันเป็นแบบทดสอบของ Wald หรือไม่? แต่สถิติการทดสอบในการวิเคราะห์ความแปรปรวนแบบทางเดียวมีการแจกแจงแบบ F และสถิติการทดสอบในการทดสอบวัลด์แบบ asymptotically มีการแจกแจงแบบไคสแควร์ ฉันสงสัยว่าจะอธิบายได้อย่างไร ขอบคุณและขอแสดงความนับถือ!

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.