คำถามติดแท็ก anova

ANOVA ย่อมาจาก Analysis Of VAriance ซึ่งเป็นโมเดลเชิงสถิติและชุดของขั้นตอนสำหรับการเปรียบเทียบค่าเฉลี่ยของหลายกลุ่ม ตัวแปรอิสระในรูปแบบ ANOVA เป็นหมวดหมู่ แต่ตาราง ANOVA สามารถใช้ในการทดสอบตัวแปรต่อเนื่องเช่นกัน

5
ทำไม ANOVA จึงถูกสอน / ใช้ราวกับว่ามันเป็นวิธีการวิจัยที่แตกต่างเมื่อเทียบกับการถดถอยเชิงเส้น?
ANOVA เทียบเท่ากับการถดถอยเชิงเส้นด้วยการใช้ตัวแปรจำลองที่เหมาะสม ข้อสรุปยังคงเหมือนเดิมไม่ว่าคุณจะใช้ ANOVA หรือการถดถอยเชิงเส้น ในแง่ของความเท่าเทียมมีเหตุผลใดที่ใช้ ANOVA แทนการถดถอยเชิงเส้น? หมายเหตุ: ฉันสนใจฟังเหตุผลทางเทคนิคเป็นพิเศษสำหรับการใช้ ANOVA แทนการถดถอยเชิงเส้น แก้ไข นี่คือตัวอย่างหนึ่งที่ใช้การวิเคราะห์ความแปรปรวนแบบทางเดียว สมมติว่าคุณต้องการทราบว่าความสูงเฉลี่ยของชายและหญิงเหมือนกันหรือไม่ เพื่อทดสอบสมมติฐานของคุณคุณจะต้องรวบรวมข้อมูลจากตัวอย่างแบบสุ่มของชายและหญิง (พูด 30 ข้อ) และทำการวิเคราะห์ความแปรปรวนร่วม (เช่นผลรวมของกำลังสองสำหรับเพศและข้อผิดพลาด) เพื่อตัดสินว่ามีผลกระทบหรือไม่ คุณสามารถใช้การถดถอยเชิงเส้นเพื่อทดสอบสิ่งต่อไปนี้: กำหนด: หากผู้ตอบเป็นเพศชายและ0 เป็นอย่างอื่น ความสูง= สกัดกั้น+ β ∗ เพศ+ ข้อผิดพลาด โดยที่: ข้อผิดพลาด∼ N ( 0 , σ 2 )Gender=1Gender=1\text{Gender} = 1000Height=Intercept+β∗Gender+errorHeight=Intercept+β∗Gender+error \text{Height} = \text{Intercept} + \beta * \text{Gender} …
91 regression  anova 

3
ตัวอย่าง: การถดถอย LASSO โดยใช้ glmnet สำหรับผลลัพธ์ไบนารี
ฉันเริ่มตะลุยกับการใช้งานglmnetกับการถดถอยแบบ LASSOซึ่งผลลัพธ์ของความสนใจของฉันนั้นเป็นแบบขั้วคู่ ฉันได้สร้างกรอบข้อมูลจำลองขนาดเล็กด้านล่าง: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 


2
เราจำเป็นต้องมีการทดสอบระดับโลกก่อนการทดสอบแบบโพสต์เฉพาะกิจหรือไม่?
ฉันมักจะได้ยินว่าการทดสอบโพสต์เฉพาะกิจหลังจาก ANOVA สามารถใช้ได้เฉพาะในกรณีที่ ANOVA นั้นมีความสำคัญ อย่างไรก็ตามการทดสอบโพสต์เฉพาะกิจจะปรับค่าเพื่อให้อัตราการพิมพ์ผิดพลาดทั่วโลกอยู่ที่ 5% ใช่ไหม?ppp แล้วทำไมเราต้องมีการทดสอบระดับโลกก่อน หากเราไม่ต้องการการทดสอบระดับโลกคำศัพท์ "post hoc" ถูกต้องหรือไม่ หรือมีการทดสอบหลังจบหลายแบบบางคนคิดว่าเป็นผลการทดสอบระดับโลกที่สำคัญและอื่น ๆ โดยไม่มีข้อสันนิษฐานนั้น?

5
แนวปฏิบัติที่ดีที่สุดเมื่อวิเคราะห์การออกแบบการควบคุมการรักษาก่อนโพสต์
ลองนึกภาพการออกแบบทั่วไปต่อไปนี้: ผู้เข้าร่วม 100 คนจะถูกจัดสรรแบบสุ่มให้กับการรักษาหรือกลุ่มควบคุม ตัวแปรตามคือตัวเลขและวัดก่อนและหลังการรักษา สามตัวเลือกที่ชัดเจนสำหรับการวิเคราะห์ข้อมูลดังกล่าวคือ: ทดสอบกลุ่มตามผลการโต้ตอบเวลาใน ANOVA ผสม ทำ ANCOVA โดยมีเงื่อนไขเหมือนกับ IV และการวัดล่วงหน้าเป็น covariate และ post post เป็น DV ทำการทดสอบ t โดยมีเงื่อนไขว่าเป็น IV และโพสต์คะแนนการเปลี่ยนแปลงล่วงหน้าเป็น DV คำถาม: วิธีที่ดีที่สุดในการวิเคราะห์ข้อมูลดังกล่าวคืออะไร? มีเหตุผลที่จะชอบวิธีหนึ่งมากกว่าอีกวิธีหนึ่งหรือไม่?

3
ANOVA สมมติฐานปกติ / การแจกแจงปกติของสารตกค้าง
หน้าวิกิพีเดีย ANOVA แสดงรายการสามสมมติฐานคือ: ความเป็นอิสระของคดี - นี่คือสมมติฐานของรูปแบบที่ทำให้การวิเคราะห์ทางสถิติง่ายขึ้น Normality - การแจกแจงของค่าตกค้างเป็นเรื่องปกติ ความเสมอภาค (หรือ "ความเหมือนกัน") ของความแปรปรวนที่เรียกว่า homoscedasticity ... จุดที่น่าสนใจที่นี่คือข้อสมมติฐานที่สอง แหล่งที่มาหลายรายการระบุสมมติฐานแตกต่างกัน บางคนบอกว่าภาวะปกติของข้อมูลดิบบางคนอ้างว่าเหลืออยู่ มีคำถามหลายข้อปรากฏขึ้น: กฎเกณฑ์และการแจกแจงปกติของคนตกค้างเป็นคนคนเดียวกัน (จากรายการ Wikipedia ฉันจะอ้างว่า normality เป็นทรัพย์สินและไม่เกี่ยวข้องกับคนที่เหลือโดยตรง (แต่อาจเป็นสมบัติของคนตกค้าง (ข้อความที่ซ้อนกันลึกภายในวงเล็บประหลาด))) ถ้าไม่ใช่ข้อสันนิษฐานใดควรถืออยู่ หนึ่ง? ทั้งสอง? หากข้อสันนิษฐานของการกระจายที่เหลือตามปกติเป็นสิ่งที่ถูกต้องเราจะทำผิดพลาดร้ายแรงโดยการตรวจสอบฮิสโตแกรมของค่าดิบสำหรับความปกติ?

4
ทำไม ANOVA จึงเทียบเท่ากับการถดถอยเชิงเส้น
ฉันอ่านว่า ANOVA และการถดถอยเชิงเส้นเป็นสิ่งเดียวกัน จะเป็นไปได้อย่างไรในการพิจารณาว่าเอาต์พุตของ ANOVA คือค่าบางตัวและค่าบางส่วนที่คุณสรุปได้ว่าตัวอย่างนั้นมีความหมายเหมือนกันหรือต่างกันพีFFFพีpp แต่สมมติว่าค่าเฉลี่ยไม่เท่ากัน (ปฏิเสธสมมติฐานว่าง), ANOVA จะบอกอะไรคุณเกี่ยวกับสัมประสิทธิ์ของตัวแบบเชิงเส้น การถดถอยเชิงเส้นเหมือนกับ ANOVA เป็นอย่างไร
50 regression  anova 


5
หากการทดสอบ t-test และ ANOVA สำหรับสองกลุ่มนั้นเท่ากันทำไมสมมติฐานของพวกเขาจึงไม่เท่ากัน?
ฉันแน่ใจว่าฉันมีสิ่งนี้ล้อมรอบหัวของฉันทั้งหมด แต่ฉันก็ไม่สามารถคิดออก t-test เปรียบเทียบการแจกแจงปกติสองรายการโดยใช้การแจกแจง Z นั่นเป็นเหตุผลที่มีการสันนิษฐานของปกติในข้อมูล ANOVA นั้นเทียบเท่ากับการถดถอยเชิงเส้นพร้อมตัวแปรจำลองและใช้ผลรวมของกำลังสองเหมือน OLS นั่นเป็นเหตุผลว่าทำไมจึงมีข้อสันนิษฐานเกี่ยวกับภาวะปกติของ ResidualS ฉันใช้เวลาหลายปี แต่ฉันคิดว่าในที่สุดฉันก็เข้าใจข้อเท็จจริงพื้นฐานเหล่านั้นแล้ว เหตุใดจึงต้องทดสอบ t-test เทียบเท่า ANOVA กับสองกลุ่ม พวกเขาจะเท่าเทียมกันได้อย่างไรถ้าพวกเขาไม่คิดแม้แต่เรื่องเดียวกันกับข้อมูล

3
การแปลความหมายของตัวทำนายการแปลงสภาพบันทึกและ / หรือการตอบสนอง
ฉันสงสัยว่ามันจะสร้างความแตกต่างในการตีความไม่ว่าจะเป็นเพียงขึ้นอยู่กับทั้งขึ้นอยู่กับและเป็นอิสระหรือตัวแปรอิสระเท่านั้นที่ถูกเปลี่ยนเข้าสู่ระบบ พิจารณากรณีของ log(DV) = Intercept + B1*IV + Error ฉันสามารถตีความ IV เป็นเปอร์เซ็นต์เพิ่มขึ้น แต่จะเปลี่ยนแปลงได้อย่างไรเมื่อฉันมี log(DV) = Intercept + B1*log(IV) + Error หรือเมื่อฉันมี DV = Intercept + B1*log(IV) + Error ?
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

1
วิธีการตีความ type I, type II และ type III ANOVA และ MANOVA
คำถามหลักของฉันคือวิธีการตีความเอาท์พุท (ค่าสัมประสิทธิ์ F, P) เมื่อดำเนินการวิเคราะห์ความแปรปรวนแบบที่ 1 (เรียงลำดับ)? ปัญหาการวิจัยเฉพาะของฉันซับซ้อนกว่าเล็กน้อยดังนั้นฉันจะแบ่งตัวอย่างเป็นส่วน ๆ ก่อนอื่นถ้าฉันสนใจผลของความหนาแน่นของแมงมุม (X1) ต่อการเจริญเติบโตของพืช (Y1) และฉันปลูกต้นกล้าในเปลือกและความหนาแน่นของแมงมุมที่จัดการแล้วฉันสามารถวิเคราะห์ข้อมูลด้วยการวิเคราะห์ความแปรปรวนแบบง่ายหรือเชิงเส้น ถ้าเช่นนั้นฉันจะใช้ Type I, II หรือ III Sum of Squares (SS) สำหรับ ANOVA ของฉัน ในกรณีของฉันฉันมี 4 ซ้ำของ 5 ระดับความหนาแน่นดังนั้นฉันสามารถใช้ความหนาแน่นเป็นปัจจัยหรือเป็นตัวแปรต่อเนื่อง ในกรณีนี้ฉันชอบที่จะตีความว่ามันเป็นตัวแปรอิสระ (ทำนาย) อย่างต่อเนื่อง ใน RI อาจเรียกใช้สิ่งต่อไปนี้: lm1 <- lm(y1 ~ density, data = Ena) summary(lm1) anova(lm1) การใช้งานฟังก์ชั่น anova …

2
การใช้ lmer สำหรับวัดซ้ำโมเดลเอฟเฟกต์เชิงเส้นซ้ำ
แก้ไข 2: ตอนแรกฉันคิดว่าฉันต้องใช้ ANOVA สองปัจจัยพร้อมมาตรการซ้ำ ๆ บนปัจจัยเดียว แต่ตอนนี้ฉันคิดว่าโมเดลเชิงเส้นผสมเอฟเฟกต์จะทำงานได้ดีขึ้นสำหรับข้อมูลของฉัน ฉันคิดว่าฉันเกือบจะรู้ว่าต้องเกิดอะไรขึ้น แต่ฉันก็ยังสับสนอยู่บ้าง การทดลองที่ฉันต้องวิเคราะห์มีลักษณะเช่นนี้: อาสาสมัครถูกกำหนดให้กับหนึ่งในหลายกลุ่มการรักษา การวัดแต่ละเรื่องถูกถ่ายในหลายวัน ดังนั้น: ผู้ทดลองถูกทำซ้อนในการรักษา รักษาข้ามกับวัน (แต่ละวิชาได้รับมอบหมายให้ทำการรักษาเพียงครั้งเดียวเท่านั้นและจะทำการวัดในแต่ละเรื่องในแต่ละวัน) ชุดข้อมูลของฉันมีข้อมูลต่อไปนี้: Subject = ปัจจัยการปิดกั้น (ปัจจัยสุ่ม) Day = ภายในหัวเรื่องหรือปัจจัยการวัดซ้ำ (ปัจจัยคงที่) การรักษา = ระหว่างปัจจัยเรื่อง (ปัจจัยคงที่) Obs = ตัวแปร (ขึ้นอยู่กับ) ที่วัดได้ อัปเดต ตกลงฉันเลยไปคุยกับนักสถิติ แต่เขาเป็นผู้ใช้ SAS เขาคิดว่าแบบจำลองควรเป็น: การรักษา + วัน + วิชา (การรักษา) + วัน * วิชา …

3
วิธีการตีความ F- และค่า p ใน ANOVA?
ฉันใหม่กับสถิติและฉันกำลังจัดการกับ ANOVA ฉันทำการทดสอบ ANOVA ใน R โดยใช้ aov(dependendVar ~ IndependendVar) ฉันได้รับ - กลุ่มอื่น ๆ - ค่า F และค่า p สมมติฐานว่างของฉัน ( ) คือทุกกลุ่มมีความหมายเท่ากันH0H0H_0 มีข้อมูลมากมายเกี่ยวกับวิธีการคำนวณ Fแต่ฉันไม่รู้วิธีอ่านสถิติ F และการเชื่อมต่อ F และ p ดังนั้นคำถามของฉันคือ: ฉันจะกำหนดค่า F สำคัญอย่างยิ่งสำหรับการปฏิเสธอย่างไรH0H0H_0 ค่า F แต่ละตัวมีค่า p ที่สอดคล้องกันหรือไม่ (เช่นถ้าดังนั้นH 0จะถูกปฏิเสธ)p &lt; 0.05พี&lt;0.05p<0.05H0H0H_0

1
วิธีการตีความและรายงานกทพ. กำลังสอง / กทพ. บางส่วนในการวิเคราะห์ที่มีนัยสำคัญทางสถิติและไม่มีนัยสำคัญ?
ฉันมีข้อมูลที่มีค่ากทพ. และค่ากทพ. ส่วนที่คำนวณได้เป็นการคำนวณขนาดของเอฟเฟกต์สำหรับความแตกต่างของค่าเฉลี่ยกลุ่ม อะไรคือความแตกต่างระหว่างกทพ. กับสแควร์และกทพ. บางส่วน พวกเขาสามารถตีความโดยใช้แนวทางของโคเฮนเดียวกันได้หรือไม่ (1988 ฉันคิดว่า: 0.01 = เล็ก, 0.06 = ปานกลาง, 0.13 = ใหญ่)? นอกจากนี้ยังมีการใช้ขนาดรายงานผลกระทบหรือไม่หากการทดสอบเปรียบเทียบ (เช่น t-test หรือ one-way ANOVA) ไม่มีความหมาย? ในหัวของฉันนี่ก็เหมือนกับการพูดว่า "ความแตกต่างเฉลี่ยไม่ถึงนัยสำคัญทางสถิติ แต่ยังคงเป็นข้อความที่เจาะจงเพราะขนาดของเอฟเฟกต์ที่ระบุจากกทพ. กำลังปานกลาง" หรือขนาดของเอฟเฟกต์เป็นค่าทดแทนสำหรับการทดสอบอย่างมีนัยสำคัญแทนที่จะเป็นส่วนประกอบเสริมหรือไม่

1
ทางเลือกแทน ANOVA ทางเดียวสำหรับข้อมูล heteroskedastic
ฉันมีข้อมูลจากชีวมวลสาหร่าย 3 กลุ่ม ( , , ) ซึ่งมีขนาดตัวอย่างไม่เท่ากัน ( , , ) และฉันต้องการเปรียบเทียบว่ากลุ่มเหล่านี้มาจากประชากรเดียวกันหรือไม่B C n A = 15 n B = 13 n C = 12AAABBBCCCnA= 15nA=15n_A=15nB= 13nB=13n_B=13nC= 12nC=12n_C=12 การวิเคราะห์ความแปรปรวนแบบทางเดียวจะเป็นวิธีที่แน่นอนอย่างไรก็ตามเมื่อทำการทดสอบความเป็นไปได้ในข้อมูลของฉัน heteroskedascity ดูเหมือนจะเป็นประเด็นหลัก ข้อมูลดิบของฉันโดยไม่มีการแปลงทำให้อัตราส่วนของความแปรปรวน ( ) ซึ่งสูงกว่าค่าวิกฤติมาก ( F _ {\ rm crit} = 4.16 ) ดังนั้นฉันจึงไม่สามารถทำการวิเคราะห์ความแปรปรวนแบบทางเดียวได้ .Fสูงสุด= 19.1Fmax=19.1F_{\max} = 19.1Fc …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.