สถิติและข้อมูลขนาดใหญ่ post-hoc

6

ศาสตราจารย์สถิติของฉันกล่าวว่าดังนั้นหนังสือทั้งหมดที่ฉันมองไปที่รัฐมันโพสต์-hoc ทดสอบเป็นตามหลักวิทยาศาสตร์ คุณต้องได้รับสมมติฐานจากทฤษฎีก่อนแล้วจึงรวบรวมข้อมูลและวิเคราะห์ แต่ฉันไม่เข้าใจจริงๆว่าปัญหาคืออะไร สมมติว่าฉันเห็นตัวเลขยอดขายสำหรับสีรถยนต์ที่แตกต่างกันและตั้งสมมติฐานว่าจากตัวเลขของรถยนต์สีต่างๆขายกลุ่มรถยนต์ที่ใหญ่ที่สุดบนท้องถนนเป็นสีขาว ดังนั้นฉันนั่งที่ถนนวันหนึ่งและสังเกตสีทั้งหมดของรถยนต์ทุกคันที่ผ่านฉัน จากนั้นฉันทำการทดสอบและค้นหาสิ่งใด ทีนี้สมมติว่าฉันเบื่อและนั่งอยู่ที่ถนนวันหนึ่งและสังเกตสีรถทุกคันที่ผ่านฉันไป เมื่อฉันรักกราฟฉันพล็อตฮิสโตแกรมสวยและพบว่ารถยนต์สีขาวเป็นกลุ่มที่ใหญ่ที่สุด ดังนั้นฉันคิดว่ารถยนต์ส่วนใหญ่บนถนนอาจเป็นสีขาวและทำการทดสอบบางอย่าง ผลลัพธ์หรือการตีความผลลัพธ์ของการทดสอบหลังเหตุการณ์แตกต่างจากการทดสอบสมมติฐานตามทฤษฎีอย่างไร * ชื่อตรงข้ามของการทดสอบหลังการทดสอบคืออะไร? ฉันต้องการจะเพิ่มความรู้ส่วนใหญ่ของเราเกี่ยวกับจักรวาล (โลกเคลื่อนที่รอบดวงอาทิตย์) ได้รับการสรุปจากการสังเกต สำหรับฉันแล้วดูเหมือนว่าในทางฟิสิกส์มันก็โอเคอย่างสมบูรณ์แบบที่จะคิดว่ามันไม่ใช่เรื่องบังเอิญที่ดวงอาทิตย์ขึ้นทางทิศตะวันออกในช่วงพันปีที่ผ่านมา

15 post-hoc

2

จะรับผลการทดสอบ Tukey HSD หลังการทดสอบในตารางที่แสดงคู่ที่จัดกลุ่มได้อย่างไร

ฉันชอบที่จะทำการทดสอบหลัง TukeyHSD หลังจาก Anova สองทางของฉันกับ R เพื่อรับตารางที่มีคู่ที่เรียงลำดับซึ่งจัดกลุ่มตามความแตกต่างที่สำคัญ (ขออภัยเกี่ยวกับถ้อยคำฉันยังใหม่กับสถิติ) ฉันต้องการที่จะมีอะไรเช่นนี้: ดังนั้นจัดกลุ่มด้วยดาวหรือตัวอักษร ความคิดใด ๆ ฉันทดสอบฟังก์ชั่นHSD.test()จากagricolaeแพ็คเกจ แต่ดูเหมือนว่ามันไม่ได้จัดการกับตารางแบบสองทาง

13 r anova multiple-comparisons post-hoc tukey-hsd

4

Sidak หรือ Bonferroni

ฉันใช้โมเดลเชิงเส้นทั่วไปใน SPSS เพื่อดูความแตกต่างของจำนวนตัวหนอนเฉลี่ย (ไม่ใช่แบบปกติโดยใช้การกระจายแบบทวีด) ในพืช 16 ชนิดที่แตกต่างกัน ฉันต้องการเรียกใช้การเปรียบเทียบหลายรายการ แต่ฉันไม่แน่ใจว่าควรใช้การทดสอบการแก้ไข Sidak หรือ Bonferroni ความแตกต่างระหว่างการทดสอบทั้งสองคืออะไร? ดีกว่าอีกไหม?

13 multiple-comparisons post-hoc bonferroni

5

จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?

ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

2

จะทำการเปรียบเทียบโพสต์เฉพาะกิจในคำที่ใช้โต้ตอบกับแบบจำลองเอฟเฟกต์ผสมได้อย่างไร

ฉันกำลังทำงานกับชุดข้อมูลเพื่อประเมินผลกระทบของการทำแห้งต่อกิจกรรมของจุลินทรีย์ในตะกอน มีวัตถุประสงค์เพื่อตรวจสอบว่าผลกระทบของการอบแห้งแตกต่างกันไปตามประเภทของตะกอนและ / หรือความลึกภายในตะกอนหรือไม่ การออกแบบการทดลองมีดังนี้: ตะกอนปัจจัยแรกสอดคล้องกับตะกอนสามประเภท (รหัส Sed1, Sed2, Sed3) สำหรับตะกอนแต่ละประเภทการสุ่มตัวอย่างดำเนินการในสามไซต์ (3 ไซต์สำหรับ Sed1, 3 ไซต์สำหรับ Sed2, 3 ไซต์สำหรับ Sed3) มีการเข้ารหัสเว็บไซต์ : ไซต์ 1, ไซต์ 2, ... , ไซต์ 9 ปัจจัยต่อไปคืออุทกวิทยา : ภายในแต่ละไซต์ทำการสุ่มตัวอย่างในพื้นที่แห้งและในแปลงเปียก (แปลงแห้ง / เปียก) ภายในแต่ละพล็อตก่อนหน้าการสุ่มตัวอย่างจะดำเนินการที่สองความลึก (D1, D2) เป็นสามเท่า มีทั้งหมด n = 108 ตัวอย่าง = 3 ตะกอน * 3 …

11 mixed-model interaction post-hoc lme4-nlme

3

วิธีการใช้การทดสอบ Nemenyi อย่างถูกต้องหลังการทดสอบฟรีดแมน

ฉันกำลังเปรียบเทียบประสิทธิภาพของอัลกอริทึมหลายชุดในชุดข้อมูลหลายชุด ตั้งแต่ผู้การวัดประสิทธิภาพการทำงานไม่ได้รับประกันว่าจะกระจายตามปกติผมเลือกทดสอบฟรีดแมนกับโพสต์-hoc ทดสอบ Nemenyi ขึ้นอยู่กับDemšar (2006) จากนั้นฉันก็พบกระดาษอื่นที่นอกเหนือจากการแนะนำวิธีอื่น ๆ เช่นการทดสอบ Quade ด้วยการทดสอบหลังการทำ Shaffer ที่ตามมาพวกเขาใช้การทดสอบ Nemenyi ต่างกัน ฉันจะใช้การทดสอบ Nemenyi หลังการทดสอบอย่างถูกต้องได้อย่างไร 1. การใช้สถิติช่วง Studentized ในบทความของDemšarมันบอกว่าจะปฏิเสธสมมติฐานว่าง (ไม่มีความแตกต่างของประสิทธิภาพของสองอัลกอริธึม) ถ้าค่าเฉลี่ยความแตกต่างอันดับมากกว่าระยะทางวิกฤติซีดี คD =Qαk ( k + 1 )6 N-------√CD=qαk(k+1)6N CD = q_{\alpha}\sqrt{{k(k+1)}\over{6N}} "โดยที่ค่าวิกฤตqαขึ้นอยู่กับสถิติของช่วง Studentized หารด้วย "2-√.2.\sqrt{2}. หลังจากขุดค้นพบว่าคุณสามารถค้นหา "ค่าวิกฤต" สำหรับα = 0.05α=0.05\alpha = 0.05บางตัวเช่นในตารางสำหรับสำหรับองศาอิสระที่ไม่มีที่สิ้นสุด (ที่ด้านล่างของแต่ละตาราง) 2. หรือใช้การแจกแจงแบบปกติ? เมื่อฉันคิดว่าฉันรู้ว่าต้องทำอะไรฉันพบกระดาษอีกฉบับที่ทำให้ฉันสับสนอีกครั้งเพราะพวกเขาใช้การแจกแจงแบบปกติเท่านั้น …

11 nonparametric multiple-comparisons post-hoc

1

การทดสอบหลังเลิกเรียนใน multcomp :: glht สำหรับโมเดลเอฟเฟกต์แบบผสม (lme4) พร้อมการโต้ตอบ

ฉันกำลังทำการทดสอบแบบโพสต์เฉพาะกิจในโมเดลผสมผลกระทบเชิงเส้นในR( lme4แพ็คเกจ) ฉันใช้multcompแพคเกจ ( glht()ฟังก์ชั่น) เพื่อทำการทดสอบหลังการทำงาน การออกแบบการทดลองของฉันคือการวัดซ้ำพร้อมเอฟเฟกต์บล็อกแบบสุ่ม รูปแบบที่ระบุไว้เป็น: mymod <- lmer(variable ~ treatment * time + (1|block), data = mydata, REML = TRUE) แทนที่จะแนบข้อมูลของฉันที่นี่ฉันกำลังทำงานของข้อมูลที่เรียกว่าwarpbreaksภายในmultcompแพ็คเกจ data <- warpbreaks warpbreaks$rand <- NA ฉันได้เพิ่มตัวแปรสุ่มพิเศษเพื่อเลียนแบบเอฟเฟกต์ "บล็อก" ของฉัน: warpbreaks$rand <- rep(c("foo", "bar", "bee"), nrow(warpbreaks)/3) นี่เป็นการเลียนแบบโมเดลของฉัน: mod <- lmer(breaks ~ tension * wool + (1|rand), data …

10 mixed-model post-hoc lsmeans lme4-nlme

3

วิธีรับช่วงความมั่นใจในการเปลี่ยนแปลงประชากร r-square

ตัวอย่างง่ายๆสมมติว่ามีตัวแบบถดถอยเชิงเส้นสองแบบ รุ่นที่ 1 มีสามทำนาย, x1a, x2bและx2c แบบจำลอง 2 มีตัวทำนายสามตัวจากแบบจำลอง 1 และสองตัวทำนายเพิ่มเติมx2aและx2b มีสมการถดถอยที่ประชากรประชากรแปรปรวนอธิบายคือเป็น สำหรับรุ่นที่ 1 และρ 2 ( 2 )สำหรับรุ่น 2. แปรปรวนเพิ่มขึ้นอธิบายโดยรุ่น 2 ในประชากรที่อยู่Δ ρ 2 = ρ 2 ( 2 ) - ρ 2 ( 1 )ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δρ2=ρ2(2)−ρ2(1)Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} ฉันสนใจในการได้รับข้อผิดพลาดมาตรฐานและช่วงความเชื่อมั่นสำหรับประมาณการของ 2 ในขณะที่ตัวอย่างเกี่ยวข้องกับตัวทำนาย 3 และ 2 ตามลำดับความสนใจงานวิจัยของฉันเกี่ยวข้องกับตัวทำนายจำนวนต่าง ๆ (เช่น …

10 regression confidence-interval estimation r-squared shrinkage anova t-test references tukey-hsd machine-learning boosting r clustering fishers-exact generalized-linear-model model probit link-function r survival probability distributions dice logistic lme4-nlme glmm meta-analysis distributions distributions factor-analysis r anova repeated-measures post-hoc

2

การวิเคราะห์โพสต์ - ฮอคที่ถูกต้องคืออะไรสำหรับการวัด ANOVA ซ้ำสามทาง?

ฉันได้ทำการทดสอบ ANOVA ซ้ำสามทาง การวิเคราะห์หลังการประชุมอะไรถูกต้อง? นี่คือการออกแบบที่สมดุลอย่างสมบูรณ์ (2x2x2) โดยมีปัจจัยหนึ่งที่มีการวัดซ้ำภายในวัตถุ ฉันตระหนักถึงวิธีการหลายตัวแปรในการวัด ANOVA ซ้ำ ๆ ใน R แต่สัญชาตญาณแรกของฉันคือดำเนินการในลักษณะ aov () ที่เรียบง่ายของ ANOVA: aov.repeated <- aov(DV ~ IV1 * IV2 * Time + Error(Subject/Time), data=data) DV = ตัวแปรตอบกลับ IV1 = ตัวแปรอิสระ 1 (2 ระดับ, A หรือ B) IV2 = ตัวแปรอิสระ 2 (2 ระดับ, ใช่หรือไม่) IV3 …

10 r anova repeated-measures interaction post-hoc

1

มันคือทั้งหมดในครอบครัว แต่เรารวมถึงกฎหมายด้วยหรือไม่

สมมติว่าฉันมีการทดสอบด้วยสองปัจจัยขึ้นไป ANOVA โดยรวมถูกสร้างขึ้นจากนั้นเราติดตามด้วยชุดการทดสอบpost hocสองชุดขึ้นไปพูดเปรียบเทียบหลาย ๆ อย่าง คำถามของฉันเกี่ยวกับขนาดใหญ่และจำนวนครอบครัวที่ควรใช้เป็นพื้นฐานสำหรับการปรับหลายหลากของการทดสอบหลังการโพสต์นี้ ตัวอย่างคือชุดข้อมูล warp-break จากหนังสือของ Tukey บน EDA มีสองปัจจัย: wool(ที่สองระดับ) และtension(ที่สามระดับ) ตาราง ANOVA คือ: Source Df Sum Sq Mean Sq F value Pr(>F) wool 1 450.7 450.67 3.7653 0.0582130 tension 2 2034.3 1017.13 8.4980 0.0006926 wool:tension 2 1002.8 501.39 4.1891 0.0210442 Residuals 48 5745.1 119.69 …

9 multiple-comparisons post-hoc

4

สามารถใช้การทดสอบ Mann-Whitney สำหรับการเปรียบเทียบหลังเหตุการณ์หลังจาก Kruskal-Wallis ได้หรือไม่?

ฉันมีแบบจำลองที่สัตว์ถูกวางไว้ในสภาพแวดล้อมที่เป็นมิตรและหมดเวลาเพื่อดูว่ามันสามารถอยู่รอดได้นานแค่ไหนโดยใช้วิธีการบางอย่างเพื่อความอยู่รอด มีสามวิธีที่สามารถใช้เพื่อความอยู่รอด ฉันวิ่งสัตว์จำลอง 300 ตัวโดยใช้วิธีการเอาชีวิตรอดในแต่ละครั้ง การจำลองทั้งหมดเกิดขึ้นในสภาพแวดล้อมเดียวกัน แต่มีการสุ่มดังนั้นจึงแตกต่างกันในแต่ละครั้ง ฉันใช้เวลากี่วินาทีที่สัตว์มีชีวิตรอดในการจำลองแต่ละครั้ง ชีวิตที่ยืนยาวนั้นดีกว่า ข้อมูลของฉันมีลักษณะเช่นนี้: Approach 1, Approach 2, Approach 2 45,79,38 48,32,24 85,108,44 ... 300 rows of these ฉันไม่แน่ใจในทุกสิ่งที่ฉันทำหลังจากจุดนี้ดังนั้นให้ฉันรู้ว่าฉันกำลังทำอะไรที่โง่และผิด ฉันพยายามที่จะหาว่ามีความแตกต่างทางสถิติเกี่ยวกับอายุขัยโดยใช้วิธีการเฉพาะ ฉันรันการทดสอบ Shapiro ของแต่ละตัวอย่างและพวกเขากลับมาพร้อมค่า p เล็ก ๆ ดังนั้นฉันจึงเชื่อว่าข้อมูลไม่ได้เป็นมาตรฐาน ข้อมูลในแถวไม่มีความสัมพันธ์ซึ่งกันและกัน การสุ่มเมล็ดที่ใช้ในการจำลองแต่ละครั้งนั้นแตกต่างกัน ด้วยเหตุนี้ฉันจึงเชื่อว่าไม่มีการจับคู่ข้อมูล เนื่องจากข้อมูลไม่ได้ถูกทำให้เป็นมาตรฐาน, ไม่ได้จับคู่และมีตัวอย่างมากกว่าสองตัวอย่างฉันจึงทำการทดสอบ Kruskal Wallis ซึ่งกลับมาด้วยค่า p เท่ากับ 0.048 จากนั้นฉันย้ายไปที่โพสต์เฉพาะกิจโดยเลือก Mann Whitney ในไม่แน่ใจว่า Mann Whitney …

9 hypothesis-testing post-hoc wilcoxon-mann-whitney kruskal-wallis dunn-test

1

การทดสอบ Tukey HSD จะเป็นสัญญาณได้อย่างไรมากกว่าค่า P ที่ไม่ถูกต้องของ t.test

ฉันมาโดยโพสต์ " การเปรียบเทียบ Pairwise แบบโพสต์ทูของ ANOVA สองทาง " (ตอบกลับโพสต์นี้ ) ซึ่งแสดงสิ่งต่อไปนี้: dataTwoWayComparisons <- read.csv("http://www.dailyi.org/blogFiles/RTutorialSeries/dataset_ANOVA_TwoWayComparisons.csv") model1 <- aov(StressReduction~Treatment+Age, data =dataTwoWayComparisons) summary(model1) # Treatment is signif pairwise.t.test(dataTwoWayComparisons$StressReduction, dataTwoWayComparisons$Treatment, p.adj = "none") # no signif pair TukeyHSD(model1, "Treatment") # mental-medical is the signif pair. (เอาท์พุทที่แนบมาร้อง) ใครช่วยอธิบายหน่อยได้ไหมว่าทำไม Tukey HSD ถึงสามารถจับคู่ที่สำคัญได้ในขณะที่ t-test ที่จับคู่ (ปรับค่าไม่ได้) ไม่สามารถทำเช่นนั้นได้? …

9 r multiple-comparisons t-test post-hoc tukey-hsd

คำถามติดแท็ก post-hoc