สถิติและข้อมูลขนาดใหญ่ r

4

วิธีการหาปริมาณ (แยก) ของการแจกแจงปกติหลายตัวแปร

ฉันสนใจว่าจะคำนวณการกระจายของหลายตัวแปรแบบควอไทล์ได้อย่างไร ในรูปฉันได้วาดควอนไทล์ 5% และ 95% ของการแจกแจงแบบปกติแบบไม่มีตัวแปร (ซ้าย) สำหรับการกระจายตัวแบบหลายตัวแปรที่ถูกต้องฉันจินตนาการว่าอะนาล็อกจะเป็นสายเดี่ยวที่ล้อมรอบฐานของฟังก์ชันความหนาแน่น ด้านล่างเป็นตัวอย่างของความพยายามของฉันในการคำนวณโดยใช้แพคเกจmvtnorm- แต่ไม่ประสบความสำเร็จ ฉันคิดว่าสิ่งนี้สามารถทำได้โดยการคำนวณรูปร่างของผลลัพธ์ของฟังก์ชันความหนาแน่นหลายตัวแปร แต่ฉันสงสัยว่ามีทางเลือกอื่น ( เช่นแบบอะนาล็อกqnorm) ขอบคุณสำหรับความช่วยเหลือของคุณ. ตัวอย่าง: mu <- 5 sigma <- 2 vals <- seq(-2,12,,100) ds <- dnorm(vals, mean=mu, sd=sigma) plot(vals, ds, t="l") qs <- qnorm(c(0.05, 0.95), mean=mu, sd=sigma) abline(v=qs, col=2, lty=2) #install.packages("mvtnorm") require(mvtnorm) n <- 2 mmu <- rep(mu, …

24 r pdf quantiles multivariate-normal multivariate-distribution

3

โพสต์ทดสอบเฉพาะกิจหลังจาก ANOVA พร้อมมาตรการซ้ำโดยใช้ R

ฉันใช้ ANOVA ในมาตรการ R ซ้ำแล้วซ้ำอีกดังนี้: aov_velocity = aov(Velocity ~ Material + Error(Subject/(Material)), data=scrd) summary(aov_velocity) ซินแท็กซ์ใดบ้างใน R ที่สามารถใช้ในการทำการทดสอบหลังการทำ ANOVA ด้วยมาตรการซ้ำ การทดสอบของ Tukey กับการแก้ไข Bonferroni จะเหมาะสมหรือไม่ ถ้าเป็นเช่นนั้นสิ่งนี้สามารถทำได้ใน R?

24 r anova repeated-measures post-hoc contrasts

3

'สัมประสิทธิ์นามแฝง' คืออะไร

ในขณะที่สร้างแบบจำลองการถดถอยใน R ( lm) ฉันมักได้รับข้อความนี้ "there are aliased coefficients in the model" มันหมายความว่าอะไรกันแน่? นอกจากนี้เนื่องจากสิ่งนี้predict()ยังเป็นการเตือน แม้ว่าจะเป็นเพียงคำเตือนฉันต้องการทราบว่าเราสามารถตรวจจับ / ลบค่าสัมประสิทธิ์ aliased ก่อนสร้างแบบจำลองได้อย่างไร นอกจากนี้อะไรคือผลลัพธ์ที่เป็นไปได้ของการละเลยคำเตือนนี้

24 r regression

2

มันสมเหตุสมผลหรือไม่ที่เอฟเฟกต์คงที่จะถูกซ้อนภายในแบบสุ่มหรือวิธีการกำหนดมาตรการซ้ำ ๆ ใน R (aov และ lmer)

ฉันได้ดูภาพรวมของสูตร lm / lmer R โดย @conjugatepriorและสับสนโดยรายการต่อไปนี้: ทีนี้สมมติว่า A สุ่ม แต่ B ได้รับการแก้ไขและ B ถูกซ้อนภายใน A aov(Y ~ B + Error(A/B), data=d) ด้านล่างสูตรโมเดลผสมแบบอะนาล็อกlmer(Y ~ B + (1 | A:B), data=d) มีไว้สำหรับกรณีเดียวกัน ฉันไม่เข้าใจความหมายของมัน ในการทดลองที่วิชาถูกแบ่งออกเป็นหลายกลุ่มเราจะมีปัจจัยสุ่ม (วิชา) ซ้อนอยู่ภายในปัจจัยคงที่ (กลุ่ม) แต่ปัจจัยคงที่สามารถซ้อนภายในปัจจัยสุ่มได้อย่างไร มีการแก้ไขบางอย่างซ้อนกันภายในวิชาแบบสุ่มหรือไม่ เป็นไปได้ไหม หากเป็นไปไม่ได้สูตร R เหล่านี้มีเหตุผลหรือไม่ ภาพรวมนี้เป็นที่กล่าวถึงให้เป็นไปตามบางส่วนบนหน้าบุคลิกภาพของโครงการในการทำ ANOVA ใน Rตามตัวเองเกี่ยวกับเรื่องนี้สอนเกี่ยวกับวัดซ้ำใน R มีตัวอย่างต่อไปนี้สำหรับการวัดซ้ำ ANOVA ที่ได้รับ: …

23 r anova mixed-model repeated-measures lme4-nlme

4

การทดสอบทวินามสองตัวอย่างในสัดส่วนที่แน่นอนใน R (และค่า p แปลก ๆ )

ฉันพยายามที่จะแก้ปัญหาคำถามต่อไปนี้: ผู้เล่น A ชนะ 17 จาก 25 เกมในขณะที่ผู้เล่น B ชนะ 8 จาก 20 - มีความแตกต่างอย่างมีนัยสำคัญระหว่างอัตราส่วนทั้งสองหรือไม่? สิ่งที่ต้องทำใน R ที่อยู่ในใจคือต่อไปนี้: > prop.test(c(17,8),c(25,20),correct=FALSE) 2-sample test for equality of proportions without continuity correction data: c(17, 8) out of c(25, 20) X-squared = 3.528, df = 1, p-value = 0.06034 alternative hypothesis: two.sided 95 percent …

23 r hypothesis-testing statistical-significance binomial proportion

2

ผลที่ตามมาของการสร้างแบบจำลองกระบวนการที่ไม่หยุดนิ่งโดยใช้ ARMA?

ฉันเข้าใจว่าเราควรใช้ ARIMA สำหรับการสร้างแบบจำลองชุดเวลาที่ไม่หยุดนิ่ง นอกจากนี้ทุกสิ่งที่ฉันอ่านบอกว่า ARMA ควรใช้สำหรับอนุกรมเวลาที่อยู่กับที่เท่านั้น สิ่งที่ฉันพยายามจะทำความเข้าใจคืออะไรจะเกิดขึ้นในทางปฏิบัติเมื่อทำการแยกแยะแบบจำลองและสมมติว่าd = 0เป็นอนุกรมเวลาที่ไม่หยุดนิ่ง ตัวอย่างเช่น: controlData <- arima.sim(list(order = c(1,1,1), ar = .5, ma = .5), n = 44) ข้อมูลการควบคุมมีลักษณะดังนี้: [1] 0.0000000 0.1240838 -1.4544087 -3.1943094 -5.6205257 [6] -8.5636126 -10.1573548 -9.2822666 -10.0174493 -11.0105225 [11] -11.4726127 -13.8827001 -16.6040541 -19.1966633 -22.0543414 [16] -24.8542959 -25.2883155 -23.6519271 -21.8270981 -21.4351267 [21] …

23 r time-series arima stationarity

2

การคำนวณขนาดตัวอย่างสำหรับแบบผสม

ฉันสงสัยว่ามีวิธีใดในการคำนวณขนาดตัวอย่างในโมเดลผสมหรือไม่ ฉันใช้lmerใน R เพื่อให้พอดีกับโมเดล (ฉันมีความลาดชันและจุดตัดแบบสุ่ม)

23 r mixed-model lme4-nlme power-analysis

4

มีการใช้ฟอเรสต์แบบสุ่มที่ทำงานได้ดีกับข้อมูลที่กระจัดกระจายมากหรือไม่?

มีการใช้ฟอเรสต์แบบสุ่ม R ที่ทำงานได้ดีกับข้อมูลที่กระจัดกระจายมากหรือไม่? ฉันมีตัวแปรอินพุตบูลีนหลายพันล้านตัว แต่มีเพียงร้อยหรือมากกว่าเท่านั้นที่จะเป็น TRUE สำหรับตัวอย่างที่กำหนด ฉันค่อนข้างใหม่สำหรับ R และสังเกตว่ามีแพ็คเกจ 'Matrix' สำหรับจัดการกับข้อมูลที่กระจัดกระจาย แต่แพ็คเกจ 'randomForest' มาตรฐานดูเหมือนจะไม่รู้จักชนิดข้อมูลนี้ หากมีความสำคัญข้อมูลอินพุตจะถูกสร้างขึ้นนอก R และนำเข้า คำแนะนำใด ๆ? ฉันสามารถดูการใช้ Weka, Mahout หรือแพ็คเกจอื่น ๆ

23 r random-forest sparse

2

Scatterplot พร้อม contour / heat overlay

ล็อคแล้ว คำถามและคำตอบนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฉันเห็นพล็อตนี้ในส่วนเสริมของกระดาษเมื่อเร็ว ๆ นี้และฉันชอบที่จะสามารถทำซ้ำได้โดยใช้อาร์มันเป็นแผนการกระจาย ความหนาแน่นมากเกินไป ฉันจะทำสิ่งนี้ได้อย่างไร

23 r data-visualization scatterplot

4

วิธีคำนวณการแจกแจงสะสมใน R

ล็อคแล้ว คำถามและคำตอบนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฉันต้องการคำนวณฟังก์ชันการแจกแจงสะสมของตัวอย่างข้อมูล มีบางอย่างที่คล้ายกับ hist () ใน R ที่วัดฟังก์ชันความหนาแน่นสะสมหรือไม่? ฉันลอง ecdf () แต่ฉันไม่เข้าใจตรรกะ

23 r distributions cdf

4

วิธีที่มีประสิทธิภาพในการจัดระเบียบรหัส R และเอาท์พุทคืออะไร [ปิด]

ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดเมื่อปีที่แล้ว ฉันกำลังมองหาวิธีการที่คนอื่นจัดระเบียบรหัส R และเอาท์พุทของพวกเขา การปฏิบัติปัจจุบันของฉันคือการเขียนรหัสในบล็อกในไฟล์ข้อความเช่น: #================================================= # 19 May 2011 date() # Correlation analysis of variables in sed summary load("/media/working/working_files/R_working/sed_OM_survey.RData") # correlation between estimated surface and mean perc.OM in epi samples cor.test(survey$mean.perc.OM[survey$Depth == "epi"], survey$est.surf.OM[survey$Depth == "epi"])) #================================================== ฉันจะวางผลลัพธ์ลงในไฟล์ข้อความอื่นโดยปกติแล้วจะมีคำอธิบายประกอบอยู่บ้าง ปัญหาเกี่ยวกับวิธีนี้คือ: รหัสและผลลัพธ์ไม่ได้เชื่อมโยงอย่างชัดเจนนอกเหนือจากวันที่ รหัสและผลลัพธ์มีการจัดเรียงตามลำดับเวลาซึ่งทำให้ค้นหาได้ยาก ฉันได้พิจารณาทำเอกสาร Sweave หนึ่งฉบับกับทุกสิ่งตั้งแต่ฉันสามารถสร้างสารบัญได้ …

23 r project-management

3

จะคำนวณ p-value ของพารามิเตอร์สำหรับ ARIMA model ใน R ได้อย่างไร?

เมื่อทำการวิจัยอนุกรมเวลาใน R ฉันพบว่าarima ให้เฉพาะค่าสัมประสิทธิ์และข้อผิดพลาดมาตรฐานของโมเดลที่ติดตั้ง อย่างไรก็ตามฉันต้องการได้รับ p-value ของสัมประสิทธิ์ ฉันไม่พบฟังก์ชันใด ๆ ที่ให้ความสำคัญของ coef ดังนั้นฉันต้องการคำนวณด้วยตัวเอง แต่ฉันไม่รู้ระดับความอิสระในการแจกแจงค่า t หรือ chisq ของสัมประสิทธิ์ ดังนั้นคำถามของฉันคือทำอย่างไรจึงจะได้ค่า p สำหรับสัมประสิทธิ์ของแบบจำลอง arima ที่พอดีใน R?

23 r time-series chi-squared arima parametric

4

รหัส R สำหรับการพยากรณ์อนุกรมเวลาโดยใช้ตัวกรองคาลมาน

มีใครบ้างที่เป็นตัวอย่างที่ดีสำหรับการคาดการณ์ / การปรับให้เรียบของอนุกรมเวลาโดยใช้ตัวกรองคาลมานใน R

23 r time-series kalman-filter

5

ทางเลือกอื่นสำหรับต้นไม้ที่มีการจำแนกที่ดีกว่า (เช่น: CV)

ฉันกำลังมองหาทางเลือกในการจำแนกต้นไม้ซึ่งอาจให้พลังการทำนายที่ดีกว่า ข้อมูลที่ฉันจัดการมีปัจจัยสำหรับทั้งคำอธิบายและตัวแปรอธิบาย ฉันจำได้ว่าเคยเจอป่าสุ่มและเครือข่ายประสาทเทียมในบริบทนี้แม้ว่าจะไม่เคยลองมาก่อนมีผู้สมัครที่ดีอีกคนหนึ่งสำหรับงานสร้างแบบจำลอง (เช่นใน R หรือไม่)

23 r machine-learning classification cart

3

วิธีการทดสอบความสัมพันธ์ของข้อมูลส่วนบุคคลอัตโนมัติได้อย่างไร

ฉันมีเมทริกซ์ที่มีสองคอลัมน์ที่มีราคามากมาย (750) ในภาพด้านล่างผมพล็อตส่วนที่เหลือของการถดถอยเชิงเส้นดังนี้ lm(prices[,1] ~ prices[,2]) ดูภาพดูเหมือนว่าจะเป็นระบบอัตโนมัติที่สัมพันธ์กันอย่างมากกับส่วนที่เหลือ อย่างไรก็ตามฉันจะทดสอบได้อย่างไรว่าค่าความสัมพันธ์แบบอัตโนมัติของสารตกค้างเหล่านั้นมีความแข็งแรงหรือไม่? ฉันควรใช้วิธีใด ขอขอบคุณ!

23 r regression correlation autocorrelation

คำถามติดแท็ก r