สถิติและข้อมูลขนาดใหญ่ r

1

ฉันต้องการทราบวิธีการตีความแปลงความหนาแน่นตามเงื่อนไขอย่างถูกต้อง ฉันได้ใส่สองด้านล่างที่ผมสร้างขึ้นใน R cdplotกับ ตัวอย่างเช่นความน่าจะเป็นของผลลัพธ์เท่ากับ 1 เมื่อVar 1เท่ากับ 150 ประมาณ 80% หรือไม่ พื้นที่สีเทาเข้มคือความน่าจะเป็นแบบมีเงื่อนไขResultซึ่งเท่ากับ 1 ใช่ไหม? จากcdplotเอกสารประกอบ: cdplot คำนวณความหนาแน่นตามเงื่อนไขของ x ที่กำหนดระดับของ y ที่ถ่วงน้ำหนักด้วยการแจกแจงส่วนขอบของ y ความหนาแน่นจะได้รับมาจากระดับ y การสะสมนี้มีผลต่อการตีความแปลงเหล่านี้อย่างไร

10 r data-visualization interpretation conditional-probability pdf

3

ทำความเข้าใจกับเส้นประสีน้ำเงินใน ACF จาก R

ฉันมีปัญหาเล็กน้อยในการทำความเข้าใจเส้นประสีน้ำเงินในภาพต่อไปนี้ของฟังก์ชั่นความสัมพันธ์อัตโนมัติ: มีคนให้คำอธิบายง่ายๆกับฉันว่าพวกเขาบอกอะไรฉัน

10 r time-series autocorrelation

3

สร้างแผนผังความน่าจะเป็นของเส้นทางสำหรับการเดินทางผ่านเว็บไซต์

ขณะนี้ฉันกำลังทำการวิเคราะห์บนเว็บไซต์ที่ต้องการให้ฉันสร้างแผนผังการตัดสินใจแสดงเส้นทางที่เป็นไปได้ที่ผู้คนใช้เมื่อใดก็ตามที่พวกเขามาถึงเว็บไซต์ ฉันกำลังจัดการกับสิ่งdata.frameที่แสดงเส้นทางของลูกค้าทั้งหมดไปยังเว็บไซต์โดยเริ่มจากหน้าแรก ตัวอย่างเช่นลูกค้าสามารถใช้เส้นทางต่อไปนี้: Homepage - pg 1 Kitchen Items page - pg 2 Pots and Pans page - pg 3 ดังนั้นลูกค้ารายนี้จะมีการเดินทาง 3 หน้า สิ่งที่ฉันต้องการทำใน R คือการรวมพา ธ ของลูกค้าทั้งหมดและกำหนดความน่าจะเป็นให้กับลูกค้าตามเส้นทางที่แน่นอนในไซต์ ตัวอย่างเช่นหากฉันต้องตรวจสอบเส้นทางทั้งหมดฉันจะพบว่า 34% ของผู้ที่มาถึงหน้าแรกให้ไปที่ 'หน้ารายการครัว' R มีสถานที่นี้หรือไม่? ฉันค้นหาวิธีการต่าง ๆ ผ่านแพ็คเกจ rpartและpartykitแต่ดูเหมือนว่าพวกเขาไม่ได้ช่วยอะไรเลย ผู้ควบคุมทิศทางที่ถูกต้องสำหรับสิ่งนี้จะได้รับการชื่นชมอย่างมาก!

10 r probability data-visualization markov-process

2

ความแตกต่างระหว่างการถดถอยเชิงเส้นของ logit-transformed, การถดถอยโลจิสติกและการผสมแบบโลจิสติกคืออะไร?

สมมติว่าฉันมีนักเรียน 10 คนแต่ละคนพยายามแก้ปัญหาคณิตศาสตร์ 20 ข้อ ปัญหาคะแนนถูกต้องหรือไม่ถูกต้อง (ใน longdata) และประสิทธิภาพของนักเรียนแต่ละคนสามารถสรุปได้ด้วยการวัดความแม่นยำ (ใน subjdata) แบบจำลอง 1, 2 และ 4 ด้านล่างดูเหมือนจะให้ผลลัพธ์ที่แตกต่างกัน แต่ฉันเข้าใจว่าพวกเขากำลังทำสิ่งเดียวกัน ทำไมพวกเขาถึงให้ผลลัพธ์ที่แตกต่างกัน? (ฉันรวมโมเดล 3 ไว้สำหรับการอ้างอิง) library(lme4) set.seed(1) nsubjs=10 nprobs=20 subjdata = data.frame('subj'=rep(1:nsubjs),'iq'=rep(seq(80,120,10),nsubjs/5)) longdata = subjdata[rep(seq_len(nrow(subjdata)), each=nprobs), ] longdata$correct = runif(nsubjs*nprobs)<pnorm(longdata$iq/50-1.4) subjdata$acc = by(longdata$correct,longdata$subj,mean) model1 = lm(logit(acc)~iq,subjdata) model2 = glm(acc~iq,subjdata,family=gaussian(link='logit')) model3 = glm(acc~iq,subjdata,family=binomial(link='logit')) model4 …

10 r regression logistic generalized-linear-model binomial

2

กราฟในการออกแบบการถดถอยแบบไม่ต่อเนื่องใน“ Stata” หรือ“ R”

Lee และ Lemieux (หน้า 31, 2009) แนะนำให้นักวิจัยนำเสนอกราฟในขณะที่ทำการวิเคราะห์การออกแบบการถดถอยแบบไม่ต่อเนื่อง (RDD) พวกเขาแนะนำขั้นตอนต่อไปนี้: "... สำหรับแบนด์วิดท์และสำหรับจำนวนของถังขยะและ K_1ทางด้านซ้ายและขวาของค่า cutoff ตามลำดับแนวคิดคือการสร้างถังขยะ ( b_k , b_ {k + 1} ], สำหรับk = 1,..., K = K_0 + K_1โดยที่b_k = c− (K_0 − k + 1) \ cdot h. "K 0 K 1 ขk ขk + 1 k = …

10 r regression data-visualization stata regression-discontinuity

3

การเลือกจำนวนส่วนประกอบหลักที่จะเก็บไว้

วิธีการหนึ่งที่แนะนำให้ฉันคือดูพล็อตหินกรวดและตรวจสอบ "ข้อศอก" เพื่อกำหนดจำนวนพีซีที่ถูกต้องที่จะใช้ แต่ถ้าพล็อตไม่ชัดเจน R มีการคำนวณเพื่อกำหนดจำนวนหรือไม่? fit <- princomp(mydata, cor=TRUE)

10 r pca

1

ความแตกต่าง R และ EViews ในการประมาณการ AR (1)

ปัญหาหลักคือ: ฉันไม่สามารถรับค่าประมาณพารามิเตอร์ที่คล้ายกันกับ EViews และ R ด้วยเหตุผลที่ฉันไม่รู้จักตัวเองฉันจำเป็นต้องประเมินพารามิเตอร์สำหรับข้อมูลบางอย่างโดยใช้ตัวแสดงตัวอย่าง สิ่งนี้ทำได้โดยการเลือกตัวเลือก NLS (ไม่เชิงเส้นกำลังสองน้อยที่สุด) และใช้สูตรต่อไปนี้:indep_var c dep_var ar(1) EViews อ้างว่าพวกเขาประมาณกระบวนการเชิงเส้น AR (1) เช่น: โดยที่ข้อผิดพลาดถูกนิยามเป็น: โดยใช้สิ่งที่เทียบเท่า สมการ (ด้วยการแทนที่พีชคณิตบางส่วน): นอกจากนี้เธรดนี้ ที่ฟอรัม EViewsแนะนำว่าการประมาณค่า NLS ของพวกเขาถูกสร้างขึ้นโดยอัลกอริทึม Marquardtยูทียูที = ρ ⋅ ยูที- 1 + ε Y T = ( 1 - ρ ) α + ρ Y T - 1 …

10 r autoregressive software

1

จะตีความค่าสัมประสิทธิ์ของตัวแบบผสมหลายตัวแปรใน lme4 โดยไม่มีการสกัดกั้นโดยรวมได้อย่างไร?

ฉันพยายามที่จะพอดีกับหลายตัวแปร (เช่นการตอบสนองหลาย) Rรูปแบบผสม นอกเหนือจากASReml-rและSabreRแพคเกจ (ซึ่งต้องใช้ซอฟต์แวร์ภายนอก) MCMCglmmดูเหมือนว่านี้เป็นเพียงที่เป็นไปได้ใน ในกระดาษที่มาพร้อมกับMCMCglmmแพคเกจ (pp.6) Jarrod Hadfield อธิบายกระบวนการของการปรับแบบจำลองให้เหมือนกับการปรับรูปแบบการตอบสนองของตัวแปรหลายตัวให้เป็นตัวแปรรูปแบบยาวหนึ่งตัวจากนั้นหยุดการสกัดกั้นโดยรวม ความเข้าใจของฉันคือการระงับการสกัดกั้นการเปลี่ยนแปลงการตีความค่าสัมประสิทธิ์สำหรับแต่ละระดับของตัวแปรตอบกลับให้เป็นค่าเฉลี่ยสำหรับระดับนั้น จากที่กล่าวมาจึงเป็นไปได้lme4หรือไม่ที่จะใช้โมเดลผสมหลายตัวแปรโดยใช้? ตัวอย่างเช่น: data(mtcars) library(reshape2) mtcars <- melt(mtcars, measure.vars = c("drat", "mpg", "hp")) library(lme4) m1 <- lmer(value ~ -1 + variable:gear + variable:carb + (1 | factor(carb)), data = mtcars) summary(m1) # Linear mixed model fit by REML # …

10 r mixed-model multivariate-analysis lme4-nlme multivariate-regression

1

ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM

ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

1

ข้อผิดพลาดแบบสุ่มที่สำคัญและผันแปรหรือไม่

ฉันไม่ได้รับความแตกต่างระหว่างrfobject$importanceและimportance(rfobject)ในคอลัมน์ MeanDecreaseAccuracy ตัวอย่าง: > data("iris") > fit <- randomForest(Species~., data=iris, importance=TRUE) > fit$importance setosa versicolor virginica MeanDecreaseAccuracy MeanDecreaseGini Sepal.Length 0.027078501 0.019418330 0.040497602 0.02898837 9.173648 Sepal.Width 0.008553449 0.001962036 0.006951771 0.00575489 2.472105 Petal.Length 0.313303381 0.291818815 0.280981959 0.29216790 41.284869 Petal.Width 0.349686983 0.318527008 0.270975757 0.31054451 46.323415 > importance(fit) setosa versicolor virginica MeanDecreaseAccuracy MeanDecreaseGini Sepal.Length …

10 r random-forest importance

1

คำถามเกี่ยวกับการระบุตัวแบบผสมเชิงเส้นใน R สำหรับการวัดซ้ำข้อมูลด้วยโครงสร้างการซ้อนเพิ่มเติม

โครงสร้างข้อมูล > str(data) 'data.frame': 6138 obs. of 10 variables: $ RT : int 484 391 422 516 563 531 406 500 516 578 ... $ ASCORE : num 5.1 4 3.8 2.6 2.7 6.5 4.9 2.9 2.6 7.2 ... $ HSCORE : num 6 2.1 7.9 1 6.9 8.9 8.2 …

10 r mixed-model repeated-measures model-selection lme4-nlme

4

การกระจายการบันทึกปกติที่เหมาะสมใน R กับ SciPy

ฉันติดตั้งโมเดล lognormal โดยใช้ R พร้อมชุดข้อมูล พารามิเตอร์ผลลัพธ์คือ: meanlog = 4.2991610 sdlog = 0.5511349 ฉันต้องการถ่ายโอนโมเดลนี้ไปยัง Scipy ซึ่งฉันไม่เคยใช้มาก่อน เมื่อใช้ Scipy ฉันสามารถรับรูปร่างและมาตราส่วน 1 และ 3.1626716539637488e + 90 - ตัวเลขที่แตกต่างกันมาก ฉันยังพยายามใช้ exp ของ meanlog และ sdlog แต่ยังคงได้กราฟที่แปลกประหลาด ฉันได้อ่านเอกสารทุกฉบับที่ฉันสามารถทำได้ใน scipy และฉันยังสับสนเกี่ยวกับความหมายของพารามิเตอร์รูปร่างและขนาดในกรณีนี้ มันจะสมเหตุสมผลหรือไม่ที่จะเขียนโค้ดฟังก์ชันเอง ที่ดูเหมือนว่าจะเกิดข้อผิดพลาดในขณะที่ฉันใหม่เพื่อ scipy SCIPY Lognormal (BLUE) กับ R Lognormal (RED): มีความคิดเห็นเกี่ยวกับทิศทางใดที่จะนำไปใช้? ข้อมูลมีความสอดคล้องกับโมเดล R เป็นอย่างดีดังนั้นถ้ามันดูเป็นอย่างอื่นใน Python …

10 r python numpy scipy

2

Wilcoxon-Mann-Whitney ค่าวิกฤตใน R

ฉันสังเกตว่าเมื่อฉันพยายามค้นหาค่าวิกฤตสำหรับ Mann-Whitney U โดยใช้ R ค่าจะเป็น 1 + ค่าวิกฤตเสมอ ตัวอย่างเช่นสำหรับ , ค่าวิกฤต (สองหาง) คือ 8 ในขณะที่สำหรับ , (สองหาง ) ค่าวิกฤตคือ 22 (ตรวจสอบตาราง ) แต่:α = .05 , n = 12 , m = 8α=.05,n=10,m=5α=.05,n=10,m=5\alpha=.05, n = 10, m = 5α = .05 , n = 12 , m = 8α=.05,n=12,m=8\alpha=.05, …

10 r hypothesis-testing nonparametric wilcoxon-mann-whitney

2

จะตีความความแตกต่างที่กำหนดเองเหล่านี้ได้อย่างไร

ฉันกำลังทำ ANOVA ทางเดียว (ต่อสปีชีส์) ด้วยความแตกต่างที่กำหนดเอง [,1] [,2] [,3] [,4] 0.5 -1 0 0 0 5 1 -1 0 0 12.5 0 1 -1 0 25 0 0 1 -1 50 0 0 0 1 ที่ฉันเปรียบเทียบความเข้ม 0.5 กับ 5, 5 กับ 12.5 และอื่น ๆ นี่คือข้อมูลที่ฉันกำลังทำอยู่ ด้วยผลลัพธ์ต่อไปนี้ Generalized least squares fit by …

10 r anova contrasts generalized-least-squares

1

การวิเคราะห์อนุกรมเวลาแบบอะซิงโครนัส

ฉันพยายามวิเคราะห์ช่วงเวลารอคอยของอนุกรมเวลาของราคาหุ้นสองแห่ง ในการวิเคราะห์อนุกรมเวลาปกติเราสามารถทำ Cross Correlaton, VECM (Granger Causality) อย่างไรก็ตามวิธีการหนึ่งจะจัดการเดียวกันในอนุกรมเวลาเว้นระยะไม่สม่ำเสมอ สมมติฐานคือเครื่องมือหนึ่งนำไปสู่อีกอันหนึ่ง ฉันมีข้อมูลสำหรับสัญลักษณ์ทั้งสองถึงไมโครวินาที ฉันดูแพ็คเกจ RTAQ และลองใช้ VECM RTAQ นั้นเพิ่มเติมในอนุกรมเวลาที่ไม่เปลี่ยนแปลงในขณะที่ VECM ไม่สำคัญในช่วงเวลาเหล่านี้ > dput(STOCKS[,])) structure(c(29979, 29980, 29980, 29980, 29981, 29981, 29991, 29992, 29993, 29991, 29990, 29992), .Dim = c(6L, 2L), .Dimnames = list(NULL, c("Pair_Bid", "Calc_Bid" )), index = structure(c(1340686178.55163, 1340686181.40801, 1340686187.2642, 1340686187.52668, 1340686187.78777, 1340686189.36693), …

10 r time-series cross-correlation unevenly-spaced-time-series

คำถามติดแท็ก r