คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

1
การตีความความหนาแน่นแบบมีเงื่อนไข
ฉันต้องการทราบวิธีการตีความแปลงความหนาแน่นตามเงื่อนไขอย่างถูกต้อง ฉันได้ใส่สองด้านล่างที่ผมสร้างขึ้นใน R cdplotกับ ตัวอย่างเช่นความน่าจะเป็นของผลลัพธ์เท่ากับ 1 เมื่อVar 1เท่ากับ 150 ประมาณ 80% หรือไม่ พื้นที่สีเทาเข้มคือความน่าจะเป็นแบบมีเงื่อนไขResultซึ่งเท่ากับ 1 ใช่ไหม? จากcdplotเอกสารประกอบ: cdplot คำนวณความหนาแน่นตามเงื่อนไขของ x ที่กำหนดระดับของ y ที่ถ่วงน้ำหนักด้วยการแจกแจงส่วนขอบของ y ความหนาแน่นจะได้รับมาจากระดับ y การสะสมนี้มีผลต่อการตีความแปลงเหล่านี้อย่างไร

3
ทำความเข้าใจกับเส้นประสีน้ำเงินใน ACF จาก R
ฉันมีปัญหาเล็กน้อยในการทำความเข้าใจเส้นประสีน้ำเงินในภาพต่อไปนี้ของฟังก์ชั่นความสัมพันธ์อัตโนมัติ: มีคนให้คำอธิบายง่ายๆกับฉันว่าพวกเขาบอกอะไรฉัน

3
สร้างแผนผังความน่าจะเป็นของเส้นทางสำหรับการเดินทางผ่านเว็บไซต์
ขณะนี้ฉันกำลังทำการวิเคราะห์บนเว็บไซต์ที่ต้องการให้ฉันสร้างแผนผังการตัดสินใจแสดงเส้นทางที่เป็นไปได้ที่ผู้คนใช้เมื่อใดก็ตามที่พวกเขามาถึงเว็บไซต์ ฉันกำลังจัดการกับสิ่งdata.frameที่แสดงเส้นทางของลูกค้าทั้งหมดไปยังเว็บไซต์โดยเริ่มจากหน้าแรก ตัวอย่างเช่นลูกค้าสามารถใช้เส้นทางต่อไปนี้: Homepage - pg 1 Kitchen Items page - pg 2 Pots and Pans page - pg 3 ดังนั้นลูกค้ารายนี้จะมีการเดินทาง 3 หน้า สิ่งที่ฉันต้องการทำใน R คือการรวมพา ธ ของลูกค้าทั้งหมดและกำหนดความน่าจะเป็นให้กับลูกค้าตามเส้นทางที่แน่นอนในไซต์ ตัวอย่างเช่นหากฉันต้องตรวจสอบเส้นทางทั้งหมดฉันจะพบว่า 34% ของผู้ที่มาถึงหน้าแรกให้ไปที่ 'หน้ารายการครัว' R มีสถานที่นี้หรือไม่? ฉันค้นหาวิธีการต่าง ๆ ผ่านแพ็คเกจ rpartและpartykitแต่ดูเหมือนว่าพวกเขาไม่ได้ช่วยอะไรเลย ผู้ควบคุมทิศทางที่ถูกต้องสำหรับสิ่งนี้จะได้รับการชื่นชมอย่างมาก!

2
ความแตกต่างระหว่างการถดถอยเชิงเส้นของ logit-transformed, การถดถอยโลจิสติกและการผสมแบบโลจิสติกคืออะไร?
สมมติว่าฉันมีนักเรียน 10 คนแต่ละคนพยายามแก้ปัญหาคณิตศาสตร์ 20 ข้อ ปัญหาคะแนนถูกต้องหรือไม่ถูกต้อง (ใน longdata) และประสิทธิภาพของนักเรียนแต่ละคนสามารถสรุปได้ด้วยการวัดความแม่นยำ (ใน subjdata) แบบจำลอง 1, 2 และ 4 ด้านล่างดูเหมือนจะให้ผลลัพธ์ที่แตกต่างกัน แต่ฉันเข้าใจว่าพวกเขากำลังทำสิ่งเดียวกัน ทำไมพวกเขาถึงให้ผลลัพธ์ที่แตกต่างกัน? (ฉันรวมโมเดล 3 ไว้สำหรับการอ้างอิง) library(lme4) set.seed(1) nsubjs=10 nprobs=20 subjdata = data.frame('subj'=rep(1:nsubjs),'iq'=rep(seq(80,120,10),nsubjs/5)) longdata = subjdata[rep(seq_len(nrow(subjdata)), each=nprobs), ] longdata$correct = runif(nsubjs*nprobs)<pnorm(longdata$iq/50-1.4) subjdata$acc = by(longdata$correct,longdata$subj,mean) model1 = lm(logit(acc)~iq,subjdata) model2 = glm(acc~iq,subjdata,family=gaussian(link='logit')) model3 = glm(acc~iq,subjdata,family=binomial(link='logit')) model4 …

2
กราฟในการออกแบบการถดถอยแบบไม่ต่อเนื่องใน“ Stata” หรือ“ R”
Lee และ Lemieux (หน้า 31, 2009) แนะนำให้นักวิจัยนำเสนอกราฟในขณะที่ทำการวิเคราะห์การออกแบบการถดถอยแบบไม่ต่อเนื่อง (RDD) พวกเขาแนะนำขั้นตอนต่อไปนี้: "... สำหรับแบนด์วิดท์และสำหรับจำนวนของถังขยะและ K_1ทางด้านซ้ายและขวาของค่า cutoff ตามลำดับแนวคิดคือการสร้างถังขยะ ( b_k , b_ {k + 1} ], สำหรับk = 1,..., K = K_0 + K_1โดยที่b_k = c− (K_0 − k + 1) \ cdot h. "K 0 K 1 ขk ขk + 1 k = …

3
การเลือกจำนวนส่วนประกอบหลักที่จะเก็บไว้
วิธีการหนึ่งที่แนะนำให้ฉันคือดูพล็อตหินกรวดและตรวจสอบ "ข้อศอก" เพื่อกำหนดจำนวนพีซีที่ถูกต้องที่จะใช้ แต่ถ้าพล็อตไม่ชัดเจน R มีการคำนวณเพื่อกำหนดจำนวนหรือไม่? fit <- princomp(mydata, cor=TRUE)
10 r  pca 

1
ความแตกต่าง R และ EViews ในการประมาณการ AR (1)
ปัญหาหลักคือ: ฉันไม่สามารถรับค่าประมาณพารามิเตอร์ที่คล้ายกันกับ EViews และ R ด้วยเหตุผลที่ฉันไม่รู้จักตัวเองฉันจำเป็นต้องประเมินพารามิเตอร์สำหรับข้อมูลบางอย่างโดยใช้ตัวแสดงตัวอย่าง สิ่งนี้ทำได้โดยการเลือกตัวเลือก NLS (ไม่เชิงเส้นกำลังสองน้อยที่สุด) และใช้สูตรต่อไปนี้:indep_var c dep_var ar(1) EViews อ้างว่าพวกเขาประมาณกระบวนการเชิงเส้น AR (1) เช่น: โดยที่ข้อผิดพลาดถูกนิยามเป็น: โดยใช้สิ่งที่เทียบเท่า สมการ (ด้วยการแทนที่พีชคณิตบางส่วน): นอกจากนี้เธรดนี้ ที่ฟอรัม EViewsแนะนำว่าการประมาณค่า NLS ของพวกเขาถูกสร้างขึ้นโดยอัลกอริทึม Marquardtยูทียูที = ρ ⋅ ยูที- 1 + ε Y T = ( 1 - ρ ) α + ρ Y T - 1 …

1
จะตีความค่าสัมประสิทธิ์ของตัวแบบผสมหลายตัวแปรใน lme4 โดยไม่มีการสกัดกั้นโดยรวมได้อย่างไร?
ฉันพยายามที่จะพอดีกับหลายตัวแปร (เช่นการตอบสนองหลาย) Rรูปแบบผสม นอกเหนือจากASReml-rและSabreRแพคเกจ (ซึ่งต้องใช้ซอฟต์แวร์ภายนอก) MCMCglmmดูเหมือนว่านี้เป็นเพียงที่เป็นไปได้ใน ในกระดาษที่มาพร้อมกับMCMCglmmแพคเกจ (pp.6) Jarrod Hadfield อธิบายกระบวนการของการปรับแบบจำลองให้เหมือนกับการปรับรูปแบบการตอบสนองของตัวแปรหลายตัวให้เป็นตัวแปรรูปแบบยาวหนึ่งตัวจากนั้นหยุดการสกัดกั้นโดยรวม ความเข้าใจของฉันคือการระงับการสกัดกั้นการเปลี่ยนแปลงการตีความค่าสัมประสิทธิ์สำหรับแต่ละระดับของตัวแปรตอบกลับให้เป็นค่าเฉลี่ยสำหรับระดับนั้น จากที่กล่าวมาจึงเป็นไปได้lme4หรือไม่ที่จะใช้โมเดลผสมหลายตัวแปรโดยใช้? ตัวอย่างเช่น: data(mtcars) library(reshape2) mtcars <- melt(mtcars, measure.vars = c("drat", "mpg", "hp")) library(lme4) m1 <- lmer(value ~ -1 + variable:gear + variable:carb + (1 | factor(carb)), data = mtcars) summary(m1) # Linear mixed model fit by REML # …

1
ทำไม Anova () และ drop1 () จึงให้คำตอบที่แตกต่างกันสำหรับ GLMM
ฉันมีแบบฟอร์ม GLMM: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) เมื่อฉันใช้drop1(model, test="Chi")ฉันได้รับผลลัพธ์ที่แตกต่างกว่าถ้าผมใช้จากแพคเกจรถหรือAnova(model, type="III") summary(model)สองหลังนี้ให้คำตอบเดียวกัน จากการใช้ข้อมูลที่ประดิษฐ์ขึ้นมาฉันพบว่าทั้งสองวิธีปกติไม่แตกต่างกัน พวกเขาให้คำตอบเดียวกันสำหรับแบบจำลองเชิงเส้นที่มีความสมดุลแบบจำลองเชิงเส้นที่ไม่สมดุล (ซึ่งไม่เท่ากันในกลุ่มต่าง ๆ ) และสำหรับแบบจำลองเชิงเส้นที่สมดุลแบบทั่วไป ดังนั้นจึงปรากฏว่าเฉพาะในกรณีที่มีการรวมปัจจัยแบบสุ่มเข้าด้วยกัน ทำไมจึงมีความคลาดเคลื่อนระหว่างสองวิธีนี้? เมื่อใช้ GLMM ควรAnova()หรือdrop1()จะใช้งานอย่างไร ความแตกต่างระหว่างสองสิ่งนี้ค่อนข้างเล็กน้อยอย่างน้อยสำหรับข้อมูลของฉัน มันมีความสำคัญต่อการใช้งานหรือไม่?
10 r  anova  glmm  r  mixed-model  bootstrap  sample-size  cross-validation  roc  auc  sampling  stratification  random-allocation  logistic  stata  interpretation  proportion  r  regression  multiple-regression  linear-model  lm  r  cross-validation  cart  rpart  logistic  generalized-linear-model  econometrics  experiment-design  causality  instrumental-variables  random-allocation  predictive-models  data-mining  estimation  contingency-tables  epidemiology  standard-deviation  mean  ancova  psychology  statistical-significance  cross-validation  synthetic-data  poisson-distribution  negative-binomial  bioinformatics  sequence-analysis  distributions  binomial  classification  k-means  distance  unsupervised-learning  euclidean  correlation  chi-squared  spearman-rho  forecasting  excel  exponential-smoothing  binomial  sample-size  r  change-point  wilcoxon-signed-rank  ranks  clustering  matlab  covariance  covariance-matrix  normal-distribution  simulation  random-generation  bivariate  standardization  confounding  z-statistic  forecasting  arima  minitab  poisson-distribution  negative-binomial  poisson-regression  overdispersion  probability  self-study  markov-process  estimation  maximum-likelihood  classification  pca  group-differences  chi-squared  survival  missing-data  contingency-tables  anova  proportion 

1
ข้อผิดพลาดแบบสุ่มที่สำคัญและผันแปรหรือไม่
ฉันไม่ได้รับความแตกต่างระหว่างrfobject$importanceและimportance(rfobject)ในคอลัมน์ MeanDecreaseAccuracy ตัวอย่าง: > data("iris") > fit <- randomForest(Species~., data=iris, importance=TRUE) > fit$importance setosa versicolor virginica MeanDecreaseAccuracy MeanDecreaseGini Sepal.Length 0.027078501 0.019418330 0.040497602 0.02898837 9.173648 Sepal.Width 0.008553449 0.001962036 0.006951771 0.00575489 2.472105 Petal.Length 0.313303381 0.291818815 0.280981959 0.29216790 41.284869 Petal.Width 0.349686983 0.318527008 0.270975757 0.31054451 46.323415 > importance(fit) setosa versicolor virginica MeanDecreaseAccuracy MeanDecreaseGini Sepal.Length …

1
คำถามเกี่ยวกับการระบุตัวแบบผสมเชิงเส้นใน R สำหรับการวัดซ้ำข้อมูลด้วยโครงสร้างการซ้อนเพิ่มเติม
โครงสร้างข้อมูล > str(data) 'data.frame': 6138 obs. of 10 variables: $ RT : int 484 391 422 516 563 531 406 500 516 578 ... $ ASCORE : num 5.1 4 3.8 2.6 2.7 6.5 4.9 2.9 2.6 7.2 ... $ HSCORE : num 6 2.1 7.9 1 6.9 8.9 8.2 …

4
การกระจายการบันทึกปกติที่เหมาะสมใน R กับ SciPy
ฉันติดตั้งโมเดล lognormal โดยใช้ R พร้อมชุดข้อมูล พารามิเตอร์ผลลัพธ์คือ: meanlog = 4.2991610 sdlog = 0.5511349 ฉันต้องการถ่ายโอนโมเดลนี้ไปยัง Scipy ซึ่งฉันไม่เคยใช้มาก่อน เมื่อใช้ Scipy ฉันสามารถรับรูปร่างและมาตราส่วน 1 และ 3.1626716539637488e + 90 - ตัวเลขที่แตกต่างกันมาก ฉันยังพยายามใช้ exp ของ meanlog และ sdlog แต่ยังคงได้กราฟที่แปลกประหลาด ฉันได้อ่านเอกสารทุกฉบับที่ฉันสามารถทำได้ใน scipy และฉันยังสับสนเกี่ยวกับความหมายของพารามิเตอร์รูปร่างและขนาดในกรณีนี้ มันจะสมเหตุสมผลหรือไม่ที่จะเขียนโค้ดฟังก์ชันเอง ที่ดูเหมือนว่าจะเกิดข้อผิดพลาดในขณะที่ฉันใหม่เพื่อ scipy SCIPY Lognormal (BLUE) กับ R Lognormal (RED): มีความคิดเห็นเกี่ยวกับทิศทางใดที่จะนำไปใช้? ข้อมูลมีความสอดคล้องกับโมเดล R เป็นอย่างดีดังนั้นถ้ามันดูเป็นอย่างอื่นใน Python …
10 r  python  numpy  scipy 

2
Wilcoxon-Mann-Whitney ค่าวิกฤตใน R
ฉันสังเกตว่าเมื่อฉันพยายามค้นหาค่าวิกฤตสำหรับ Mann-Whitney U โดยใช้ R ค่าจะเป็น 1 + ค่าวิกฤตเสมอ ตัวอย่างเช่นสำหรับ , ค่าวิกฤต (สองหาง) คือ 8 ในขณะที่สำหรับ , (สองหาง ) ค่าวิกฤตคือ 22 (ตรวจสอบตาราง ) แต่:α = .05 , n = 12 , m = 8α=.05,n=10,m=5α=.05,n=10,m=5\alpha=.05, n = 10, m = 5α = .05 , n = 12 , m = 8α=.05,n=12,m=8\alpha=.05, …

2
จะตีความความแตกต่างที่กำหนดเองเหล่านี้ได้อย่างไร
ฉันกำลังทำ ANOVA ทางเดียว (ต่อสปีชีส์) ด้วยความแตกต่างที่กำหนดเอง [,1] [,2] [,3] [,4] 0.5 -1 0 0 0 5 1 -1 0 0 12.5 0 1 -1 0 25 0 0 1 -1 50 0 0 0 1 ที่ฉันเปรียบเทียบความเข้ม 0.5 กับ 5, 5 กับ 12.5 และอื่น ๆ นี่คือข้อมูลที่ฉันกำลังทำอยู่ ด้วยผลลัพธ์ต่อไปนี้ Generalized least squares fit by …

1
การวิเคราะห์อนุกรมเวลาแบบอะซิงโครนัส
ฉันพยายามวิเคราะห์ช่วงเวลารอคอยของอนุกรมเวลาของราคาหุ้นสองแห่ง ในการวิเคราะห์อนุกรมเวลาปกติเราสามารถทำ Cross Correlaton, VECM (Granger Causality) อย่างไรก็ตามวิธีการหนึ่งจะจัดการเดียวกันในอนุกรมเวลาเว้นระยะไม่สม่ำเสมอ สมมติฐานคือเครื่องมือหนึ่งนำไปสู่อีกอันหนึ่ง ฉันมีข้อมูลสำหรับสัญลักษณ์ทั้งสองถึงไมโครวินาที ฉันดูแพ็คเกจ RTAQ และลองใช้ VECM RTAQ นั้นเพิ่มเติมในอนุกรมเวลาที่ไม่เปลี่ยนแปลงในขณะที่ VECM ไม่สำคัญในช่วงเวลาเหล่านี้ > dput(STOCKS[,])) structure(c(29979, 29980, 29980, 29980, 29981, 29981, 29991, 29992, 29993, 29991, 29990, 29992), .Dim = c(6L, 2L), .Dimnames = list(NULL, c("Pair_Bid", "Calc_Bid" )), index = structure(c(1340686178.55163, 1340686181.40801, 1340686187.2642, 1340686187.52668, 1340686187.78777, 1340686189.36693), …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.