คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

3
วิธีที่ดีที่สุดในการปรับรูปร่าง / ปรับโครงสร้างข้อมูลคืออะไร
ฉันเป็นผู้ช่วยวิจัยสำหรับห้องแล็บ (อาสาสมัคร) ฉันและกลุ่มย่อยได้รับมอบหมายให้ทำการวิเคราะห์ข้อมูลสำหรับชุดข้อมูลที่ดึงมาจากการศึกษาขนาดใหญ่ น่าเสียดายที่ข้อมูลถูกรวบรวมด้วยแอปออนไลน์บางประเภทและไม่มีการตั้งโปรแกรมให้ส่งออกข้อมูลในรูปแบบที่ใช้งานได้มากที่สุด รูปภาพด้านล่างแสดงถึงปัญหาพื้นฐาน ฉันบอกว่านี่เรียกว่า "Reshape" หรือ "Restructure" คำถาม: กระบวนการที่ดีที่สุดสำหรับการเปลี่ยนจากรูปภาพ 1 เป็นรูปภาพ 2 พร้อมชุดข้อมูลขนาดใหญ่ที่มีรายการมากกว่า 10k คืออะไร
12 r  excel  data-cleaning 

5
จะทำการใส่ค่าในจุดข้อมูลจำนวนมากได้อย่างไร?
ฉันมีชุดข้อมูลที่มีขนาดใหญ่มากและมีค่าสุ่มประมาณ 5% หายไป ตัวแปรเหล่านี้มีความสัมพันธ์ซึ่งกันและกัน ตัวอย่างชุดข้อมูล R ต่อไปนี้เป็นเพียงตัวอย่างของเล่นที่มีข้อมูลที่สัมพันธ์กันจำลอง set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- paste ("M", 1:10000, sep ="") rownames(xmat) <- paste("sample", 1:200, sep = "") #M variables are correlated N <- 2000000*0.05 # 5% random missing values inds …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
โมเดล Lmer ไม่สามารถบรรจบกัน
มีการอธิบายข้อมูลของฉันที่นี่สิ่งที่อาจทำให้เกิด "รูปแบบข้อผิดพลาด () เป็นข้อผิดพลาดเอกพจน์" ใน aov เมื่อทำการวัด ANOVA ซ้ำแล้วซ้ำอีก? ฉันพยายามที่จะเห็นผลของการโต้ตอบโดยใช้lmerกรณีพื้นฐานของฉันคือ: my_null.model <- lmer(value ~ Condition+Scenario+ (1|Player)+(1|Trial), data = my, REML=FALSE) my.model <- lmer(value ~ Condition*Scenario+ (1|Player)+(1|Trial), data = my, REML=FALSE) การใช้งานanovaให้ผลลัพธ์ที่สำคัญกับฉัน แต่เมื่อฉันลองพิจารณาความชันแบบสุ่ม ( (1+Scenario|Player)) แบบจำลองล้มเหลวด้วยข้อผิดพลาดนี้: Warning messages: 1: In commonArgs(par, fn, control, environment()) : maxfun < 10 * length(par)^2 is …
12 r  lme4-nlme 

2
การถดถอยแบบขั้นตอนใน R - ค่า p สำคัญ
p-value ที่สำคัญที่ใช้โดยstep()ฟังก์ชันใน R สำหรับการถดถอยแบบขั้นตอนคืออะไร? ฉันคิดว่ามันคือ 0.15 แต่สมมติฐานของฉันถูกต้อง ฉันจะเปลี่ยนค่า p วิกฤตได้อย่างไร

2
การตีความเมทริกซ์ความแปรปรวนร่วม -
สมมติว่าเรามีโมเดลเชิงเส้นModel1และvcov(Model1)ให้เมทริกซ์ต่อไปนี้: (Intercept) latitude sea.distance altitude (Intercept) 28.898100 -23.6439000 -34.1523000 0.50790600 latitude -23.643900 19.7032500 28.4602500 -0.42471450 sea.distance -34.152300 28.4602500 42.4714500 -0.62612550 altitude 0.507906 -0.4247145 -0.6261255 0.00928242 สำหรับตัวอย่างนี้เมทริกซ์นี้แสดงอะไร? สมมติฐานอะไรที่เราสามารถสร้างโมเดลของเราได้อย่างปลอดภัยและเป็นตัวแปรอิสระ

1
คำนวณความน่าจะเป็นบันทึก“ ด้วยมือ” สำหรับการถดถอยแบบไม่เชิงเส้นกำลังสองน้อยที่สุด (nlme)
ฉันกำลังพยายามคำนวณความน่าจะเป็นในการบันทึกสำหรับการถดถอยกำลังสองน้อยที่สุดแบบไม่เชิงเส้นสำหรับฟังก์ชันปรับโดยฟังก์ชั่นในแพคเกจ R โดยใช้เมทริกซ์ความแปรปรวนร่วมแปรปรวนที่สร้างขึ้นโดยระยะทางบนต้นไม้สายวิวัฒนาการที่สมมติว่ามีการเคลื่อนที่แบบบราวเนียน ( จากแพ็คเกจ) รหัส R ที่สามารถทำซ้ำได้ดังต่อไปนี้เหมาะกับรุ่น gnls โดยใช้ข้อมูล x, y และแผนภูมิแบบสุ่มที่มี 9 แท็กซ่า:f(x)=β1(1+xβ2)β3f(x)=β1(1+xβ2)β3f(x)=\frac{\beta_1}{(1+\frac x\beta_2)^{\beta_3}}gnlsnlmecorBrownian(phy=tree)ape require(ape) require(nlme) require(expm) tree <- rtree(9) x <- c(0,14.51,32.9,44.41,86.18,136.28,178.21,262.3,521.94) y <- c(100,93.69,82.09,62.24,32.71,48.4,35.98,15.73,9.71) data <- data.frame(x,y,row.names=tree$tip.label) model <- y~beta1/((1+(x/beta2))^beta3) f=function(beta,x) beta[1]/((1+(x/beta[2]))^beta[3]) start <- c(beta1=103.651004,beta2=119.55067,beta3=1.370105) correlation <- corBrownian(phy=tree) fit <- gnls(model=model,data=data,start=start,correlation=correlation) logLik(fit) ผมอยากจะคำนวณความน่าจะเข้าสู่ระบบ "ด้วยมือ" (ใน R …

4
การทดสอบสมมติฐานสำหรับความแตกต่างของค่ามัธยฐานในกลุ่มตัวอย่างมากกว่าสองตัวอย่าง
คำถาม คะแนนการทดสอบของคนสามกลุ่มจะถูกบันทึกเป็นเวกเตอร์แยกในอาร์ set.seed(1) group1 <- rnorm(100, mean = 75, sd = 10) group2 <- rnorm(100, mean = 85, sd = 10) group3 <- rnorm(100, mean = 95, sd = 10) ฉันต้องการทราบว่ามีความแตกต่างที่สำคัญในค่ามัธยฐานระหว่างกลุ่มเหล่านี้หรือไม่ ฉันรู้ว่าฉันสามารถทดสอบกลุ่ม 1 กับกลุ่ม 2 ได้โดยใช้การทดสอบ Wilcoxon เช่นนั้น wilcox.test(group1, group2) อย่างไรก็ตามการเปรียบเทียบครั้งนี้มีเพียงสองกลุ่มเท่านั้นและฉันต้องการเปรียบเทียบทั้งสามกลุ่มพร้อมกัน ฉันต้องการทดสอบสถิติที่ให้ค่า ap ที่ระดับนัยสำคัญ 0.05 มีคนช่วยได้ไหม แก้ไข # 1 - …

5
ความถี่ระยะ / ความถี่เอกสารผกผัน (TF / IDF): น้ำหนัก
ฉันมีชุดข้อมูลที่แสดงถึง 1,000 เอกสารและคำทั้งหมดที่ปรากฏในนั้น ดังนั้นแถวแสดงถึงเอกสารและคอลัมน์เป็นตัวแทนของคำ ดังนั้นสำหรับตัวอย่างเช่นค่าในเซลล์ย่อมาจากคำว่าครั้งญเกิดขึ้นในเอกสารฉัน ตอนนี้ฉันต้องค้นหา 'น้ำหนัก' ของคำโดยใช้วิธี tf / idf แต่จริง ๆ แล้วฉันไม่รู้วิธีการทำสิ่งนี้ มีคนช่วยฉันออกได้ไหม(i,j)(i,j)(i,j)jjjiii

1
ความสับสนเกี่ยวกับ lmer และ p-values: p-values ​​จากแพคเกจ memisc เปรียบเทียบกับ MCMC อย่างไร
ฉันรู้สึกว่าฟังก์ชั่นlmer()ในlme4แพ็คเกจไม่ได้สร้างค่า p (ดูlmer, ค่า p และทั้งหมดนั้น ) ฉันได้รับการใช้ค่าพี MCMC สร้างขึ้นแทนเป็นต่อคำถามนี้: ผลกระทบอย่างมีนัยสำคัญในlme4รูปแบบผสมและคำถามนี้: ไม่พบหน้าค่าในการส่งออกจากlmer()ในlm4Rแพคเกจใน เมื่อเร็ว ๆ นี้ฉันลองแพคเกจที่เรียกว่าmemiscและgetSummary.mer()เพื่อให้ได้เอฟเฟกต์คงที่ของโมเดลของฉันลงในไฟล์ csv ราวกับว่าเป็นเวทมนต์คอลัมน์ที่เรียกว่าpปรากฏขึ้นซึ่งตรงกับค่า p MCMC ของฉันอย่างใกล้ชิด (และไม่ได้รับเวลาการประมวลผลที่มาพร้อมกับการใช้pvals.fnc()) ฉันดูรหัสในคร่าวๆgetSummary.merแล้วเห็นเส้นที่สร้างค่า p: p <- (1 - pnorm(abs(smry@coefs[, 3]))) * 2 สิ่งนี้หมายความว่าค่า p สามารถสร้างได้โดยตรงจากlmerเอาต์พุตของแทนที่จะเรียกใช้pvals.fncหรือไม่ ฉันรู้ว่าสิ่งนี้จะไม่เริ่มสงสัยการอภิปราย 'ค่านิยมทางไสยศาสตร์' แต่ฉันสนใจที่จะรู้ ฉันไม่ได้ยินกล่าวก่อนเมื่อมันมาถึงmemisclmer เพื่อรวบรัดมากขึ้น: อะไรคือประโยชน์ (ถ้ามี) ของการใช้ค่า p MCMC มากกว่าที่สร้างขึ้นโดยgetSummary.mer()?

1
วิธีการแปลเอาต์พุตจาก lm () ให้พอดีกับลูกบาศก์ spline เป็นสมการถดถอย
ฉันมีรหัสและผลลัพธ์และฉันต้องการสร้างแบบจำลอง ฉันไม่ทราบวิธีการสร้างแบบจำลองโดยใช้ผลลัพธ์นี้: require("splines") x <- c(0.2, 0.23, 0.26, 0.29, 0.33, 0.46, 0.53 ) y <- c(0.211, 0.2026, 0.2034, 0.2167, 0.2177, 0.19225, 0.182) fit <- lm(y ~ ns(x,3)) summary(fit) โปรดทราบว่าns()สร้างเมทริกซ์พื้นฐาน B-spline สำหรับลูกบาศก์ธรรมชาติ ดังนั้นรุ่นนี้ถอยหลังyกับ B-spline สำหรับการxใช้สามองศาอิสระ สมการสำหรับตัวแบบนั้นจะเป็นอย่างไร?
12 r  splines 

4
วิธีที่ดีที่สุดในการเก็บข้อมูลเพื่อการวิเคราะห์ทางสถิติใน R [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน6 ปีที่ผ่านมา ฉันใช้ไฟล์ข้อความเพื่อจัดเก็บข้อมูลของฉันสำหรับ R โดยไม่มีปัญหามาระยะหนึ่งแล้ว แต่สำหรับโครงการเมื่อเร็ว ๆ นี้ขนาดของไฟล์จะใหญ่เกินไปสำหรับไฟล์ข้อความแบบดิบที่จะจัดการ ทางเลือกง่ายๆที่ดีที่สุดคืออะไร
12 r  dataset 

2
แบบผสมที่มี 1 การสังเกตต่อระดับ
ฉันปรับโมเดลเอฟเฟกต์แบบสุ่มให้เหมาะกับglmerข้อมูลธุรกิจบางอย่าง จุดมุ่งหมายคือการวิเคราะห์ประสิทธิภาพการขายโดยผู้จัดจำหน่ายโดยคำนึงถึงความหลากหลายของภูมิภาค ฉันมีตัวแปรต่อไปนี้: distcode: รหัสผู้จำหน่ายที่มีประมาณ 800 ระดับ region: รหัสทางภูมิศาสตร์ระดับบนสุด (เหนือ, ใต้, ตะวันออก, ตะวันตก) zone: ภูมิศาสตร์ระดับกลางซ้อนกันภายในregionประมาณ 30 ระดับในทุกระดับ territory: ภูมิศาสตร์ระดับต่ำซ้อนกันภายในzoneประมาณ 150 ระดับ ผู้จัดจำหน่ายแต่ละรายดำเนินงานในพื้นที่เดียวเท่านั้น ส่วนที่ยุ่งยากคือการสรุปข้อมูลพร้อมจุดข้อมูลหนึ่งจุดต่อผู้จัดจำหน่าย ดังนั้นฉันจึงมี 800 จุดข้อมูลและฉันพยายามปรับให้พอดี (อย่างน้อย) พารามิเตอร์ 800 ถึงแม้ว่าจะเป็นแบบธรรมดา ฉันได้ติดตั้งโมเดลดังนี้: glmer(ninv ~ 1 + (1|region/zone/territory) + (1|distcode), family=poisson) สิ่งนี้จะทำงานโดยไม่มีปัญหาแม้ว่าจะพิมพ์บันทึกย่อ: จำนวนระดับของปัจจัยการจัดกลุ่มสำหรับเอฟเฟกต์แบบสุ่มเท่ากับ n จำนวนการสังเกต นี่เป็นสิ่งที่ควรทำใช่ไหม ฉันได้รับการประมาณค่าสัมประสิทธิ์ทั้งหมดและ AIC ก็ไม่สมเหตุสมผล ถ้าฉันลองปัวซอง GLMM ด้วยลิงก์ตัวตน …

1
เกณฑ์สำหรับการเลือกโมเดล“ ดีที่สุด” ในโมเดลมาร์คอฟที่ซ่อนอยู่
ฉันมีชุดข้อมูลอนุกรมเวลาที่ฉันพยายามจัดวางแบบซ่อนมาร์คอฟ (HMM) เพื่อประเมินจำนวนสถานะแฝงในข้อมูล รหัสหลอกของฉันสำหรับทำสิ่งนี้มีดังต่อไปนี้: for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states = "model with smallest BIC" ... } ตอนนี้ในรูปแบบการถดถอยปกติ BIC มีแนวโน้มที่จะชอบรูปแบบที่น่าสังเวชมากที่สุด แต่ในกรณีของ HMM ฉันไม่แน่ใจว่ามันคือสิ่งที่ทำ มีใครบ้างที่ทราบว่าเกณฑ์ BIC ของ HMM ประเภทใดมีแนวโน้มเป็นจริง? ฉันยังสามารถได้รับ AIC และค่าความน่าจะเป็นเช่นกัน เนื่องจากฉันพยายามที่จะอนุมานจำนวนจริงของรัฐเป็นหนึ่งในเกณฑ์เหล่านี้ "ดีกว่า" เพื่ออื่น ๆ สำหรับวัตถุประสงค์นี้หรือไม่

1
ขั้นตอนแรกเรียนรู้การทำนายไทม์ทางการเงินโดยใช้การเรียนรู้ของเครื่อง
ฉันพยายามเข้าใจวิธีใช้การเรียนรู้ของเครื่องเพื่อทำนายไทม์ทางการเงิน 1 ขั้นตอนหรือมากกว่าในอนาคต ฉันมีช่วงเวลาทางการเงินพร้อมข้อมูลเชิงพรรณนาและฉันต้องการจัดทำแบบจำลองจากนั้นใช้แบบจำลองเพื่อทำนายขั้นตอนล่วงหน้า สิ่งที่ฉันได้ทำไปคือ: getSymbols("GOOG") GOOG$sma <- SMA(Cl(GOOG)) GOOG$range <- GOOG$GOOG.High-GOOG$GOOG.Low tail(GOOG) GOOG.Open GOOG.High GOOG.Low GOOG.Close GOOG.Volume GOOG.Adjusted sma range 2013-05-07 863.01 863.87 850.67 857.23 1959000 857.23 828.214 13.20 2013-05-08 857.00 873.88 852.91 873.63 2468300 873.63 834.232 20.97 2013-05-09 870.84 879.66 868.23 871.48 2200600 871.48 840.470 11.43 2013-05-10 875.31 …

2
จะทดสอบการกระจายตัวมากเกินไปใน Poisson GLMM ด้วย lmer () ใน R ได้อย่างไร
ฉันมีรูปแบบดังต่อไปนี้: > model1<-lmer(aph.remain~sMFS1+sAG1+sSHDI1+sbare+season+crop +(1|landscape),family=poisson) ... และนี่คือผลลัพธ์สรุป > summary(model1) Generalized linear mixed model fit by the Laplace approximation Formula: aph.remain ~ sMFS1 + sAG1 + sSHDI1 + sbare + season + crop + (1 | landscape) AIC BIC logLik deviance 4057 4088 -2019 4039 Random effects: Groups Name Variance Std.Dev. landscape …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.