คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

3
การคำนวณค่า p โดยใช้ bootstrap ด้วย R
ฉันใช้แพคเกจ "boot" เพื่อคำนวณค่าp-value bootstrapped แบบสองด้านโดยประมาณแต่ผลลัพธ์นั้นอยู่ห่างจาก p-value ของการใช้ t.test มากเกินไป ฉันไม่สามารถหาสิ่งที่ฉันทำผิดในรหัส R ของฉัน ใครช่วยได้โปรดให้คำแนะนำสำหรับเรื่องนี้กับฉัน time = c(14,18,11,13,18,17,21,9,16,17,14,15, 12,12,14,13,6,18,14,16,10,7,15,10) group=c(rep(1:2, each=12)) sleep = data.frame(time, group) require(boot) diff = function(d1,i){ d = d1[i,] Mean= tapply(X=d$time, INDEX=d$group, mean) Diff = Mean[1]-Mean[2] Diff } set.seed(1234) b3 = boot(data = sleep, statistic = diff, R = …

3
มีฟังก์ชั่นเริ่มต้นสำหรับการกระจายแบบไม่ต่อเนื่องใน R หรือไม่?
การแจกแจงมาตรฐานส่วนใหญ่ใน R มีตระกูลคำสั่ง - pdf / pmf, cdf / cmf, quantile, deviates แบบสุ่ม (ตัวอย่างเช่น dnorm, pnorm, qnorm, rnorm) ฉันรู้ว่ามันง่ายพอที่จะใช้ประโยชน์จากคำสั่งมาตรฐานในการทำซ้ำฟังก์ชั่นเหล่านี้สำหรับการแจกแจงแบบไม่ต่อเนื่องกัน แต่มีฟังก์ชั่นตระกูลในตัวที่ต้องการสำหรับการสร้างแบบจำลองการกระจายชุดแบบไม่ต่อเนื่องใน R

3
ใครควรติดตาม GitHub เพื่อเรียนรู้เกี่ยวกับแนวปฏิบัติที่ดีที่สุดในการวิเคราะห์ข้อมูล
มันจะเป็นประโยชน์ในการศึกษารหัสการวิเคราะห์ข้อมูลของผู้เชี่ยวชาญ เมื่อไม่นานมานี้ฉันได้อ่านgithubและมีผู้คนจำนวนหนึ่งเปิดเผยรหัสการวิเคราะห์ข้อมูลที่นั่น ซึ่งรวมถึงแพ็คเกจ R สองสามอัน (ซึ่งแน่นอนมีให้โดยตรงจาก CRAN) แต่ยังมีอีกหลายตัวอย่างของการวิจัยที่ทำซ้ำได้โดยเฉพาะการใช้ R ( ดูรายการ R นี้บน GitHub ) ใครคือคนดีที่จะติดตาม GitHub เพื่อเรียนรู้เกี่ยวกับแนวปฏิบัติที่ดีที่สุดในการวิเคราะห์ข้อมูล อีกทางเลือกหนึ่งพวกเขาแบ่งปันรหัสประเภทใดและทำไมจึงมีประโยชน์นี้

4
Pseudo R สูตรกำลังสองสำหรับ GLMs
ฉันพบสูตรสำหรับหลอกR2R2R^2ในหนังสือขยายแบบจำลองเชิงเส้นด้วย R, Julian J. Faraway (หน้า 59) 1−ResidualDevianceNullDeviance1−ResidualDevianceNullDeviance1-\frac{\text{ResidualDeviance}}{\text{NullDeviance}}NullDeviance นี่เป็นสูตรทั่วไปสำหรับหลอกR2R2R^2สำหรับ GLM หรือไม่

3
เริ่มวิตกเกี่ยวกับอนุกรมเวลาด้วย R
หากคุณคิดย้อนกลับไปถึงเมื่อคุณเริ่มต้นด้วยการวิเคราะห์อนุกรมเวลา คุณต้องการใช้เครื่องมือแพ็คเกจ R และทรัพยากรอินเทอร์เน็ตอะไรบ้าง สิ่งที่ฉันพยายามถามคือควรเริ่มต้นที่ไหน โดยเฉพาะมีทรัพยากรใด ๆ สำหรับ R ที่ต้มลงจริง ๆ สำหรับผู้ที่ "ใหม่" การวิเคราะห์อนุกรมเวลากับ R
28 r  time-series 

5
คำแนะนำสำหรับการสร้างรหัส R ใช้หลายโปรเซสเซอร์หรือไม่
ฉันมีสคริปต์ R สำหรับอ่านข้อมูล csv จำนวนมากจากไฟล์ต่าง ๆ จากนั้นทำงานการเรียนรู้ของเครื่องเช่น svm สำหรับการจัดหมวดหมู่ มีห้องสมุดใดที่ใช้ประโยชน์หลายคอร์บนเซิร์ฟเวอร์สำหรับอาร์ หรือ วิธีที่เหมาะสมที่สุดในการบรรลุนั้นคืออะไร?

26
แพ็คเกจ R ใดที่คุณพบว่ามีประโยชน์มากที่สุดในการทำงานประจำวันของคุณ
เธรดที่ซ้ำกัน: ฉันเพิ่งติดตั้ง R. เวอร์ชันล่าสุดฉันควรได้รับแพ็คเกจอะไร แพ็คเกจRคืออะไรที่คุณนึกไม่ออกว่าจะทำงานกับข้อมูลทุกวัน? กรุณาระบุเครื่องมือทั้งแบบทั่วไปและแบบเจาะจง ปรับปรุง: สำหรับ 24.10.10 ggplot2ดูเหมือนว่าจะเป็นผู้ชนะด้วย 7 คะแนน แพ็คเกจอื่น ๆ ที่กล่าวถึงมากกว่าหนึ่งคือ: plyr - 4 RODBC, RMySQL- 4 sqldf - 3 lattice - 2 zoo - 2 Hmisc/rms - 2 Rcurl - 2 XML - 2 ขอบคุณสำหรับคำตอบของคุณ!
28 r 

3
วิธีจัดการกับความหลากสีเมื่อทำการเลือกตัวแปร?
ฉันมีชุดข้อมูลที่มีตัวแปรอิสระต่อเนื่อง 9 ตัว ฉันกำลังพยายามเลือกระหว่างตัวแปรเหล่านี้เพื่อให้พอดีกับแบบจำลองกับตัวแปรเปอร์เซ็นต์ (ขึ้นอยู่) เดียว, Score. น่าเสียดายที่ฉันรู้ว่าจะมีความร่วมมือกันอย่างจริงจังระหว่างตัวแปรหลายตัว ฉันได้ลองใช้stepAIC()ฟังก์ชั่นใน R เพื่อเลือกตัวแปร แต่วิธีการนั้นดูแปลกไปตามลำดับที่ตัวแปรถูกแสดงในสมการ ... นี่คือรหัส R ของฉัน (เนื่องจากเป็นข้อมูลเปอร์เซ็นต์ฉันใช้การแปลง logit สำหรับคะแนน): library(MASS) library(car) data.tst = read.table("data.txt",header=T) data.lm = lm(logit(Score) ~ Var1 + Var2 + Var3 + Var4 + Var5 + Var6 + Var7 + Var8 + Var9, data = data.tst) step = …

4
วิธีลดขนาดใน R
ฉันมีเมทริกซ์โดยที่ (i, j) บอกฉันกี่ครั้งที่ฉันดูเพจ j มีบุคคล 27K และหน้า 95K ฉันต้องการ "มิติ" หรือ "แง่มุม" จำนวนหนึ่งในพื้นที่ของหน้าเว็บซึ่งจะสอดคล้องกับชุดของหน้าเว็บที่มักจะดูด้วยกัน เป้าหมายสูงสุดของฉันคือเพื่อให้สามารถคำนวณความถี่ที่แต่ละบุคคลที่ฉันได้ดูหน้าเว็บที่อยู่ในส่วนข้อมูล 1 ส่วนข้อมูล 2 และอื่น ๆ ฉันได้อ่านเอกสาร R เกี่ยวกับการวิเคราะห์องค์ประกอบหลักและการสลายตัวของค่าเดียวและดำเนินการคำสั่งเหล่านี้แล้ว แต่ฉันไม่แน่ใจว่าจะดำเนินการอย่างไร ฉันจะใช้การลดขนาดเพื่อทำสิ่งนี้ได้อย่างไร หรือนี่เป็นปัญหาการจัดกลุ่มจริง ๆ และฉันควรมองเข้าไปในอัลกอริทึมการจัดกลุ่มแทนหรือไม่ ขอบคุณมากสำหรับความเข้าใจใด ๆ ~ l

1
องศาอิสระเป็นหมายเลขที่ไม่ใช่จำนวนเต็มหรือไม่
เมื่อฉันใช้ GAM มันให้ DF ที่เหลือกับฉันคือ (บรรทัดสุดท้ายในรหัส) นั่นหมายความว่าอย่างไร? นอกเหนือไปจากตัวอย่างของ GAM โดยทั่วไปแล้วจำนวนองศาความเป็นอิสระจะเป็นจำนวนที่ไม่ใช่จำนวนเต็มหรือไม่26.626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance Residuals: Min 1Q Median 3Q Max -4.1470 -1.6217 -0.8971 1.2445 6.0516 (Dispersion Parameter for gaussian family taken to be 6.6717) Null Deviance: 1126.047 on 31 degrees …
27 r  degrees-of-freedom  gam  machine-learning  pca  lasso  probability  self-study  bootstrap  expected-value  regression  machine-learning  linear-model  probability  simulation  random-generation  machine-learning  distributions  svm  libsvm  classification  pca  multivariate-analysis  feature-selection  archaeology  r  regression  dataset  simulation  r  regression  time-series  forecasting  predictive-models  r  mean  sem  lavaan  machine-learning  regularization  regression  conv-neural-network  convolution  classification  deep-learning  conv-neural-network  regression  categorical-data  econometrics  r  confirmatory-factor  scale-invariance  self-study  unbiased-estimator  mse  regression  residuals  sampling  random-variable  sample  probability  random-variable  convergence  r  survival  weibull  references  autocorrelation  hypothesis-testing  distributions  correlation  regression  statistical-significance  regression-coefficients  univariate  categorical-data  chi-squared  regression  machine-learning  multiple-regression  categorical-data  linear-model  pca  factor-analysis  factor-rotation  classification  scikit-learn  logistic  p-value  regression  panel-data  multilevel-analysis  variance  bootstrap  bias  probability  r  distributions  interquartile  time-series  hypothesis-testing  normal-distribution  normality-assumption  kurtosis  arima  panel-data  stata  clustered-standard-errors  machine-learning  optimization  lasso  multivariate-analysis  ancova  machine-learning  cross-validation 

4
เกิดอะไรขึ้นกับ t-SNE กับ PCA สำหรับการลดขนาดโดยใช้ R
ฉันมีเมทริกซ์ของจำนวนจุดลอยตัว 336x256 (336 จีโนมแบคทีเรีย (คอลัมน์) x 256 ความถี่ tetranucleotide ปกติ (แถว) เช่นทุกคอลัมน์เพิ่มขึ้นถึง 1) ฉันได้รับผลลัพธ์ที่ดีเมื่อฉันรันการวิเคราะห์โดยใช้การวิเคราะห์องค์ประกอบหลักการ ก่อนอื่นฉันคำนวณกลุ่ม kmeans ของข้อมูลจากนั้นเรียกใช้ PCA และทำให้จุดข้อมูลเป็นสีตามการจัดกลุ่ม kmeans เริ่มต้นใน 2D และ 3D: library(tsne) library(rgl) library(FactoMineR) library(vegan) # read input data mydata <-t(read.csv("freq.out", header = T, stringsAsFactors = F, sep = "\t", row.names = 1)) # Kmeans Cluster with …
27 r  pca  tsne 

2
อะไรคือค่า p, d, q, ใน ARIMA?
ในarimaฟังก์ชันใน R order(1, 0, 12)หมายถึงอะไร อะไรคือค่าที่สามารถกำหนดให้p, d, qและสิ่งที่เป็นกระบวนการในการหาค่าเหล่านั้นหรือไม่
27 r  time-series  arima 

2
ในโมเดลหลายระดับความหมายเชิงปฏิบัติของการประเมินเปรียบเทียบกับพารามิเตอร์สหสัมพันธ์แบบสุ่มที่ไม่ประมาณค่าคืออะไร
ในโมเดลหลายระดับสิ่งที่เกี่ยวข้องกับการตีความและการตีความของการประมาณค่ากับความสัมพันธ์ของผลกระทบแบบสุ่มที่ไม่ประมาณค่าคืออะไร เหตุผลในทางปฏิบัติสำหรับการถามสิ่งนี้คือในกรอบ lmer ใน R ไม่มีวิธีการดำเนินการสำหรับการประเมินค่า p ผ่านเทคนิค MCMC เมื่อมีการประมาณการในรูปแบบของความสัมพันธ์ระหว่างพารามิเตอร์ ตัวอย่างเช่นเมื่อดูตัวอย่างนี้ (ส่วนที่ยกมาด้านล่าง) อะไรคือความหมายเชิงปฏิบัติของ M2 กับ M3 เห็นได้ชัดว่าในกรณีหนึ่ง P5 จะไม่ถูกประมาณและอีกอันจะเป็นเช่นนั้น คำถาม ด้วยเหตุผลเชิงปฏิบัติ (ความปรารถนาที่จะได้รับค่า p ผ่านเทคนิค MCMC) เราอาจต้องการแบบจำลองที่ไม่มีความสัมพันธ์ระหว่างเอฟเฟกต์แบบสุ่มแม้ว่า P5 นั้นจะไม่ใช่ศูนย์ก็ตาม หากมีสิ่งนี้แล้วประมาณค่า p ผ่านเทคนิค MCMC ผลลัพธ์ที่ตีความได้คืออะไร? (ฉันรู้ @ Ben Bolker ได้กล่าวถึงก่อนหน้านี้ว่า"การรวมการทดสอบอย่างมีนัยสำคัญกับ MCMC เป็นไม่ต่อเนื่องกันนิด ๆ หน่อย ๆ สถิติแม้ว่าผมเข้าใจกระตุ้นที่จะทำเช่นนั้น (รับช่วงความเชื่อมั่นเป็นที่ค้ำเพิ่มเติม)"ดังนั้นถ้ามันจะทำให้คุณนอนหลับดีขึ้น ในตอนกลางคืนแกล้งทำเป็นว่าฉันมั่นใจช่วงเวลา) หากไม่สามารถประมาณ P5 นั่นคือสิ่งเดียวกันกับที่ยืนยันว่าเป็น 0 …

1
องศาอิสระที่เหลือที่เหมาะสมหลังจากปล่อยเงื่อนไขจากแบบจำลอง
ฉันกำลังสะท้อนให้เห็นถึงการอภิปรายรอบคำถามนี้และโดยเฉพาะอย่างยิ่งความคิดเห็นแฟรงก์ฮาร์เรลที่ประมาณการของการเปลี่ยนแปลงรูปแบบการลดลง (เช่นหนึ่งจากการที่จำนวนของตัวแปรอธิบายได้รับการทดสอบและปฏิเสธ) ควรใช้เยองศาทั่วไปของเสรีภาพ ศาสตราจารย์ฮาร์เรลล์ชี้ให้เห็นว่าสิ่งนี้จะใกล้เคียงกับองศาอิสระที่เหลืออยู่ของแบบจำลอง "เต็ม" แบบดั้งเดิม (ที่มีตัวแปรทั้งหมด) มากกว่าแบบจำลองสุดท้าย (ซึ่งตัวแปรจำนวนหนึ่งถูกปฏิเสธ) คำถามที่ 1 หากฉันต้องการใช้วิธีการที่เหมาะสมกับบทสรุปและสถิติมาตรฐานทั้งหมดจากแบบจำลองที่ลดลง (แต่ขาดการดำเนินการอย่างเต็มรูปแบบขององศาความเป็นอิสระทั่วไป) วิธีการที่สมเหตุสมผลจะเป็นเพียงแค่ใช้องศาอิสระที่เหลือจาก แบบจำลองเต็มรูปแบบในการประมาณค่าความแปรปรวนที่เหลือเป็นต้น คำถามที่ 2 หากข้างต้นเป็นจริงและฉันต้องการที่จะทำมันRอาจจะง่ายเหมือนการตั้งค่า finalModel$df.residual <- fullModel$df.residual ในบางจุดของแบบฝึกหัดการสร้างแบบจำลองที่ซึ่ง finalModel และ fullModel ถูกสร้างขึ้นด้วย lm () หรือฟังก์ชันที่คล้ายกัน หลังจากที่ฟังก์ชั่นเช่นสรุป () และ confint () ดูเหมือนจะทำงานกับ df.residual ที่ต้องการแม้ว่าจะส่งคืนข้อความแสดงข้อผิดพลาดว่ามีบางคนได้บดบังด้วยวัตถุ finalModel อย่างชัดเจน


โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.