คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

4
จะนำเสนอผลกำไรในรูปแบบต่าง ๆ ที่อธิบายได้อย่างไรเนื่องจากสหสัมพันธ์ของ Y และ X เป็นอย่างไร?
ฉันกำลังค้นหาวิธี (มองเห็น) อธิบายความสัมพันธ์เชิงเส้นอย่างง่ายกับนักเรียนปีแรก วิธีการมองภาพแบบดั้งเดิมคือการให้พล็อตกระจาย Y ~ X ที่มีเส้นถดถอยตรง เมื่อเร็ว ๆ นี้ฉันมาด้วยความคิดที่จะขยายกราฟิกประเภทนี้โดยการเพิ่มพล็อตอีก 3 ภาพทิ้งฉันไว้กับ: พล็อตกระจายของ y ~ 1 จากนั้น y ~ x, ที่เหลือ (y ~ x) ~ x และสุดท้าย ของที่เหลือ (y ~ x) ~ 1 (อยู่กึ่งกลางค่ากลาง) นี่คือตัวอย่างของการสร้างภาพข้อมูล: และรหัส R เพื่อผลิตมัน: set.seed(345) x <- runif(50) * 10 y <- x +rnorm(50) layout(matrix(c(1,2,2,2,2,3 …

5
การวัดการถดถอยของค่าเฉลี่ยในการกดปุ่มในการวิ่งกลับบ้าน
ทุกคนที่ติดตามเบสบอลมีโอกาสได้ยินเกี่ยวกับการแสดง MVP นอกสมัยของ Jose Bautista ของโตรอนโต ในสี่ปีก่อนหน้านี้เขามีการวิ่งกลับบ้าน 15 ครั้งต่อฤดูกาล ปีที่แล้วเขาตี 54 ได้มีผู้เล่นมากกว่า 12 คนในประวัติศาสตร์เบสบอล ในปี 2010 เขาได้รับเงิน 2.4 ล้านและเขาขอให้ทีม 10.5 ล้านคนในปี 2011 พวกเขาเสนอเงิน 7.6 ล้าน หากเขาสามารถทำซ้ำได้ในปี 2554 เขาจะมีมูลค่าทั้งสองอย่างง่ายดาย แต่โอกาสของเขาคือการทำซ้ำ? เราจะคาดหวังได้ยากแค่ไหนที่เขาจะถดถอย เราคาดหวังว่าการแสดงของเขาจะเกิดขึ้นได้เท่าไหร่เพราะโอกาส? เราคาดหวังได้อย่างไรว่ายอดรวม 2010 ที่ปรับแล้วของเขาการถดถอยจะเป็นอย่างไร ฉันจะทำงานออกมาได้อย่างไร ฉันได้เล่นกับฐานข้อมูลเบสบอล Lahman และบีบเคียวรีที่ส่งคืนผลรวมการวิ่งกลับบ้านสำหรับผู้เล่นทั้งหมดในห้าฤดูกาลก่อนหน้านี้ซึ่งมีค้างคาวอย่างน้อย 50 ตัวต่อฤดูกาล ตารางมีลักษณะเช่นนี้ (สังเกตเห็น Jose Bautista ในแถวที่ 10) first last hr_2006 hr_2007 …
11 r  regression  modeling 

2
หนึ่งพล็อตจะต่อเนื่องโดยการโต้ตอบอย่างต่อเนื่องใน ggplot2 ได้อย่างไร
สมมติว่าฉันมีข้อมูล: x1 <- rnorm(100,2,10) x2 <- rnorm(100,2,10) y <- x1+x2+x1*x2+rnorm(100,1,2) dat <- data.frame(y=y,x1=x1,x2=x2) res <- lm(y~x1*x2,data=dat) summary(res) ฉันต้องการพล็อตแบบต่อเนื่องโดยการโต้ตอบแบบต่อเนื่องเช่นที่ x1 อยู่บนแกน X และ x2 แทนด้วย 3 เส้นเส้นหนึ่งซึ่งแทน x2 ที่ Z-score เป็น 0 หนึ่งที่ Z-+1 ที่ +1 Z-score ที่ -1 โดยแต่ละบรรทัดจะมีสีแยกกันและติดป้ายกำกับ ฉันจะทำสิ่งนี้โดยใช้ ggplot2 ได้อย่างไร ตัวอย่างเช่นอาจมีลักษณะเช่นนี้ (แต่แน่นอนว่ามีเส้นสีต่างกันแทนที่จะเป็นประเภทเส้นต่างกัน):

5
การทดสอบสมมติฐานเชิงบรรทัดฐานสำหรับมาตรการ anova ซ้ำแล้วซ้ำอีก? (ใน R)
ดังนั้นสมมติว่ามีจุดหนึ่งในการทดสอบเกณฑ์ปกติของโนวา (ดู1และ2 ) มันสามารถทดสอบใน R ได้อย่างไร? ฉันคาดหวังว่าจะทำสิ่งที่ชอบ: ## From Venables and Ripley (2002) p.165. utils::data(npk, package="MASS") npk.aovE <- aov(yield ~ N*P*K + Error(block), npk) residuals(npk.aovE) qqnorm(residuals(npk.aov)) ซึ่งไม่ได้ผลเนื่องจาก "ส่วนที่เหลือ" ไม่มีวิธี (หรือคาดการณ์สำหรับเรื่องนั้น) สำหรับกรณีของมาตรการโนวาซ้ำ ๆ ดังนั้นสิ่งที่ควรทำในกรณีนี้? สามารถดึงสารตกค้างจากแบบจำลองแบบเดียวกันโดยไม่มีเงื่อนไขข้อผิดพลาดได้หรือไม่? ฉันไม่คุ้นเคยกับวรรณกรรมเพียงพอที่จะรู้ว่าสิ่งนี้ถูกต้องหรือไม่ขอบคุณล่วงหน้าสำหรับคำแนะนำใด ๆ

3
การประมาณพารามิเตอร์ของโมเดลเชิงเส้นแบบไดนามิก
ฉันต้องการที่จะใช้ (ใน R) แบบจำลองเชิงเส้นตรงแบบง่าย ๆ ดังต่อไปนี้ซึ่งฉันมี 2 ตัวแปรที่ไม่รู้จักเวลา (ความแปรปรวนของข้อผิดพลาดการสังเกตและความแปรปรวนของข้อผิดพลาดของรัฐϵ 2 t )ε1เสื้อϵt1\epsilon^1_tε2เสื้อϵt2\epsilon^2_t Yเสื้อθt + 1==θเสื้อ+ ϵ1เสื้อθเสื้อ+ ϵ2เสื้อYt=θt+ϵt1θt+1=θt+ϵt2 \begin{matrix} Y_t & = & \theta_t + \epsilon^1_t\\ \theta_{t+1} & = & \theta_{t}+\epsilon^2_t \end{matrix} ฉันต้องการที่จะประมาณค่าพารามิเตอร์เหล่านี้ที่จุดในแต่ละครั้ง, โดยไม่ต้องมีอคติมองไปข้างหน้า จากสิ่งที่ฉันเข้าใจฉันสามารถใช้ MCMC (บนหน้าต่างกลิ้งเพื่อหลีกเลี่ยงอคติข้างหน้า) หรือตัวกรองอนุภาค (หรือ Sequential Monte Carlo - SMC) วิธีการที่คุณจะใช้และ อะไรคือข้อดีและข้อเสียของทั้งสองวิธี? คำถามโบนัส: ในวิธีการเหล่านี้คุณจะเลือกความเร็วของการเปลี่ยนแปลงพารามิเตอร์ได้อย่างไร ฉันเดาว่าเราต้องป้อนข้อมูลที่นี่เพราะมีการต่อรองระหว่างการใช้ข้อมูลจำนวนมากเพื่อประเมินพารามิเตอร์และใช้ข้อมูลน้อยลงเพื่อตอบสนองต่อการเปลี่ยนแปลงของพารามิเตอร์ได้เร็วขึ้นหรือไม่
11 r  mcmc  dlm  particle-filter 

2
สร้างการสรุปโดยอัตโนมัติด้วยตัวแปรปัจจัยใน R
ฉันมีชื่อไฟล์ดังต่อไปนี้: case simulation temp plank oxygen 1 1 1 8 7 11 2 2 1 16 10 15 ... 17 17 2 26 12 17 18 18 2 15 8 12 19 19 2 28 11 21 20 20 2 24 6 14 ฉันต้องการสรุปโดยแยกตามระดับของตัวแปรการจำลอง ตัวอย่างเช่นฉันต้องการค่าเฉลี่ยของtempการจำลอง == 1 และจำลอง == 2 …
11 r 

1
ข้อมูลสองปีที่อธิบายการเกิดขึ้นของสมาคมการทดสอบความรุนแรงกับจำนวนผู้ป่วยในวอร์ด
ฉันมีข้อมูลสองปีซึ่งมีลักษณะโดยทั่วไปดังนี้ วันที่ _ __ ความรุนแรง Y / N? _ จำนวนผู้ป่วย 1/1/2551 _ ___ 0 __ _ __ _ ____ 11 2/1/2551 _ __ _ 0 _ __ _ __ _ __ 11 3/1/2551 _ ____ 1 __ _ __ _ ____ 12 4/1/2551 _ ____ 0 __ _ __ _ …

1
อะไรคือความแตกต่างระหว่างวัตถุสรุป () และโหลด () สำหรับวัตถุ princomp () ใน R?
รหัสตัวอย่าง: (pc.cr <- princomp(USArrests)) summary(pc.cr) loadings(pc.cr) ## note that blank entries are small but not zero ฉันได้รับผลต่างกันออกไปและฉันไม่แน่ใจว่าฉันเข้าใจความแตกต่างอะไร นี่คือผลลัพธ์: > summary(pc.cr) Importance of components: Comp.1 Comp.2 Comp.3 Comp.4 Standard deviation 82.8908472 14.06956001 6.424204055 2.4578367034 Proportion of Variance 0.9655342 0.02781734 0.005799535 0.0008489079 Cumulative Proportion 0.9655342 0.99335156 0.999151092 1.0000000000 > loadings(pc.cr) ## note …
11 r  pca 

2
ประเมินความสัมพันธ์ (มองเห็น) อย่างรวดเร็วระหว่างข้อมูลหมวดหมู่ที่ได้รับคำสั่งใน R หรือไม่
ฉันกำลังมองหาความสัมพันธ์ระหว่างคำตอบของคำถามต่าง ๆ ในแบบสำรวจ ("อืมลองดูว่าคำตอบของคำถาม 11 มีความสัมพันธ์กับคำถาม 78 หรือไม่" คำตอบทั้งหมดเป็นหมวดหมู่ (ส่วนใหญ่มีตั้งแต่ "ไม่มีความสุขมาก" ถึง "มีความสุขมาก") แต่มีคำตอบไม่กี่ชุด ส่วนใหญ่สามารถพิจารณาลำดับที่ดังนั้นลองพิจารณากรณีนี้ที่นี่ เนื่องจากฉันไม่สามารถเข้าถึงโปรแกรมสถิติเชิงพาณิชย์ได้ฉันต้องใช้ R ฉันลองRattle (แพ็คเกจการขุดข้อมูลฟรีแวร์สำหรับ R ดีมาก) แต่น่าเสียดายที่มันไม่รองรับข้อมูลที่เป็นหมวดหมู่ แฮ็คหนึ่งที่ฉันสามารถใช้ได้คือการนำเข้าในแบบสำรวจที่เขียนโค้ดซึ่งมีตัวเลข (1..5) แทนที่จะเป็น "ไม่มีความสุขมาก" ... "มีความสุข" และปล่อยให้ Rattle เชื่อว่าเป็นข้อมูลตัวเลข ฉันกำลังคิดที่จะพล็อตกระจายและมีขนาดจุดตามสัดส่วนของตัวเลขสำหรับแต่ละคู่ หลังจาก googling ฉันพบhttp://www.r-statistics.com/2010/04/correlation-scatter-plot-matrix-for-ordered-categorical-data/แต่ดูเหมือนว่าซับซ้อนมาก (สำหรับฉัน) ฉันไม่ใช่นักสถิติ (แต่เป็นโปรแกรมเมอร์) แต่มีการอ่านบางอย่างในเรื่องนี้และถ้าฉันเข้าใจอย่างถูกต้องRho ของ Spearmanจะเหมาะสมที่นี่ ดังนั้นคำถามสั้น ๆ สำหรับผู้ที่รีบร้อน: มีวิธีที่จะทำแบบ Rho ของ Spearman ใน Rหรือไม่? …

6
วิธีค้นหาสถิติสรุปสำหรับชุดค่าผสมที่ไม่ซ้ำกันทั้งหมดใน data.frame ใน R [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน2 ปีที่ผ่านมา ฉันต้องการคำนวณสรุปของตัวแปรใน data.frame สำหรับชุดค่าผสมแต่ละตัวที่ไม่ซ้ำกันของปัจจัยใน data.frame ฉันควรใช้ plyr เพื่อทำสิ่งนี้หรือไม่? ฉันตกลงกับการใช้ลูปแทนการใช้ (); ดังนั้นการหาชุดค่าผสมที่ไม่ซ้ำกันแต่ละชุดจะเพียงพอ

1
ลูกศรของตัวแปรพื้นฐานใน PCA biplot ใน R
ด้วยความเสี่ยงในการสร้างคำถามเฉพาะซอฟต์แวร์และด้วยข้ออ้างเกี่ยวกับความแพร่หลายและความแปลกประหลาดของมันฉันต้องการถามเกี่ยวกับฟังก์ชั่นbiplot()ใน R และโดยเฉพาะอย่างยิ่งมากขึ้นเกี่ยวกับการคำนวณและการวางแผนของลูกศรสีแดงซ้อน ไปยังตัวแปรพื้นฐาน [เพื่อให้เข้าใจถึงความคิดเห็นบางส่วนในตอนแรกแผนการที่โพสต์มีปัญหาที่น่าสนใจอย่างมากและตอนนี้ถูกลบไปแล้ว]
11 r  pca  biplot 

1
R / mgcv: เพราะเหตุใดผลิตภัณฑ์ te () และ ti () เทนเซอร์จึงให้พื้นผิวที่แตกต่างกัน
mgcvแพคเกจสำหรับการRมีสองฟังก์ชั่นสำหรับการปฏิสัมพันธ์กระชับเมตริกซ์ผลิตภัณฑ์: และte() ti()ฉันเข้าใจการแบ่งขั้นพื้นฐานของการใช้แรงงานระหว่างคนทั้งสอง (ปรับให้เหมาะสมกับการทำงานแบบไม่เป็นเชิงเส้นเปรียบเทียบกับการย่อยสลายการโต้ตอบนี้เป็นผลกระทบหลักและการโต้ตอบ) สิ่งที่ฉันไม่เข้าใจคือสาเหตุte(x1, x2)และti(x1) + ti(x2) + ti(x1, x2)อาจให้ผลลัพธ์ที่แตกต่าง (เล็กน้อย) MWE (ดัดแปลงมาจาก?ti): require(mgcv) test1 <- function(x,z,sx=0.3,sz=0.4) { x <- x*20 (pi**sx*sz)*(1.2*exp(-(x-0.2)^2/sx^2-(z-0.3)^2/sz^2)+ 0.8*exp(-(x-0.7)^2/sx^2-(z-0.8)^2/sz^2)) } n <- 500 x <- runif(n)/20;z <- runif(n); xs <- seq(0,1,length=30)/20;zs <- seq(0,1,length=30) pr <- data.frame(x=rep(xs,30),z=rep(zs,rep(30,30))) truth <- matrix(test1(pr$x,pr$z),30,30) f <- test1(x,z) y <- f …
11 r  gam  mgcv  conditional-probability  mixed-model  references  bayesian  estimation  conditional-probability  machine-learning  optimization  gradient-descent  r  hypothesis-testing  wilcoxon-mann-whitney  time-series  bayesian  inference  change-point  time-series  anova  repeated-measures  statistical-significance  bayesian  contingency-tables  regression  prediction  quantiles  classification  auc  k-means  scikit-learn  regression  spatial  circular-statistics  t-test  effect-size  cohens-d  r  cross-validation  feature-selection  caret  machine-learning  modeling  python  optimization  frequentist  correlation  sample-size  normalization  group-differences  heteroscedasticity  independence  generalized-least-squares  lme4-nlme  references  mcmc  metropolis-hastings  optimization  r  logistic  feature-selection  separation  clustering  k-means  normal-distribution  gaussian-mixture  kullback-leibler  java  spark-mllib  data-visualization  categorical-data  barplot  hypothesis-testing  statistical-significance  chi-squared  type-i-and-ii-errors  pca  scikit-learn  conditional-expectation  statistical-significance  meta-analysis  intuition  r  time-series  multivariate-analysis  garch  machine-learning  classification  data-mining  missing-data  cart  regression  cross-validation  matrix-decomposition  categorical-data  repeated-measures  chi-squared  assumptions  contingency-tables  prediction  binary-data  trend  test-for-trend  matrix-inverse  anova  categorical-data  regression-coefficients  standard-error  r  distributions  exponential  interarrival-time  copula  log-likelihood  time-series  forecasting  prediction-interval  mean  standard-error  meta-analysis  meta-regression  network-meta-analysis  systematic-review  normal-distribution  multiple-regression  generalized-linear-model  poisson-distribution  poisson-regression  r  sas  cohens-kappa 

2
วิธีการจำลองข้อมูลเซ็นเซอร์
ฉันสงสัยว่าฉันจะจำลองตัวอย่างของอายุการใช้งานการแจกจ่าย Weibull ได้อย่างไรซึ่งรวมถึงการสังเกตการณ์ที่ถูกตรวจสอบด้วย Type I ตัวอย่างเช่นให้มี n = 3, รูปร่าง = 3, มาตราส่วน = 1 และอัตราการเซ็นเซอร์ = .15, และเวลาการเซ็นเซอร์ = .88 ฉันรู้วิธีสร้างตัวอย่าง Weibull แต่ฉันไม่ทราบวิธีการสร้างข้อมูลเซ็นเซอร์ที่มีการเซ็นเซอร์ประเภทขวาฉันใน R T = rweibull(3, shape=.5, scale=1)

4
แบ่งข้อมูลออกเป็น N กลุ่มเท่ากัน
ฉันมีชื่อไฟล์ซึ่งมีค่าใน 4 คอลัมน์: ตัวอย่างเช่น: ID, price, click count,rating สิ่งที่ฉันอยากทำคือ "แบ่ง" ดาต้าเบสนี้เป็น N กลุ่มที่แตกต่างกันซึ่งแต่ละกลุ่มจะมีจำนวนแถวเท่ากันโดยมีการกระจายราคาเดียวกันคลิกนับและแอตทริบิวต์การให้คะแนน คำแนะนำใด ๆ ที่ชื่นชมอย่างมากเนื่องจากฉันไม่มีความคิดเพียงเล็กน้อยเกี่ยวกับวิธีการแก้ไขปัญหานี้!
11 r  distributions 

2
จะทำการวิเคราะห์ส่วนที่เหลือสำหรับตัวทำนายอิสระไบนารี / คู่ในการถดถอยเชิงเส้นได้อย่างไร?
ฉันกำลังดำเนินการถดถอยเชิงเส้นหลายครั้งด้านล่างใน R เพื่อทำนายผลตอบแทนของกองทุนที่จัดการ reg <- lm(formula=RET~GRI+SAT+MBA+AGE+TEN, data=rawdata) GRI & MBA เท่านั้นที่นี่เป็นตัวทำนายแบบไบนารี / สองขั้ว ตัวพยากรณ์ที่เหลืออยู่จะต่อเนื่อง ฉันใช้รหัสนี้เพื่อสร้างแปลงที่เหลือสำหรับตัวแปรไบนารี plot(rawdata$GRI, reg$residuals) abline(lm(reg$residuals~rawdata$GRI, data=rawdata), col="red") # regression line (y~x) plot(rawdata$MBA, reg$residuals) abline(lm(reg$residuals~rawdata$MBA, data=rawdata), col="red") # regression line (y~x) คำถามของฉัน: ฉันรู้วิธีตรวจพล็อตที่เหลือสำหรับตัวทำนายอย่างต่อเนื่อง แต่คุณจะทดสอบสมมติฐานของการถดถอยเชิงเส้นเช่น homoscedasticity อย่างไรเมื่อตัวแปรอิสระเป็นไบนารี แปลงที่เหลือ:

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.