คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

3
การเลือกกลุ่มสำหรับ k-mean: กรณีที่ 1 คลัสเตอร์
ไม่มีใครรู้วิธีที่ดีในการพิจารณาว่าการจัดกลุ่มโดยใช้ kmeans เหมาะสมหรือไม่ นั่นคือสิ่งที่ถ้าตัวอย่างของคุณเป็นเนื้อเดียวกันจริง ๆ ? ฉันรู้ว่าแบบจำลองการผสม (ผ่าน mclust ใน R) จะให้ข้อมูลสถิติที่เหมาะสมสำหรับกรณีคลัสเตอร์ 1: k แต่ดูเหมือนว่าเทคนิคทั้งหมดในการประเมิน kmeans ต้องการอย่างน้อย 2 กลุ่ม ไม่มีใครรู้เทคนิคในการเปรียบเทียบเคส 1 และ 2 กลุ่มสำหรับ kmeans
9 r  clustering  k-means 

1
การจำลองข้อมูลสำหรับการถดถอยโลจิสติกด้วยตัวแปรเด็ดขาด
ฉันพยายามสร้างข้อมูลทดสอบสำหรับการถดถอยโลจิสติกส์และพบบทความนี้จะจำลองข้อมูลปลอมสำหรับการถดถอยโลจิสติกอย่างไร มันเป็นคำตอบที่ดี แต่มันสร้างตัวแปรต่อเนื่องเท่านั้น สิ่งที่เกี่ยวกับตัวแปรเด็ดขาด x3 ที่มี 5 ระดับ (ABCDE) ที่เกี่ยวข้องกับ y สำหรับตัวอย่างเช่นเดียวกับในลิงค์?

3
การคำนวณ Jaccard หรือสัมประสิทธิ์การเชื่อมโยงอื่น ๆ สำหรับข้อมูลไบนารีโดยใช้การคูณเมทริกซ์
ฉันต้องการทราบว่ามีวิธีใดที่เป็นไปได้ในการคำนวณสัมประสิทธิ์ Jaccard โดยใช้การคูณเมทริกซ์ ฉันใช้รหัสนี้ jaccard_sim <- function(x) { # initialize similarity matrix m <- matrix(NA, nrow=ncol(x),ncol=ncol(x),dimnames=list(colnames(x),colnames(x))) jaccard <- as.data.frame(m) for(i in 1:ncol(x)) { for(j in i:ncol(x)) { jaccard[i,j]= length(which(x[,i] & x[,j])) / length(which(x[,i] | x[,j])) jaccard[j,i]=jaccard[i,j] } } มันค่อนข้างโอเคที่จะนำไปใช้ในอาร์ฉันได้ทำลูกเต๋าที่มีความคล้ายคลึงกัน แต่ติดกับ Tanimoto / Jaccard ใครช่วยได้บ้าง

1
การคำนวณค่า p ที่ไม่รู้จัก
ฉันเพิ่งแก้ไขจุดบกพร่องสคริปต์ R และพบสิ่งแปลกประหลาดมากผู้เขียนกำหนดฟังก์ชั่นค่า p ของตัวเอง pval <- function(x, y){ if (x+y<20) { # x + y is small, requires R.basic p1<- nChooseK(x+y,x) * 2^-(x+y+1); p2<- nChooseK(x+y,y) * 2^-(x+y+1); pvalue = max(p1, p2) } else { # if x+y is large, use approximation log_p1 <- (x+y)*log(x+y) - x*log(x) - y*log(y) - …

2
เซ็นเซอร์ช่วงแบบ Cox ตามสัดส่วนความเป็นอันตรายใน R
เมื่อกำหนดช่วงเวลาการเอาตัวรอดให้ถูกต้องฉันจะทำการจำลอง Cox PH แบบช่วงเซ็นเซอร์ได้Rอย่างไร การค้นหา rseek จะเปิดแพ็คเกจintcoxซึ่งไม่มีอยู่ในที่Rเก็บอีกต่อไป ฉันเกือบจะเป็นบวกcoxphฟังก์ชั่นในsurvivalแพ็คเกจไม่สามารถจัดการกับข้อมูลการรอดชีวิตแบบเซ็นเซอร์ นอกจากนี้ฉันไม่ต้องการใส่ข้อมูลแล้วใช้coxphฟังก์ชัน วิธีนี้จะประเมินข้อผิดพลาดมาตรฐานต่ำกว่าค่าสัมประสิทธิ์เนื่องจากคุณไม่สนใจความไม่แน่นอนของการเซ็นเซอร์ช่วงเวลา

2
คุณใช้การยกกำลังเลขชี้กำลังแบบง่ายใน R ได้อย่างไร?
ฉันเป็นผู้เริ่มต้นใน R คุณช่วยอธิบายวิธีใช้ ses ในแพ็คเกจพยากรณ์ของ R forecast ได้ไหม ฉันต้องการเลือกจำนวนของจุดเริ่มต้นและค่าคงที่แบบเรียบ d <- c(3,4,41,10,9,86,56,20,18,36,24,59,82,51,31,29,13,7,26,19,20,103,141,145,24,99,40,51,72,58,94,78,11,15,17,53,44,34,12,15,32,14,15,26,75,110,56,43,19,17,33,26,40,42,18,24,69,18,18,25,86,106,104,35,43,12,4,20,16,8) ผมมี 70 คาบ, ผมอยากใช้ 40 คาบสำหรับค่าเริ่มต้นและ 30 สำหรับตัวอย่างที่ไม่อยู่ ses(d, h=30, level=c(80,95), fan=FALSE,initial=c("simple"), alpha=.1) ถูกต้องหรือไม่

4
Box Cox Transforms สำหรับการถดถอย
ฉันกำลังพยายามปรับตัวแบบเชิงเส้นในข้อมูลบางส่วนด้วยตัวทำนายเพียงตัวเดียว (พูด (x, y)) ข้อมูลเป็นเช่นนั้นสำหรับค่าเล็ก ๆ ของ x ค่า y ให้พอดีกับเส้นตรงอย่างไรก็ตามเมื่อค่า x เพิ่มขึ้นค่า y จะกลายเป็นความผันผวนมากขึ้น นี่คือตัวอย่างของข้อมูลดังกล่าว (รหัส R) y = c(3.2,3.4,3.5,3.8,4.2,5.5,4.5,6.8,7.4,5.9) x = seq(1,10,1) ฉันอยากรู้ว่ามีการแปลงพลังงานหรือไม่ (อาจเป็น Box cox?) ที่ช่วยให้ฉันได้รับข้อมูลที่ดีกว่าสำหรับการทำแบบพอดีเชิงเส้นดังที่แสดงด้านล่าง fit = lm(y ~ x)

4
วิธีพล็อตข้อมูล 20 ปีต่อวันในอนุกรมเวลา
ฉันมีชุดข้อมูลต่อไปนี้: https://dl.dropbox.com/u/22681355/ORACLE.csv และต้องการพล็อตการเปลี่ยนแปลงรายวันใน 'เปิด' ตาม 'วันที่' ดังนั้นฉันจึงทำสิ่งต่อไปนี้: oracle <- read.csv(file="http://dl.dropbox.com/u/22681355/ORACLE.csv", header=TRUE) plot(oracle$Date, oracle$Open, type="l") และฉันได้รับต่อไปนี้: ตอนนี้เห็นได้ชัดว่าไม่ใช่พล็อตที่อร่อยที่สุดเท่าที่เคยมีมาดังนั้นฉันสงสัยว่าวิธีการที่ถูกต้องที่จะใช้เมื่อทำการพล็อตข้อมูลรายละเอียดนั้นคืออะไร?

2
การกำหนดผู้มีส่วนร่วมมากที่สุดในกลุ่ม
ฉันไม่รู้สถิติเกี่ยวกับตัวฉันมากนัก สมมติว่าฉันมีพนักงาน 1,000 คน ฉันต้องการทราบว่าใครคือคนงานที่ยากที่สุด แต่ฉันสามารถวัดปริมาณงานที่ต้องทำในกลุ่มที่ 1-100 มากกว่าหนึ่งชั่วโมงต่อการทำงาน สมมติว่าคนงานแต่ละคนทำงานในปริมาณที่เท่ากันเสมอกว่าการทดลองและการรวมกันเป็นจำนวนมากฉันจะจัดอันดับคนงานของฉันโดยใครที่ทำงานหนักที่สุด หมายเหตุ: นี่เป็นเพียงคำอุปมาจึงไม่ต้องกังวลกับการทดสอบจริง ๆ เพียงแค่สมมติว่าฉันมีชุดข้อมูลจำนวนมากแล้ว แก้ไข: เมื่อฉันพูดว่า "สมมติว่าคนงานแต่ละคนทำงานด้วยปริมาณงานที่เท่ากันเสมอ" ฉันหมายถึงแต่ละคนทำงานในปริมาณที่เท่ากันในแต่ละวัน ดังนั้นโจอี้จะทำงานประมาณ 100 หน่วยในแต่ละวันและเกร็กจะทำประมาณ 50 งานปัญหาคือฉันสามารถสังเกตจำนวนหน่วยของงานที่ทำโดยกลุ่มเท่านั้น การแก้ไขเพิ่มเติม: เกี่ยวกับจำนวนของคนงานที่ทำงานในคราวเดียวและความถี่ของพวกเขาที่ทำงาน อาจมีคนงานจำนวนเท่าใดก็ได้ที่ทำงานในเวลาเดียวกัน คนงานบางคนอาจจะจบลงด้วยการทำงานมากกว่าคนอื่น ๆ นั่นก็คือเราสามารถสันนิษฐานได้ว่าคนงานบางคนจะทำงานเกือบ 90% ของเวลาและคนอื่น ๆ แทบจะไม่เคยเลย ฉันรู้ว่ามันทำให้ยาก แต่ฉันจะมีชุดข้อมูลที่มีขนาดใหญ่มากหวังว่าจะทำให้ง่ายขึ้นเล็กน้อย ในแต่ละชั่วโมงเรารู้ว่าคนงานคนใดกำลังทำงานและทำงานเป็นจำนวนเท่าใด จากข้อมูลนั้นฉันต้องการทราบว่าใครทำผลงานได้ดีที่สุด หากข้อมูลอยู่ในรูปแบบ JSON จะมีลักษณะดังนี้: [ { "work_done": 12345, "Workers": [ "andy", "bob", "cameron", "david" ] …

3
เปรียบเทียบอัตราอุบัติการณ์
ฉันต้องการเปรียบเทียบกับอัตราการเกิดระหว่างสองกลุ่ม (กลุ่มที่ไม่มีโรคและอีกกลุ่มด้วย) ฉันวางแผนที่จะคำนวณอัตราส่วนอัตราอุบัติการณ์ (IRR) เช่นกลุ่มอัตราอุบัติการณ์กลุ่ม B / อัตราอุบัติการณ์ A แล้วทดสอบว่าอัตรานี้เท่ากับ 1 และสุดท้ายคำนวณช่วงเวลา 95% CI สำหรับ IRR ฉันพบวิธีการคำนวณ 95% CI ในหนังสือ ( ความรู้พื้นฐานด้านชีวสถิติของ Rosner ): ประสบการณ์[บันทึก( IRR ) ± 1.96( 1 /a1) + ( 1 /a2)------------√]ประสบการณ์⁡[เข้าสู่ระบบ⁡(IRR)±1.96(1/a1)+(1/a2)]\exp\left[\log(\text{IRR}) \pm 1.96\sqrt{(1/a_1)+(1/a_2)}\right] โดยที่และคือจำนวนของกิจกรรม แต่การประมาณนี้ใช้ได้กับขนาดตัวอย่างที่ใหญ่พอเท่านั้นและฉันคิดว่าจำนวนของเหตุการณ์ที่ฉันมีคือเล็ก (อาจใช้สำหรับการเปรียบเทียบทั้งหมดโดยรวมก็โอเค)a1a1a_1a2a2a_2 ดังนั้นฉันคิดว่าฉันควรใช้วิธีอื่น Im ใช้ R และexactcipoisson.test()แพคเกจและพบว่าฉันสามารถอาจจะใช้ แต่ฟังก์ชั่นนี้มี 3 วิธีในการกำหนดค่า p-sided ทั้งสอง: …

1
ความมั่นใจและช่วงการทำนายของตัวแบบการถดถอยเชิงเส้น
ตกลงดังนั้นฉันพยายามทำความเข้าใจการถดถอยเชิงเส้น ฉันมีชุดข้อมูลและดูเหมือนว่าจะไม่เป็นไร แต่ฉันก็สับสน นี่คือสรุปโมเดลเชิงเส้นของฉัน: Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.2068621 0.0247002 8.375 4.13e-09 *** temp 0.0031074 0.0004779 6.502 4.79e-07 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 0.04226 on 28 degrees of freedom Multiple R-squared: 0.6016, …
9 r  regression 

2
การคำนวณปัญหาการตีความ regsubsets และคำถามทั่วไปเกี่ยวกับขั้นตอนการเลือกรุ่น
regsubsets()ฉันต้องการที่จะเลือกใช้แบบจำลอง ฉันมีชื่อไฟล์ชื่อ olympiadaten (อัปโหลดข้อมูลแล้ว: http://www.sendspace.com/file/8e27d0 ) ฉันแนบไฟล์ข้อมูลนี้ก่อนแล้วจึงเริ่มวิเคราะห์รหัสของฉันคือ: attach(olympiadaten) library(leaps) a<-regsubsets(Gesamt ~ CommunistSocialist + CountrySize + GNI + Lifeexp + Schoolyears + ExpMilitary + Mortality + PopPoverty + PopTotal + ExpEdu + ExpHealth, data=olympiadaten, nbest=2) summary(a) plot(a,scale="adjr2") summary(lm(Gesamt~ExpHealth)) สกรีนช็อตของพล็อต: ปัญหาคือตอนนี้ที่ฉันต้องการให้พอดีกับรุ่นที่ดีที่สุดอีกครั้ง "ด้วยตนเอง" และได้ดูมัน แต่ค่าของ R กำลังสองปรับไม่เหมือนในการส่งออก regsubsets? นี่เป็นกรณีสำหรับรุ่นอื่นเช่นเมื่อฉันทำแบบจำลองที่ง่ายที่สุดในกราฟิก: summary(lm(Gesamt~ExpHealth)) กราฟิกบอกว่ามันควรจะมีค่า R ที่ได้รับการปรับประมาณ …

3
วิธีการใช้ R gbm with distribution =“ adaboost”?
เอกสารระบุว่า R gbm พร้อมด้วยการแจกจ่าย = "adaboost" สามารถใช้สำหรับปัญหาการจำแนกประเภท 0-1 พิจารณาส่วนรหัสต่อไปนี้: gbm_algorithm <- gbm(y ~ ., data = train_dataset, distribution = "adaboost", n.trees = 5000) gbm_predicted <- predict(gbm_algorithm, test_dataset, n.trees = 5000) มันสามารถพบได้ในเอกสารที่ทำนาย. ggb ส่งคืนเวกเตอร์การทำนาย ตามค่าเริ่มต้นการคาดการณ์จะอยู่ในระดับของ f (x) อย่างไรก็ตามสเกลเฉพาะนั้นไม่ชัดเจนสำหรับกรณีของการแจกจ่าย = "adaboost" ใครสามารถช่วยในการตีความของผลตอบแทนที่คาดการณ์ไว้ .gbm และให้ความคิดของการแปลงไปยังเอาต์พุต 0-1?
9 r  gbm 

1
จะเปรียบเทียบเหตุการณ์ที่สังเกตได้กับเหตุการณ์ที่คาดหวังได้อย่างไร
สมมติว่าฉันมีตัวอย่างหนึ่งความถี่ของเหตุการณ์ที่เป็นไปได้ 4 เหตุการณ์: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 และฉันมีโอกาสที่จะเกิดเหตุการณ์ที่คาดหวัง: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 ด้วยผลรวมของความถี่ที่สังเกตได้จากเหตุการณ์ทั้งสี่ของฉัน (18) ฉันสามารถคำนวณความถี่ที่คาดหวังของเหตุการณ์ได้ใช่ไหม expectedE1 - 18 * 0.2 = 3.6 expectedE2 - 18 * 0.1 = 1.8 expectedE1 - 18 * 0.1 …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

2
ฉันจะสร้างพล็อตที่คล้ายกับที่สร้างโดย plot.bugs และ plot.jags จาก mcmc.list ได้อย่างไร [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน2 ปีที่ผ่านมา R ดูเหมือนว่าจะสามารถที่จะมีความสุขเอาท์พุทแปลงสรุปจากbugsและjagsวัตถุที่สร้างขึ้นโดยฟังก์ชั่นR2WinBUGS :: ข้อบกพร่องและR2jags: Jags อย่างไรก็ตามฉันใช้rjagsแพ็คเกจ เมื่อฉันพยายามพล็อตผลลัพธ์ของฟังก์ชันrjags::coda.samplesโดยใช้R2WinBUGS::plot.mcmc.listผลลัพธ์คือพล็อตการวินิจฉัย (ความหนาแน่นของพารามิเตอร์, อนุกรมเวลาของโซ่, ความสัมพันธ์อัตโนมัติ) สำหรับแต่ละพารามิเตอร์ ด้านล่างนี้คือประเภทของพล็อตที่ผมอยากจะผลิตจากกวดวิชาแอนดรูว์เกลแมนของ"วิ่ง WinBuugs และ OpenBugs จาก R" plot.pugsเหล่านี้ถูกผลิตโดยใช้ ปัญหาคือว่าplot.bugsใช้bugsวัตถุเป็นอาร์กิวเมนต์ในขณะที่ใช้เวลาการส่งออกของplot.mcmc.listcoda.samples นี่คือตัวอย่าง (จากcoda.samples): library(rjags) data(LINE) LINE$recompile() LINE.out <- coda.samples(LINE, c("alpha","beta","sigma"), n.iter=1000) plot(LINE.out) สิ่งที่ฉันต้องการก็คือ วิธีสร้างพล็อตสรุปสรุปแบบหน้าเดียวที่คล้ายกับข้อมูลที่คล้ายกับที่สร้างโดย plot.bugs ฟังก์ชั่นที่จะแปลงLINE.outเป็นวัตถุบั๊กหรือ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.