คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

2
ป่าสุ่มสร้างป่าสุ่มอย่างไร
ฉันไม่ใช่ผู้เชี่ยวชาญของป่าสุ่ม แต่ฉันเข้าใจชัดเจนว่าปัญหาสำคัญของป่าสุ่มคือการสร้างต้นไม้ (สุ่ม) คุณช่วยอธิบายฉันได้อย่างไรว่าต้นไม้สร้างขึ้นได้อย่างไร? (เช่นการกระจายที่ใช้สำหรับการสร้างต้นไม้คืออะไร) ขอบคุณล่วงหน้า !

4
ค่าที่ถูกต้องสำหรับความแม่นยำและการเรียกคืนในกรณีขอบคืออะไร?
ความแม่นยำหมายถึง: p = true positives / (true positives + false positives) มันถูกต้องหรือไม่ที่ในฐานะtrue positivesและfalse positivesวิธีที่ 0 ความแม่นยำเข้าใกล้ 1? คำถามเดียวกันสำหรับการเรียกคืน: r = true positives / (true positives + false negatives) ขณะนี้ฉันกำลังใช้การทดสอบทางสถิติที่ฉันต้องการคำนวณค่าเหล่านี้และบางครั้งมันก็เกิดขึ้นที่ตัวส่วนเป็น 0 และฉันสงสัยว่าจะคืนค่าใดให้กับกรณีนี้ PS: ขอโทษแท็กที่ไม่เหมาะสมผมอยากจะใช้recall, precisionและlimitแต่ฉันไม่สามารถสร้างแท็กใหม่ ๆ
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

5
โพสต์ -hocs สำหรับการทดสอบภายในวิชา?
วิธีการที่ต้องการสำหรับการทำ post-hocs สำหรับการทดสอบในวิชาคืออะไร? ฉันเคยเห็นงานตีพิมพ์ที่มีการใช้ HSD ของ Tukey แต่การตรวจสอบ Keppel และ Maxwell & Delaney ชี้ให้เห็นว่าการละเมิดความกลมกลืนในการออกแบบเหล่านี้ทำให้คำผิดพลาดไม่ถูกต้องและวิธีนี้เป็นปัญหา Maxwell & Delaney ให้แนวทางในการแก้ไขปัญหาในหนังสือของพวกเขา แต่ฉันไม่เคยเห็นมันทำอย่างนั้นในแพคเกจสถิติใด ๆ พวกเขาเสนอวิธีการที่เหมาะสมหรือไม่ การแก้ไข Bonferroni หรือ Sidak ของการทดสอบตัวอย่างแบบหลายคู่จะสมเหตุสมผลหรือไม่ คำตอบที่ยอมรับได้จะให้รหัส R ทั่วไปที่สามารถดำเนินการโพสต์ hocs ในการออกแบบที่เรียบง่ายหลายทางและผสมที่ผลิตโดยezANOVAฟังก์ชั่นในezแพคเกจและการอ้างอิงที่เหมาะสมที่มีแนวโน้มที่จะผ่านการชุมนุมกับผู้ตรวจสอบ

2
ฟังก์ชั่น caret Train สำหรับ glmnet cross-validate สำหรับทั้ง alpha และ lambda หรือไม่?
ไม่ R caretแพคเกจข้ามการตรวจสอบทั้งในalphaและlambdaสำหรับglmnetรูปแบบ? ใช้รหัสนี้ eGrid <- expand.grid(.alpha = (1:10) * 0.1, .lambda = (1:10) * 0.1) Control <- trainControl(method = "repeatedcv",repeats = 3,verboseIter =TRUE) netFit <- train(x =train_features, y = y_train, method = "glmnet", tuneGrid = eGrid, trControl = Control) บันทึกการฝึกอบรมมีลักษณะเช่นนี้ Fold10.Rep3: alpha=1.0, lambda=NA อะไรlambda=NAหมายถึง?

4
การสร้างตัวแปรสุ่มจากส่วนผสมของการแจกแจงแบบปกติ
ฉันจะได้ลิ้มลองจากการกระจายส่วนผสมและในส่วนผสมโดยเฉพาะอย่างยิ่งของการกระจายปกติในR? ตัวอย่างเช่นถ้าฉันต้องการตัวอย่างจาก: 0.3× N( 0 , 1 )+0.5× N( 10 , 1 )+0.2× N( 3 , .1 )0.3×N(0,1)+0.5×N(10,1)+0.2×N(3,.1) 0.3\!\times\mathcal{N}(0,1)\; + \;0.5\!\times\mathcal{N}(10,1)\; + \;0.2\!\times\mathcal{N}(3,.1) ฉันจะทำอย่างนั้นได้อย่างไร

3
จะตีความคำดักจับใน GLM ได้อย่างไร?
ฉันใช้ R และฉันทำการวิเคราะห์ข้อมูลของฉันด้วย GLM ด้วยลิงค์ทวินาม ฉันต้องการทราบความหมายของการสกัดกั้นในตารางผลลัพธ์ การสกัดกั้นสำหรับแบบจำลองของฉันมีความแตกต่างอย่างมีนัยสำคัญอย่างไรก็ตามตัวแปรไม่ได้ สิ่งนี้หมายความว่า? การสกัดกั้นคืออะไร ฉันไม่รู้ว่าฉันเพิ่งสับสนตัวเอง แต่เมื่อค้นหาทางอินเทอร์เน็ตไม่มีอะไรที่จะพูดมันคือสิ่งนี้สังเกตมัน ... หรือไม่ กรุณาช่วยนักเรียนที่ผิดหวังมาก glm(formula = attacked_excluding_app ~ treatment, family = binomial, data = data) Deviance Residuals: Min 1Q Median 3Q Max -2.3548 0.3593 0.3593 0.3593 0.3593 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 2.708 1.033 2.622 0.00874 ** …

5
ทำไมต้องกังวลกับการจัดอันดับต่ำ?
หากคุณมีเมทริกซ์ที่มีคอลัมน์ n แถวและ m คุณสามารถใช้ SVD หรือวิธีอื่น ๆ ในการคำนวณการประมาณค่าต่ำของเมทริกซ์ที่กำหนด อย่างไรก็ตามการประมาณอันดับต่ำจะยังคงมี n แถวและคอลัมน์ m การประมาณอันดับต่ำจะมีประโยชน์สำหรับการเรียนรู้ของเครื่องและการประมวลผลภาษาธรรมชาติอย่างไรเนื่องจากคุณมีคุณสมบัติจำนวนเท่าเดิม

5
มีฟังก์ชั่น R ที่จะคำนวณเมทริกซ์ที่ไม่เหมือนกันของโคไซน์หรือไม่? [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดเมื่อปีที่แล้ว ฉันต้องการสร้างแผนที่ความร้อนที่มีการจัดกลุ่มแถวตามระยะทางโคไซน์ ฉันใช้ R และheatmap.2()ทำรูป ฉันเห็นได้ว่ามีdistพารามิเตอร์อยู่heatmap.2แต่ฉันไม่สามารถหาฟังก์ชั่นเพื่อสร้างเมทริกซ์ที่แตกต่างกันได้ distฟังก์ชั่นบิวอินไม่รองรับระยะทางโคไซน์ฉันยังพบแพ็คเกจที่เรียกว่าarulesพร้อมdissimilarity()ฟังก์ชัน แต่ใช้งานได้กับข้อมูลไบนารีเท่านั้น

2
วางแผนช่วงความมั่นใจสำหรับความน่าจะเป็นที่คาดการณ์ไว้จากการถดถอยโลจิสติก
ตกลงฉันมีการถดถอยโลจิสติกและใช้predict()ฟังก์ชั่นในการพัฒนาเส้นโค้งความน่าจะเป็นตามการประมาณการของฉัน ## LOGIT MODEL: library(car) mod1 = glm(factor(won) ~ as.numeric(bid), data=mydat, family=binomial(link="logit")) ## PROBABILITY CURVE: all.x <- expand.grid(won=unique(won), bid=unique(bid)) y.hat.new <- predict(mod1, newdata=all.x, type="response") plot(bid<-000:1000,predict(mod1,newdata=data.frame(bid<-c(000:1000)),type="response"), lwd=5, col="blue", type="l") นี่เป็นสิ่งที่ดี แต่ฉันอยากรู้อยากเห็นเกี่ยวกับการวางแผนช่วงความมั่นใจสำหรับความน่าจะเป็น ฉันพยายามแล้วplot.ci()แต่ก็ไม่มีโชค ทุกคนสามารถชี้ให้ฉันเห็นวิธีการที่จะทำสิ่งนี้โดยเฉพาะอย่างยิ่งกับcarแพคเกจหรือฐานอาร์

1
การใช้บรรทัดที่สร้างโดย qqline () ใน R คืออะไร?
qqnorm()ฟังก์ชั่น R ผลิตปกติ QQ พล็อตและqqline()เพิ่มสายที่ผ่านควอไทล์แรกและที่สาม จุดกำเนิดของบรรทัดนี้คืออะไร การตรวจสอบสภาพปกติเป็นประโยชน์หรือไม่? นี่ไม่ใช่เส้นคลาสสิค (เส้นทแยงมุมอาจเป็นไปได้หลังจากปรับสเกลเชิงเส้น)Y= xY=xy=x นี่คือตัวอย่าง ครั้งแรกที่ฉันเปรียบเทียบฟังก์ชันการกระจายเชิงประจักษ์ที่มีฟังก์ชั่นการกระจายทางทฤษฎีของ : ตอนนี้ผมพล็อต QQ พล็อตที่มีสายY = μ + σ x ; กราฟนี้มีความสัมพันธ์กับสัดส่วน (ไม่ใช่เชิงเส้น) ของกราฟก่อนหน้า: แต่นี่คือ qq-plot กับ R qqline: กราฟสุดท้ายนี้ไม่แสดงการออกเดินทางเช่นเดียวกับในกราฟแรกยังไม่มีข้อความ( μ^, σ^2)ยังไม่มีข้อความ(μ^,σ^2){\cal N}(\hat\mu,\hat\sigma^2)Y= μ^+ σ^xY=μ^+σ^xy=\hat\mu + \hat\sigma x

2
จับคู่ t-test เป็นกรณีพิเศษของการสร้างแบบจำลองผลกระทบเชิงเส้นแบบผสม
เรารู้ว่าแบบทดสอบt - paired เป็นเพียงกรณีพิเศษของการวัดทางเดียว (หรือในเรื่อง) ANOVA เช่นเดียวกับแบบจำลองผสมเอฟเฟกต์แบบเชิงเส้นซึ่งสามารถแสดงให้เห็นด้วยฟังก์ชัน lme () ในแพ็คเกจ nlme ใน R ดังแสดงด้านล่าง #response data from 10 subjects under two conditions x1<-rnorm(10) x2<-1+rnorm(10) # Now create a dataframe for lme myDat <- data.frame(c(x1,x2), c(rep("x1", 10), rep("x2", 10)), rep(paste("S", seq(1,10), sep=""), 2)) names(myDat) <- c("y", "x", "subj") เมื่อฉันรันการทดสอบ t จับคู่ต่อไปนี้: …

1
อันตรายพื้นฐานของ Cox
สมมติว่าฉันมีชุดข้อมูล "สายสวนไต" ฉันกำลังพยายามสร้างโมเดลกราฟความอยู่รอดโดยใช้โมเดล Cox หากฉันพิจารณาโมเดล Cox:ฉันต้องมีการประเมินความเป็นอันตรายพื้นฐาน ด้วยการใช้ฟังก์ชั่นแพคเกจ R ฉันสามารถทำสิ่งนี้ได้อย่างง่ายดาย:h ( t , Z)) = h0ประสบการณ์( b'Z) ,ชั่วโมง(เสื้อ,Z)=ชั่วโมง0ประสบการณ์⁡(ข'Z),h(t,Z) = h_0 \exp(b'Z),survivalbasehaz() library(survival) data(kidney) fit <- coxph(Surv(time, status) ~ age , kidney) basehaz(fit) แต่ถ้าฉันต้องการเขียนฟังก์ชันทีละขั้นตอนของอันตรายพื้นฐานสำหรับการประมาณค่าพารามิเตอร์ที่กำหนดbฉันจะดำเนินการต่อได้อย่างไร ฉันเหนื่อย: bhaz <- function(beta, time, status, x) { data <- data.frame(time,status,x) data <- data[order(data$time), ] dt <- data$time …
20 r  cox-model  hazard 

1
การทดสอบแบบไม่อิงพารามิเตอร์หากดึงตัวอย่างสองตัวอย่างจากการแจกแจงแบบเดียวกัน
ฉันต้องการทดสอบสมมติฐานว่ามีตัวอย่างสองตัวอย่างมาจากประชากรเดียวกันโดยไม่มีการตั้งสมมติฐานใด ๆ เกี่ยวกับการกระจายตัวของกลุ่มตัวอย่างหรือประชากร ฉันจะทำสิ่งนี้ได้อย่างไร จากวิกิพีเดียความประทับใจของฉันคือการทดสอบ Mann Whitney U ควรเหมาะสม แต่ดูเหมือนจะไม่เหมาะสำหรับฉันในทางปฏิบัติ สำหรับ concreteness ฉันได้สร้างชุดข้อมูลที่มีสองตัวอย่าง (a, b) ที่มีขนาดใหญ่ (n = 10,000) และดึงมาจากประชากรสองกลุ่มที่ไม่ปกติ (bimodal) มีความคล้ายคลึงกัน (ค่าเฉลี่ยเดียวกัน) แตกต่างกัน (ค่าเบี่ยงเบนมาตรฐาน รอบ "humps.") ฉันกำลังมองหาการทดสอบที่จะรับรู้ว่าตัวอย่างเหล่านี้ไม่ได้มาจากประชากรเดียวกัน มุมมองฮิสโตแกรม: รหัส R: a <- tibble(group = "a", n = c(rnorm(1e4, mean=50, sd=10), rnorm(1e4, mean=100, sd=10))) b <- tibble(group = "b", n …

3
Julia: เก็บสต็อคของวิธีการทำ
โพสต์นี้เกี่ยวข้องกับเหตุการณ์ที่เปลี่ยนแปลงอย่างรวดเร็ว ฉันเจอคำถามปี 2012 ที่มีการอภิปรายที่ดีมากเกี่ยวกับ Julia เป็นทางเลือกแทน R / Python สำหรับงานสถิติประเภทต่างๆ ต่อไปนี้เป็นคำถามเริ่มต้นจากปี 2012 เกี่ยวกับคำสัญญาของจูเลีย น่าเสียดายที่ Julia เป็นคนใหม่มากในตอนนั้น & ชุดเครื่องมือที่จำเป็นสำหรับงานสถิตินั้นค่อนข้างเก่าแก่ ข้อบกพร่องถูกรีดออก การกระจายติดตั้งยาก เป็นต้น บางคนมีความคิดเห็นที่ฉลาดมากสำหรับคำถามนั้น: สิ่งนี้กล่าวว่าจะใช้เวลา 5 ปีก่อนที่คำถามนี้อาจตอบได้ในแบบย้อนหลัง ณ ตอนนี้ Julia ยังขาดประเด็นสำคัญต่อไปนี้ของระบบการเขียนโปรแกรมเชิงสถิติที่สามารถแข่งขันกับ R สำหรับผู้ใช้ประจำวัน: นั่นคือในปี 2012 ตอนนี้มันผ่านไปแล้ว 2015 และสามปีที่ผ่านมาฉันสงสัยว่าคนที่คิดว่าจูเลียทำอะไร? มีร่างกายที่มีประสบการณ์มากขึ้นเกี่ยวกับภาษาและระบบนิเวศของ Julia โดยรวมหรือไม่? ฉันชอบที่จะรู้ โดยเฉพาะ: คุณจะแนะนำผู้ใช้ใหม่ของเครื่องมือทางสถิติเพื่อเรียนรู้ Julia มากกว่า R หรือไม่? สถิติการใช้งานประเภทใดที่คุณจะแนะนำให้ใครบางคนใช้ Julia ใน หาก …
19 r  python  computing  julia 

3
เหตุการณ์อคติการถดถอยโลจิสติกที่หายาก: วิธีจำลอง p ต่ำสุดด้วยตัวอย่างน้อยที่สุด?
CrossValidated มีหลายคำถามเกี่ยวกับเวลาและวิธีการที่จะใช้การแก้ไขเหตุการณ์อคติที่หายากโดยพระบาทสมเด็จพระเจ้าอยู่หัวและเซง (2001) ฉันกำลังมองหาสิ่งที่แตกต่าง: การสาธิตแบบจำลองขั้นต่ำที่มีอคติอยู่ โดยเฉพาะอย่างยิ่งราชาและเซงรัฐ "... ในเหตุการณ์ที่หายากข้อมูลอคติในความน่าจะเป็นความหมายอย่างมีนัยสำคัญกับขนาดตัวอย่างเป็นพันและอยู่ในทิศทางที่สามารถคาดการณ์ได้: ความน่าจะเป็นของเหตุการณ์โดยประมาณนั้นเล็กเกินไป" นี่คือความพยายามของฉันในการจำลองอคติดังกล่าวใน R: # FUNCTIONS do.one.sim = function(p){ N = length(p) # Draw fake data based on probabilities p y = rbinom(N, 1, p) # Extract the fitted probability. # If p is constant, glm does y ~ 1, the intercept-only model. …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.