คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

2
เหตุใดการประมาณข้อผิดพลาด OOB ฟอเรสต์แบบสุ่มจึงดีขึ้นเมื่อจำนวนของคุณสมบัติที่เลือกลดลง
ฉันใช้อัลกอริธึมฟอเรสต์แบบสุ่มเป็นตัวจําแนกในชุดข้อมูลขนาดเล็กซึ่งแบ่งออกเป็นสองกลุ่มที่รู้จักพร้อมกับคุณลักษณะ 1000s หลังจากรันครั้งแรกฉันดูความสำคัญของฟีเจอร์และเรียกใช้อัลกอริทึมแบบทรีอีกครั้งด้วยฟีเจอร์ที่สำคัญที่สุด 5, 10 และ 20 ฉันพบว่าสำหรับฟีเจอร์ทั้งหมดอันดับ 10 และ 20 ที่การประเมิน OOB ของอัตราข้อผิดพลาดคือ 1.19% ซึ่งสำหรับฟีเจอร์ 5 อันดับแรกนั้นคือ 0% นี่ดูเหมือนจะขัดกับฉันดังนั้นฉันจึงสงสัยว่าคุณจะอธิบายได้หรือไม่ว่าฉันขาดอะไรไปหรือฉันใช้เมตริกที่ไม่ถูกต้อง ฉันใช้แพ็คเกจ randomForest ใน R กับ ntree = 1,000, nodesize = 1 และ mtry = sqrt (n)

3
แพคเกจ R สำหรับการถดถอยโลจิสติกผลคงที่
ฉันกำลังมองหาRแพคเกจสำหรับการประมาณค่าสัมประสิทธิ์ของแบบจำลอง logit ที่มีผลกระทบคงที่ (การสกัดกั้นส่วนบุคคล) โดยใช้ตัวประมาณของ 1980 ของ Chamberlain เป็นที่รู้จักกันบ่อยในฐานะตัวประมาณค่า logit effect ของ Chamberlain มันเป็นเครื่องมือประมาณค่าแบบคลาสสิกเมื่อจัดการกับข้อมูลพาเนลผลลัพธ์แบบไบนารี (อย่างน้อยก็ในรูปเศรษฐมิติ) แต่ฉันไม่พบสิ่งใดที่เกี่ยวข้องกับมันใน CRAN เบาะแสใด ๆ

2
ช่วงความเชื่อมั่นรอบค่าที่ทำนายจากโมเดลเอฟเฟกต์ผสมหมายถึงอะไร
ฉันกำลังดูหน้านี้และสังเกตเห็นวิธีการสำหรับช่วงความเชื่อมั่นสำหรับ lme และ lmer ใน R สำหรับผู้ที่ไม่ทราบว่า R เป็นฟังก์ชั่นสำหรับสร้างเอฟเฟกต์ผสมหรือโมเดลหลายระดับ หากฉันมีผลกระทบคงที่ในบางสิ่งบางอย่างเช่นการวัดซ้ำออกแบบช่วงเวลาความมั่นใจรอบค่าที่ทำนาย (คล้ายกับค่าเฉลี่ย) หมายถึงอะไร ฉันสามารถเข้าใจได้ว่าสำหรับเอฟเฟกต์คุณสามารถมีช่วงความเชื่อมั่นที่สมเหตุสมผล แต่สำหรับฉันแล้วช่วงความเชื่อมั่นของค่าเฉลี่ยที่คาดการณ์ไว้ในแบบนี้ดูเหมือนจะเป็นไปไม่ได้ มันอาจมีขนาดใหญ่มากที่จะยอมรับความจริงที่ว่าตัวแปรสุ่มมีส่วนทำให้เกิดความไม่แน่นอนในการประมาณค่า แต่ในกรณีนี้มันจะไม่เป็นประโยชน์เลยในแง่ที่เปรียบเทียบระหว่างค่าต่างๆ หรือ, ฉันขาดอะไรบางอย่างที่นี่หรือการวิเคราะห์สถานการณ์ของฉันถูกต้องหรือไม่ ... [และอาจเป็นเหตุผลว่าทำไมมันไม่ถูกนำไปใช้ใน lmer (แต่ง่ายที่จะได้รับใน SAS) :)]

5
แบบผสมลักษณะพิเศษ: เปรียบเทียบองค์ประกอบความแปรปรวนแบบสุ่มข้ามระดับของตัวแปรการจัดกลุ่ม
สมมติว่าฉันมีผู้เข้าร่วมยังไม่มีข้อความยังไม่มีข้อความNคนแต่ละคนให้การตอบสนองYYY 20 ครั้ง, 10 ครั้งในเงื่อนไขหนึ่งและอีก 10 ครั้ง ฉันพอดีกับโมเดลเอฟเฟกต์เชิงเส้นผสมเปรียบเทียบYYYในแต่ละเงื่อนไข นี่คือตัวอย่างที่จำลองได้ซึ่งจำลองสถานการณ์นี้โดยใช้lme4แพ็คเกจในR: library(lme4) fml <- "~ condition + (condition | participant_id)" d <- expand.grid(participant_id=1:40, trial_num=1:10) d <- rbind(cbind(d, condition="control"), cbind(d, condition="experimental")) set.seed(23432) d <- cbind(d, simulate(formula(fml), newparams=list(beta=c(0, .5), theta=c(.5, 0, 0), sigma=1), family=gaussian, newdata=d)) m <- lmer(paste("sim_1 ", fml), data=d) summary(m) แบบจำลองmทำให้เกิดผลกระทบคงที่สองแบบ (การสกัดกั้นและความลาดเอียงตามเงื่อนไข) …

1
Caret glmnet กับ cv.glmnet
ดูเหมือนจะมีความสับสนมากในการเปรียบเทียบการใช้glmnetภายในcaretเพื่อค้นหาแลมบ์ดาที่ดีที่สุดและใช้cv.glmnetในการทำงานเดียวกัน มีการตั้งคำถามมากมายเช่น: โมเดลการจำแนกประเภท train.glmnet vs. cv.glmnet วิธีที่เหมาะสมในการใช้ glmnet กับคาเร็ตคืออะไร? การตรวจสอบข้าม `glmnet 'โดยใช้` คาเร็ต' แต่ไม่ได้รับคำตอบซึ่งอาจเป็นเพราะความสามารถในการทำซ้ำของคำถาม ตามคำถามแรกฉันให้ตัวอย่างที่คล้ายกัน แต่มีคำถามเดียวกัน: ทำไม lambdas โดยประมาณแตกต่างกันอย่างไร library(caret) library(glmnet) set.seed(849) training <- twoClassSim(50, linearVars = 2) set.seed(849) testing <- twoClassSim(500, linearVars = 2) trainX <- training[, -ncol(training)] testX <- testing[, -ncol(testing)] trainY <- training$Class # Using glmnet to …

1
GAM กับ LOESS และ splines
บริบท : ผมอยากจะวาดเส้นใน scatterplot ที่ไม่ปรากฏพาราดังนั้นฉันใช้geom_smooth()ในในggplot Rมันจะส่งคืนโดยอัตโนมัติที่geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method.ฉันรวบรวม GAM มาสำหรับโมเดลเสริมทั่วไปและใช้ลูกบาศก์อิสระ การรับรู้ต่อไปนี้ถูกต้องหรือไม่ ดินเหลืองคาดการณ์การตอบสนองที่ค่าเฉพาะ เส้นโค้งเป็นการประมาณที่เชื่อมต่อฟังก์ชั่นที่แตกต่างกันที่เหมาะสมกับข้อมูล (ซึ่งประกอบเป็นแบบจำลองการเติมทั่วไป) และลูกบาศก์ Splines เป็นประเภทของเส้นโค้งที่ใช้เฉพาะที่นี่ ในที่สุดควรใช้ splines เมื่อใดควรใช้ LOESS เมื่อใด

2
ผลลัพธ์ของการทำนายการถดถอยโลจิสติก
ฉันสร้าง Logistic Regression โดยใช้รหัสต่อไปนี้: full.model.f = lm(Ft_45 ~ ., LOG_D) base.model.f = lm(Ft_45 ~ IP_util_E2pl_m02_flg) step(base.model.f, scope=list(upper=full.model.f, lower=~1), direction="forward", trace=FALSE) ฉันได้ใช้ผลลัพธ์เพื่อสร้างโมเดลสุดท้าย: final.model.f = lm(Ft_45 ~ IP_util_E2pl_m02_flg + IP_util_E2_m02_flg + AE_NumVisit1_flg + OP_NumVisit1_m01_flg + IP_TotLoS_m02 + Ft1_45 + IP_util_E1_m05_flg + IP_TotPrNonElecLoS_m02 + IP_util_E2pl_m03_flg + LTC_coding + OP_NumVisit0105_m03_flg + OP_NumVisit11pl_m03_flg + AE_ArrAmb_m02_flg) …

2
R: ฟังก์ชั่น glm พร้อมตระกูล = ข้อมูลจำเพาะ "ทวินาม" และ "น้ำหนัก"
ฉันสับสนมากกับการทำงานของน้ำหนักใน glm กับครอบครัว = "ทวินาม" ในความเข้าใจของฉันความเป็นไปได้ของ glm กับครอบครัว = "ทวินาม" ระบุไว้ดังนี้: f(y)=(nny)pny(1−p)n(1−y)=exp(n[ylogp1−p−(−log(1−p))]+log(nny))f(y)=(nny)pny(1−p)n(1−y)=exp⁡(n[ylog⁡p1−p−(−log⁡(1−p))]+log⁡(nny)) f(y) = {n\choose{ny}} p^{ny} (1-p)^{n(1-y)} = \exp \left(n \left[ y \log \frac{p}{1-p} - \left(-\log (1-p)\right) \right] + \log {n \choose ny}\right) โดยที่yyyคือ "สัดส่วนของความสำเร็จที่สังเกต" และnnnคือจำนวนการทดลองที่ทราบ ในความเข้าใจของฉันความน่าจะเป็นที่จะประสบความสำเร็จpppถูกเปรียบเทียบกับสัมประสิทธิ์เชิงเส้นββ\betaเป็นp=p(β)p=p(β)p=p(\beta)และฟังก์ชัน glm กับครอบครัว = "ทวินาม" ค้นหา: argmaxβ∑ilogf(yi).argmaxβ∑ilog⁡f(yi). \textrm{arg}\max_{\beta} \sum_i \log f(y_i). ดังนั้นปัญหาการปรับให้เหมาะสมนี้สามารถทำให้ง่ายขึ้นเป็น: หาเรื่องสูงสุดβΣผมเข้าสู่ระบบฉ( yผม) …

3
R: อะไรที่ฉันเห็นในการพึ่งพาบางส่วนของ gbm และ RandomForest
ที่จริงแล้วฉันคิดว่าฉันเข้าใจสิ่งที่เราสามารถแสดงด้วยพล็อตการพึ่งพาบางส่วน แต่ใช้ตัวอย่างสมมุติง่าย ๆ ฉันรู้สึกงงงวย ในกลุ่มของรหัสต่อไปฉันจะสร้างสามตัวแปรอิสระ ( , B , C ) และขึ้นอยู่กับตัวแปร ( Y ) กับคแสดงให้เห็นความสัมพันธ์เชิงเส้นใกล้ชิดกับปีขณะที่และขเป็น uncorrelated กับY ฉันทำการวิเคราะห์การถดถอยด้วยต้นไม้การถดถอยที่เพิ่มขึ้นโดยใช้แพ็คเกจ R :gbm a <- runif(100, 1, 100) b <- runif(100, 1, 100) c <- 1:100 + rnorm(100, mean = 0, sd = 5) y <- 1:100 + rnorm(100, mean = 0, …

3
คำนวณความแปรปรวนที่อธิบายโดยตัวทำนายแต่ละตัวในการถดถอยหลายครั้งโดยใช้ R
ฉันใช้การถดถอยหลายครั้งซึ่งโมเดลโดยรวมมีความสำคัญและอธิบายความแปรปรวนประมาณ 13% อย่างไรก็ตามฉันต้องการค้นหาจำนวนความแปรปรวนที่อธิบายโดยตัวทำนายสำคัญแต่ละตัว ฉันจะทำสิ่งนี้โดยใช้ R ได้อย่างไร นี่คือตัวอย่างข้อมูลและรหัส: D = data.frame( dv = c( 0.75, 1.00, 1.00, 0.75, 0.50, 0.75, 1.00, 1.00, 0.75, 0.50 ), iv1 = c( 0.75, 1.00, 1.00, 0.75, 0.75, 1.00, 0.50, 0.50, 0.75, 0.25 ), iv2 = c( 0.882, 0.867, 0.900, 0.333, 0.875, 0.500, 0.882, 0.875, 0.778, …
14 r  regression  variance 

2
มีฟังก์ชั่นใน R ที่นำศูนย์กลางของกลุ่มที่พบและกำหนดกลุ่มให้กับชุดข้อมูลใหม่
ฉันมีสองส่วนของชุดข้อมูลหลายมิติขอเรียกพวกเขาและtrain testและฉันต้องการสร้างแบบจำลองตามชุดข้อมูลรถไฟแล้วตรวจสอบความถูกต้องของชุดข้อมูลทดสอบ จำนวนของกลุ่มเป็นที่รู้จักกัน ฉันพยายามใช้การจัดกลุ่ม k-mean ใน R และได้วัตถุที่มีศูนย์กลางของกลุ่ม: kClust <- kmeans(train, centers=N, nstart=M) มีฟังก์ชั่นใน R ที่นำศูนย์กลางของกลุ่มที่พบและกำหนดกลุ่มให้กับชุดข้อมูลการทดสอบของฉันหรือไม่? ฉันสามารถลองวิธีการ / ขั้นตอนวิธีอื่นได้อย่างไร
14 r  clustering  k-means 

2
การวิเคราะห์กำลังไฟสำหรับการทดสอบ Kruskal-Wallis หรือ Mann-Whitney U โดยใช้ R?
เป็นไปได้ไหมที่จะทำการวิเคราะห์พลังงานสำหรับการทดสอบ Kruskal-Wallis และ Mann-Whitney U? ถ้าใช่จะมีแพ็คเกจ / ฟังก์ชั่น R ใดบ้างที่ใช้งานได้?

1
Wilcoxon ทดสอบผลรวมอันดับใน R
ฉันมีผลลัพธ์จากการทดสอบเดียวกันกับตัวอย่างสองตัวอย่าง: x <- c(17, 12, 13, 16, 9, 19, 21, 12, 18, 17) y <- c(10, 6, 15, 9, 8, 11, 8, 16, 13, 7, 5, 14) และฉันต้องการคำนวณการทดสอบผลรวมลำดับของ Wilcoxon เมื่อฉันคำนวณสถิติด้วยมือฉันจะได้รับ: T W = ∑อันดับ( X i ) = 156.5TWTWT_{W}TW= ∑ อันดับ( Xผม) = 156.5TW=∑rank(Xi)=156.5 T_{W}=\sum\text{rank}(X_{i}) = 156.5 เมื่อฉันให้ R แสดง …

3
ช่วงความเชื่อมั่นสำหรับความแตกต่างระหว่างสัดส่วน
ฉันสงสัยว่ามีคนแจ้งให้ฉันทราบหรือไม่ว่าฉันได้คำนวณช่วงความมั่นใจสำหรับความแตกต่างระหว่างสัดส่วนสองอย่างถูกต้องหรือไม่ ขนาดตัวอย่างคือ 34 ซึ่ง 19 เป็นเพศหญิงและ 15 เป็นเพศชาย ดังนั้นความแตกต่างของสัดส่วนคือ 0.1176471 ฉันคำนวณช่วงความมั่นใจ 95% สำหรับความแตกต่างระหว่าง -0.1183872 และ 0.3536814 เมื่อช่วงความมั่นใจผ่านศูนย์ความแตกต่างนั้นไม่มีนัยสำคัญทางสถิติ ด้านล่างเป็นผลงานของฉันใน R โดยมีผลลัพธ์เป็นความคิดเห็น f <- 19/34 # 0.5588235 m <- 15/34 # 0.4411765 n <- 34 # 34 difference <- f-m # 0.1176471 lower <- difference-1.96*sqrt((f*(1-f))/n+(m*(1-m))/n) # -0.1183872 upper <- difference+1.96*sqrt((f*(1-f))/n+(m*(1-m))/n) # 0.3536814

1
R-squared ในแบบจำลองเชิงเส้นข้อเบี่ยงเบนในแบบจำลองเชิงเส้นทั่วไป?
นี่คือบริบทของฉันสำหรับคำถามนี้: จากสิ่งที่ฉันสามารถบอกได้เราไม่สามารถเรียกใช้การถดถอยกำลังสองน้อยสุดธรรมดาใน R เมื่อใช้ข้อมูลที่มีน้ำหนักและsurveyแพคเกจ ที่นี่เราต้องใช้svyglm()ซึ่งใช้โมเดลเชิงเส้นทั่วไปแทน (ซึ่งอาจเป็นสิ่งเดียวกันหรือไม่ฉันคลุมเครือที่นี่ในแง่ของสิ่งที่แตกต่างกัน) ใน OLS และผ่านlm()ฟังก์ชั่นมันจะคำนวณค่า R-squared ซึ่งเป็นการตีความที่ฉันเข้าใจ อย่างไรก็ตามsvyglm()ดูเหมือนจะไม่สามารถคำนวณสิ่งนี้ได้และให้ค่าเบี่ยงเบนมาตรฐานแทนซึ่งการเดินทางสั้น ๆ รอบอินเทอร์เน็ตของฉันบอกฉันว่าเป็นการวัดความดีที่พอดีซึ่งตีความได้แตกต่างจาก R-squared ดังนั้นฉันเดาว่าฉันมีคำถามสองข้อที่ฉันหวังว่าจะได้รับทิศทาง: ทำไมเราไม่สามารถเรียกใช้ OLS ในsurveyแพ็คเกจได้ แต่ดูเหมือนว่าเป็นไปได้ที่จะทำกับข้อมูลที่มีน้ำหนักใน Stata อะไรคือความแตกต่างในการตีความระหว่างความเบี่ยงเบนของตัวแบบเส้นตรงทั่วไปกับค่า r-squared?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.