คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

4
วิธีปรับให้พอดีกับแบบจำลองสำหรับอนุกรมเวลาที่มีค่าผิดปกติ
ฉันได้ติดตั้งแบบจำลอง ARIMA (5,1,2) โดยใช้auto.arima()ฟังก์ชั่นใน R และโดยลำดับการค้นหาเราสามารถพูดได้ว่านี่ไม่ใช่แบบจำลองที่ดีที่สุดในการคาดการณ์ หากมีค่าผิดปกติอยู่ในชุดข้อมูลวิธีการใดที่จะพอดีกับแบบจำลองกับข้อมูลดังกล่าว

1
โมเดลความเป็นอันตรายตามสัดส่วนของค็อกซ์และการตีความค่าสัมประสิทธิ์เมื่อมีปฏิกิริยาต่อผู้ป่วยมากขึ้น
นี่คือสรุปเอาท์พุทของ Coxph-model ที่ฉันใช้ (I ใช้ R และผลลัพธ์ขึ้นอยู่กับรุ่นสุดท้ายที่ดีที่สุดนั่นคือตัวแปรอธิบายที่สำคัญทั้งหมดและการโต้ตอบของพวกเขารวมอยู่ด้วย): coxph(formula = Y ~ LT + Food + Temp2 + LT:Food + LT:Temp2 + Food:Temp2 + LT:Food:Temp2) # Y<-Surv(Time,Status==1) n = 555 coef exp(coef) se(coef) z Pr(>|z|) LT 9.302e+02 Inf 2.822e+02 3.297 0.000979 *** Food 3.397e+03 Inf 1.023e+03 3.321 0.000896 *** Temp2 5.016e+03 …

1
ปัญหาเกี่ยวกับการศึกษาแบบจำลองของคำอธิบายการทดลองซ้ำในช่วงความมั่นใจ 95% - ฉันจะไปไหนผิด
ฉันกำลังพยายามเขียนสคริปต์ R เพื่อจำลองการตีความการทดลองซ้ำในช่วงความมั่นใจ 95% ฉันพบว่ามันประเมินค่าสัดส่วนของจำนวนครั้งที่ค่าของประชากรที่แท้จริงของสัดส่วนนั้นอยู่ใน 95% CI ของกลุ่มตัวอย่าง ไม่แตกต่างกันมาก - ประมาณ 96% เทียบกับ 95% แต่นี่ก็สนใจฉันอยู่ดี ฟังก์ชั่นของฉันจะรับตัวอย่างsamp_nจากการกระจาย Bernoulli กับความน่าจะเป็นpop_pและจากนั้นคำนวณช่วงความเชื่อมั่น 95% มีการใช้แก้ไขความต่อเนื่องหรือมากกว่าตรงกับprop.test() binom.test()มันจะส่งกลับ 1 ถ้าสัดส่วนประชากรที่แท้จริงpop_pมีอยู่ใน 95% CI ฉันได้เขียนฟังก์ชันที่สองซึ่งหนึ่งที่ใช้prop.test()และหนึ่งซึ่งใช้binom.test()และมีผลลัพธ์ที่คล้ายกันกับทั้ง: in_conf_int_normal <- function(pop_p = 0.3, samp_n = 1000, correct = T){ ## uses normal approximation to calculate confidence interval ## returns 1 if the …

1
ทำไมการแนะนำของเอฟเฟกต์ความชันแบบสุ่มทำให้ SE ของความชันเพิ่มขึ้น
ฉันพยายามวิเคราะห์ผลกระทบของปีต่อตัวแปร logInd สำหรับกลุ่มบุคคลโดยเฉพาะ (ฉันมี 3 กลุ่ม) โมเดลที่ง่ายที่สุด: > fix1 = lm(logInd ~ 0 + Group + Year:Group, data = mydata) > summary(fix1) Call: lm(formula = logInd ~ 0 + Group + Year:Group, data = mydata) Residuals: Min 1Q Median 3Q Max -5.5835 -0.3543 -0.0024 0.3944 4.7294 Coefficients: Estimate Std. Error …

3
วิธีการทดสอบ / พิสูจน์ข้อมูลเป็นศูนย์ที่สูงเกินจริง?
ฉันมีปัญหาที่ฉันคิดว่าควรจะง่าย แต่ไม่สามารถเข้าใจได้ ฉันกำลังดูการผสมเกสรของเมล็ดฉันมีพืช (n = 36) ดอกไม้ที่อยู่ในกลุ่มฉันลองกลุ่มดอกไม้ 3 กลุ่มจากแต่ละต้นและฝัก 6 เมล็ดจากแต่ละกลุ่ม (18 ฝักทั้งหมดจากแต่ละต้น) ฝักสามารถมีได้ระหว่าง 0 ถึงมากที่สุด 4 เมล็ดเรณู ดังนั้นข้อมูลจะถูกนับด้วยขอบเขตบน ฉันกำลังหาค่าเฉลี่ยของเมล็ดประมาณ 10% ของเรณู แต่ที่ใดก็ได้ระหว่าง 1 - 30% ในพืชที่กำหนดดังนั้นมากกว่าข้อมูลที่กระจัดกระจายและแน่นอนว่ามีคลัสเตอร์ที่หายไป 4 ต้นใน 3 พืชดังนั้นจึงไม่สมมาตรอย่างสมบูรณ์ . คำถามที่ฉันถามคือถ้าข้อมูลนี้สนับสนุนความคิดที่โรงงานนี้ต้องการการถ่ายละอองเรณูสำหรับชุดเมล็ด ฉันพบว่าการกระจายของจำนวนเมล็ดในฝักดูเหมือนจะมีมากกว่า 0 ฝักเรณู (6-9 ฝักจาก 16) และอื่น ๆ 3 และ 4 พอดเรณูเมล็ด (2-4 สำหรับแต่ละ) กว่าจะ จะคาดหวังถ้าเมล็ดในประชากรเป็นเพียงการผสมเกสรแบบสุ่ม โดยพื้นฐานแล้วฉันคิดว่านี่เป็นตัวอย่างแบบคลาสสิกสำหรับข้อมูลที่สูงเกินจริงศูนย์แมลงตัวแรกทำอย่างใดอย่างหนึ่งหรือไม่ได้เยี่ยมชมดอกไม้เลย …

2
ฉันจะประมาณช่วงความมั่นใจ 95% โดยใช้การทำโปรไฟล์สำหรับพารามิเตอร์ที่ประเมินได้โดยการเพิ่มฟังก์ชั่นบันทึกความเป็นไปได้โดยใช้ optimize ใน R ได้อย่างไร
ฉันจะประมาณช่วงความมั่นใจ 95% โดยใช้การทำโปรไฟล์สำหรับพารามิเตอร์ที่ประเมินได้โดยการเพิ่มฟังก์ชั่นบันทึกความเป็นไปได้โดยใช้ optimize ใน R ได้อย่างไร ฉันรู้ว่าฉันสามารถประเมินเมทริกซ์ความแปรปรวนร่วมแบบไม่มีสัญญาณได้โดยการสลับเฮสเซียนแต่ฉันกังวลว่าข้อมูลของฉันไม่ตรงตามสมมติฐานที่จำเป็นสำหรับวิธีการนี้ที่จะถูกต้อง ฉันต้องการประเมินช่วงความมั่นใจโดยใช้วิธีอื่น วิธีความน่าจะเป็นของโปรไฟล์มีความเหมาะสมตามที่กล่าวไว้ในStryhn และ Christensenและในหนังสือ MASS Venables และ Ripley ของ§8.4, pp. 220-221? ถ้ามีมีแพ็คเกจใดบ้างที่สามารถช่วยฉันทำสิ่งนี้ใน R หรือไม่? ถ้าไม่เช่นนั้นรหัสหลอกสำหรับวิธีการดังกล่าวจะเป็นอย่างไร

1
วิธีการรับข้อผิดพลาดมาตรฐานจากการถดถอยของการนับข้อมูลที่มีค่าศูนย์สูงเกินศูนย์จะทำอย่างไร [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน2 ปีที่ผ่านมา รหัสต่อไปนี้ PredictNew <- predict (glm.fit, newdata = Predict, X1 =X1, Y1= Y1, type = "response", se.fit = TRUE) สร้าง 3 คอลัมน์data.frame--PredictNew, ค่าติดตั้ง, ข้อผิดพลาดมาตรฐานและคำที่เหลือขนาด สมบูรณ์แบบ ... อย่างไรก็ตามการใช้โมเดลที่มีzeroinfl {pscl}: PredictNew <- predict (zeroinfl.fit, newdata = Predict, X1 =X1, Y1= Y1, type = "response", se.fit = …

2
พารามิเตอร์การบูตแบบกึ่งพารามิเตอร์และแบบไม่มีพารามิเตอร์สำหรับรุ่นผสม
ตัดต่อไปนี้จะนำมาจากบทความนี้ ฉันเป็นมือใหม่ในการบู๊ตสแตรปและพยายามที่จะใช้การบู๊ตสแปปปิ้งแบบกึ่งพารามิเตอร์แบบกึ่งพารามิเตอร์และแบบไม่มีพารามิเตอร์สำหรับแบบจำลองเชิงเส้นผสมกับR bootแพ็คเกจ รหัส R นี่คือRรหัสของฉัน: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) boot.fn <- function(data, indices){ data <- data[indices, ] mod <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=data) fixef(mod) } set.seed(12345) Out <- boot(data=Cultivation, statistic=boot.fn, R=99) …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

3
อคติการตอบสนองการกระจายขึ้นอยู่กับการถดถอยป่าแบบสุ่ม
ฉันใช้แพ็คเกจ randomForest ใน R (R เวอร์ชั่น 2.13.1, randomForest เวอร์ชัน 4.6-2) สำหรับการถดถอยและสังเกตเห็นอคติที่สำคัญในผลลัพธ์ของฉัน: ข้อผิดพลาดในการทำนายขึ้นอยู่กับค่าของตัวแปรการตอบสนอง ค่าสูงนั้นคาดการณ์ไม่ได้และค่าต่ำจะทำนายค่ามากเกินไป ตอนแรกฉันสงสัยว่านี่เป็นผลมาจากข้อมูลของฉัน แต่ตัวอย่างง่าย ๆ ดังต่อไปนี้แสดงให้เห็นว่านี่เป็นสิ่งที่เกิดขึ้นจากอัลกอริธึมการสุ่มป่า: n = 1000; x1 = rnorm(n, mean = 0, sd = 1) response = x1 predictors = data.frame(x1=x1) rf = randomForest(x=predictors, y=response) error = response-predict(rf, predictors) plot(x1, error) ฉันสงสัยว่าอคตินั้นขึ้นอยู่กับการกระจายตัวของการตอบสนองตัวอย่างเช่นหากx1กระจายอย่างสม่ำเสมอจะไม่มีอคติ ถ้าx1มีการแจกแจงแบบ exponential อคติคือด้านเดียว โดยพื้นฐานแล้วค่าของการตอบสนองที่ส่วนท้ายของการแจกแจงแบบปกติคือค่าผิดปกติ …

1
การถดถอยโลจิสติกส์: จัดกลุ่มและไม่จัดกลุ่มตัวแปร (ใช้ R)
ฉันกำลังอ่าน A. Agresti (2007), การแนะนำการวิเคราะห์ข้อมูลเชิงหมวดหมู่ , อันดับที่ 2 รุ่นและไม่แน่ใจว่าฉันเข้าใจย่อหน้านี้ (หน้า 106, 4.2.1) ถูกต้อง (แม้ว่าควรง่าย): ในตารางที่ 3.1 เกี่ยวกับการกรนและโรคหัวใจในบทก่อนหน้า 254 คนรายงานการกรนทุกคืนซึ่ง 30 คนเป็นโรคหัวใจ หากไฟล์ข้อมูลมีการจัดกลุ่มข้อมูลไบนารีเส้นหนึ่งในไฟล์ข้อมูลจะรายงานข้อมูลเหล่านี้ว่าเป็นโรคหัวใจ 30 รายจากขนาดตัวอย่าง 254 ถ้าไฟล์ข้อมูลมีข้อมูลไบนารีที่ไม่ได้จัดกลุ่มแต่ละบรรทัดในไฟล์ข้อมูลหมายถึง แยกกันดังนั้น 30 บรรทัดประกอบด้วย 1 สำหรับโรคหัวใจและ 224 บรรทัดประกอบด้วย 0 สำหรับโรคหัวใจ ค่า ML และค่า SE จะเหมือนกันสำหรับไฟล์ข้อมูลทั้งสองประเภท การแปลงชุดข้อมูลที่ไม่จัดกลุ่ม (ขึ้นอยู่กับ 1 อิสระ 1) จะใช้เวลามากกว่า "บรรทัด" เพื่อรวมข้อมูลทั้งหมด! ในตัวอย่างต่อไปนี้ชุดข้อมูลแบบง่าย (ไม่สมจริง!) …

3
auto.arima เตือน NaNs เกิดจากข้อผิดพลาด std
ข้อมูลของฉันเป็นอนุกรมเวลาของประชากรที่มีงานทำ, L และช่วงเวลา, ปี n.auto=auto.arima(log(L),xreg=year) summary(n.auto) Series: log(L) ARIMA(2,0,2) with non-zero mean Coefficients: ar1 ar2 ma1 ma2 intercept year 1.9122 -0.9567 -0.3082 0.0254 -3.5904 0.0074 s.e. NaN NaN NaN NaN 1.6058 0.0008 sigma^2 estimated as 1.503e-06: log likelihood=107.55 AIC=-201.1 AICc=-192.49 BIC=-193.79 In-sample error measures: ME RMSE MAE MPE MAPE -7.285102e-06 …
9 r  regression  arima 

1
ทำอย่างไรจึงจะพอดีกับแบรดลีย์ - เทอร์รี่ - ลูซใน R โดยไม่มีสูตรที่ซับซ้อน?
แบรดลีย์ - เทอร์รี่ – ลูซ (BTL) โมเดลกล่าวว่าโดยที่คือความน่าจะเป็นที่วัตถุถูกตัดสินให้เป็น "ดีกว่า", ที่หนักกว่า ฯลฯ กว่า objectและและเป็นพารามิเตอร์พีJฉัน= l o gผมเสื้อ- 1(δJ-δผม)พีJผม=ล.โอก.ผมเสื้อ-1(δJ-δผม)p_{ji} = logit^{-1}(\delta_j - \delta_i)พีฉันเจพีผมJp_{ij}JJjผมผมiδผมδผม\delta_iδJδJ\delta_j ดูเหมือนว่าจะเป็นตัวเลือกสำหรับฟังก์ชัน glm โดยมี family = binomial อย่างไรก็ตามสูตรจะคล้ายกับ "ความสำเร็จ ~ S1 + S2 + S3 + S4 + ... " โดยที่ Sn เป็นตัวแปรจำลองนั่นคือ 1 ถ้าวัตถุ n เป็นวัตถุแรกในการเปรียบเทียบ -1 ถ้าเป็น วินาทีและ 0 …

2
วิธีการจำลองการวัดซ้ำหลายตัวแปรผลลัพธ์ใน R?
@whuber ได้สาธิตวิธีจำลองผลลัพธ์หลายตัวแปร ( ,และy_3 ) ในครั้งเดียวy1y1y_1y2y2y_2y3y3y_3 ดังที่เราทราบข้อมูลระยะยาวมักเกิดขึ้นในการศึกษาทางการแพทย์ คำถามของฉันคือวิธีการจำลองการวัดผลซ้ำหลายตัวแปรใน R หรือไม่? ตัวอย่างเช่นเราวัดy1y1y_1 , y2y2y_2และy3y3y_3ๆ กันที่จุดเวลา 5 จุดสำหรับกลุ่มการรักษาที่แตกต่างกันสองกลุ่ม

1
ทำนายปัวซอง GLM พร้อมออฟเซ็ต
ฉันรู้ว่านี่อาจเป็นคำถามพื้นฐาน ... แต่ฉันดูเหมือนจะไม่พบคำตอบ ฉันเหมาะสมกับ GLM กับครอบครัวปัวซงแล้วลองดูการคาดคะเน แต่สิ่งที่พิจารณาจะนำมาพิจารณา: model_glm=glm(cases~rhs(data$year,2003)+lhs(data$year,2003), offset=(log(population)), data=data, subset=28:36, family=poisson()) predict (model_glm, type="response") ฉันได้รับคดีไม่ใช่อัตรา ... ฉันได้ลองแล้วเช่นกัน model_glm=glm(cases~rhs(data$year,2003)+lhs(data$year,2003)+ offset(log(population)), data=data, subset=28:36, family=poisson()) ด้วยผลลัพธ์เดียวกัน อย่างไรก็ตามเมื่อฉันทำนายจาก GAM โดยใช้ mgcv การคาดคะเนจะพิจารณาการชดเชย (ฉันได้รับอัตรา) ฉันทำอะไรบางอย่างหายไป?

1
วิธีการรับขอบเขตการตัดสินใจจาก linear SVM ใน R?
ฉันต้องการแพคเกจที่สามารถให้สมการสำหรับโมเดล SVM เชิงเส้นได้ ขณะนี้ฉันใช้e1071เช่นนั้น: library(e1071) m = svm(data, labels, type='C', kernel='linear', cost=cost, probability=FALSE, scale=scale) w = t(m$coefs) %*% data[m$index,] #Weight vector b = -model$rho #Offset อย่างไรก็ตามฉันไม่แน่ใจว่าe1071::svm()จะเลือกคลาสบวกและลบได้อย่างไรดังนั้นฉันคิดว่านี่อาจทำให้ชุดข้อมูลแตกต่างกัน ทุกคนสามารถยืนยันได้ว่าฟังก์ชั่นนี้ตัดสินใจว่าคลาสใดเป็นบวก นอกจากนี้ยังมีแพ็คเกจที่ดีกว่าสำหรับสิ่งนี้หรือไม่?
9 r  svm  e1071 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.