คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

1
ผสานรวมกับ eCDF อย่างรวดเร็วใน R
ฉันมีสมการอินทิกรัลของรูปแบบ โดยที่คือ cdf เชิงประจักษ์และเป็นฟังก์ชัน . ฉันมีการทำแผนที่การหดตัวดังนั้นฉันจึงพยายามแก้สมการอินทิกรัลโดยใช้ลำดับทฤษฎีบท Banach Fixed PointF nกรัมT1( x ) = ∫x0ก.( T1( y) ) d F^n( y)T1(x)=∫0xก.(T1(Y)) dF^n(Y) T_1(x) = \int_0^x g(T_1(y)) \ d\hat{F}_n(y) F^nF^n\hat{F}_nก.ก.g อย่างไรก็ตามสิ่งนี้ทำงานช้ามากใน R และฉันคิดว่ามันเป็นเพราะฉันรวมการใช้ฟังก์ชั่น sum () สำหรับซ้ำแล้วซ้ำอีกx ∈ F^nx∈F^nx \in \hat{F}_n มีวิธีการรวมที่เร็วขึ้นโดยใช้การกระจายเชิงประจักษ์กับฟังก์ชั่นเช่นบูรณาการ ()?

1
คำนวณความน่าจะเป็นบันทึกใหม่จากโมเดล R lm อย่างง่าย
ฉันเพียงแค่พยายามคำนวณใหม่ด้วย dnorm () ความน่าจะเป็นของล็อกจากฟังก์ชัน logLik จาก lm model (in R) ใช้งานได้ (เกือบสมบูรณ์แบบ) สำหรับข้อมูลจำนวนมาก (เช่น n = 1,000): > n <- 1000 > x <- 1:n > set.seed(1) > y <- 10 + 2*x + rnorm(n, 0, 2) > mod <- glm(y ~ x, family = gaussian) > logLik(mod) 'log Lik.' …

2
การเพิ่มเอฟเฟกต์แบบสุ่มมีผลต่อการประมาณค่าสัมประสิทธิ์
ฉันได้รับการสอนเสมอว่าเอฟเฟกต์แบบสุ่มมีอิทธิพลต่อความแปรปรวน (ข้อผิดพลาด) เท่านั้นและเอฟเฟกต์แบบคงที่จะมีอิทธิพลต่อค่าเฉลี่ยเท่านั้น แต่ฉันได้พบตัวอย่างที่ผลกระทบแบบสุ่มมีอิทธิพลต่อค่าเฉลี่ย - การประมาณค่าสัมประสิทธิ์: require(nlme) set.seed(128) n <- 100 k <- 5 cat <- as.factor(rep(1:k, each = n)) cat_i <- 1:k # intercept per kategorie x <- rep(1:n, k) sigma <- 0.2 alpha <- 0.001 y <- cat_i[cat] + alpha * x + rnorm(n*k, 0, sigma) plot(x, y) …

1
การปรับค่า p สำหรับสถิติ Local Moran I (LISA)
ฉันทำงานกับการวิเคราะห์เชิงพื้นที่เชิงสำรวจใน R โดยใช้แพ็คเกจ spdep ฉันเจอตัวเลือกในการปรับค่าpของตัวบ่งชี้ท้องถิ่นของการเชื่อมโยงเชิงพื้นที่ (LISA) ที่คำนวณโดยใช้localmoranฟังก์ชัน ตามเอกสารนั้นมีวัตถุประสงค์เพื่อ: ... การปรับค่าความน่าจะเป็นสำหรับการทดสอบหลายครั้ง เพิ่มเติมในเอกสารของp.adjustSPฉันอ่านว่าตัวเลือกที่ใช้ได้คือ: วิธีการปรับรวมถึงการแก้ไข Bonferroni ('"bonferroni"') ซึ่งค่า p ถูกคูณด้วยจำนวนการเปรียบเทียบ การแก้ไขจารีตน้อยกว่าสี่ประการรวมอยู่ใน Holm (1979) ('' holm ''), Hochberg (1988) ('"hochberg"'), Hommel (1988) ('hommel "') และ Benjamini & Hochberg (1995) ('"fdr"') ตามลำดับ ตัวเลือก pass-through ('"none"') รวมอยู่ด้วย สี่วิธีแรกถูกออกแบบมาเพื่อให้สามารถควบคุมอัตราความผิดพลาดที่เหมาะสำหรับครอบครัวได้ ดูเหมือนว่าไม่มีเหตุผลที่จะใช้การแก้ไข Bonferroni ที่ไม่ได้แก้ไขเพราะมันถูกครอบงำโดยวิธีการของ Holm ซึ่งก็ใช้ได้ภายใต้สมมติฐานโดยพลการ วิธีการของ Hochberg และ …

3
วิธีรับช่วงความมั่นใจในการเปลี่ยนแปลงประชากร r-square
ตัวอย่างง่ายๆสมมติว่ามีตัวแบบถดถอยเชิงเส้นสองแบบ รุ่นที่ 1 มีสามทำนาย, x1a, x2bและx2c แบบจำลอง 2 มีตัวทำนายสามตัวจากแบบจำลอง 1 และสองตัวทำนายเพิ่มเติมx2aและx2b มีสมการถดถอยที่ประชากรประชากรแปรปรวนอธิบายคือเป็น สำหรับรุ่นที่ 1 และρ 2 ( 2 )สำหรับรุ่น 2. แปรปรวนเพิ่มขึ้นอธิบายโดยรุ่น 2 ในประชากรที่อยู่Δ ρ 2 = ρ 2 ( 2 ) - ρ 2 ( 1 )ρ2(1)ρ(1)2\rho^2_{(1)}ρ2(2)ρ(2)2\rho^2_{(2)}Δρ2=ρ2(2)−ρ2(1)Δρ2=ρ(2)2−ρ(1)2\Delta\rho^2 = \rho^2_{(2)} - \rho^2_{(1)} ฉันสนใจในการได้รับข้อผิดพลาดมาตรฐานและช่วงความเชื่อมั่นสำหรับประมาณการของ 2 ในขณะที่ตัวอย่างเกี่ยวข้องกับตัวทำนาย 3 และ 2 ตามลำดับความสนใจงานวิจัยของฉันเกี่ยวข้องกับตัวทำนายจำนวนต่าง ๆ (เช่น …

1
ฉันจะรวมเอานวัตกรรมล้ำสมัยที่การสังเกตที่ 48 ในโมเดล ARIMA ของฉันได้อย่างไร
ฉันกำลังทำงานกับชุดข้อมูล หลังจากใช้เทคนิคการระบุตัวแบบบางอย่างฉันก็ออกมาพร้อมกับแบบจำลอง ARIMA (0,2,1) ผมใช้detectIOฟังก์ชั่นในแพคเกจTSAในการวิจัยที่จะตรวจพบนวัตกรรมขอบเขต (IO) ที่สังเกต 48th ของชุดข้อมูลเดิมของฉัน ฉันจะรวมค่าผิดปกตินี้ไว้ในแบบจำลองของฉันเพื่อที่ฉันจะสามารถใช้เพื่อวัตถุประสงค์ในการพยากรณ์ได้อย่างไร ฉันไม่ต้องการใช้แบบจำลอง ARIMAX เนื่องจากฉันอาจไม่สามารถคาดการณ์ได้จากสิ่งนั้นใน R มีวิธีอื่นที่ฉันสามารถทำได้หรือไม่ นี่คือค่านิยมของฉันตามลำดับ: VALUE <- scan() 4.6 4.5 4.4 4.5 4.4 4.6 4.7 4.6 4.7 4.7 4.7 5.0 5.0 4.9 5.1 5.0 5.4 5.6 5.8 6.1 6.1 6.5 6.8 7.3 7.8 8.3 8.7 9.0 9.4 9.5 9.5 …
10 r  time-series  arima  outliers  hypergeometric  fishers-exact  r  time-series  intraclass-correlation  r  logistic  glmm  clogit  mixed-model  spss  repeated-measures  ancova  machine-learning  python  scikit-learn  distributions  data-transformation  stochastic-processes  web  standard-deviation  r  machine-learning  spatial  similarities  spatio-temporal  binomial  sparse  poisson-process  r  regression  nonparametric  r  regression  logistic  simulation  power-analysis  r  svm  random-forest  anova  repeated-measures  manova  regression  statistical-significance  cross-validation  group-differences  model-comparison  r  spatial  model-evaluation  parallel-computing  generalized-least-squares  r  stata  fitting  mixture  hypothesis-testing  categorical-data  hypothesis-testing  anova  statistical-significance  repeated-measures  likert  wilcoxon-mann-whitney  boxplot  statistical-significance  confidence-interval  forecasting  prediction-interval  regression  categorical-data  stata  least-squares  experiment-design  skewness  reliability  cronbachs-alpha  r  regression  splines  maximum-likelihood  modeling  likelihood-ratio  profile-likelihood  nested-models 

1
แบนด์วิดธ์หมายถึงอะไร
ฉันพล็อตฟังก์ชันความหนาแน่นใน R และภายใต้พล็อตคือจำนวนแบนด์วิดท์ หมายเลขนี้หมายถึงอะไร
10 r 

2
การถดถอยโลจิสติกหลายครั้งเทียบกับการถดถอยหลายระดับ
มันเป็นไปได้ไหมที่จะทำการถดถอยโลจิสติกแบบไบนารีหลาย ๆ แบบแทนที่จะทำการถดถอยแบบหลายส่วน? จากคำถามนี้: การถดถอยโลจิสติก Multinomial เทียบกับการถดถอยโลจิสติกไบนารีหนึ่งส่วนที่เหลือฉันเห็นว่าการถดถอย Multinomial อาจมีข้อผิดพลาดมาตรฐานที่ต่ำกว่า อย่างไรก็ตามแพคเกจที่ฉันต้องการใช้ยังไม่ได้รับการสรุปในการถดถอยหลายระดับ ( ncvreg: http://cran.r-project.org/web/packages/ncvreg/ncvreg.pdf ) และดังนั้นฉันสงสัยว่าฉันสามารถทำได้ การถดถอยโลจิสติกไบนารีหลายรายการแทน

1
วิธีการเขียนเทอมข้อผิดพลาดในมาตรการ ANOVA ซ้ำ ๆ ใน R: Error (subject) vs Error (Subject / time)
คำถามของฉันมีความสัมพันธ์อย่างใกล้ชิดกับการโพสต์ก่อนหน้านี้ ระบุข้อผิดพลาด () ระยะในการวัดซ้ำ ANOVA ในการวิจัย อย่างไรก็ตามฉันต้องการรับข้อมูลเชิงลึกเพิ่มเติมเกี่ยวกับวิธีกำหนดคำที่ผิดพลาด สมมติว่าฉันมี ANOVA ซ้ำสองทางปัจจัยระหว่างกลุ่มผลคือการรักษา (ควบคุมเทียบกับยาหลอก) ในขณะที่เวลาคือผลกระทบภายในกลุ่มที่วัดซ้ำ ๆ กันมากกว่า 4 ครั้ง (T1 ~ T4) ID ผู้ป่วยจะถูกบันทึกเป็นหัวเรื่อง ที่นี่ฉันยืมข้อมูลจากตัวอย่างจากบทช่วยสอนในhttp://gjkerns.github.io/R/2012/01/20/power-sample-size.html ดังนั้นข้อมูลจะมีลักษณะเช่นนี้ Time Subject Method NDI 0min 1 Treat 51.01078 15min 1 Treat 47.12314 48hrs 1 Treat 26.63542 96hrs 1 Treat 20.78196 0min 2 Treat 42.61345 15min 2 Treat …

3
ผลกระทบคงที่เทียบกับสุ่ม
ฉันเพิ่งเริ่มเรียนรู้เกี่ยวกับโมเดลเชิงเส้นผสมแบบทั่วไปและใช้ R เพื่อสำรวจความแตกต่างที่ทำให้ปฏิบัติต่อการเป็นสมาชิกกลุ่มเป็นลักษณะพิเศษแบบคงที่หรือแบบสุ่ม โดยเฉพาะฉันกำลังดูชุดข้อมูลตัวอย่างที่กล่าวถึงที่นี่: http://www.ats.ucla.edu/stat/mult_pkg/glmm.htm http://www.ats.ucla.edu/stat/r/dae/melogit.htm ดังที่อธิบายไว้ในบทช่วยสอนนี้ผลกระทบของ Doctor ID นั้นสามารถมองเห็นได้และฉันคาดหวังว่ารูปแบบผสมกับการสกัดแบบสุ่มเพื่อให้ได้ผลลัพธ์ที่ดีขึ้น อย่างไรก็ตามการเปรียบเทียบค่า AIC สำหรับสองวิธีแนะนำว่ารุ่นนี้แย่กว่า: > require(lme4) ; hdp = read.csv("http://www.ats.ucla.edu/stat/data/hdp.csv") > hdp$DID = factor(hdp$DID) ; hdp$Married = factor(hdp$Married) > GLM = glm(remission~Age+Married+IL6+DID,data=hdp,family=binomial);summary(GLM) Call: glm(formula = remission ~ Age + Married + IL6 + DID, family = binomial, data = hdp) Deviance …

1
glm หรือ glmnet ใดที่มีความแม่นยำมากกว่า
R glm และ glmnet ใช้อัลกอริธึมที่แตกต่างกัน ฉันสังเกตเห็นความแตกต่างเล็ก ๆ น้อย ๆ ระหว่างค่าสัมประสิทธิ์โดยประมาณเมื่อฉันใช้ทั้งคู่ ฉันสนใจเมื่อคนหนึ่งมีความแม่นยำมากกว่าคนอื่นและเวลาที่จะแก้ไข / แลกเปลี่ยนความแม่นยำ โดยเฉพาะฉันหมายถึงกรณีที่หนึ่งชุดแลมบ์ดา = 0 ใน glmnet st มันประมาณเช่นเดียวกับ glm

1
แบบจำลองเวลาอันตรายที่ไม่ต่อเนื่อง (cloglog) ใน R
survivalแพคเกจในการRปรากฏขึ้นที่จะมุ่งเน้นในรูปแบบเวลาการอยู่รอดอย่างต่อเนื่อง ฉันสนใจที่จะประเมินรุ่นเวลาที่ไม่ต่อเนื่องของโมเดลความเป็นอันตรายตามสัดส่วนซึ่งเป็นรูปแบบบันทึกการใช้งานเสริม ฉันมีรูปแบบการเอาชีวิตรอดที่ค่อนข้างตรงไปตรงมาพร้อมการตัดสิทธิ์ที่เรียบง่าย ฉันรู้ว่าวิธีหนึ่งในการประเมินโมเดลนี้คือการสร้างชุดข้อมูลที่มีแถวแยกต่างหากสำหรับแต่ละการสังเกตสำหรับแต่ละช่วงเวลาที่ไม่ใช่ "ตาย" จากนั้นสามารถใช้glmโมเดลที่มีcloglogลิงก์ วิธีการนี้ดูเหมือนไม่มีประสิทธิภาพของหน่วยความจำมาก ที่จริงแล้วมันน่าจะสร้างชุดข้อมูลที่ใหญ่เกินไปสำหรับหน่วยความจำในเครื่องของฉัน วิธีที่สองคือการเขียนโค้ด MLE ด้วยตัวเอง นั่นจะง่ายพอ แต่ฉันหวังว่าจะมีแพ็คเกจที่มีโมเดลการเอาตัวรอดนี้ มันจะง่ายขึ้นสำหรับการทำงานร่วมกันและเพื่อหลีกเลี่ยงข้อผิดพลาดในการเขียนโปรแกรมเพื่อใช้แพคเกจ ไม่มีใครรู้แพคเกจดังกล่าวหรือไม่
10 r  survival 

1
วิธีแยก / คำนวณเลเวอเรจและระยะทางของ Cook สำหรับโมเดลเอฟเฟกต์แบบผสมเชิงเส้น
ไม่มีใครรู้วิธีคำนวณ (หรือแยก) เลเวอเรจและระยะทางของ Cook สำหรับmerคลาสวัตถุ (ที่ได้รับจากlme4แพ็คเกจ) ฉันต้องการพล็อตพวกนี้สำหรับการวิเคราะห์เศษซาก

2
การค้นหาศูนย์วงกลมที่รู้จำนวนมากที่สุดซึ่งจะเพิ่มจำนวนคะแนนภายในระยะทางที่แน่นอน
ฉันมีชุดข้อมูล 2 มิติที่ฉันต้องการค้นหาศูนย์กลางของจำนวนศูนย์กลางของวงกลม ( ) ที่ระบุซึ่งจะเพิ่มจำนวนจุดทั้งหมดภายในระยะทางที่กำหนด ( )Rยังไม่มีข้อความNNRRR เช่นฉันมี 10,000 จุดข้อมูลและฉันต้องการที่จะหาศูนย์ของแวดวงที่จับเป็นจุดมากเท่าที่เป็นไปได้ภายในรัศมีของR5 ศูนย์และรัศมี 10 ได้รับล่วงหน้าไม่ได้มาจากข้อมูลN = 5 R = 10( Xผม, วายผม)(Xi,Yi)(X_i, Y_i)ยังไม่มีข้อความ= 5N=5N=5R = 10R=10R=10 การปรากฏตัวของจุดข้อมูลภายในวงกลมเป็นเลขฐานสอง / หรือข้อเสนอ ถ้าไม่มีความแตกต่างของมูลค่าของจุด 11 หน่วยกับ 100 หน่วยในขณะที่ทั้งสอง> 10 ในทำนองเดียวกันกับที่อยู่ในวงกลมไม่มีค่าพิเศษที่จะอยู่ใกล้กับใจกลางและใกล้กับขอบ . จุดข้อมูลอาจอยู่ในหนึ่งในแวดวงหรือออกR = 10R=10R=10 มีอัลกอริทึมที่ดีที่สามารถใช้แก้ปัญหานี้ได้หรือไม่? ดูเหมือนว่าสิ่งเหล่านี้เกี่ยวข้องกับเทคนิคการจัดกลุ่ม แต่แทนที่จะลดระยะทางเฉลี่ยให้น้อยที่สุดฟังก์ชัน "ระยะทาง" คือ 0 ถ้าจุดอยู่ภายในของจุดใด ๆและ 1 เป็นอย่างอื่นNRRRยังไม่มีข้อความNN ความชอบของฉันคือการหาวิธีที่จะทำสิ่งนี้ใน …
10 r  clustering  distance 

4
วิธีตรวจสอบว่าแบบจำลองการถดถอยของฉันดีหรือไม่
วิธีหนึ่งในการค้นหาความแม่นยำของโมเดลการถดถอยโลจิสติกโดยใช้ 'glm' คือการค้นหาพล็อต AUC จะตรวจสอบสิ่งเดียวกันสำหรับแบบจำลองการถดถอยที่พบกับตัวแปรตอบสนองต่อเนื่อง (family = 'gaussian') ได้อย่างไร? วิธีใดที่ใช้ในการตรวจสอบว่ารูปแบบการถดถอยของฉันเหมาะสมกับข้อมูลอย่างไร

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.