คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

2
ช่วงการทำนายสำหรับโมเดลเอฟเฟกต์ผสม lmer () ใน R
ฉันต้องการรับช่วงการทำนายรอบการทำนายจากโมเดล lmer () ฉันได้พบการสนทนาเกี่ยวกับเรื่องนี้: http://rstudio-pubs-static.s3.amazonaws.com/24365_2803ab8299934e888a60e7b16113f619.html http://glmm.wikidot.com/faq แต่ดูเหมือนว่าพวกเขาจะไม่คำนึงถึงความไม่แน่นอนของเอฟเฟกต์แบบสุ่ม นี่คือตัวอย่างที่เฉพาะเจาะจง ฉันแข่งปลาทอง ฉันมีข้อมูลในการแข่ง 100 ครั้งที่ผ่านมา ฉันต้องการที่จะคาดการณ์ลำดับที่ 101 โดยคำนึงถึงความไม่แน่นอนของการประมาณการ RE ของฉันและการประมาณ FE ฉันรวมถึงการสกัดกั้นแบบสุ่มสำหรับปลา (มี 10 ปลาที่แตกต่างกัน) และผลคงที่สำหรับน้ำหนัก (ปลาที่หนักน้อยกว่านั้นเร็วกว่า) library("lme4") fish <- as.factor(rep(letters[1:10], each=100)) race <- as.factor(rep(900:999, 10)) oz <- round(1 + rnorm(1000)/10, 3) sec <- 9 + rep(1:10, rep(100,10))/10 + oz + rnorm(1000)/10 fishDat …

2
วิธีการหาแบบที่ดีสำหรับแบบกึ่งไซนัสใน R?
ฉันต้องการสมมติว่าอุณหภูมิผิวน้ำทะเลของทะเลบอลติกเป็นปีเดียวกันแล้วปีเล่าแล้วอธิบายด้วยแบบจำลองเชิงเส้นตรง ความคิดที่ฉันมีคือเพียงแค่ใส่ปีเป็นเลขทศนิยม (หรือ num_months / 12) และทราบว่าอุณหภูมิควรเป็นเท่าไหร่ในช่วงเวลานั้น การโยนมันลงใน lm () ฟังก์ชั่นใน R มันไม่รู้จักข้อมูลไซน์ดังนั้นมันจึงสร้างเส้นตรง ดังนั้นฉันจึงใส่ฟังก์ชั่น sin () ไว้ในวงเล็บ I () และลองใช้ค่าสองสามค่าเพื่อให้พอดีกับฟังก์ชั่นด้วยตนเองและนั่นก็ใกล้เคียงกับสิ่งที่ฉันต้องการ แต่ทะเลร้อนขึ้นเร็วกว่าในฤดูร้อนแล้วเย็นลงในฤดูใบไม้ร่วงช้าลง ... ดังนั้นแบบจำลองจึงผิดพลาดในปีแรกจากนั้นแก้ไขให้ถูกต้องมากขึ้นหลังจากสองสามปีที่ผ่านมาและในอนาคตฉันคิดว่ามันจะยิ่งมากขึ้น และผิดมากขึ้นอีกครั้ง ฉันจะได้รับ R เพื่อประเมินโมเดลสำหรับฉันดังนั้นฉันไม่ต้องเดาตัวเลขเอง กุญแจสำคัญในที่นี้คือฉันต้องการให้มันสร้างค่าเหมือนเดิมทุกปีไม่ใช่แค่ให้ถูกต้องหนึ่งปี ถ้าฉันรู้เรื่องคณิตศาสตร์มากขึ้นฉันอาจเดาได้ว่ามันเป็นเหมือนปัวซองหรือเกาส์แทนบาป () แต่ฉันก็ไม่รู้ว่าจะทำเช่นนั้นได้อย่างไร ความช่วยเหลือใด ๆ ที่จะเข้าใกล้คำตอบที่ดีจะได้รับการชื่นชมอย่างมาก นี่คือข้อมูลที่ฉันใช้และรหัสเพื่อแสดงผลลัพธ์: # SST from Bradtke et al 2010 ToY <- c(1/12,2/12,3/12,4/12,5/12,6/12,7/12,8/12,9/12,10/12,11/12,12/12,13/12,14/12,15/12,16/12,17/12,18/12,19/12,20/12,21/12,22/12,23/12,24/12,25/12,26/12,27/12,28/12,29/12,30/12,31/12,32/12,33/12,34/12,35/12,36/12,37/12,38/12,39/12,40/12,41/12,42/12,43/12,44/12,45/12,46/12,47/12,48/12) Degrees <- c(3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5,3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5,3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5,3,2,2.2,4,7.6,13,16,16.1,14,10.1,7,4.5) SST <- …
37 r  regression  time-series  lm 

1
เหตุใดค่า p ของฉันจึงแตกต่างกันระหว่างเอาต์พุตการถดถอยโลจิสติกการทดสอบไคสแควร์และช่วงความมั่นใจสำหรับ OR
ฉันได้สร้างการถดถอยโลจิสติกที่ตัวแปรผลลัพธ์จะหายหลังจากได้รับการรักษา ( CureเทียบกับNo Cure) ผู้ป่วยทั้งหมดในการศึกษานี้ได้รับการรักษา ฉันสนใจที่จะดูว่ามีโรคเบาหวานเกี่ยวข้องกับผลลัพธ์นี้หรือไม่ ใน R ผลลัพธ์การถดถอยโลจิสติกของฉันมีลักษณะดังนี้: Call: glm(formula = Cure ~ Diabetes, family = binomial(link = "logit"), data = All_patients) ... Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.2735 0.1306 9.749 <2e-16 *** Diabetes -0.5597 0.2813 -1.990 0.0466 * ... Null deviance: 456.55 on 415 degrees …

3
เครื่องหมายของคะแนนหรือการโหลดใน PCA หรือ FA มีความหมายหรือไม่? ฉันขอป้ายย้อนกลับได้ไหม
ฉันทำการวิเคราะห์องค์ประกอบหลัก (PCA) ด้วย R โดยใช้สองฟังก์ชันที่แตกต่างกัน ( prcompและprincomp) และสังเกตว่าคะแนน PCA นั้นแตกต่างกันในการลงชื่อ มันจะเป็นอย่างไร พิจารณาสิ่งนี้: set.seed(999) prcomp(data.frame(1:10,rnorm(10)))$x PC1 PC2 [1,] -4.508620 -0.2567655 [2,] -3.373772 -1.1369417 [3,] -2.679669 1.0903445 [4,] -1.615837 0.7108631 [5,] -0.548879 0.3093389 [6,] 0.481756 0.1639112 [7,] 1.656178 -0.9952875 [8,] 2.560345 -0.2490548 [9,] 3.508442 0.1874520 [10,] 4.520055 0.1761397 set.seed(999) princomp(data.frame(1:10,rnorm(10)))$scores Comp.1 Comp.2 …
37 r  pca  factor-analysis 

3
สุ่ม number-Set.seed (N) ใน R [ซ้ำกัน]
คำถามนี้มีคำตอบอยู่ที่นี่แล้ว: อะไรคือเมล็ดพันธุ์ในเครื่องกำเนิดเลขสุ่ม? 3 คำตอบ ฉันรู้ว่ามีคนใช้set.seed()R ในการสร้างตัวเลขสุ่มหลอก ฉันยังตระหนักว่าการใช้หมายเลขเดียวกันเช่นset.seed(123)ประกันคุณสามารถทำซ้ำผลลัพธ์ แต่สิ่งที่ฉันไม่ได้รับคือคุณค่าของตัวเองหมายถึงอะไร ฉันกำลังเล่นกับฟังก์ชั่นหลายและบางส่วนใช้set.seed(1)หรือหรือset.seed(300) set.seed(12345)หมายเลขนั้นหมายถึงอะไร (ถ้ามี) - และฉันควรใช้หมายเลขอื่นเมื่อใด ตัวอย่างในหนังสือที่ฉันใช้งานอยู่พวกเขาใช้set.seed(12345)เมื่อสร้างชุดการฝึกอบรมสำหรับต้นไม้ตัดสินใจ จากนั้นในบทอื่นพวกเขาใช้set.seed(300)สำหรับสร้างป่าสุ่ม แค่อย่ารับเบอร์

2
ทำความเข้าใจกับพารามิเตอร์ภายในการแจกแจงแบบทวินามลบ
ฉันพยายามใส่ข้อมูลของฉันเป็นแบบจำลองต่างๆและคิดว่าfitdistrฟังก์ชั่นจากไลบรารี่MASSของRให้ฉันNegative Binomialเป็นแบบที่ดีที่สุด ตอนนี้จากหน้าwikiคำจำกัดความได้รับเป็น: การแจกแจง NegBin (r, p) อธิบายความน่าจะเป็นของความล้มเหลว k และความสำเร็จ r ในการทดลอง k + r Bernoulli (p) ด้วยความสำเร็จในการทดลองครั้งสุดท้าย ใช้Rในการดำเนินการรูปแบบที่เหมาะสมให้ฉันสองพารามิเตอร์และmean dispersion parameterฉันไม่เข้าใจวิธีตีความสิ่งเหล่านี้เพราะฉันไม่เห็นพารามิเตอร์เหล่านี้ในหน้าวิกิ ทั้งหมดที่ฉันเห็นคือสูตรต่อไปนี้: ที่เป็นจำนวนของการสังเกตและk r=0...nตอนนี้ฉันจะเชื่อมโยงสิ่งเหล่านี้กับพารามิเตอร์ที่กำหนดโดยได้Rอย่างไร ไฟล์ช่วยเหลือไม่ได้ให้ข้อมูลมากนัก นอกจากนี้เพื่อพูดคำสองสามคำเกี่ยวกับการทดสอบของฉัน: ในการทดลองทางสังคมที่ฉันกำลังทำอยู่ฉันพยายามนับจำนวนผู้ใช้ที่ผู้ใช้แต่ละคนติดต่อในระยะเวลา 10 วัน ขนาดประชากรคือ 100 สำหรับการทดสอบ ตอนนี้ถ้าแบบจำลองนั้นเหมาะกับเนกาทีฟทวินามลบฉันสามารถพูดได้ว่ามันเป็นไปตามการกระจายตัวนั้น แต่ฉันต้องการเข้าใจความหมายที่เข้าใจง่ายที่อยู่เบื้องหลังสิ่งนี้ หมายความว่าอย่างไรว่าจำนวนคนที่ได้รับการติดต่อจากการทดสอบของฉันนั้นมีการกระจายตัวแบบทวินามลบ มีใครช่วยอธิบายสิ่งนี้ได้ไหม

5
การวิเคราะห์ข้ามอนุกรมเวลาที่ผ่านการตรวจสอบความถูกต้อง
ฉันใช้ชุดคาเร็ตใน R เพื่อสร้างแบบจำลองการทำนายสำหรับการจำแนกและการถดถอย คาเร็ตมีอินเทอร์เฟซแบบรวมเพื่อปรับแต่งพารามิเตอร์ไฮเปอร์โมเดลโดยการตรวจสอบข้ามหรือการรัดสาย ตัวอย่างเช่นหากคุณกำลังสร้างแบบจำลอง 'เพื่อนบ้านที่ใกล้ที่สุด' อย่างง่ายสำหรับการจำแนกคุณควรใช้เพื่อนบ้านกี่คน 2? 10? 100? คาเร็ตช่วยให้คุณตอบคำถามนี้โดยการสุ่มตัวอย่างข้อมูลของคุณใหม่ลองใช้พารามิเตอร์ที่แตกต่างกันจากนั้นรวบรวมผลลัพธ์เพื่อตัดสินใจว่าผลลัพธ์ใดที่มีความแม่นยำในการทำนายที่ดีที่สุด ฉันชอบวิธีการนี้เนื่องจากเป็นวิธีการที่มีประสิทธิภาพสำหรับการเลือกพารามิเตอร์ไฮเปอร์โมเดลและเมื่อคุณเลือกพารามิเตอร์ไฮเปอร์สุดท้ายแล้วจะมีการประเมินที่ผ่านการตรวจสอบความถูกต้องของวิธีการ 'ดี' โดยใช้ความแม่นยำสำหรับโมเดลการจำแนกประเภท และ RMSE สำหรับตัวแบบการถดถอย ตอนนี้ฉันมีข้อมูลอนุกรมเวลาที่ฉันต้องการสร้างแบบจำลองการถดถอยสำหรับอาจใช้ฟอเรสต์แบบสุ่ม เทคนิคที่ดีในการประเมินความถูกต้องทำนายของแบบจำลองของฉันคืออะไรโดยธรรมชาติของข้อมูล หากป่าสุ่มไม่ได้ใช้กับข้อมูลอนุกรมเวลาวิธีที่ดีที่สุดในการสร้างแบบจำลองวงดนตรีที่ถูกต้องสำหรับการวิเคราะห์อนุกรมเวลาคืออะไร

1
อะไรคือความง่ายในการตีความความดีของการวัดขนาดพอดีสำหรับโมเดลเอฟเฟ็กต์แบบผสมเชิงเส้น
ฉันกำลังใช้แพคเกจ R lme4 ฉันกำลังใช้โมเดลเอฟเฟกต์แบบผสมเชิงเส้นที่มีเอฟเฟกต์แบบสุ่ม: library(lme4) mod1 <- lmer(r1 ~ (1 | site), data = sample_set) #Only random effects mod2 <- lmer(r1 ~ p1 + (1 | site), data = sample_set) #One fixed effect + # random effects mod3 <- lmer(r1 ~ p1 + p2 + (1 | site), data = …

2
ช่วงเวลาความเชื่อมั่นที่น่าเชื่อถือสำหรับวัตถุ lmer ผ่านแพ็คเกจเอฟเฟกต์เป็นอย่างไร?
Effectsแพคเกจมีวิธีการอย่างรวดเร็วและสะดวกสบายสำหรับการวางแผนเชิงเส้นผสมผลผลรูปแบบที่ได้รับผ่านแพคเกจlme4 effectช่วงความเชื่อมั่นฟังก์ชั่นคำนวณ (CIS) ได้รวดเร็วมาก แต่วิธีการที่น่าเชื่อถือมีช่วงความเชื่อมั่นเหล่านี้หรือไม่ ตัวอย่างเช่น: library(lme4) library(effects) library(ggplot) data(Pastes) fm1 <- lmer(strength ~ batch + (1 | cask), Pastes) effs <- as.data.frame(effect(c("batch"), fm1)) ggplot(effs, aes(x = batch, y = fit, ymin = lower, ymax = upper)) + geom_rect(xmax = Inf, xmin = -Inf, ymin = effs[effs$batch == "A", "lower"], …

2
ฉันจะรู้ได้อย่างไรว่าวิธีการตรวจสอบข้ามที่ดีที่สุด?
ฉันกำลังพยายามหาวิธีการตรวจสอบข้ามที่ดีที่สุดสำหรับสถานการณ์ของฉัน ข้อมูลต่อไปนี้เป็นเพียงตัวอย่างสำหรับการทำงานผ่านปัญหา (ใน R) แต่Xข้อมูลจริงของฉัน( xmat) มีความสัมพันธ์ซึ่งกันและกันและมีความสัมพันธ์กับองศาที่แตกต่างกับyตัวแปร ( ymat) ฉันให้รหัส R แต่คำถามของฉันไม่เกี่ยวกับ R แต่เกี่ยวกับวิธีการ Xmatรวมตัวแปร X V1 ถึง V100 ในขณะที่ymatมีตัวแปร y ตัวเดียว set.seed(1233) xmat <- matrix(sample(-1:1, 20000, replace = TRUE), ncol = 100) colnames(xmat) <- paste("V", 1:100, sep ="") rownames(xmat) <- paste("S", 1:200, sep ="") # the real y data …

4
จะตีความค่าสัมประสิทธิ์จากแบบจำลองพหุนามได้อย่างไร
ฉันพยายามสร้างพหุนามลำดับที่สองกับข้อมูลบางอย่างที่ฉันมี สมมติว่าฉันพล็อตแบบนี้ด้วยggplot(): ggplot(data, aes(foo, bar)) + geom_point() + geom_smooth(method="lm", formula=y~poly(x, 2)) ฉันเข้าใจ: ดังนั้นคำสั่งที่สองนั้นทำงานได้ค่อนข้างดี ฉันคำนวณด้วย R: summary(lm(data$bar ~ poly(data$foo, 2))) และฉันได้รับ: lm(formula = data$bar ~ poly(data$foo, 2)) # ... # Coefficients: # Estimate Std. Error t value Pr(>|t|) # (Intercept) 3.268162 0.008282 394.623 <2e-16 *** # poly(data$foo, 2)1 -0.122391 0.096225 -1.272 …

1
ทางเลือกแทน ANOVA ทางเดียวสำหรับข้อมูล heteroskedastic
ฉันมีข้อมูลจากชีวมวลสาหร่าย 3 กลุ่ม ( , , ) ซึ่งมีขนาดตัวอย่างไม่เท่ากัน ( , , ) และฉันต้องการเปรียบเทียบว่ากลุ่มเหล่านี้มาจากประชากรเดียวกันหรือไม่B C n A = 15 n B = 13 n C = 12AAABBBCCCnA= 15nA=15n_A=15nB= 13nB=13n_B=13nC= 12nC=12n_C=12 การวิเคราะห์ความแปรปรวนแบบทางเดียวจะเป็นวิธีที่แน่นอนอย่างไรก็ตามเมื่อทำการทดสอบความเป็นไปได้ในข้อมูลของฉัน heteroskedascity ดูเหมือนจะเป็นประเด็นหลัก ข้อมูลดิบของฉันโดยไม่มีการแปลงทำให้อัตราส่วนของความแปรปรวน ( ) ซึ่งสูงกว่าค่าวิกฤติมาก ( F _ {\ rm crit} = 4.16 ) ดังนั้นฉันจึงไม่สามารถทำการวิเคราะห์ความแปรปรวนแบบทางเดียวได้ .Fสูงสุด= 19.1Fmax=19.1F_{\max} = 19.1Fc …

4
วิธีการที่ดีสำหรับแปลงความหนาแน่นของตัวแปรที่ไม่เป็นลบใน R?
plot(density(rexp(100)) เห็นได้ชัดว่าความหนาแน่นทั้งหมดทางด้านซ้ายของศูนย์แสดงถึงอคติ ฉันต้องการสรุปข้อมูลบางอย่างสำหรับผู้ที่ไม่ใช่นักสถิติและฉันต้องการหลีกเลี่ยงคำถามเกี่ยวกับสาเหตุที่ข้อมูลที่ไม่ใช่เชิงลบมีความหนาแน่นทางด้านซ้ายของศูนย์ แปลงสำหรับการตรวจสอบแบบสุ่ม ฉันต้องการแสดงการกระจายของตัวแปรโดยกลุ่มการรักษาและกลุ่มควบคุม การแจกแจงแบบ exponential-ish ฮิสโทแกรมมีความซับซ้อนด้วยเหตุผลหลายประการ ค้นหา Google อย่างรวดเร็วทำให้ผมทำงานโดยสถิติในเมล็ดที่ไม่ใช่เชิงลบเช่น: นี้ แต่มีการนำมาใช้ใน R หรือไม่? ของวิธีการดำเนินการใด ๆ ของพวกเขา "ดีที่สุด" อย่างใดสำหรับสถิติเชิงพรรณนา? แก้ไข: แม้ว่าfromคำสั่งสามารถแก้ไขปัญหาปัจจุบันของฉันได้ก็คงจะดีที่จะรู้ว่ามีใครใช้เมล็ดในวรรณคดีโดยใช้การประมาณความหนาแน่นแบบไม่ลบ

3
จะประมาณค่าพารามิเตอร์การหดตัวใน Lasso หรือการถดถอยสันด้วยตัวแปร> 50K ได้อย่างไร?
ฉันต้องการใช้ Lasso หรือการถดถอยสันสำหรับโมเดลที่มีตัวแปรมากกว่า 50,000 ตัว ฉันต้องการทำเช่นนั้นโดยใช้แพคเกจซอฟต์แวร์ในอาร์ฉันสามารถประมาณการพารามิเตอร์การหดตัว ( )?λλ\lambda การแก้ไข: นี่คือจุดที่ฉันตื่นขึ้นมา: set.seed (123) Y <- runif (1000) Xv <- sample(c(1,0), size= 1000*1000, replace = T) X <- matrix(Xv, nrow = 1000, ncol = 1000) mydf <- data.frame(Y, X) require(MASS) lm.ridge(Y ~ ., mydf) plot(lm.ridge(Y ~ ., mydf, lambda = seq(0,0.1,0.001))) คำถามของฉันคือ: …

4
ฉันจะพอดีกับการถดถอยที่ จำกัด ใน R เพื่อให้สัมประสิทธิ์รวม = 1 ได้อย่างไร
ฉันเห็นการถดถอยที่มีข้อ จำกัด คล้ายกันที่นี่: จำกัด การถดถอยเชิงเส้นผ่านจุดที่ระบุ แต่ความต้องการของฉันแตกต่างกันเล็กน้อย ฉันต้องการค่าสัมประสิทธิ์ในการเพิ่มเป็น 1 โดยเฉพาะฉันกำลังถดถอยผลตอบแทนของ 1 ชุดแลกเปลี่ยนเงินตราต่างประเทศกับ 3 ชุดแลกเปลี่ยนเงินตราต่างประเทศอื่น ๆ เพื่อให้นักลงทุนสามารถแทนที่การสัมผัสกับชุดนั้นด้วยการรวมกันของชุดที่ 3 การจ่ายเงินสดจะต้องไม่เปลี่ยนแปลงและโดยเฉพาะอย่างยิ่ง (แต่ไม่บังคับ) ค่าสัมประสิทธิ์ควรเป็นค่าบวก ฉันพยายามค้นหาการถดถอยแบบ จำกัด ใน R และ Google แต่โชคดีเล็กน้อย
36 r  regression 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.