คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

2
วิธีรับตาราง ANOVA พร้อมข้อผิดพลาดมาตรฐานที่มีประสิทธิภาพ?
ฉันใช้การถดถอย OLS แบบรวมกลุ่มโดยใช้แพ็คเกจ plm ใน R แม้ว่าคำถามของฉันจะเกี่ยวกับสถิติพื้นฐานมากขึ้นดังนั้นฉันจึงลองโพสต์ที่นี่ก่อน) เนื่องจากผลการถดถอยของฉันให้ผลตกค้างแบบ heteroskedastic ฉันต้องการลองใช้ข้อผิดพลาดมาตรฐานที่มีประสิทธิภาพแบบ เป็นผลมาจากcoeftest(mod, vcov.=vcovHC(mod, type="HC0"))ฉันได้รับตารางที่มีการประมาณการข้อผิดพลาดมาตรฐานค่า t และค่า p สำหรับตัวแปรอิสระแต่ละตัวซึ่งโดยทั่วไปแล้วเป็นผลการถดถอยที่ "แข็งแกร่ง" ของฉัน สำหรับการพูดคุยถึงความสำคัญของตัวแปรต่าง ๆ ฉันต้องการพล็อตการแบ่งปันความแปรปรวนที่อธิบายโดยตัวแปรอิสระแต่ละตัวดังนั้นฉันต้องการผลรวมกำลังสองตามลำดับ อย่างไรก็ตามการใช้ฟังก์ชั่นaov()ฉันไม่รู้ว่าจะบอกให้ R ใช้ข้อผิดพลาดมาตรฐานที่มีประสิทธิภาพได้อย่างไร ตอนนี้คำถามของฉันคือฉันจะรับตาราง ANOVA / ผลรวมของกำลังสองที่อ้างถึงข้อผิดพลาดมาตรฐานที่มีประสิทธิภาพได้อย่างไร เป็นไปได้หรือไม่ที่จะคำนวณตามตาราง ANOVA จากการถดถอยด้วยข้อผิดพลาดมาตรฐานปกติ แก้ไข: กล่าวอีกนัยหนึ่งและไม่สนใจปัญหา R- ของฉัน: หาก Rไม่ได้รับผลกระทบจากการใช้ข้อผิดพลาดมาตรฐานที่มีประสิทธิภาพการสนับสนุนที่เกี่ยวข้องเพื่ออธิบายความแปรปรวนโดยตัวแปรอธิบายที่แตกต่างกันจะไม่เปลี่ยนแปลงหรือไม่22^2 แก้ไข: ใน R aov(mod)ให้ตาราง ANOVA ที่ถูกต้องสำหรับ panelmodel (plm) จริงหรือไม่?

3
glm ใน R - pvalue ใดที่แสดงให้เห็นถึงความดีของแบบเต็มรูปแบบ?
ฉันกำลังเรียกใช้ glms ใน R (โมเดลเชิงเส้นเชิงเส้นทั่วไป) ฉันคิดว่าฉันรู้จัก pvalues ​​- จนกระทั่งฉันเห็นว่าการเรียกสรุปสำหรับ glm ไม่ได้ให้ตัวแทน pvalue ที่เอาชนะคุณของโมเดลทั้งหมด - อย่างน้อยก็ไม่ได้อยู่ในตำแหน่งที่โมเดลเชิงเส้นทำ ฉันสงสัยว่าสิ่งนี้จะได้รับเป็นค่าสำหรับการสกัดกั้นที่ด้านบนของตารางค่าสัมประสิทธิ์ ดังนั้นในตัวอย่างต่อไปนี้ในขณะที่ Wind.speed .. knots และ canopy_density อาจมีความสำคัญต่อตัวแบบเราจะรู้ได้อย่างไรว่าตัวแบบนั้นสำคัญหรือไม่ ฉันจะรู้ได้อย่างไรว่าจะเชื่อใจคุณค่าเหล่านี้หรือไม่ ฉันถูกสงสัยหรือไม่ว่า Pr (> | z |) สำหรับ (Intercept) แสดงถึงความสำคัญของตัวแบบ? รุ่นนี้มีความหมายหรือไม่? ขอบคุณ! ฉันควรทราบว่าการใช้การทดสอบแบบ F จะไม่ทำให้เกิดความเสียหายเนื่องจากฉันได้รับข้อความแสดงข้อผิดพลาดที่บอกว่าการทดสอบแบบ F ในครอบครัวแบบทวินามนั้นไม่เหมาะสม Call: glm(formula = Empetrum_bin ~ Wind.speed..knots. + canopy_density, family = …

3
วิธีการดึงข้อมูลจากเมทริกซ์สแคทเทอร์พล็อตเมื่อคุณมี N ขนาดใหญ่ข้อมูลแยกและตัวแปรจำนวนมาก
ฉันกำลังเล่นกับชุดข้อมูลมะเร็งเต้านมและสร้าง scatterplot ของคุณลักษณะทั้งหมดเพื่อให้ได้ไอเดียว่าอันไหนมีผลมากที่สุดในการทำนายคลาสmalignant(สีน้ำเงิน) ของbenign(สีแดง) ฉันเข้าใจว่าแถวนั้นแทนแกน x และคอลัมน์แทนแกน y แต่ฉันไม่เห็นว่าการสังเกตใดที่ฉันสามารถทำได้เกี่ยวกับข้อมูลหรือคุณลักษณะจากสแกตเตอร์แปลงนี้ ฉันกำลังมองหาความช่วยเหลือในการตีความ / ทำการสังเกตเกี่ยวกับข้อมูลจาก scatterplot นี้หรือถ้าฉันควรใช้การสร้างภาพข้อมูลอื่น ๆ เพื่อให้เห็นภาพข้อมูลนี้ ฉันใช้รหัส R link <- "http://www.cs.iastate.edu/~cs573x/labs/lab1/breast-cancer-wisconsin.arff" breast <- read.arff(link) cols <- character(nrow(breast)) cols[] <- "black" cols[breast$class == 2] <- "red" cols[breast$class == 4] <- "blue" pairs(breast, col=cols)

2
จะเปลี่ยน threshold สำหรับการจำแนกใน R สุ่มป่าได้อย่างไร
วรรณกรรมแบบจำลองการกระจายพันธุ์ทุกชนิดชี้ให้เห็นว่าเมื่อทำนายการมีอยู่ของสายพันธุ์โดยใช้แบบจำลองที่มีความน่าจะเป็นผลลัพธ์ (เช่น RandomForests) การเลือกเกณฑ์ความน่าจะเป็นที่จะจำแนกประเภทของสิ่งมีชีวิตที่มีอยู่จริง ไม่พึ่งพาค่าเริ่มต้น 0.5 เสมอไป ฉันต้องการความช่วยเหลือในเรื่องนี้! นี่คือรหัสของฉัน: library(randomForest) library(PresenceAbsence) #build model RFfit <- randomForest(Y ~ x1 + x2 + x3 + x4 + x5, data=mydata, mytry = 2, ntrees=500) #eventually I will apply this to (predict for) new data but for first I predict back to training data …

2
Caret varImp สำหรับรุ่นสุ่มป่าไม้
ฉันมีปัญหาในการทำความเข้าใจเกี่ยวกับวิธีการvarImpทำงานของโมเดลสุ่มป่าด้วยcaretแพคเกจ ในตัวอย่างด้านล่างนี้คุณลักษณะ var3 ได้รับความสำคัญเป็นศูนย์โดยใช้varImpฟังก์ชั่นของคาเร็ต แต่โมเดลขั้นสุดท้ายแบบสุ่มพื้นฐานที่มีความสำคัญไม่เป็นศูนย์สำหรับคุณลักษณะ var3 เหตุใดจึงเป็นเช่นนี้ require(randomForest) require(caret) rf <- train(x, y, method = "rf", trControl = trainControl(method = "oob"), importance = TRUE, verbose = TRUE, tuneGrid = data.frame(mtry = num.predictors) ) fm <- rf$finalModel > varImp(f) rf variable importance Overall var1 100.00 var2 80.14 var3 0.00 > importance(fm) …
10 r  caret  random-forest 

3
เป็นไปได้ใน R (หรือโดยทั่วไป) เพื่อบังคับให้สัมประสิทธิ์การถดถอยเป็นสัญญาณที่แน่นอน?
ฉันกำลังทำงานกับข้อมูลโลกแห่งความจริงและตัวแบบการถดถอยกำลังให้ผลลัพธ์ที่ตรงข้าม โดยปกติฉันเชื่อถือสถิติ แต่ในความเป็นจริงสิ่งเหล่านี้ไม่สามารถเป็นจริงได้ ปัญหาหลักที่ฉันเห็นคือการเพิ่มขึ้นของตัวแปรหนึ่งทำให้การตอบสนองเพิ่มขึ้นเมื่อในความเป็นจริงในความเป็นจริงพวกเขาจะต้องมีความสัมพันธ์เชิงลบ มีวิธีการบังคับให้ลงชื่อเฉพาะสำหรับแต่ละสัมประสิทธิ์การถดถอยหรือไม่? รหัส R ใด ๆ ในการทำเช่นนี้ก็จะได้รับการชื่นชมเช่นกัน ขอบคุณสำหรับความช่วยเหลือใด ๆ !

4
การกำหนดพารามิเตอร์ (p, d, q) สำหรับการสร้างแบบจำลอง ARIMA
ฉันค่อนข้างใหม่สำหรับสถิติและอาร์ฉันต้องการทราบกระบวนการในการกำหนดพารามิเตอร์ ARIMA สำหรับชุดข้อมูลของฉัน คุณสามารถช่วยฉันคิดโดยใช้ R และในทางทฤษฎี (ถ้าเป็นไปได้)? ช่วงข้อมูลตั้งแต่ Jan-12 ถึง Mar-14 และแสดงยอดขายรายเดือน นี่คือชุดข้อมูล: 99 58 52 83 94 73 97 83 86 63 77 70 87 84 60 105 87 93 110 71 158 52 33 68 82 88 84 และนี่คือแนวโน้ม: ข้อมูลไม่แสดงแนวโน้มพฤติกรรมตามฤดูกาลหรือความเป็นวงจร
10 r  arima  box-jenkins 

1
ติดตั้ง GARCH (1,1) - รุ่นที่มี covariates ใน R
ฉันมีประสบการณ์เกี่ยวกับการสร้างแบบจำลองอนุกรมเวลาในรูปแบบของ ARIMA แบบง่าย ๆ เป็นต้น ตอนนี้ฉันมีข้อมูลบางส่วนที่แสดงการจัดกลุ่มความผันผวนและฉันอยากจะลองเริ่มต้นด้วยการปรับโมเดล GARCH (1,1) ให้พอดีกับข้อมูล ฉันมีชุดข้อมูลและตัวแปรหลายอย่างที่ฉันคิดว่ามีอิทธิพลต่อมัน ดังนั้นในแง่การถดถอยพื้นฐานดูเหมือนว่า: Yเสื้อ= α + β1xt 1+ β2xt 2+ ϵเสื้อ.yt=α+β1xt1+β2xt2+ϵt. y_t = \alpha + \beta_1 x_{t1} + \beta_2 x_{t2} + \epsilon_t . แต่ฉันกำลังสูญเสียอย่างสมบูรณ์ในวิธีการนำสิ่งนี้ไปใช้ในแบบจำลอง GARCH (1,1)? ฉันดูที่rugarch- แพ็คเกจและfGarch- แพ็คเกจRแต่ฉันไม่สามารถทำอะไรที่มีความหมายนอกเหนือจากตัวอย่างที่พบได้บนอินเทอร์เน็ต
10 r  regression  garch 

1
สัญกรณ์สำหรับการสร้างแบบจำลองหลายระดับ
สูตรหนึ่งต้องระบุสำหรับการฝึกอบรมรูปแบบหลายระดับ (ใช้lmerจากlme4 Rห้องสมุด) ทำให้ฉันได้รับเสมอ ฉันได้อ่านหนังสือและแบบฝึกหัดที่นับไม่ถ้วน แต่ไม่เข้าใจเลย นี่คือตัวอย่างจากบทช่วยสอนนี้ที่ฉันต้องการดูสูตรในสมการ เราพยายามจำลองความถี่เสียงเป็นหน้าที่ของเพศ (เพศหญิงมีระดับเสียงสูงกว่าเพศชายโดยทั่วไป) และทัศนคติของบุคคล (ไม่ว่าเขา / เธอจะตอบด้วยวิธีสุภาพหรือไม่เป็นทางการ) ในสถานการณ์ต่าง ๆ นอกจากนี้อย่างที่คุณเห็นจากsubjectคอลัมน์แต่ละคนจะถูกวัดหลายครั้ง > head(politeness, n=20) subject gender scenario attitude frequency 1 F1 F 1 pol 213.3 2 F1 F 1 inf 204.5 3 F1 F 2 pol 285.1 4 F1 F 2 inf 259.7 5 F1 …

4
การพยากรณ์อนุกรมเวลา R ด้วยเครือข่ายประสาทเทียม auto.arima และ ets
ฉันได้ยินมาบ้างเกี่ยวกับการใช้โครงข่ายประสาทเทียมในการทำนายอนุกรมเวลา ฉันจะเปรียบเทียบวิธีการพยากรณ์อนุกรมเวลาของฉัน (ข้อมูลการค้าปลีกรายวัน) ได้ดีกว่า: auto.arima (x), ets (x) หรือ nnetar (x) ฉันสามารถเปรียบเทียบ auto.arima กับ ets โดย AIC หรือ BIC แต่ฉันจะเปรียบเทียบกับเครือข่ายประสาทได้อย่างไร ตัวอย่างเช่น: > dput(x) c(1774, 1706, 1288, 1276, 2350, 1821, 1712, 1654, 1680, 1451, 1275, 2140, 1747, 1749, 1770, 1797, 1485, 1299, 2330, 1822, 1627, 1847, 1797, 1452, 1328, 2363, 1998, …

1
อะไรคือความแตกต่างพื้นฐานระหว่างตัวแบบการถดถอยสองตัวนี้
สมมติว่าฉันมีการตอบสนองแบบ bivariate ที่มีความสัมพันธ์อย่างมีนัยสำคัญ ฉันพยายามเปรียบเทียบทั้งสองวิธีเพื่อจำลองผลลัพธ์เหล่านี้ วิธีหนึ่งคือการสร้างแบบจำลองความแตกต่างระหว่างผลลัพธ์ทั้งสอง: อีกวิธีหนึ่งคือการใช้หรือสร้างแบบจำลองพวกเขา: ( y i j = β 0 + เวลา+ X ′ β )(yi2−yi1=β0+X′β)(yi2−yi1=β0+X′β)(y_{i2}-y_{i1}=\beta_0+X'\beta)glsgee(yij=β0+time+X′β)(yij=β0+time+X′β)(y_{ij}=\beta_0+\text{time}+X'\beta) นี่คือตัวอย่างของ foo: #create foo data frame require(mvtnorm) require(reshape) set.seed(123456) sigma <- matrix(c(4,2,2,3), ncol=2) y <- rmvnorm(n=500, mean=c(1,2), sigma=sigma) cor(y) x1<-rnorm(500) x2<-rbinom(500,1,0.4) df.wide<-data.frame(id=seq(1,500,1),y1=y[,1],y2=y[,2],x1,x2) df.long<-reshape(df.wide,idvar="id",varying=list(2:3),v.names="y",direction="long") df.long<-df.long[order(df.long$id),] df.wide$diff_y<-df.wide$y2-df.wide$y1 #regressions fit1<-lm(diff_y~x1+x2,data=df.wide) fit2<-lm(y~time+x1+x2,data=df.long) fit3<-gls(y~time+x1+x2,data=df.long, correlation = …

1
การเปรียบเทียบ CPH แบบจำลองเวลาความล้มเหลวเร่งหรือโครงข่ายประสาทเทียมสำหรับการวิเคราะห์การอยู่รอด
ฉันยังใหม่กับการวิเคราะห์การเอาชีวิตรอดและเมื่อเร็ว ๆ นี้ฉันได้เรียนรู้ว่ามีวิธีที่แตกต่างในการทำเพื่อให้ได้เป้าหมายที่แน่นอน ฉันสนใจในการนำไปใช้จริงและความเหมาะสมของวิธีการเหล่านี้ ฉันได้รับการนำเสนอด้วยCox Proportional-Hazards , โมเดลเวลาความล้มเหลวเร่งความเร็วและเครือข่ายประสาท (multilayer perceptron) เป็นวิธีการที่จะทำให้ผู้ป่วยรอดชีวิตจากการได้รับเวลาสถานะและข้อมูลทางการแพทย์อื่น ๆ การศึกษานี้ได้รับการกล่าวถึงในอีกห้าปีข้างหน้าและเป้าหมายคือการให้ความเสี่ยงต่อการอยู่รอดในแต่ละปีเพื่อให้มีการบันทึกใหม่ ฉันพบสองอินสแตนซ์ที่มีวิธีอื่นที่เลือกไว้เหนือ Cox PH: ฉันพบ " วิธีรับการทำนายในแง่ของเวลาการเอาชีวิตรอดจากโมเดล Cox PH " และได้มีการกล่าวไว้ว่า: หากคุณมีความสนใจโดยเฉพาะอย่างยิ่งในการได้รับการประเมินความน่าจะเป็นของการอยู่รอดที่จุดเวลาโดยเฉพาะอย่างยิ่งผมจะชี้ให้คุณไปสู่รูปแบบการอยู่รอดพารา (เวลาในการเร่ง aka ความล้มเหลว) สิ่งเหล่านี้ถูกนำมาใช้ในแพ็คเกจการเอาตัวรอดสำหรับ R และจะให้การแจกแจงเวลาการอยู่รอดแบบอิงพารามิเตอร์ซึ่งคุณสามารถเสียบเวลาที่คุณสนใจและกลับมาเป็นความอยู่รอดได้ ฉันไปที่เว็บไซต์ที่แนะนำและพบว่าหนึ่งในsurvivalแพคเกจ - survregฟังก์ชั่น เครือข่ายประสาทถูกแนะนำในความคิดเห็นนี้ : ... ข้อดีอย่างหนึ่งของวิธีการวิเคราะห์การอยู่รอดของโครงข่ายใยประสาทคือพวกมันไม่ได้ใช้สมมติฐานที่รองรับการวิเคราะห์ Cox ... อีกคนที่มีคำถามว่า " โมเดลเครือข่ายนิวรัลกับเวกเตอร์เป้าหมายเป็นผลลัพธ์ที่มีการทำนายการรอดชีวิต " เป็นวิธีที่ละเอียดถี่ถ้วนในการพิจารณาความอยู่รอดในเครือข่ายประสาทและ Cox PH รหัส R สำหรับการเอาตัวรอดจะเป็นดังนี้: mymodel …

2
การอนุมานการถดถอยที่แข็งแกร่งและตัวประมาณแซนวิช
คุณช่วยยกตัวอย่างการใช้ตัวประมาณค่าแซนวิชเพื่อทำการอนุมานการถดถอยที่มีประสิทธิภาพได้หรือไม่? ฉันสามารถดูตัวอย่างใน?sandwichแต่ฉันไม่เข้าใจวิธีการที่เราสามารถไปจากlm(a ~ b, data)( R -coded) เพื่อการประมาณการและPsandwichคุ้มค่าที่เกิดจากรูปแบบการถดถอยโดยใช้เมทริกซ์ความแปรปรวนแปรปรวนส่งกลับโดยฟังก์ชั่น
10 r  regression  lm  sandwich 

3
การเปรียบเทียบแบบจำลองการถดถอยแบบโลจิสติกไบนารีที่ซ้อนกันเมื่อมีขนาดใหญ่
ที่ดีกว่าการถามคำถามของฉันฉันได้ให้บางส่วนของเอาท์พุทจากทั้งรุ่น 16 ตัวแปร ( fit) และรุ่น 17 ตัวแปร ( fit2) ด้านล่าง (ทุกตัวแปรในรูปแบบเหล่านี้เป็นอย่างต่อเนื่องที่แตกต่างระหว่างรุ่นเหล่านี้ก็คือfitไม่ได้ มีตัวแปร 17 (var17)): fit Model Likelihood Discrimination Rank Discrim. Ratio Test Indexes Indexes Obs 102849 LR chi2 13602.84 R2 0.173 C 0.703 0 69833 d.f. 17 g 1.150 Dxy 0.407 1 33016 Pr(> chi2) <0.0001 gr 3.160 gamma …

2
พล็อตสถิติสรุปด้วย Mean, sd, min และ max?
ฉันมาจากพื้นหลังทางเศรษฐศาสตร์และมักจะอยู่ในวินัยสถิติสรุปของตัวแปรที่มีการรายงานในตาราง อย่างไรก็ตามฉันต้องการพล็อตพวกเขา ฉันสามารถแก้ไขพล็อตกล่องเพื่อให้สามารถแสดงค่าเฉลี่ยส่วนเบี่ยงเบนมาตรฐานต่ำสุดและสูงสุด แต่ฉันไม่ต้องการทำเช่นนั้นเนื่องจากพล็อตกล่องถูกใช้เพื่อแสดงค่ามัธยฐานและ Q1 และ Q3 ตัวแปรทั้งหมดของฉันมีสเกลต่างกัน มันจะดีถ้ามีคนแนะนำวิธีที่มีความหมายโดยที่ฉันสามารถวางแผนสถิติสรุปเหล่านี้ได้ ฉันสามารถทำงานกับ R หรือ Stata ได้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.