คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

5
แพ็คเกจการเลือกคุณสมบัติใน R ซึ่งทำได้ทั้งการถดถอยและการจัดหมวดหมู่
ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฉันยังใหม่กับอาร์มากฉันกำลังเรียนรู้การเรียนรู้ของเครื่องตอนนี้ ขอโทษถ้าคำถามนี้ดูเหมือนจะเป็นพื้นฐานมาก ฉันพยายามค้นหาแพ็คเกจการเลือกคุณสมบัติที่ดีใน R. ฉันผ่านแพ็คเกจ Boruta มันเป็นแพ็คเกจที่ดี แต่ฉันอ่านว่ามันมีประโยชน์สำหรับการจัดหมวดหมู่เท่านั้น ฉันต้องการใช้การเลือกคุณสมบัติใน R สำหรับงานการถดถอย ฉันอ่านเอกสารกำกับชุด Caret แต่สำหรับระดับของฉันมันยากที่จะเข้าใจ คนใดคนหนึ่งได้โปรดชี้ให้ฉันไปสอนที่ดีหรือรายการแพคเกจที่ดีหรือแพคเกจที่ใช้บ่อยที่สุดใน R สำหรับการเลือกคุณสมบัติ ความช่วยเหลือใด ๆ ที่จะได้รับการชื่นชม ขอบคุณล่วงหน้า.

2
ความแตกต่างในค่า p รายงานระหว่าง lm และ aov ใน R
อะไรอธิบายถึงความแตกต่างของค่า p ในค่าต่อไปนี้aovและการlmโทร? ความแตกต่างนั้นเกิดจากการคำนวณผลรวมจำนวนสแควร์ประเภทต่างๆหรือไม่ set.seed(10) data=rnorm(12) f1=rep(c(1,2),6) f2=c(rep(1,6),rep(2,6)) summary(aov(data~f1*f2)) summary(lm(data~f1*f2))$coeff

3
การทำนายข้อมูลนับด้วยฟอเรสต์แบบสุ่ม
ป่าสุ่มสามารถถูกฝึกให้ทำนายข้อมูลนับได้อย่างเหมาะสมหรือไม่? สิ่งนี้จะดำเนินการอย่างไร ฉันมีค่าค่อนข้างหลากหลายดังนั้นการจัดหมวดหมู่จึงไม่สมเหตุสมผล ถ้าฉันจะใช้การถดถอยฉันจะตัดทอนผลลัพธ์หรือไม่? ฉันหลงทางไปแล้ว ความคิดใด ๆ

1
วิธีคำนวณ“ เส้นทางสู่ทำเนียบขาว” โดยใช้ R
ฉันเพิ่งเจอการวิเคราะห์ที่ยอดเยี่ยมนี้ซึ่งทั้งน่าสนใจและสวยงามด้วยสายตา: http://www.nytimes.com/interactive/2012/11/02/us/politics/paths-to-the-white-house.html ฉันอยากรู้ว่า "เส้นทางต้นไม้" นั้นสามารถสร้างได้อย่างไรโดยใช้ R ข้อมูลและอัลกอริทึมใดที่เราจำเป็นต้องสร้างเช่นเส้นทางต้นไม้ ขอบคุณ

1
ข้อมูลการตรวจนับเวลา
ฉันใช้ stl () ใน R เพื่อย่อยสลายข้อมูลนับเป็นแนวโน้มองค์ประกอบตามฤดูกาลและผิดปกติ ค่าแนวโน้มผลลัพธ์ไม่ได้เป็นจำนวนเต็มอีกต่อไป ฉันมีคำถามต่อไปนี้: เป็น stl () เป็นวิธีที่เหมาะสมในการ deseasonalize ข้อมูลการนับ? เนื่องจากแนวโน้มที่เกิดขึ้นไม่ได้เป็นค่า interger อีกต่อไปฉันสามารถใช้ lm () เพื่อสร้างแบบจำลองส่วนประกอบแนวโน้มได้หรือไม่

2
Random Forest: จะเป็นอย่างไรถ้าฉันรู้ว่าตัวแปรมีความสำคัญ
ความเข้าใจของฉันเป็นเพื่อนที่ป่าสุ่มสุ่มmtryตัวแปรในการสร้างแต่ละต้นไม้ตัดสินใจ ดังนั้นถ้า mtry = ncol / 3 ดังนั้นแต่ละตัวแปรจะถูกใช้โดยเฉลี่ยใน 1 ใน 3 ของต้นไม้ และต้นไม้ 2/3 จะไม่ใช้มัน แต่ถ้าฉันรู้ว่าตัวแปรตัวเดียวน่าจะสำคัญมากมันจะดีหรือไม่ที่จะเพิ่มความน่าจะเป็นที่ตัวแปรนี้จะถูกเลือกในแต่ละต้น เป็นไปได้หรือไม่ที่มีแพ็คเกจสุ่มป่าไม้ใน R

1
การถดถอยเชิงเส้นพร้อมมาตรการซ้ำใน R
ฉันไม่สามารถหาวิธีการถดถอยเชิงเส้นใน R ในการออกแบบการวัดซ้ำ ในคำถามก่อนหน้านี้ (ยังไม่ได้ตอบ) แนะนำให้ฉันไม่ใช้lmแต่ควรใช้โมเดลผสม ฉันใช้lmวิธีต่อไปนี้: lm.velocity_vs_Velocity_response <- lm(Velocity_response~Velocity*Subject, data=mydata) (รายละเอียดเพิ่มเติมเกี่ยวกับชุดข้อมูลสามารถดูได้ที่ลิงค์ด้านบน) อย่างไรก็ตามฉันไม่สามารถค้นหาบนอินเทอร์เน็ตตัวอย่างด้วยรหัส R ที่แสดงวิธีการวิเคราะห์การถดถอยเชิงเส้น สิ่งที่ฉันต้องการก็คือพล็อตของข้อมูลที่มีเส้นที่พอดีกับข้อมูลและในทางกลับกันค่าพร้อมกับค่า p สำหรับการทดสอบความสำคัญสำหรับแบบจำลองR2R2R^2 มีใครบ้างที่สามารถให้คำแนะนำได้บ้าง ตัวอย่างรหัส R สามารถช่วยได้มาก แก้ไข ตามคำแนะนำที่ฉันได้รับจนถึงขณะนี้โซลูชันของฉันในการวิเคราะห์ข้อมูลของฉันเพื่อที่จะเข้าใจว่ามีความสัมพันธ์เชิงเส้นตรงระหว่างตัวแปรสองตัว Velocity_response (ที่ได้จากแบบสอบถาม) และ Velocity (ที่ได้มาจากประสิทธิภาพ) ควรเป็นดังนี้: library(nlme) summary(lme(Velocity_response ~ Velocity*Subject, data=scrd, random= ~1|Subject)) ผลลัพธ์ของการสรุปให้สิ่งนี้: > summary(lme(Velocity_response ~ Velocity*Subject, data=scrd, random= ~1|Subject)) Linear mixed-effects model fit by …

3
STL ตรงเวลาที่มีค่าขาดหายไปสำหรับการตรวจจับความผิดปกติ
ฉันพยายามตรวจจับค่าที่ผิดปกติในอนุกรมเวลาของข้อมูลภูมิอากาศพร้อมกับการสังเกตที่หายไป ค้นหาเว็บฉันพบวิธีการมากมาย ในบรรดาเหล่านั้น stl การสลายตัวดูเหมือนน่าสนใจในแง่ของการลบแนวโน้มและองค์ประกอบตามฤดูกาล อ่านSTL: ฤดูกาล-Trend สลายตัวขั้นตอนบนพื้นฐานของดินเหลือง , stlดูเหมือนจะมีความยืดหยุ่นในการกำหนดค่าการตั้งค่าสำหรับการกำหนดแปรปรวนรับผลกระทบจากค่าผิดปกติและเป็นไปได้ที่จะใช้แม้จะมีค่าหายไป แต่พยายามที่จะใช้มันในRกับสี่ปีของการสังเกตและการกำหนดค่าพารามิเตอร์ทั้งหมดตามhttp://stat.ethz.ch/R-manual/R-patched/library/stats/html/stl.html , พบฉัน ข้อผิดพลาด: "time series contains internal NAs"(เมื่อna.action=na.omit) และ "series is not periodic or has less than two periods"(เมื่อna.action=na.exclude) ฉันตรวจสอบซ้ำแล้วซ้ำอีกว่าความถี่นั้นถูกต้องแล้ว ฉันเห็นคำถามที่เกี่ยวข้องในบล็อก แต่ไม่พบข้อเสนอแนะใด ๆ ที่สามารถแก้ปัญหานี้ได้ เป็นไปไม่ได้ที่จะใช้stlกับซีรี่ส์ที่มีค่าขาดหายไปหรือไม่? ฉันลังเลที่จะสอดแทรกพวกเขาเนื่องจากฉันไม่ต้องการที่จะแนะนำสิ่งประดิษฐ์ (และการตรวจจับ ... ) ด้วยเหตุผลเดียวกันฉันไม่ทราบว่าจะแนะนำให้ใช้วิธี ARIMA แทนอย่างไร (และหากค่าที่หายไปยังคงเป็นปัญหา) กรุณาแบ่งปันหากคุณรู้วิธีที่จะใช้stlในซีรีส์ที่มีค่าที่หายไปหรือถ้าคุณเชื่อว่าตัวเลือกของฉันไม่เป็นระเบียบแบบแผนหรือหากคุณมีข้อเสนอแนะที่ดีกว่านี้ ฉันค่อนข้างใหม่ในสนามและถูกครอบงำด้วยกองข้อมูลที่เกี่ยวข้อง (ดูเหมือน ... )

1
เหตุใดจึงมีการสลายตัว eigen และ svd ของเมทริกซ์ความแปรปรวนร่วมที่อิงจากข้อมูลที่กระจัดกระจายซึ่งให้ผลลัพธ์ที่แตกต่างกัน?
ฉันกำลังพยายามสลายเมทริกซ์ความแปรปรวนร่วมโดยยึดตามชุดข้อมูลที่กระจัดกระจาย / มีความสุข ฉันสังเกตเห็นว่าผลรวมของแลมบ์ดา (อธิบายความแปรปรวน) ตามที่คำนวณด้วยsvdกำลังถูกขยายด้วยข้อมูลที่มีความสุขมากขึ้น โดยไม่มีช่องว่างsvdและeigenผลลัพธ์ที่เหมือนกัน ดูเหมือนจะไม่เกิดขึ้นกับการeigenสลายตัว ฉันโน้มตัวไปใช้svdเพราะค่าแลมบ์ดาเป็นบวกอยู่เสมอ แต่แนวโน้มนี้น่าเป็นห่วง มีการแก้ไขบางอย่างที่ต้องนำไปใช้หรือฉันควรหลีกเลี่ยงsvdปัญหาดังกล่าวทั้งหมด ###Make complete and gappy data set set.seed(1) x <- 1:100 y <- 1:100 grd <- expand.grid(x=x, y=y) #complete data z <- matrix(runif(dim(grd)[1]), length(x), length(y)) image(x,y,z, col=rainbow(100)) #gappy data zg <- replace(z, sample(seq(z), length(z)*0.5), NaN) image(x,y,zg, col=rainbow(100)) ###Covariance matrix decomposition …
12 r  svd  eigenvalues 

2
RandomForest เลือกการถดถอยแทนการจัดหมวดหมู่
ฉันใช้แพคเกจrandomForestใน R และใช้ข้อมูล iris ป่าสุ่มที่สร้างขึ้นเป็นการจัดหมวดหมู่ แต่เมื่อฉันใช้ชุดข้อมูลที่มีคุณสมบัติประมาณ 700 รายการ (คุณสมบัติคือแต่ละพิกเซลในภาพขนาด 28x28 พิกเซล) และคอลัมน์ชื่อมีชื่อlabelที่randomForestสร้างขึ้นคือการถดถอย ฉันใช้บรรทัดต่อไปนี้: rf <- randomForest(label ~ ., data=train) ทำไมการถดถอยจึงถูกนำมาใช้แทนการจำแนก? read.csv()ข้อมูลจะถูกอ่านผ่าน
12 r  random-forest 

1
การสร้างกราฟเส้นโค้งความน่าจะเป็นสำหรับโมเดล Logit พร้อมตัวทำนายหลายตัว
ฉันมีฟังก์ชั่นความน่าจะเป็นดังต่อไปนี้: Prob=11+e−zProb=11+e−z\text{Prob} = \frac{1}{1 + e^{-z}} ที่ไหน z=B0+B1X1+⋯+BnXn.z=B0+B1X1+⋯+BnXn.z = B_0 + B_1X_1 + \dots + B_nX_n. แบบจำลองของฉันดูเหมือน Pr(Y=1)=11+exp(−[−3.92+0.014×(bid)])Pr(Y=1)=11+exp⁡(−[−3.92+0.014×(bid)])\Pr(Y=1) = \frac{1}{1 + \exp\left(-[-3.92 + 0.014\times(\text{bid})]\right)} สิ่งนี้ถูกมองเห็นผ่านเส้นโค้งความน่าจะเป็นซึ่งดูเหมือนกับด้านล่าง ฉันกำลังพิจารณาเพิ่มตัวแปรสองตัวในสมการการถดถอยเดิมของฉัน สมมติว่าฉันเพิ่มเพศ (หมวดหมู่: F และ M) และอายุ (หมวดหมู่: <25 และ> 26) ลงในโมเดลฉันท้ายด้วย: Pr(Y=1)=11+exp(−[−3.92+0.014×(bid)+0.25×(gender)+0.15×(age)])Pr(Y=1)=11+exp⁡(−[−3.92+0.014×(bid)+0.25×(gender)+0.15×(age)])\Pr(Y=1) = \frac{1}{1 + \exp\left(-[-3.92 + 0.014\times(\text{bid}) + 0.25\times(\text{gender}) + 0.15\times(\text{age})]\right)} ใน RI …

1
ฉันจะปรับประสิทธิภาพการคำนวณให้เหมาะสมได้อย่างไรเมื่อติดตั้งแบบจำลองที่ซับซ้อนกับชุดข้อมูลขนาดใหญ่ซ้ำ ๆ
ฉันประสบปัญหาประสิทธิภาพการทำงานโดยใช้MCMCglmmแพ็คเกจใน R เพื่อเรียกใช้โมเดลเอฟเฟกต์แบบผสม รหัสมีลักษณะดังนี้: MC1<-MCMCglmm(bull~1,random=~school,data=dt,family="categorical" , prior=list(R=list(V=1,fix=1), G=list(G1=list(V=1, nu=0))) , slice=T, nitt=iter, ,burnin=burn, verbose=F) มีการสำรวจข้อมูลประมาณ 20,000 ครั้งและมีการรวมกลุ่มกันในโรงเรียนประมาณ 200 แห่ง ฉันลบตัวแปรที่ไม่ได้ใช้ทั้งหมดจากดาต้าเฟรมและลบวัตถุอื่นทั้งหมดออกจากหน่วยความจำก่อนที่จะทำงาน ปัญหาที่ฉันมีคือมันใช้เวลานานมากในการรันยกเว้นว่าฉันจะลดการวนซ้ำให้เหลือน้อยมาก ด้วย 50,000 ซ้ำมันใช้เวลา 5 ชั่วโมงและฉันมีรูปแบบที่แตกต่างกันมากมายในการทำงาน ดังนั้นฉันต้องการทราบว่ามีวิธีเร่งความเร็วในการเรียกใช้รหัสหรือแพ็คเกจอื่น ๆ ที่ฉันสามารถใช้ได้ ฉันใช้MCMCglmmเพราะฉันต้องการช่วงความมั่นใจสำหรับเอฟเฟกต์แบบสุ่ม ในทางกลับกันฉันหวังว่าจะได้รับพีซีเครื่องใหม่ในปีนี้ แต่โชคดีที่ฉันสามารถนำมันไปข้างหน้าได้ดังนั้นฉันจึงสงสัยว่าจะใช้เงินจำนวน จำกัด กับฮาร์ดแวร์ใหม่ได้ดีที่สุด - RAM เพิ่มเติม เร็วกว่าซีพียู ฯลฯ จากการดูตัวจัดการงานฉันไม่เชื่อว่า RAM เป็นปัญหา (ไม่เคยใช้งานเกิน 50% ของการใช้งานจริง) แต่การใช้งาน CPU ไม่ได้สูงกว่า 50% มากซึ่งทำให้ฉันแปลก …

2
วิธีการจำลองข้อมูลการทำงาน?
ฉันพยายามทดสอบวิธีการวิเคราะห์ข้อมูลการทำงานต่างๆ เป็นการดีที่ฉันต้องการทดสอบแผงวิธีที่ฉันมีกับข้อมูลจำลองการทำงาน ฉันได้พยายามที่จะสร้างจำลอง FD ใช้วิธีการขึ้นอยู่กับข้อสรุปเสียงเกาส์ (รหัสด้านล่าง) แต่เส้นโค้งที่เกิดขึ้นมีลักษณะขรุขระมากเกินไปเมื่อเทียบกับสิ่งที่จริง ฉันสงสัยว่าใครบางคนมีตัวชี้ไปยังฟังก์ชั่น / ความคิดเพื่อสร้างข้อมูลจำลองการทำงานที่ดูสมจริงมากขึ้น โดยเฉพาะอย่างยิ่งสิ่งเหล่านี้ควรราบรื่น ฉันยังใหม่กับสาขานี้อย่างสมบูรณ์ดังนั้นยินดีให้คำแนะนำใด ๆ library("MASS") library("caTools") VCM<-function(cont,theta=0.99){ Sigma<-matrix(rep(0,length(cont)^2),nrow=length(cont)) for(i in 1:nrow(Sigma)){ for (j in 1:ncol(Sigma)) Sigma[i,j]<-theta^(abs(cont[i]-cont[j])) } return(Sigma) } t1<-1:120 CVC<-runmean(cumsum(rnorm(length(t1))),k=10) VMC<-VCM(cont=t1,theta=0.99) sig<-runif(ncol(VMC)) VMC<-diag(sig)%*%VMC%*%diag(sig) DTA<-mvrnorm(100,rep(0,ncol(VMC)),VMC) DTA<-sweep(DTA,2,CVC) DTA<-apply(DTA,2,runmean,k=5) matplot(t(DTA),type="l",col=1,lty=1)

1
วิธีการสร้างการทำนายด้วย rjags?
ฉันใช้ rjags เพื่อรัน MCMC ในรูปแบบที่ระบุในภาษา JAGS มีวิธีที่ดีในการแยกโมเดลนั้นและทำการทำนายด้วยหรือไม่ (ใช้การแจกแจงหลังของพารามิเตอร์ของฉัน)? ฉันสามารถระบุรุ่นใน R อีกครั้งและเสียบโหมดของพารามิเตอร์โปสเตอร์ของฉัน ฉันแค่สงสัยว่ามีวิธีการทำซ้ำซ้อนน้อยลงหรือไม่ ฉันเชื่อว่าhttp://sourceforge.net/p/mcmc-jags/discussion/610037/thread/0ecab41cกำลังถามคำถามเดียวกัน
12 r  jags 

2
กำหนดการกระจายความน่าจะเป็นโดยอัตโนมัติเมื่อได้รับชุดข้อมูล
รับชุดข้อมูล: x <- c(4.9958942,5.9730174,9.8642732,11.5609671,10.1178216,6.6279774,9.2441754,9.9419299,13.4710469,6.0601435,8.2095239,7.9456672,12.7039825,7.4197810,9.5928275,8.2267352,2.8314614,11.5653497,6.0828073,11.3926117,10.5403929,14.9751607,11.7647580,8.2867261,10.0291522,7.7132033,6.3337642,14.6066222,11.3436587,11.2717791,10.8818323,8.0320657,6.7354041,9.1871676,13.4381778,7.4353197,8.9210043,10.2010750,11.9442048,11.0081195,4.3369520,13.2562675,15.9945674,8.7528248,14.4948086,14.3577443,6.7438382,9.1434984,15.4599419,13.1424011,7.0481925,7.4823108,10.5743730,6.4166006,11.8225244,8.9388744,10.3698150,10.3965596,13.5226492,16.0069239,6.1139247,11.0838351,9.1659242,7.9896031,10.7282936,14.2666492,13.6478802,10.6248561,15.3834373,11.5096033,14.5806570,10.7648690,5.3407430,7.7535042,7.1942866,9.8867927,12.7413156,10.8127809,8.1726772,8.3965665) .. ฉันต้องการตรวจสอบการแจกแจงความน่าจะเป็นที่เหมาะสมที่สุด (แกมม่า, เบตา, ปกติ, เลขชี้กำลัง, ปัวซอง, ไค - สแควร์, ฯลฯ ) ด้วยการประมาณค่าพารามิเตอร์ ฉันได้รับทราบถึงคำถามในลิงก์ต่อไปนี้ซึ่งมีวิธีแก้ไขปัญหาโดยใช้ R: /programming/2661402/given-a-set-of-random-numbers-drawn-from-a- Continuous-univariate-distribution-f ทางออกที่ดีที่สุดที่เสนอคือ: > library(MASS) > fitdistr(x, 't')$loglik #$ > fitdistr(x, 'normal')$loglik #$ > fitdistr(x, 'logistic')$loglik #$ > fitdistr(x, 'weibull')$loglik #$ > fitdistr(x, 'gamma')$loglik #$ > fitdistr(x, 'lognormal')$loglik #$ > fitdistr(x, …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.