คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

2
การเปรียบเทียบตัวแบบผสม (ตัวแบบสุ่ม) กับตัวแบบเชิงเส้นอย่างง่าย (ตัวแบบเป็นเอฟเฟกต์คงที่)
ฉันกำลังทำการวิเคราะห์บางอย่างกับชุดข้อมูลขนาดใหญ่ ฉันต้องการใช้โมเดลเชิงเส้นที่ใช้ในส่วนแรกของงานและปรับให้เหมาะสมโดยใช้โมเดลเชิงเส้นผสม (LME) LME จะคล้ายกันมากกับข้อยกเว้นว่าหนึ่งในตัวแปรที่ใช้ในแบบจำลองจะถูกใช้เป็นเอฟเฟกต์แบบสุ่ม ข้อมูลนี้มาจากการสังเกตหลายครั้ง (> 1,000) ในกลุ่มวิชาเล็ก ๆ (~ 10) และฉันรู้ว่าการสร้างแบบจำลองผลกระทบของเรื่องจะทำได้ดีกว่าเป็นเอฟเฟกต์แบบสุ่ม (นี่คือตัวแปรที่ฉันต้องการเปลี่ยน) รหัส R จะเป็นดังนี้: my_modelB <- lm(formula = A ~ B + C + D) lme_model <- lme(fixed=A ~ B + C, random=~1|D, data=my_data, method='REML') ทุกอย่างทำงานได้ดีและผลลัพธ์ก็คล้ายคลึงกันอย่างมากมาย มันจะดีถ้าฉันสามารถใช้อะไรเช่น RLRsim หรือ AIC / BIC เพื่อเปรียบเทียบทั้งสองรุ่นและตัดสินใจว่าแบบใดที่เหมาะสมที่สุด เพื่อนร่วมงานของฉันไม่ต้องการรายงาน LME เพราะไม่มีวิธีเข้าถึงได้ง่ายในการเลือกว่า "ดีกว่า" …

2
วิธีที่ดีที่สุดในการเลือกคุณสมบัติสำหรับการถดถอยแบบไม่มีพารามิเตอร์
คำถามใหม่ที่นี่ ขณะนี้ฉันกำลังทำการถดถอยแบบไม่ใช้พารามิเตอร์โดยใช้แพ็คเกจ np ในอาร์ฉันมีฟีเจอร์ 7 อย่างและใช้วิธีการบังคับเดรัจฉานฉันระบุว่าดีที่สุด 3. แต่ไม่นานฉันจะมีฟีเจอร์มากกว่า 7 อย่าง! คำถามของฉันคืออะไรเป็นวิธีที่ดีที่สุดในปัจจุบันสำหรับการเลือกคุณสมบัติสำหรับการถดถอยแบบไม่มีพารามิเตอร์ และถ้าหากแพ็กเกจใด ๆ ใช้วิธีการ ขอบคุณ.

1
การวิเคราะห์เมตาดาต้าใน R โดยใช้แพ็คเกจ metafor
ฉันควรซิงrmaก์ฟังก์ชันจากแพคเกจmetaforเพื่อให้ได้ผลลัพธ์ในตัวอย่างในชีวิตจริงของการวิเคราะห์ meta ขนาดเล็กต่อไปนี้อย่างไร (SMD สุ่มสถิติผลสรุป) study, mean1, sd1, n1, mean2, sd2, n2 Foo2000, 0.78, 0.05, 20, 0.82, 0.07, 25 Sun2003, 0.74, 0.08, 30, 0.72, 0.05, 19 Pric2005, 0.75, 0.12, 20, 0.74, 0.09, 29 Rota2008, 0.62, 0.05, 24, 0.66, 0.03, 24 Pete2008, 0.68, 0.03, 10, 0.68, 0.02, 10
10 r  meta-analysis 

2
พล็อตการถดถอยเชิงซ้อนใน R
ฉันต้องการวาดกราฟิกที่ซับซ้อนสำหรับการวิเคราะห์ข้อมูลภาพ ฉันมี 2 ตัวแปรและกรณีจำนวนมาก (> 1,000) ตัวอย่างเช่น (หมายเลขคือ 100 ถ้าทำให้การกระจายน้อยลง "ปกติ"): x <- rnorm(100,mean=95,sd=50) y <- rnorm(100,mean=35,sd=20) d <- data.frame(x=x,y=y) 1) ฉันต้องการพล็อตข้อมูลดิบที่มีขนาดพอยต์ซึ่งสอดคล้องกับความถี่สัมพัทธ์ของความบังเอิญดังนั้นจึงplot(x,y)ไม่ใช่ตัวเลือก - ฉันต้องการขนาดพอยต์ สิ่งที่ควรทำเพื่อให้บรรลุสิ่งนี้? 2) ในพล็อตเดียวกันฉันต้องพล็อตความมั่นใจช่วง 95% วงรีและบรรทัดที่แสดงถึงการเปลี่ยนแปลงของสหสัมพันธ์ (ไม่รู้วิธีตั้งชื่ออย่างถูกต้อง) - บางอย่างเช่นนี้: library(corrgram) corrgram(d, order=TRUE, lower.panel=panel.ellipse, upper.panel=panel.pts) แต่มีกราฟทั้งสองที่หนึ่งพล็อต 3) ในที่สุดฉันต้องวาดโมเดลการถดถอยของ linar ที่เกิดขึ้นจากสิ่งเหล่านี้ทั้งหมด: r<-lm(y~x, data=d) abline(r,col=2,lwd=2) แต่มีช่วงข้อผิดพลาด ... คล้ายกับ QQ-plot: แต่สำหรับข้อผิดพลาดที่เหมาะสมถ้าเป็นไปได้ …

2
RNG, R, mclapply และคลัสเตอร์คอมพิวเตอร์
ฉันใช้การจำลองใน R และคลัสเตอร์คอมพิวเตอร์และมีปัญหาดังต่อไปนี้ ฉันใช้งานคอมพิวเตอร์ X แต่ละเครื่อง: fxT2 <- function(i) runif(10) nessay <- 100 c(mclapply(1:nessay, fxT2), recursive=TRUE) มีคอมพิวเตอร์ 32 เครื่องแต่ละเครื่องมี 16 คอร์ อย่างไรก็ตามประมาณ 2% ของตัวเลขสุ่มนั้นเหมือนกัน คุณจะใช้กลยุทธ์อะไรเพื่อหลีกเลี่ยงปัญหานี้? ฉันสามารถหลีกเลี่ยงปัญหานี้สำหรับ fxT2 โดยการตั้งเวลาแฝง (เช่นการหน่วงเวลาวินาทีที่แต่ละงานถูกส่งไปยังคอมพิวเตอร์ X แต่ละเครื่อง) แต่ดูเหมือนว่าจะเป็นโฆษณาสำหรับ fxt2 ปัญหาคือว่าในความเป็นจริง fxT2 เป็นงานที่ยาวนานที่เกี่ยวข้องกับการสุ่มตัวเลขหลอก ในตอนท้ายของกระบวนการฉันคาดว่าจะได้รับการทำสำเนา X * nessay จากการทดลองทางสถิติแบบเดียวกันไม่ใช่การทำซ้ำแบบ nessay วิธีการตรวจสอบให้แน่ใจว่าเป็นกรณีนี้และมีวิธีการตรวจสอบนี้หรือไม่?

1
จัดทำเป็นเอกสาร / ตัวอย่างที่จำลองได้ของการประยุกต์ใช้วิธีเศรษฐมิติที่ประสบความสำเร็จในโลกแห่งความจริง?
คำถามนี้อาจฟังดูกว้างมาก แต่นี่คือสิ่งที่ฉันกำลังมองหา ฉันรู้ว่ามีหนังสือที่ยอดเยี่ยมมากมายเกี่ยวกับวิธีเศรษฐมิติและบทความเกี่ยวกับเทคนิคเศรษฐมิติที่ยอดเยี่ยมมากมาย นอกจากนี้ที่ดีเยี่ยมแม้ทำซ้ำตัวอย่างของเศรษฐที่อธิบายไว้ใน CrossValidated นี้คำถาม อันที่จริงตัวอย่างในคำถามนี้มาใกล้กับสิ่งที่ฉันกำลังมองหา สิ่งเดียวที่ขาดหายไปในตัวอย่างเหล่านั้นคือการที่พวกเขาเป็นเพียงการวิจัยรายงานโดยไม่ต้องเอ่ยถึงว่าผลของการศึกษาที่มีอาการในใด ๆการประยุกต์ใช้จริงในโลก สิ่งที่ฉันกำลังมองหาคือเอกสาร / ตัวอย่างที่สามารถจำลองได้ของการประยุกต์ใช้ทฤษฎีทางเศรษฐมิติในโลกแห่งความเป็นจริงซึ่งมีลักษณะดังต่อไปนี้: พวกเขาควรจะทำซ้ำเช่นมีคำอธิบายรายละเอียดของ (และตัวชี้ไปยัง) ข้อมูลเทคนิคทางเศรษฐมิติและรหัส นึกคิดรหัสจะเป็นภาษา R ควรมีเอกสารรายละเอียดแสดงให้เห็นว่าเทคนิคที่ประสบความสำเร็จในโลกแห่งความเป็นจริงตามการวัดที่ดีของความสำเร็จ (เช่น "เทคนิคที่ช่วยเพิ่มรายได้เพราะมันเปิดใช้การคาดการณ์ความต้องการที่ดีขึ้นและนี่คือตัวเลขที่เกี่ยวข้อง") ฉันใช้ระยะทางเศรษฐมิติค่อนข้างกว้างที่นี่ - ผมหมายถึงใด ๆ เรียงลำดับของการทำเหมืองข้อมูล , สถิติวิเคราะห์ข้อมูล , predictiion , การคาดการณ์หรือเครื่องเรียนรู้เทคนิค ปัญหาหนึ่งในการค้นหาตัวอย่างเช่น: การประยุกต์ใช้เศรษฐมิติที่ประสบความสำเร็จในการตั้งค่าเพื่อผลกำไรและเป็นกรรมสิทธิ์ดังนั้นหากเทคนิคทำงานได้ดีมันอาจจะไม่ถูกเผยแพร่ (นี่เป็นเรื่องจริงโดยเฉพาะอย่างยิ่งในกรณีของการซื้อขายแบบกรรมสิทธิ์ กลยุทธ์) แต่ฉันหวังว่าจะมีตัวอย่างที่เผยแพร่ซึ่งมีคุณสมบัติอย่างน้อย (2) ข้างต้นหากไม่ใช่ทั้ง (1) และ (2)

1
การใช้แพคเกจสถิติใน R สำหรับการจัดกลุ่ม kmeans
ฉันมีปัญหาในการทำความเข้าใจกับแพคเกจคลัสเตอร์หนึ่งหรือสองด้าน ฉันกำลังติดตามตัวอย่างจากQuick-Rอย่างใกล้ชิด แต่ไม่เข้าใจการวิเคราะห์หนึ่งหรือสองอย่าง ฉันได้รวมรหัสที่ฉันใช้สำหรับตัวอย่างนี้โดยเฉพาะ ## Libraries library(stats) library(fpc) ## Data mydata = structure(list(a = c(461.4210925, 1549.524107, 936.42856, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 131.4349206, 0, 762.6110846, 3837.850406), b = c(19578.64174, 2233.308842, 4714.514274, 0, 2760.510002, 1225.392118, 3706.428246, 2693.353714, 2674.126613, 592.7384164, 1820.976961, 1318.654162, 1075.854792, 1211.248996, 1851.363623, …
10 r  clustering 

4
การสร้างอินเตอร์เฟส MATLAB และ R กับ C5.0 ของ Ross Quinlan
ฉันกำลังพิจารณาการสร้างอินเตอร์เฟส MATLAB และ R ให้กับC5.0ของRoss Quinlan (สำหรับผู้ที่ไม่คุ้นเคย C5.0 เป็นอัลกอริทึมต้นไม้ตัดสินใจและแพ็คเกจซอฟต์แวร์ส่วนขยายC4.5 ) และฉันพยายาม รับความรู้สึกขององค์ประกอบที่ฉันจะต้องเขียน เอกสารเดียวที่ฉันพบสำหรับ C5.0 อยู่ที่นี่ซึ่งเป็นแบบฝึกหัดสำหรับ See5 (อินเทอร์เฟซ Windows กับ C5.0?) tarไฟล์มาพร้อมกับ Makefile แต่ไม่มีไฟล์ Readme หรือเอกสารใด ๆ เพิ่มเติม จากสิ่งที่ฉันอ่านในบทช่วยสอนด้านบน C5.0 ใช้การแทนค่าแบบ ASCII เพื่อจัดการอินพุตและเอาต์พุตและฉันกำลังพิจารณาสร้างอินเตอร์เฟสที่ส่งผ่านข้อมูลไบนารีโดยตรงระหว่าง MATLAB หรือ R และ C5.0 การแสดงข้อมูลของ C5.0 ถูกใช้โดยซอฟต์แวร์การเรียนรู้ / การจำแนกประเภทอื่น ๆ หรือไม่? มีใครลองสร้าง MATLAB หรือ R อินเตอร์เฟสกับ ID3, …

2
ความแตกต่างระหว่างการใช้การถดถอยริดจ์ใน R และ SAS
ผมได้อ่านคำอธิบายของการถดถอยสันในการประยุกต์ใช้เชิงเส้นสถิติรุ่นที่ 5 เอ็ดบทที่ 11. การถดถอยสันจะทำในข้อมูลไขมันในร่างกายที่มีอยู่ที่นี่ หนังสือเรียนตรงกับผลลัพธ์ใน SAS ซึ่งมีค่าสัมประสิทธิ์การแปลงกลับในรูปแบบที่เหมาะสมเป็น: Y= - 7.3978 + 0.5553 X1+ 0.3681 X2- 0.1917 X3Y=−7.3978+0.5553X1+0.3681X2−0.1917X3 Y=-7.3978+0.5553X_1+0.3681X_2-0.1917X_3 สิ่งนี้แสดงให้เห็นจาก SAS เมื่อ: proc reg data = ch7tab1a outest = temp outstb noprint; model y = x1-x3 / ridge = 0.02; run; quit; proc print data = temp; where _ridge_ = …

1
พล็อตเส้นการถดถอยแบบต่อเนื่อง
มีวิธีการพล็อตบรรทัดการถดถอยของตัวแบบทีละชิ้นเช่นนี้นอกเหนือจากการใช้linesเพื่อพล็อตแต่ละเซ็กเมนต์แยกจากกันหรือใช้geom_smooth(aes(group=Ind), method="lm", fill=FALSE)? m.sqft <- mean(sqft) model <- lm(price~sqft+I((sqft-m.sqft)*Ind)) # sqft, price: continuous variables, Ind: if sqft>mean(sqft) then 1 else 0 plot(sqft,price) abline(reg = model) Warning message: In abline(reg = model) : only using the first two of 3regression coefficients ขอบคุณ.

4
ฉันจะประมาณความหนาแน่นของพารามิเตอร์ที่ไม่ได้ศูนย์ใน R ได้อย่างไร?
ฉันมีชุดข้อมูลที่มีศูนย์จำนวนมากที่มีลักษณะดังนี้: set.seed(1) x <- c(rlnorm(100),rep(0,50)) hist(x,probability=TRUE,breaks = 25) ฉันต้องการวาดเส้นสำหรับความหนาแน่นของมัน แต่density()ฟังก์ชั่นใช้หน้าต่างย้ายที่คำนวณค่าลบของ x lines(density(x), col = 'grey') มีdensity(... from, to)ข้อโต้แย้ง แต่สิ่งเหล่านี้ดูเหมือนจะตัดทอนการคำนวณเท่านั้นไม่เปลี่ยนหน้าต่างเพื่อให้ความหนาแน่นที่ 0 สอดคล้องกับข้อมูลที่สามารถเห็นได้โดยพล็อตต่อไปนี้: lines(density(x, from = 0), col = 'black') (หากการแก้ไขมีการเปลี่ยนแปลงฉันคาดว่าเส้นสีดำจะมีความหนาแน่นสูงกว่าที่ 0 กว่าเส้นสีเทา) มีทางเลือกอื่นสำหรับฟังก์ชั่นนี้ที่จะช่วยให้การคำนวณความหนาแน่นดีขึ้นที่ศูนย์หรือไม่?
10 r  probability  kde 

1
ใน R“ glmnet” พอดีกับการสกัดกั้นหรือไม่?
glmnetฉันกำลังกระชับรูปแบบเชิงเส้นในการวิจัยโดยใช้ โมเดลดั้งเดิม (ที่ไม่ทำให้เป็นปกติ) ถูกติดตั้งโดยใช้lmและไม่มีเทอมคงที่ (นั่นคือในรูปแบบlm(y~0+x1+x2,data)) glmnetใช้เมทริกซ์ของผู้ทำนายและเวกเตอร์ของการตอบสนอง ฉันอ่านglmnetเอกสารแล้วและไม่สามารถเอ่ยถึงคำศัพท์คงที่ได้ ดังนั้นมีวิธีขอglmnetให้บังคับให้พอดีเชิงเส้นผ่านจุดกำเนิดหรือไม่
10 r  regression  lasso 

3
แพ็คเกจ R สำหรับการรวมระดับปัจจัยสำหรับการจัดทำดัชนี?
หากสงสัยว่ามีใครวิ่งข้ามแพ็คเกจ / ฟังก์ชั่นใน R ที่จะรวมระดับของปัจจัยที่มีสัดส่วนของระดับทั้งหมดในปัจจัยน้อยกว่าขีด จำกัด บางอย่าง? โดยเฉพาะอย่างยิ่งหนึ่งในขั้นตอนแรกในการเตรียมข้อมูลที่ฉันดำเนินการคือการยุบปัจจัยที่กระจัดกระจายในระดับต่างๆ (พูดในระดับที่เรียกว่า 'อื่น ๆ ') ที่ไม่ได้ประกอบด้วยอย่างน้อย 2% ของทั้งหมด สิ่งนี้ทำโดยไม่ได้รับอนุญาตและทำเมื่อวัตถุประสงค์คือเพื่อจำลองกิจกรรมบางอย่างในการตลาด (ไม่ใช่การตรวจจับการฉ้อโกงซึ่งเหตุการณ์เหล่านั้นมีความสำคัญน้อยมาก) ฉันกำลังมองหาฟังก์ชั่นที่จะยุบระดับจนกระทั่งได้สัดส่วนตามเกณฑ์ UPDATE: ขอบคุณคำแนะนำที่ดีเหล่านี้ฉันเขียนฟังก์ชั่นได้อย่างง่ายดาย ฉันรู้ว่ามันเป็นไปได้ที่จะยุบระดับด้วยสัดส่วน <ต่ำสุดและยังคงมีระดับที่ถูกถอดรหัสเป็น <ต่ำสุดซึ่งต้องการการเพิ่มระดับต่ำสุดพร้อมสัดส่วน> ต่ำสุด มีแนวโน้มที่จะมีประสิทธิภาพมากขึ้น แต่ดูเหมือนจะทำงาน การปรับปรุงต่อไปคือการหาวิธีจับ "กฎ" สำหรับการใช้ตรรกะการยุบกับข้อมูลใหม่ (ชุดการตรวจสอบหรือข้อมูลในอนาคต) collapseFactors<- function(tableName,minPercent=5,fillIn ="RECODED" ) { for (i in 1:ncol(tableName)) { if(is.factor(tableName[,i]) == TRUE) #process just factors { sortedTable<-sort(prop.table(table(tableName[,i]))) numberToCollapse<-length(sortedTable[sortedTable<(minPercent/100)]) if …

1
แปล R เป็น C ++ (ท้ายที่สุดด้วย Rcpp) [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน2 ปีที่ผ่านมา ผมอยากจะเรียนรู้การใช้Rcpp ฉันอ่านเอกสารบนเว็บไซต์ CRAN ของแพ็คเกจ แต่ฉันรู้สึกว่าตัวอย่างที่ใช้งานได้จริง (การปฏิบัติที่สองโดยพิจารณา convolve3) จะเป็นประโยชน์มากกว่า ฉันเสนอรหัสต่อไปนี้จากแพ็คเกจฐานที่แข็งแกร่งเพราะมันไม่ยาวเกินไปหรือสั้นเกินไปใช้การรวมกันของประเภท R และฟังก์ชั่น R และมีหนึ่งในการคำนวณเลขคณิตเล็ก ๆ เหล่านั้นที่ช้าเกินไปในอาร์คุณจะทำอย่างไรต่อ Rcpp - มัน scaleTau2<-function (x, c1 = 4.5, c2 = 3, consistency = TRUE, mu.too = FALSE){ n <- length(x) medx <- median(x) x. <- abs(x - medx) …
10 r  c++ 

2
ควรใช้การทดสอบแบบพาราเมตริกเมื่อใดที่จะใช้การทดสอบแบบ homoscedasticity
หากหนึ่งคือการทดสอบสมมติฐานของ homoscedasticity ตัวแปร (Bartlett ทดสอบความสม่ำเสมอของผลต่าง, bartlett.test) และไม่ใช่ตัวแปร (Figner-คิลลีนการทดสอบความสม่ำเสมอของผลต่าง, fligner.test) การทดสอบที่มีอยู่ จะบอกได้อย่างไรว่าจะใช้แบบไหน? สิ่งนี้ควรขึ้นอยู่กับความเป็นปกติของข้อมูลหรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.