คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

2
โครงสร้าง G-R คืออะไรใน glmm?
ฉันใช้MCMCglmmแพ็กเกจเมื่อเร็ว ๆ นี้ ฉันสับสนกับสิ่งที่อ้างถึงในเอกสารประกอบว่า R-structure และ G-structure สิ่งเหล่านี้ดูเหมือนจะเกี่ยวข้องกับเอฟเฟกต์แบบสุ่มโดยเฉพาะอย่างยิ่งการระบุพารามิเตอร์สำหรับการแจกแจงก่อนหน้านี้ แต่การอภิปรายในเอกสารประกอบดูเหมือนว่าจะถือว่าผู้อ่านรู้ว่าคำเหล่านี้คืออะไร ตัวอย่างเช่น: รายการตัวเลือกของข้อกำหนดก่อนหน้านี้มี 3 องค์ประกอบที่เป็นไปได้: R (โครงสร้าง R) G (โครงสร้าง G) และ B (ลักษณะพิเศษคงที่) ............ Priors สำหรับโครงสร้างความแปรปรวน (R และ G ) คือรายการที่มีค่าความแปรปรวน (co) (V) และระดับของพารามิเตอร์ความเชื่อ (nu) สำหรับ inverse-Wishart ... นำมาจากจากที่นี่ แก้ไข: โปรดทราบว่าฉันได้เขียนคำถามที่เหลืออีกครั้งตามความคิดเห็นจากสเตฟาน ทุกคนสามารถให้แสงสว่างในสิ่งที่โครงสร้าง R และโครงสร้าง G ในบริบทของรูปแบบส่วนประกอบความแปรปรวนแบบง่ายโดยที่ตัวทำนายเชิงเส้นคือ β0+e0ij+u0jβ0+e0ij+u0j\beta_0 + e_{0ij} + u_{0j} …

2
วิธีการใช้งาน ANOVA แบบสองทางกับข้อมูลที่ไม่มีค่าปกติและความแปรปรวนใน R ได้อย่างไร?
ฉันกำลังทำวิทยานิพนธ์หลักของฉันในขณะนี้และวางแผนที่จะใช้สถิติด้วย SigmaPlot อย่างไรก็ตามหลังจากใช้เวลากับข้อมูลของฉันฉันได้ข้อสรุปว่า SigmaPlot อาจไม่เหมาะกับปัญหาของฉัน (ฉันอาจเข้าใจผิด) ดังนั้นฉันจึงเริ่มต้นความพยายามครั้งแรกใน R ซึ่งไม่ได้ทำให้ง่ายขึ้นอย่างแน่นอน แผนคือการใช้ TWO-WAY-ANOVA แบบง่าย ๆ กับข้อมูลของฉันซึ่งเป็นผลมาจากโปรตีน 3 ชนิดและการรักษา 8 แบบที่แตกต่างกันดังนั้นสองปัจจัยของฉันคือโปรตีนและการรักษา ฉันทดสอบความเป็นมาตรฐานโดยใช้ทั้งสองอย่าง > shapiro.test(time) และ > ks.test(time, "norm", mean=mean(time), sd=sqrt(var(time))) ในทั้งสองกรณี (อาจไม่แปลกใจ) ฉันลงเอยด้วยการแจกแจงแบบไม่ธรรมดา ที่เหลือฉันด้วยคำถามแรกของการทดสอบที่จะใช้เพื่อความเท่าเทียมกันของความแปรปรวน ฉันมาด้วย > chisq.test(time) และผลลัพธ์ก็คือว่าฉันไม่มีความเท่าเทียมกันของความแปรปรวนในข้อมูลของฉันเช่นกัน ฉันลองการแปลงข้อมูลที่แตกต่างกัน (log, center, standardization) ซึ่งทั้งหมดไม่ได้แก้ปัญหาด้วยความแปรปรวน ตอนนี้ฉันกำลังตกอยู่ในความสูญเสียวิธีดำเนินการ ANOVA สำหรับการทดสอบว่าโปรตีนและการรักษาใดแตกต่างกัน ฉันพบบางอย่างเกี่ยวกับ Kruskal-Walis-Test แต่มีเพียงปัจจัยเดียวเท่านั้น (?) ฉันยังพบสิ่งต่าง ๆ เกี่ยวกับการจัดอันดับหรือการทำให้เสียโฉม …

4
กำลังล้างข้อมูลของรูปแบบที่ไม่สอดคล้องใน R หรือไม่
ฉันมักจะจัดการกับข้อมูลการสำรวจที่ยุ่งเหยิงซึ่งต้องมีการทำความสะอาดมากก่อนที่จะสามารถทำสถิติใด ๆ ได้ ฉันเคยทำสิ่งนี้ "ด้วยตนเอง" ใน Excel บางครั้งใช้สูตร Excel และบางครั้งก็ตรวจสอบรายการทีละรายการ ฉันเริ่มทำงานเหล่านี้มากขึ้นเรื่อย ๆ โดยการเขียนสคริปต์เพื่อทำใน R ซึ่งมีประโยชน์มาก (ผลประโยชน์รวมถึงการบันทึกสิ่งที่ทำไปแล้วมีโอกาสผิดพลาดน้อยลงและสามารถนำรหัสมาใช้ใหม่ได้หากชุดข้อมูลเป็น ปรับปรุง) แต่ยังมีข้อมูลบางประเภทที่ฉันมีปัญหาในการจัดการอย่างมีประสิทธิภาพ ตัวอย่างเช่น: > d <- data.frame(subject = c(1,2,3,4,5,6,7,8,9,10,11), + hours.per.day = c("1", "2 hours", "2 hr", "2hr", "3 hrs", "1-2", "15 min", "30 mins", "a few hours", "1 hr 30 min", "1 hr/week")) …
16 r  data-cleaning 

1
การใช้ R และ plm เพื่อประเมินแบบจำลองเอฟเฟกต์คงที่ที่มีการโต้ตอบกับเวลา
ฉันใช้plm()เพื่อประเมินแบบจำลองเอฟเฟกต์คงที่ของแบบฟอร์ม y ~ x + time + time:fixed_trait ที่ไหน fixed_traitเป็นตัวแปรที่แปรผันไปตามบุคคล แต่คงที่ภายในบุคคล จุดของการโต้ตอบtimeกับfixed_traitคือการอนุญาตให้มีผลของfixed_traitการเปลี่ยนแปลงในช่วงเวลา (ฉันกำลังทำงานที่นี่จากหนังสือเล่มล่าสุดของ Paul Allison เกี่ยวกับเอฟเฟกต์คงที่การอ้างอิงต่อท้าย) plm()ไม่มีปัญหาในการประมาณค่าสัมประสิทธิ์และข้อผิดพลาดมาตรฐานสำหรับรุ่นดังกล่าว แต่summary.plm()ไม่สามารถคำนวณ R ^ 2 สำหรับรุ่นเหล่านี้ได้ นี่คือปัญหาที่ฉันต้องการแก้ไข นี่คือตัวอย่างเล็กน้อย: library(plm) tmp <- data.frame(ID=rep(1:3, 2), year=rep(0:1, each=3), y=rnorm(6), const=rep(1:3, 2)) fe1 <- plm(y ~ year, index=c('ID', 'year'), data=tmp) fe2 <- plm(y ~ year + year:const, index=c('ID', …
16 r 

1
จะวิเคราะห์ข้อมูลการนับตามยาวได้อย่างไร: การบัญชีสำหรับการหาค่าสัมพันธ์อัตโนมัติใน GLMM?
สวัสดีปรมาจารย์ด้านสถิติและวิซาร์ดการเขียนโปรแกรม R ฉันสนใจในการสร้างแบบจำลองสัตว์จับเป็นฟังก์ชั่นของสภาพแวดล้อมและวันของปี เป็นส่วนหนึ่งของการศึกษาอื่นฉันได้นับการจับกุมในเวลาประมาณ 160 วันในระยะเวลาสามปี ในแต่ละวันฉันมีอุณหภูมิ, ฝน, ความเร็วลม, ความชื้นสัมพัทธ์และอื่น ๆ เนื่องจากข้อมูลถูกรวบรวมซ้ำ ๆ กันจาก 5 แปลงเดียวกันฉันใช้พล็อตเป็นผลแบบสุ่ม ความเข้าใจของฉันคือ nlme สามารถอธิบายความสัมพันธ์ระหว่างกาลชั่วคราวในส่วนที่เหลือได้อย่างง่ายดาย แต่ไม่ได้จัดการฟังก์ชั่นลิงค์ที่ไม่ใช่แบบเกาส์เช่น lme4 (ซึ่งไม่สามารถจัดการความสัมพันธ์แบบอัตโนมัติได้) ขณะนี้ฉันคิดว่ามันอาจใช้งานแพคเกจ nlme ใน R on log (นับ) ดังนั้นวิธีแก้ปัญหาของฉันตอนนี้คือการเรียกใช้สิ่งที่ชอบ: m1 <- lme(lcount ~ AirT + I(AirT^2) + RainAmt24 + I(RainAmt24^2) + RHpct + windspeed + sin(2*pi/360*DOY) + cos(2*pi/360*DOY), random …

11
วิธีเริ่มต้นและเรียนรู้ R?
ฉันได้ลองหลายครั้งเพื่อ "ไปด้วยตัวเอง" - แต่ประสบความสำเร็จอย่าง จำกัด ฉันเป็นผู้ใช้ SPSS ชั่วคราวและมีประสบการณ์ SAS บางอย่าง จะขอบคุณตัวชี้หนึ่งหรือสองจากคนที่มีพื้นหลังที่คล้ายกันและตอนนี้ใช้ R
16 r  references 

1
การสร้างตัวอย่างแบบสุ่มจากการแจกแจงที่กำหนดเอง
ฉันกำลังพยายามสร้างตัวอย่างแบบสุ่มจาก pdf ที่กำหนดเองโดยใช้ R. ไฟล์ของฉันคือ: fX(x)=32(1−x2),0≤x≤1fX(x)=32(1−x2),0≤x≤1f_{X}(x) = \frac{3}{2} (1-x^2), 0 \le x \le 1 ฉันสร้างตัวอย่างที่เหมือนกันแล้วลองแปลงเป็นการแจกแจงแบบกำหนดเองของฉัน ฉันไม่นี้โดยการหา CDF ของการกระจายของฉัน ( FX(x)FX(x)F_{X}(x) ) และการตั้งค่าให้ตัวอย่างเครื่องแบบ ( ยูยูu ) และการแก้สำหรับxxxx FX(x)=Pr[X≤x]=∫x032(1−y2)dy=32(x−x33)FX(x)=Pr[X≤x]=∫0x32(1−y2)dy=32(x−x33) F_{X}(x) = \Pr[X \le x] = \int_{0}^{x} \frac{3}{2} (1-y^2) dy = \frac{3}{2} (x - \frac{x^3}{3}) ในการสร้างตัวอย่างแบบสุ่มที่มีการแจกแจงข้างต้นให้หาตัวอย่างแบบสม่ำเสมอu∈[0,1]u∈[0,1]u \in[0,1]และหาค่าxxxใน32(x−x33)=u32(x−x33)=u\frac{3}{2} (x - \frac{x^3}{3}) = u ฉันใช้งานRและไม่ได้รับการกระจายที่คาดหวัง …
16 r  sampling  uniform 

2
เป็นไปได้ไหมที่จะสร้าง“ ชุดขนาน” โดยใช้ R
ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ขอบคุณคำถาม Tormod (โพสต์ที่นี่ ) ฉันเจอพล็อตชุดแบบขนาน นี่คือตัวอย่างสำหรับลักษณะที่ปรากฏ: (เป็นภาพของชุดข้อมูลไททานิกการแสดงยกตัวอย่างเช่นผู้หญิงส่วนใหญ่ที่ไม่รอดชีวิตอยู่ในชั้นที่สาม ... ) ฉันชอบที่จะสามารถทำซ้ำพล็อตดังกล่าวกับอาร์ได้หรือไม่? ขอบคุณ Tal

6
ฉันจะลบทั้งหมดยกเว้นหนึ่งระเบียนที่ซ้ำกันเฉพาะในกรอบข้อมูล R ได้อย่างไร [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามดังนั้นจึงเป็นหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน4 ปีที่แล้ว ฉันมีกรอบข้อมูลที่มีรหัสที่ซ้ำกันบางส่วน ฉันต้องการลบระเบียนที่มีรหัสที่ซ้ำกันเก็บเฉพาะแถวที่มีค่าสูงสุด ดังนั้นสำหรับโครงสร้างเช่นนี้ (ตัวแปรอื่น ๆ ไม่ได้แสดง): id var_1 1 2 1 4 2 1 2 3 3 5 4 2 ฉันต้องการสร้างสิ่งนี้: id var_1 1 4 2 3 3 5 4 2 ฉันรู้เกี่ยวกับที่ไม่ซ้ำกัน () และทำซ้ำ () แต่ฉันไม่สามารถหาวิธีรวมกฎการเพิ่มประสิทธิภาพสูงสุด ...
16 r 

2
เป็นการดีที่จะสร้างมาตรฐานข้อมูลของคุณในการถดถอยด้วยข้อมูลแบบพาเนล / ยาว
โดยทั่วไปฉันสร้างมาตรฐานตัวแปรอิสระของฉันในการถดถอยเพื่อเปรียบเทียบสัมประสิทธิ์อย่างถูกต้อง (ด้วยวิธีนี้พวกเขามีหน่วยเดียวกัน: ส่วนเบี่ยงเบนมาตรฐาน) อย่างไรก็ตามด้วยข้อมูลแบบพาเนล / ยาวฉันไม่แน่ใจว่าฉันควรทำให้ข้อมูลของฉันเป็นมาตรฐานโดยเฉพาะอย่างยิ่งถ้าฉันประเมินโมเดลแบบลำดับชั้น หากต้องการดูสาเหตุที่อาจเป็นปัญหาที่อาจเกิดขึ้นสมมติว่าคุณมีi=1,…,ni=1,…,ni = 1, \ldots, nบุคคลที่วัดตามช่วงเวลาและคุณวัดตัวแปรตาม,และตัวแปรอิสระหนึ่งตัวt} หากคุณใช้การรวมการถดถอยแบบสมบูรณ์คุณสามารถสร้างมาตรฐานของข้อมูลด้วยวิธีนี้:เนื่องจากจะไม่เปลี่ยน t- สถิติ. ในทางกลับกันถ้าคุณพอดีกับการถดถอยที่ไม่รวมคือการถดถอยหนึ่งครั้งสำหรับแต่ละคนคุณควรสร้างมาตรฐานให้กับข้อมูลของคุณเป็นรายบุคคลเท่านั้นไม่ใช่ชุดข้อมูลทั้งหมด (ในรหัส R):Y ผม, เสื้อ x ฉัน, เสื้อ x z = ( x - หมายถึง( x ) ) / sd ( x )t=1,…,Tt=1,…,Tt=1,\ldots, Tyi,tyi,ty_{i,t}xi,txi,tx_{i,t}x.z=(x−mean(x))/sd(x)x.z=(x−mean(x))/sd(x)x.z = (x- \text{mean}(x))/\text{sd}(x) for (i in 1:n) { for ( t in …

2
ผลรวมจากแบบจำลองเชิงเส้นวิ่ง R
เนื่องจากการสร้างแบบจำลองการถดถอยมักจะเป็น "ศิลปะ" มากกว่าวิทยาศาสตร์ฉันจึงมักจะทดสอบตัวเองซ้ำหลายครั้งเกี่ยวกับโครงสร้างการถดถอย วิธีที่มีประสิทธิภาพในการสรุปข้อมูลจากแบบจำลองเหล่านี้หลายแบบในความพยายามที่จะค้นหาแบบ "ดีที่สุด" คืออะไร? วิธีการหนึ่งที่ฉันใช้คือการวางแบบจำลองทั้งหมดลงในรายการและเรียกใช้summary()ข้ามรายการนั้น แต่ฉันคิดว่ามีวิธีที่มีประสิทธิภาพมากกว่าในการเปรียบเทียบหรือไม่ ตัวอย่างรหัส & รุ่น: ctl <- c(4.17,5.58,5.18,6.11,4.50,4.61,5.17,4.53,5.33,5.14) trt <- c(4.81,4.17,4.41,3.59,5.87,3.83,6.03,4.89,4.32,4.69) group <- gl(2,10,20, labels=c("Ctl","Trt")) weight <- c(ctl, trt) lm1 <- lm(weight ~ group) lm2 <- lm(weight ~ group - 1) lm3 <- lm(log(weight) ~ group - 1) #Draw comparisions between models 1 - …
16 r  regression 

1
การติดตั้งอุปกรณ์ในรุ่น R ที่ค่าสัมประสิทธิ์อยู่ภายใต้ข้อ จำกัด เชิงเส้น
ฉันจะกำหนดสูตรแบบจำลองใน R ได้อย่างไรเมื่อมีข้อ จำกัด เชิงเส้นตรงหนึ่งข้อ (หรือมากกว่า) ที่สัมพันธ์กับสัมประสิทธิ์ ตัวอย่างเช่นสมมติว่าคุณรู้ว่า b1 = 2 * b0 ในรูปแบบการถดถอยเชิงเส้นอย่างง่าย ขอขอบคุณ!
16 r  regression  modeling 

4
ฉันควรรวมอาร์กิวเมนต์เพื่อขอผลบวกของสี่เหลี่ยมจัตุรัส III ใน ezANOVA หรือไม่
ฉันพัฒนาแพ็กเกจ ez สำหรับ R เพื่อช่วยให้ผู้คนเปลี่ยนจากแพคเกจสถิติเช่น SPSS เป็น R นี่คือ (หวังว่า) ทำได้โดยการลดความซับซ้อนของ ANOVA และให้ผลลัพธ์คล้าย SPSS (รวมถึงขนาดเอฟเฟกต์และสมมติฐาน การทดสอบ) ในคุณสมบัติอื่น ๆ ezANOVA()ฟังก์ชั่นส่วนใหญ่ทำหน้าที่เป็นเสื้อคลุมไปcar::Anova()แต่รุ่นปัจจุบันของezANOVA()การดำเนินการเพียงพิมพ์-II ผลรวมของสี่เหลี่ยมในขณะที่car::Anova()สเปคใบอนุญาตทั้งประเภท II หรือ -III ผลรวมของสี่เหลี่ยม อย่างที่ฉันควรจะคาดหวังผู้ใช้หลายคนขอให้ฉันโต้แย้งezANOVA()ที่อนุญาตให้ผู้ใช้ร้องขอ Type-II หรือ Type-III ฉันลังเลที่จะทำเช่นนั้นและสรุปเหตุผลของฉันที่ด้านล่าง แต่ฉันจะขอขอบคุณที่ชุมชนให้ความเห็นเกี่ยวกับเหตุผลของฉันหรือเหตุผลอื่น ๆ ที่เกี่ยวกับเรื่องนี้ สาเหตุที่ไม่รวมอาร์กิวเมนต์ "SS_type" ในezANOVA(): ความแตกต่างระหว่างผลรวมสี่เหลี่ยมจัตุรัสประเภท I, II และ III จะปลูกพืชเฉพาะเมื่อข้อมูลไม่สมดุลเท่านั้นซึ่งในกรณีนี้ฉันจะบอกว่าประโยชน์เพิ่มเติมนั้นมาจากการแก้ไขความไม่สมดุลโดยการรวบรวมข้อมูลเพิ่มเติม ความแตกต่างระหว่าง Type II และ III ใช้กับเอฟเฟกต์ลำดับต่ำที่ผ่านการรับรองโดยเอฟเฟกต์ที่สูงกว่าซึ่งในกรณีนี้ฉันพิจารณาถึงเอฟเฟกต์ลำดับล่างที่ไม่น่าสนใจทางวิทยาศาสตร์ (แต่ดูด้านล่างเพื่อหาข้อโต้แย้งที่อาจเกิดขึ้นได้) สำหรับสถานการณ์ที่หายากเหล่านั้นเมื่อ (1) …

2
ตีแล้วรัน MCMC
ฉันกำลังพยายามใช้อัลกอริทึม MCMC ที่ได้รับความนิยมและใช้งาน แต่ฉันมีปัญหาเล็กน้อยในการทำความเข้าใจว่าจะทำอย่างไร ความคิดทั่วไปมีดังนี้: ในการสร้างข้อเสนอกระโดดเป็น MH เรา: สร้างทิศทางจากการกระจายบนพื้นผิวของทรงกลมยูนิตOdddOO\mathcal{O} สร้างระยะทางที่ลงนามตามพื้นที่ จำกัดλλ\lambda อย่างไรก็ตามฉันไม่มีความคิดว่าฉันควรนำไปใช้ใน R (หรือภาษาอื่น ๆ ) อย่างไร ไม่มีใครมีตัวอย่างของรหัสที่จะชี้ให้ฉันไปในทิศทางที่ถูกต้องหรือไม่ BTW ฉันไม่สนใจห้องสมุดที่ใช้วิธีนี้ฉันต้องการลองและเขียนโค้ดเอง ขอบคุณมาก.
16 r  bayesian  mcmc 

4
ใครใช้ R กับแพ็คเกจ multicore, SNOW หรือ CUDA สำหรับการคำนวณที่เข้มข้นของทรัพยากร
ใครของคุณในฟอรัมนี้ใช้ "> R กับmulticore , snow packages หรือCUDAดังนั้นสำหรับการคำนวณขั้นสูงที่ต้องใช้พลังงานมากกว่า CPU แบบเวิร์กสเตชัน? คุณใช้คอมพิวเตอร์เครื่องไหนในการคำนวณสคริปต์เหล่านี้ที่บ้าน / ที่ทำงานหรือคุณมี เข้าถึงศูนย์ข้อมูลได้ที่ไหน? พื้นหลังของคำถามเหล่านี้มีดังต่อไปนี้: ฉันกำลังเขียน วท.ม. วิทยานิพนธ์เกี่ยวกับ R และการคำนวณที่มีประสิทธิภาพสูงและต้องการความรู้อย่างมากเกี่ยวกับผู้ที่ใช้อาร์จริงฉันอ่านว่า R มีผู้ใช้ 1 ล้านคนในปี 2008 แต่นั่นเป็นสถิติผู้ใช้เพียงอย่างเดียวที่ฉันสามารถหาได้ในหัวข้อนี้ คำตอบ! ขอแสดงความนับถือเฮ็น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.