คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

6
วิธีการทดสอบโดยใช้ R เพื่อดูว่าข้อมูลเป็นไปตามการแจกแจงแบบปกติหรือไม่
ฉันมีชุดข้อมูลที่มีโครงสร้างต่อไปนี้: a word | number of occurrence of a word in a document | a document id ฉันจะทำการทดสอบสำหรับการแจกแจงแบบปกติใน R ได้อย่างไร? อาจเป็นคำถามง่าย ๆ แต่ฉันเป็นมือใหม่ R

6
ฉันจะหลีกเลี่ยงการซ้อนฉลากในพล็อต R ได้อย่างไร [ปิด]
ฉันพยายามติดป้ายกระจายภาพง่าย ๆ ใน R. นี่คือสิ่งที่ฉันใช้: plot(SI, TI) text(SI, TI, Name, pos=4, cex=0.7) ผลที่ได้คือปานกลางตามที่คุณเห็น (คลิกเพื่อดูภาพขยาย): ผมพยายามที่จะชดเชยการนี้โดยใช้textxyฟังก์ชั่น แต่ก็ไม่ดีขึ้น การทำให้ภาพใหญ่ขึ้นไม่สามารถใช้กับกลุ่มที่หนาแน่น มีฟังก์ชั่นหรือวิธีง่าย ๆ ในการชดเชยสิ่งนี้และปล่อยให้ R plot label ที่ไม่ทับซ้อนกันหรือไม่? นี่เป็นส่วนย่อยของข้อมูลที่ฉันมี: Name;SI;TI 01_BAD_talking_head;6.944714;4.421208 01_GOOD_talking_head;5.680141;4.864035 01_GOOD_talking_head_subtitles;7.170114;4.664205

4
วิธีการเปรียบเทียบอนุกรมเวลาสองวิธี
ฉันมีสองชุดเวลาแสดงในโครงเรื่องด้านล่าง: เนื้อเรื่องแสดงรายละเอียดทั้งหมดของอนุกรมเวลาทั้งสอง แต่ฉันสามารถลดมันลงไปในการสังเกตการณ์แบบบังเอิญได้ถ้าต้องการ คำถามของฉันคือ: ฉันสามารถใช้วิธีการทางสถิติเพื่อประเมินความแตกต่างระหว่างอนุกรมเวลาได้อย่างไร ฉันรู้ว่านี่เป็นคำถามที่ค่อนข้างกว้างและคลุมเครือ แต่ฉันไม่สามารถหาข้อมูลเบื้องต้นได้จากทุกที่ อย่างที่ฉันเห็นมันมีสองสิ่งที่แตกต่างในการประเมิน: 1. ค่าเหมือนกันหรือไม่? 2. แนวโน้มเหมือนกันหรือไม่ การทดสอบทางสถิติแบบใดที่คุณแนะนำให้ดูเพื่อประเมินคำถามเหล่านี้ สำหรับคำถามที่ 1 ฉันสามารถประเมินความหมายของชุดข้อมูลที่แตกต่างกันและมองหาความแตกต่างอย่างมีนัยสำคัญในการแจกแจง แต่มีวิธีการทำสิ่งนี้ที่คำนึงถึงลักษณะอนุกรมเวลาของข้อมูลหรือไม่ สำหรับคำถามที่ 2 - มีบางอย่างเหมือนกับการทดสอบ Mann-Kendall ที่มองหาความคล้ายคลึงกันระหว่างสองแนวโน้มหรือไม่ ฉันสามารถทำการทดสอบ Mann-Kendall สำหรับทั้งชุดข้อมูลและเปรียบเทียบ แต่ไม่รู้ว่าเป็นวิธีที่ถูกต้องในการทำสิ่งต่าง ๆ หรือว่ามีวิธีที่ดีกว่า ฉันทำทั้งหมดนี้ใน R ดังนั้นหากการทดสอบที่คุณแนะนำมีแพ็คเกจ R แล้วโปรดแจ้งให้เราทราบ
43 r  time-series 

2
วิธีการเขียนคำศัพท์ใน lm แตกต่างกันอย่างไร
ฉันมีคำถามเกี่ยวกับวิธีที่ดีที่สุดในการระบุการโต้ตอบในตัวแบบการถดถอย พิจารณาข้อมูลต่อไปนี้: d <- structure(list(r = structure(c(1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L, 2L), .Label = c("r1","r2"), class = "factor"), s = structure(c(1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 2L, 1L, 1L, 1L, 1L, 1L, 2L, …

2
การใช้ lmer สำหรับวัดซ้ำโมเดลเอฟเฟกต์เชิงเส้นซ้ำ
แก้ไข 2: ตอนแรกฉันคิดว่าฉันต้องใช้ ANOVA สองปัจจัยพร้อมมาตรการซ้ำ ๆ บนปัจจัยเดียว แต่ตอนนี้ฉันคิดว่าโมเดลเชิงเส้นผสมเอฟเฟกต์จะทำงานได้ดีขึ้นสำหรับข้อมูลของฉัน ฉันคิดว่าฉันเกือบจะรู้ว่าต้องเกิดอะไรขึ้น แต่ฉันก็ยังสับสนอยู่บ้าง การทดลองที่ฉันต้องวิเคราะห์มีลักษณะเช่นนี้: อาสาสมัครถูกกำหนดให้กับหนึ่งในหลายกลุ่มการรักษา การวัดแต่ละเรื่องถูกถ่ายในหลายวัน ดังนั้น: ผู้ทดลองถูกทำซ้อนในการรักษา รักษาข้ามกับวัน (แต่ละวิชาได้รับมอบหมายให้ทำการรักษาเพียงครั้งเดียวเท่านั้นและจะทำการวัดในแต่ละเรื่องในแต่ละวัน) ชุดข้อมูลของฉันมีข้อมูลต่อไปนี้: Subject = ปัจจัยการปิดกั้น (ปัจจัยสุ่ม) Day = ภายในหัวเรื่องหรือปัจจัยการวัดซ้ำ (ปัจจัยคงที่) การรักษา = ระหว่างปัจจัยเรื่อง (ปัจจัยคงที่) Obs = ตัวแปร (ขึ้นอยู่กับ) ที่วัดได้ อัปเดต ตกลงฉันเลยไปคุยกับนักสถิติ แต่เขาเป็นผู้ใช้ SAS เขาคิดว่าแบบจำลองควรเป็น: การรักษา + วัน + วิชา (การรักษา) + วัน * วิชา …

4
OpenBugs กับ JAGS
ฉันกำลังจะลองใช้สภาพแวดล้อมแบบ BUGS สำหรับการประเมินแบบจำลองของเบย์ มีข้อดีที่สำคัญที่ต้องพิจารณาในการเลือกระหว่าง OpenBugs หรือ JAGS หรือไม่? มีแนวโน้มว่าจะแทนที่คนอื่นในอนาคตอันใกล้? ฉันจะใช้ตัวอย่างกิ๊บส์ที่เลือกกับอาร์ฉันยังไม่มีแอปพลิเคชันเฉพาะ แต่ฉันกำลังตัดสินใจว่าจะเข้าร่วมและเรียนรู้ใด
41 r  software  bugs  jags  gibbs 

1
การถดถอย: การแปลงตัวแปร
เมื่อเปลี่ยนตัวแปรคุณต้องใช้การแปลงแบบเดียวกันทั้งหมดหรือไม่? ตัวอย่างเช่นฉันสามารถเลือกและเลือกตัวแปรที่แปลงต่างกันเช่นใน: อนุญาต,เป็นอายุ, ระยะเวลาการจ้างงาน, ระยะเวลาพำนักและรายได้x1,x2,x3x1,x2,x3x_1,x_2,x_3 Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3) หรือคุณจะต้องสอดคล้องกับการแปลงร่างของคุณและใช้สิ่งเดียวกันทั้งหมดหรือไม่? ในขณะที่: Y = B1*log(x1) + B2*log(x2) + B3*log(x3) ความเข้าใจของฉันคือเป้าหมายของการเปลี่ยนแปลงคือการแก้ไขปัญหาของภาวะปกติ เมื่อดูกราฟฮิสโตแกรมของตัวแปรแต่ละตัวเราจะเห็นว่าพวกมันมีการแจกแจงที่แตกต่างกันมากซึ่งจะทำให้ฉันเชื่อว่าการแปลงที่ต้องการนั้นแตกต่างกันไปในแต่ละตัวแปรโดยพื้นฐานของตัวแปร ## R Code df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", use.value.labels=T, to.data.frame=T) hist(df[1:7]) ท้ายสุดมันมีความถูกต้องในการแปลงตัวแปรโดยใช้โดยที่มีค่าอย่างไร ไม่แปลงนี้จำเป็นที่จะต้องสอดคล้องกันระหว่างตัวแปรทั้งหมดหรือมันคือใช้เฉพาะกิจแม้สำหรับตัวแปรเหล่านั้นซึ่งไม่รวมถึง 's?log(xn+1)log⁡(xn+1)\log(x_n + 1)xnxnx_n000000 ## R Code plot(df[1:7])

5
คำเตือนใน R - การประมาณ Chi-squared อาจไม่ถูกต้อง
ฉันมีข้อมูลแสดงผลการสอบเข้านักดับเพลิง ฉันกำลังทดสอบสมมติฐานที่ผลการสอบและเชื้อชาติไม่ได้เป็นอิสระร่วมกัน เพื่อทดสอบสิ่งนี้ฉันได้ทำการทดสอบเพียร์สันไคสแควร์ในอาร์ผลลัพธ์แสดงให้เห็นสิ่งที่ฉันคาดหวัง แต่ก็มีคำเตือนว่า " In chisq.test(a) : Chi-squared approximation may be incorrect" > a white black asian hispanic pass 5 2 2 0 noShow 0 1 0 0 fail 0 2 3 4 > chisq.test(a) Pearson's Chi-squared test data: a X-squared = 12.6667, df = 6, p-value = 0.04865 …

3
จะแสดงผลลัพธ์ของ Lasso โดยใช้ glmnet ได้อย่างไร
ฉันต้องการค้นหาตัวทำนายสำหรับตัวแปรพึ่งพาต่อเนื่องจากชุดของตัวแปรอิสระ 30 ตัว ฉันใช้ Lasso regression ตามที่นำมาใช้ในแพ็คเกจglmnetใน R ต่อไปนี้เป็นตัวอย่างรหัสจำลอง # generate a dummy dataset with 30 predictors (10 useful & 20 useless) y=rnorm(100) x1=matrix(rnorm(100*20),100,20) x2=matrix(y+rnorm(100*10),100,10) x=cbind(x1,x2) # use crossvalidation to find the best lambda library(glmnet) cv <- cv.glmnet(x,y,alpha=1,nfolds=10) l <- cv$lambda.min alpha=1 # fit the model fits <- glmnet( x, …

2
วิธีการอ่านแปลงระยะทางของ Cook?
ไม่มีใครรู้วิธีการทำงานว่าคะแนน 7, 16 และ 29 เป็นคะแนนที่มีอิทธิพลหรือไม่? ฉันอ่านบางที่เพราะระยะทางของ Cook ต่ำกว่า 1 พวกเขาไม่ใช่ ฉันถูกไหม?

1
วิธีการตรวจสอบส่วนประกอบหลักที่สำคัญโดยใช้วิธีการ bootstrapping หรือวิธีการ Monte Carlo?
ฉันสนใจที่จะกำหนดจำนวนของรูปแบบที่สำคัญที่มาจากการวิเคราะห์องค์ประกอบหลัก (PCA) หรือการวิเคราะห์เชิงประจักษ์ฟังก์ชันมุมฉาก (EOF) ฉันสนใจเป็นพิเศษในการใช้วิธีนี้กับข้อมูลสภาพภูมิอากาศ เขตข้อมูลเป็นเมทริกซ์ MxN โดยที่ M เป็นมิติเวลา (เช่นวัน) และ N เป็นมิติข้อมูลเชิงพื้นที่ (เช่นตำแหน่งโลน / ละติจูด) ฉันได้อ่านวิธีบูตสแตรปที่เป็นไปได้เพื่อกำหนดพีซีที่สำคัญ แต่ไม่สามารถหาคำอธิบายโดยละเอียดเพิ่มเติมได้ จนถึงตอนนี้ฉันได้ใช้ Rule of Thumb (North et al ., 1982) ของนอร์ทเพื่อกำหนดทางลัดนี้ แต่ฉันสงสัยว่ามีวิธีการที่แข็งแกร่งกว่านี้หรือไม่ ตัวอย่างเช่น: ###Generate data x <- -10:10 y <- -10:10 grd <- expand.grid(x=x, y=y) #3 spatial patterns sp1 <- grd$x^3+grd$y^2 tmp1 …
40 r  pca  bootstrap  monte-carlo 


2
การวัดความสำคัญของตัวแปรในป่าสุ่ม
ฉันเล่นกับป่าที่สุ่มเพื่อการถดถอยและฉันก็ลำบากที่จะหาว่าค่าเฉลี่ยความสำคัญสองอย่างนี้เป็นอย่างไรและควรตีความอย่างไร importance()ฟังก์ชั่นให้สองค่าสำหรับแต่ละตัวแปรและ%IncMSE IncNodePurityมีการตีความง่าย ๆ สำหรับค่า 2 ค่านี้หรือไม่? สำหรับIncNodePurityโดยเฉพาะอย่างยิ่งเป็นแบบนี้เพียงแค่จำนวนเงินที่ RSS เพิ่มขึ้นต่อไปนี้การกำจัดของตัวแปรที่หรือไม่

3
วิธีการตีความ F- และค่า p ใน ANOVA?
ฉันใหม่กับสถิติและฉันกำลังจัดการกับ ANOVA ฉันทำการทดสอบ ANOVA ใน R โดยใช้ aov(dependendVar ~ IndependendVar) ฉันได้รับ - กลุ่มอื่น ๆ - ค่า F และค่า p สมมติฐานว่างของฉัน ( ) คือทุกกลุ่มมีความหมายเท่ากันH0H0H_0 มีข้อมูลมากมายเกี่ยวกับวิธีการคำนวณ Fแต่ฉันไม่รู้วิธีอ่านสถิติ F และการเชื่อมต่อ F และ p ดังนั้นคำถามของฉันคือ: ฉันจะกำหนดค่า F สำคัญอย่างยิ่งสำหรับการปฏิเสธอย่างไรH0H0H_0 ค่า F แต่ละตัวมีค่า p ที่สอดคล้องกันหรือไม่ (เช่นถ้าดังนั้นH 0จะถูกปฏิเสธ)p &lt; 0.05พี&lt;0.05p<0.05H0H0H_0

4
การถดถอยโลจิสติกใน R (อัตราต่อรอง)
Rฉันพยายามที่จะดำเนินการวิเคราะห์การถดถอยโลจิสติกใน ฉันเข้าร่วมหลักสูตรที่ครอบคลุมเนื้อหานี้โดยใช้ STATA Rฉันกำลังมองหามันยากมากที่จะทำซ้ำการทำงานใน มันเป็นผู้ใหญ่ในพื้นที่นี้หรือไม่? ดูเหมือนว่าจะมีเอกสารหรือคำแนะนำเล็กน้อย ดูเหมือนว่าจะต้องมีการติดตั้งepicalcและ / หรือepitoolsและ / หรือ / อื่น ๆ ซึ่งไม่สามารถที่จะทำงานออกเอกสารที่ล้าสมัยหรือขาดเอกสารได้ ฉันเคยglmทำการถดถอยโลจิสติก ข้อเสนอแนะใด ๆ ยินดีต้อนรับ ฉันควรทำให้คำถามนี้เป็นจริง ฉันจะรันการถดถอยโลจิสติกและสร้างอัตราต่อรองได้Rอย่างไร นี่คือสิ่งที่ฉันได้ทำการวิเคราะห์แบบ univariate: x = glm(Outcome ~ Age, family=binomial(link="logit")) และสำหรับหลายตัวแปร: y = glm(Outcome ~ Age + B + C, family=binomial(link="logit")) เราได้ตรวจสอบแล้วที่x, y, และ summary(x)summary(y) คือx$coefficientsค่าใด ๆ ?
40 r  logistic  odds-ratio 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.