คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

1
สมการโครงสร้าง: วิธีการระบุเอฟเฟกต์ปฏิสัมพันธ์ในแพ็คเกจ R lavaan
ฉันใช้แพ็กเกจ R lavaanเพื่อประมาณโมเดลสมการเชิงโครงสร้าง สมมุติว่าตัวแบบประกอบด้วยตัวแปรรายการภายนอก 1 ตัวซึ่งมี 1 ตัวแปรแฝงและตัวแปรอธิบาย 2 รายการ: group = {0,1} attitude1 = latent,scale age = respondent's age โมเดลลาวาที่ต้องการคือ (ไม่ทำงาน): model <- ' attitude1 =~ att1 + att2 + att3 outcome ~ age*group + attitude1*group' เป้าหมายของฉันคือในสิ่งที่สามารถทำได้ในการถดถอยเชิงเส้นเพื่อสร้างผลกระทบหลักและปฏิสัมพันธ์ระหว่างแต่ละตัวแปรและกลุ่ม สามารถทำได้หรือไม่
13 r  interaction  sem  lavaan 

4
การแก้ไขข้อมูลไข้หวัดใหญ่ที่รักษาค่าเฉลี่ยรายสัปดาห์
แก้ไข ฉันได้พบกระดาษอธิบายขั้นตอนที่ฉันต้องการ ความแตกต่างเพียงอย่างเดียวคือกระดาษ interpolates ข้อมูลค่าเฉลี่ยรายเดือนเพื่อรายวันในขณะที่รักษาค่าเฉลี่ยรายเดือน Rฉันมีปัญหาในการดำเนินการวิธีการใน คำแนะนำใด ๆ ที่ชื่นชม เป็นต้นฉบับ สำหรับแต่ละสัปดาห์ฉันมีข้อมูลนับต่อไปนี้ (หนึ่งค่าต่อสัปดาห์): จำนวนที่ปรึกษาแพทย์ จำนวนผู้ป่วยไข้หวัดใหญ่ เป้าหมายของฉันคือการได้รับข้อมูลรายวันโดยการแก้ไข (ฉันคิดว่าเส้นโค้งเชิงเส้นหรือตัดทอน) สิ่งสำคัญคือฉันต้องการประหยัดค่าเฉลี่ยรายสัปดาห์นั่นคือค่าเฉลี่ยของข้อมูลที่ถูกแก้ไขทุกวันควรเท่ากับค่าที่บันทึกไว้ของสัปดาห์นี้ นอกจากนี้การแก้ไขควรจะราบรื่น ปัญหาหนึ่งที่อาจเกิดขึ้นคือหนึ่งสัปดาห์มีเวลาน้อยกว่า 7 วัน (เช่นตอนต้นหรือปลายปี) ฉันจะขอบคุณสำหรับคำแนะนำในเรื่องนี้ ขอบคุณมาก. นี่คือชุดข้อมูลตัวอย่างสำหรับปี 1995 ( อัพเดท ): structure(list(daily.ts = structure(c(9131, 9132, 9133, 9134, 9135, 9136, 9137, 9138, 9139, 9140, 9141, 9142, 9143, 9144, 9145, 9146, 9147, 9148, 9149, …

3
วิธีการคำนวณส่วนประกอบหลักหมุน varimax ใน R?
ฉันวิ่ง PCA เมื่อวันที่ 25 ตัวแปรและเลือกด้านบน 7 prcompเครื่องคอมพิวเตอร์ใช้ prc <- prcomp(pollutions, center=T, scale=T, retx=T) ฉันได้ทำการหมุน varimax กับส่วนประกอบเหล่านั้นแล้ว varimax7 <- varimax(prc$rotation[,1:7]) และตอนนี้ฉันต้องการ varimax หมุนข้อมูลที่หมุน PCA (เนื่องจากไม่ได้เป็นส่วนหนึ่งของวัตถุ varimax - เฉพาะเมทริกซ์การโหลดและเมทริกซ์การหมุน) ฉันอ่านว่าการทำเช่นนี้คุณคูณทรานสปอนของเมทริกซ์การหมุนโดยทรานสโพสของข้อมูลดังนั้นฉันจะทำสิ่งนี้: newData <- t(varimax7$rotmat) %*% t(prc$x[,1:7]) แต่นั่นก็ไม่สมเหตุสมผลเนื่องจากขนาดของเมทริกซ์ทรานส์ข้างต้นคือคูณและตามลำดับดังนั้นฉันจะเหลือเมทริกซ์เพียงแถวแทนที่จะเป็นแถว ... ไม่มีใครรู้ สิ่งที่ฉันทำผิดที่นี่หรือสิ่งสุดท้ายของฉันควรเป็นอย่างไร ฉันต้องเปลี่ยนกลับในภายหลังไหม?7×77×77\times 77 169337×169337×169337 \times 16933777169331693316933
13 r  pca  factor-rotation 

3
คลัสเตอร์ข้อมูลขนาดใหญ่ใน R และการสุ่มตัวอย่างมีความเกี่ยวข้องหรือไม่
ฉันยังใหม่กับวิทยาศาสตร์ข้อมูลและมีปัญหาในการค้นหากลุ่มในชุดข้อมูลที่มี 200,000 แถวและ 50 คอลัมน์ใน R เนื่องจากข้อมูลมีทั้งตัวเลขและตัวแปรที่กำหนดวิธีการแบบ K-mean ซึ่งใช้การวัดระยะทางแบบยุคลิดจึงไม่เป็นทางเลือกที่เหมาะสม ดังนั้นฉันจึงหันไปหา PAM แอกเนสและ hclust ซึ่งยอมรับเมทริกซ์ระยะทางเป็นอินพุต วิธีเดซี่สามารถทำงานกับข้อมูลแบบผสม แต่เมทริกซ์ระยะทางนั้นใหญ่เกินไป: 200,000 เท่า 200,000 มีขนาดใหญ่กว่า 2 ^ 31-1 มาก (ขีด จำกัด ความยาวเวกเตอร์ก่อน R 3.0.0) R 3.0.0 ใหม่ที่เผยแพร่เมื่อวานนี้รองรับเวกเตอร์ยาวที่มีความยาวมากกว่า 2 ^ 31-1 แต่เมทริกซ์สองเท่าของ 200,000 โดย 200,000 ต้องใช้ RAM ต่อเนื่องที่มีขนาดใหญ่กว่า 16Gb ซึ่งเป็นไปไม่ได้ในเครื่องของฉัน ฉันอ่านเกี่ยวกับการคำนวณแบบขนานและแพ็คเกจหน่วยความจำขนาดใหญ่และไม่แน่ใจว่าพวกเขาจะช่วยได้อย่างไร: ถ้าฉันใช้เดซี่มันจะสร้างเมทริกซ์ขนาดใหญ่ที่ไม่สามารถใส่หน่วยความจำได้ ฉันยังอ่านเกี่ยวกับการโพสต์เกี่ยวกับการสุ่มตัวอย่าง: การสุ่มตัวอย่างมีความเกี่ยวข้องในช่วงเวลาของ 'ข้อมูลขนาดใหญ่' หรือไม่ …

1
ทำความเข้าใจเกี่ยวกับการทำนายจากการถดถอยโลจิสติก
การคาดการณ์ของฉันมาจากแบบจำลองการถดถอยโลจิสติก (glm ใน R) ไม่ได้ล้อมรอบระหว่าง 0 ถึง 1 เหมือนที่ฉันคาดไว้ ความเข้าใจของฉันเกี่ยวกับการถดถอยโลจิสติกคือพารามิเตอร์อินพุตและโมเดลของคุณรวมกันเป็นเส้นตรงและการตอบสนองจะเปลี่ยนเป็นความน่าจะเป็นโดยใช้ฟังก์ชั่นลิงค์ logit เนื่องจากฟังก์ชั่น logit มีขอบเขตระหว่าง 0 ถึง 1 ฉันคาดว่าการคาดการณ์ของฉันจะถูกล้อมรอบระหว่าง 0 ถึง 1 อย่างไรก็ตามนั่นไม่ใช่สิ่งที่ฉันเห็นเมื่อฉันใช้การถดถอยโลจิสติกใน R: data(iris) iris.sub <- subset(iris, Species%in%c("versicolor","virginica")) model <- glm(Species ~ Sepal.Length + Sepal.Width, data = iris.sub, family = binomial(link = "logit")) hist(predict(model)) หากสิ่งใดผลลัพธ์ของการทำนาย (รุ่น) ดูเป็นเรื่องปกติสำหรับฉัน ใครสามารถอธิบายให้ฉันฟังได้ว่าทำไมค่าที่ฉันได้รับไม่ใช่ความน่าจะเป็น

2
สำหรับเมทริกซ์แบบสุ่ม SVD ไม่ควรอธิบายอะไรเลยหรือ ผมทำอะไรผิดหรือเปล่า?
ถ้าฉันสร้างเมทริกซ์ 2 มิติที่ประกอบด้วยข้อมูลสุ่มทั้งหมดฉันคาดว่าส่วนประกอบ PCA และ SVD จะไม่อธิบายอะไรเลย แต่ดูเหมือนว่าคอลัมน์ SVD แรกจะปรากฏขึ้นเพื่ออธิบาย 75% ของข้อมูล วิธีนี้สามารถเป็นไปได้จะเป็นอย่างไร? ผมทำอะไรผิดหรือเปล่า? นี่คือพล็อต: นี่คือรหัส R: set.seed(1) rm(list=ls()) m <- matrix(runif(10000,min=0,max=25), nrow=100,ncol=100) svd1 <- svd(m, LINPACK=T) par(mfrow=c(1,4)) image(t(m)[,nrow(m):1]) plot(svd1$d,cex.lab=2, xlab="SVD Column",ylab="Singluar Value",pch=19) percentVarianceExplained = svd1$d^2/sum(svd1$d^2) * 100 plot(percentVarianceExplained,ylim=c(0,100),cex.lab=2, xlab="SVD Column",ylab="Percent of variance explained",pch=19) cumulativeVarianceExplained = cumsum(svd1$d^2/sum(svd1$d^2)) * 100 plot(cumulativeVarianceExplained,ylim=c(0,100),cex.lab=2, …
13 r  pca  svd 

2
มีแพ็คเกจ R สำหรับการตอบสนองแบบไบนารีตามยาวหรือไม่?
bildแพคเกจที่ดูเหมือนจะเป็นแพคเกจที่ยอดเยี่ยมสำหรับการตอบสนองไบนารีแบบอนุกรม แต่มันเป็นเวลาที่ไม่ต่อเนื่อง ฉันต้องการระบุฟังก์ชั่นที่ราบรื่นของเวลาสำหรับการเชื่อมต่ออัตราส่วนอัตราต่อรองของการตอบสนองปัจจุบัน Y ด้วยการตอบสนองแบบไบนารีที่วัดได้ในเวลาก่อนหน้าหรืออย่างน้อยรุ่นมาร์คอฟอันดับหนึ่งของสิ่งนี้ ฉันเชื่อว่าสิ่งนี้เรียกว่าการถดถอยโลจิสติกสำรอง ไม่มีใครรู้ว่าแพคเกจ R ที่จัดการเวลาอย่างต่อเนื่องคือเวลาการวัดสามารถติดตามเวลาใด ๆ ? ฉันไม่ต้องการเอฟเฟกต์แบบสุ่มในโมเดล

2
ตัวแก้ตัวเลขสำหรับสมการอนุพันธ์เชิงสุ่มใน R: มีอะไรบ้าง?
ฉันกำลังมองหาแพคเกจ R ทั่วไปทั่วไปที่สะอาดและรวดเร็ว (เช่นการใช้ C ++) สำหรับการจำลองเส้นทางจากการแพร่กระจายแบบไม่เชิงเส้นที่ไม่เป็นเอกพันธ์อย่างเช่น (1) โดยใช้รูปแบบ Euler-Maruyama รูปแบบ Milstein (หรืออื่น ๆ ) สิ่งนี้ถูกกำหนดให้ฝังลงในรหัสการประมาณที่ใหญ่กว่าและสมควรได้รับการปรับปรุง dXt=f(θ,t,Xt)dt+g(θ,t,Xt)dWt,(1)(1)dXt=f(θ,t,Xt)dt+g(θ,t,Xt)dWt,dX_t = f(\theta, t, X_t)\, dt + g(\theta, t, X_t)\, dW_t, \tag{1} ด้วยการเคลื่อนไหว Brownian มาตรฐาน WtWtW_t

1
การถดถอยเชิงเส้นและความสัมพันธ์เชิงพื้นที่
ฉันต้องการทำนายความสูงของต้นไม้ในบางพื้นที่โดยใช้ตัวแปรบางอย่างที่ได้จากการรับรู้จากระยะไกล เช่นชีวมวลโดยประมาณ ฯลฯ ฉันต้องการใช้การถดถอยเชิงเส้นก่อน (ฉันรู้ว่ามันไม่ใช่ความคิดที่ดีที่สุด แต่มันเป็นขั้นตอนที่ต้องทำสำหรับโครงการของฉัน) ฉันต้องการทราบว่าการปรับตัวสัมพันธ์สัมพันธ์เชิงพื้นที่อัตโนมัติมีผลกระทบอย่างไรและมีวิธีที่ง่ายที่สุดในการแก้ไขปัญหานี้หากเป็นไปได้ ฉันทำทุกอย่างตามวิธี R

3
องค์ประกอบของ PCA แสดงถึงความแปรปรวนจริง ๆ หรือไม่? พวกเขาสามารถรวมมากกว่า 100% ได้หรือไม่
"การเรียนรู้ของเครื่องสำหรับแฮ็กเกอร์" ของ O'Reilly กล่าวว่าองค์ประกอบหลักแต่ละรายการแสดงถึงเปอร์เซ็นต์ของความแปรปรวน ฉันได้อ้างอิงส่วนที่เกี่ยวข้องของหน้าด้านล่าง (บทที่ 8, p.207) เมื่อพูดกับผู้เชี่ยวชาญคนอื่นพวกเขาตกลงกันว่าเป็นเปอร์เซ็นต์ อย่างไรก็ตาม 24 องค์ประกอบรวมถึง 133.2095% นั่นเป็นอย่างไร เมื่อเราเชื่อมั่นว่าเราสามารถใช้ PCA ได้เราจะทำเช่นนั้นใน R อย่างไร อีกครั้งนี้เป็นสถานที่ที่ R ส่อง: PCA ทั้งหมดสามารถทำได้ในหนึ่งบรรทัดของรหัส เราใช้ฟังก์ชัน princomp เพื่อเรียกใช้ PCA: pca <- princomp(date.stock.matrix[,2:ncol(date.stock.matrix)]) หากเราเพียงพิมพ์ pca ลงใน R เราจะเห็นข้อมูลสรุปอย่างย่อขององค์ประกอบหลัก: Call: princomp(x = date.stock.matrix[, 2:ncol(date.stock.matrix)]) Standard deviations: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 Comp.7 …
13 r  pca 

2
จะรับผลการทดสอบ Tukey HSD หลังการทดสอบในตารางที่แสดงคู่ที่จัดกลุ่มได้อย่างไร
ฉันชอบที่จะทำการทดสอบหลัง TukeyHSD หลังจาก Anova สองทางของฉันกับ R เพื่อรับตารางที่มีคู่ที่เรียงลำดับซึ่งจัดกลุ่มตามความแตกต่างที่สำคัญ (ขออภัยเกี่ยวกับถ้อยคำฉันยังใหม่กับสถิติ) ฉันต้องการที่จะมีอะไรเช่นนี้: ดังนั้นจัดกลุ่มด้วยดาวหรือตัวอักษร ความคิดใด ๆ ฉันทดสอบฟังก์ชั่นHSD.test()จากagricolaeแพ็คเกจ แต่ดูเหมือนว่ามันไม่ได้จัดการกับตารางแบบสองทาง

1
ช่วยฉันเข้าใจค่าในค่า Bayesian glm
ฉันกำลังพยายามที่จะใช้ logit คชกรรมกับข้อมูลที่นี่ ฉันใช้bayesglm()ในarmแพ็คเกจใน R การเข้ารหัสนั้นตรงไปตรงมามากพอ: df = read.csv("http://dl.dropbox.com/u/1791181/bayesglm.csv", header=T) library(arm) model = bayesglm(PASS ~ SEX + HIGH, family=binomial(link="logit"), data=df) summary(model) ให้เอาต์พุตต่อไปนี้: Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.10381 0.10240 1.014 0.311 SEXMale 0.02408 0.09363 0.257 0.797 HIGH -0.27503 0.03562 -7.721 1.15e-14 *** --- Signif. codes: 0 ‘***’ …
13 r  bayesian  p-value 

1
การคาดการณ์โดยใช้ glmnet ใน R
ฉันกำลังพยายามสร้างแบบจำลองข้อมูลโดยใช้glmnetแพคเกจในอาร์สมมติว่าฉันมีข้อมูลต่อไปนี้ training_x <- data.frame(variable1 = c(1, 2, 3, 2, 3), variable2 = c(1, 2, 3, 4, 5)) y <- c(1, 2, 3, 4, 5) (นี่คือการทำให้เข้าใจง่ายข้อมูลของฉันมีความซับซ้อนมากขึ้น) จากนั้นฉันใช้รหัสต่อไปนี้เพื่อสร้างโมเดล glmnet x <- as.matrix(training_x) library(glmnet) GLMnet_model_1 <- glmnet(x, y, family="gaussian", alpha=0.755, nlambda=1000, standardize=FALSE, maxit=100000) ฉันกำลังใช้standardize=FALSEเพราะข้อมูลในชีวิตจริงของฉันได้มาตรฐานแล้ว จากนั้นฉันต้องการทำนายชุดข้อมูลใหม่ สมมติว่าข้อมูลใหม่ของฉันคือ: newdata <- as.matrix(data.frame(variable1 = c(2, 2, 1, …
13 r  glmnet 

6
ฟอเรสต์แบบสุ่ม: จะจัดการระดับปัจจัยใหม่ในชุดทดสอบอย่างไร
ฉันกำลังพยายามทำนายโดยใช้โมเดลฟอเรสต์แบบสุ่มในอาร์ อย่างไรก็ตามฉันได้รับข้อผิดพลาดเนื่องจากปัจจัยบางอย่างมีค่าแตกต่างกันในชุดทดสอบมากกว่าในชุดฝึกอบรม ตัวอย่างเช่นปัจจัยCat_2มีค่า34, 68, 76ฯลฯ ในชุดทดสอบที่ไม่ปรากฏในชุดฝึกอบรม น่าเสียดายที่ฉันไม่สามารถควบคุมชุดทดสอบ ... ฉันต้องใช้มันตามที่เป็นอยู่ as.numeric()วิธีแก้ปัญหาเดียวของฉันคือการแปลงปัจจัยที่มีปัญหากลับไปเป็นค่าตัวเลขที่ใช้ มันใช้งานได้แต่ฉันไม่พอใจมากเนื่องจากค่าเหล่านี้เป็นรหัสที่ไม่มีความรู้สึกเชิงตัวเลข ... คุณคิดว่าจะมีวิธีแก้ไขปัญหาอื่นหรือไม่เพื่อลดค่าใหม่จากชุดทดสอบ แต่ไม่มีการลบค่าปัจจัยอื่น ๆ ทั้งหมด (เช่นค่าการบอกกล่าว1, 2, 14, 32ฯลฯ ) ซึ่งมีทั้งในการฝึกอบรมและการทดสอบและมีข้อมูลที่อาจเป็นประโยชน์สำหรับการคาดการณ์

2
การทดสอบชิ้นอะไรคืออะไร?
ในการตอบคำถามเกี่ยวกับการเลือกรูปแบบในการปรากฏตัวของพหุ , แฟรงก์ Harrell แนะนำ : วางตัวแปรทั้งหมดในแบบจำลอง แต่ไม่ทดสอบผลของตัวแปรเดียวที่ปรับสำหรับผลกระทบของตัวแปรที่แข่งขันกัน ... การทดสอบกลุ่มของตัวแปรที่แข่งขันกันนั้นมีประสิทธิภาพเพราะตัวแปร collinear รวมเข้าด้วยกันในการทดสอบความสัมพันธ์แบบอิสระหลายระดับโดยรวม แข่งขันกับแต่ละอื่น ๆ เช่นเมื่อคุณทดสอบตัวแปรแต่ละรายการ การทดสอบชิ้นอะไรคืออะไร? คุณสามารถยกตัวอย่างการใช้งานของพวกเขาได้rหรือไม่?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.