คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

1
วิธีรับ "ค่าลักษณะเฉพาะ" (เปอร์เซ็นต์ของความแปรปรวนที่อธิบาย) ของเวกเตอร์ที่ไม่ใช่ PCA eigenvectors
ฉันต้องการที่จะเข้าใจว่าฉันจะได้รับเปอร์เซ็นต์ความแปรปรวนของชุดข้อมูลไม่ใช่ในพื้นที่พิกัดที่จัดทำโดย PCA แต่เทียบกับเวกเตอร์ (หมุน) ชุดที่แตกต่างกันเล็กน้อย set.seed(1234) xx <- rnorm(1000) yy <- xx * 0.5 + rnorm(1000, sd = 0.6) vecs <- cbind(xx, yy) plot(vecs, xlim = c(-4, 4), ylim = c(-4, 4)) vv <- eigen(cov(vecs))$vectors ee <- eigen(cov(vecs))$values a1 <- vv[, 1] a2 <- vv[, 2] theta = pi/10 rotmat …

1
ทำไมค่า p เปลี่ยนแปลงอย่างมีนัยสำคัญเมื่อเปลี่ยนลำดับของ covariates ใน aov model?
ฉันมีชุดข้อมูลของการสังเกต 482 ชุด data=Populationfull ฉันจะทำการวิเคราะห์ความสัมพันธ์ของจีโนไทป์สำหรับ 3 SNP ฉันกำลังพยายามสร้างแบบจำลองสำหรับการวิเคราะห์ของฉันและฉันใช้ aov (y ~ x, data = ... ) สำหรับคุณลักษณะหนึ่งฉันมีเอฟเฟกต์คงที่และค่าแปรปรวนร่วมหลายอย่างที่ฉันได้รวมไว้ในโมเดลเช่น: Starts <- aov(Starts~Sex+DMRT3+Birthyear+Country+Earnings+Voltsec+Autosec, data=Populationfull) summary(Starts) Df Sum Sq Mean Sq F value Pr(>F) Sex 3 17.90 5.97 42.844 < 2e-16 *** DMRT3 2 1.14 0.57 4.110 0.017 * Birthyear 9 5.59 0.62 4.461 …
10 r  anova 

2
พล็อตประเภทนี้เรียกว่าอะไรกับแถบความหนาแน่นแนวนอนที่อยู่กึ่งกลางด้านข้าง
สิ่งที่คุณจะเรียกว่าพล็อตประเภทนี้และเป็นไปได้ที่จะสร้างพวกเขาใน R? แก้ไข: ขอบคุณมากทุกคน - เป็นประโยชน์มาก ชื่อที่ดีที่สุดจนถึงตอนนี้: แปลงไวโอลินเชิงปริมาณ!

1
อะไรคืออันตรายของการคำนวณสหสัมพันธ์ของเพียร์สัน (แทนที่จะเป็น tetrachoric) สำหรับตัวแปรไบนารีในการวิเคราะห์ปัจจัย?
ฉันทำการวิจัยเกี่ยวกับเกมเพื่อการศึกษาและบางโครงการในปัจจุบันของฉันเกี่ยวข้องกับการใช้ข้อมูลจากBoardGameGeek (BGG) และVideoGameGeek (VGG) เพื่อตรวจสอบความสัมพันธ์ระหว่างองค์ประกอบการออกแบบของเกม (เช่น "ตั้งอยู่ในสงครามโลกครั้งที่สอง", "เกี่ยวข้องกับลูกเต๋ากลิ้ง" ) และการจัดอันดับผู้เล่นของเกมเหล่านั้น (เช่นคะแนนจาก 10) องค์ประกอบการออกแบบเหล่านี้แต่ละรายการสอดคล้องกับแท็กในระบบ BGG หรือ VGG ดังนั้นองค์ประกอบแต่ละรายการจึงเป็นตัวแปรแบบแยกส่วน เกมมี 1 สำหรับทุกแท็กที่มีอยู่ในฐานข้อมูลของมันและ 0 สำหรับทุกแท็กที่ไม่มีอยู่ มีแท็กเหล่านี้อยู่หลายสิบแท็กดังนั้นฉันต้องการใช้การวิเคราะห์ปัจจัยเชิงสำรวจ (EFA) เพื่อสร้าง "แนว" จำนวนที่จัดการได้ซึ่งจับรูปแบบในการออกแบบเกม ให้คำปรึกษากับแหล่งข้อมูลหลายแห่งฉันเข้าใจว่าเนื่องจากฉันทำงานกับตัวแปรแบบแบ่งขั้วฉันควรใช้ความสัมพันธ์แบบpolychoric ( tetrachoricโดยเฉพาะที่นี่) แทนที่จะเป็นแบบเพียร์สันเมื่อมากับปัจจัยของฉัน (มีตัวเลือกอื่น ๆ เช่นการวิเคราะห์ลักษณะแฝง ออกไปข้างนอก แต่นี่คือสิ่งที่ฉันกำลังสำรวจ) จากความอยากรู้ฉันได้รับปัจจัยสองชุดหนึ่งชุดโดยใช้สหสัมพันธ์ของเพียร์สันและอีกชุดหนึ่งที่ใช้สหสัมพันธ์พอลิคอซิค (ปัจจัยจำนวนเดียวกันในแต่ละครั้ง) ปัญหาของฉันคือปัจจัยที่คำนวณโดยใช้สหสัมพันธ์ของเพียร์สันทำให้เข้าใจได้ง่ายขึ้นและตีความได้ง่ายกว่าปัจจัยที่คำนวณโดยใช้สหสัมพันธ์ของพอลิคอริก กล่าวอีกนัยหนึ่ง "ประเภท" จากชุดแรกของปัจจัยทำให้เข้าใจง่ายและสอดคล้องกับความเข้าใจของฉันเกี่ยวกับวิธีการออกแบบเกมโดยทั่วไป นั่นไม่ใช่กรณีสำหรับปัจจัยชุดที่สอง ในอีกด้านหนึ่งฉันต้องการตรวจสอบให้แน่ใจว่าฉันทำตามข้อสันนิษฐานของการทดสอบที่ฉันใช้อยู่แม้ว่ามันจะทำให้ผลลัพธ์ของฉันออกมาสวยน้อยลง ในอีกด้านหนึ่งฉันรู้สึกว่าส่วนหนึ่งของเป้าหมายของการวิเคราะห์ปัจจัยและการสร้างแบบจำลอง (กว้างขึ้น) คือการหาสิ่งที่มีประโยชน์และข้อมูลที่เป็นประโยชน์มากขึ้นก็จะปรากฏขึ้นเมื่อฉัน "ผิดกฎ" จำเป็นต้องมีแบบจำลองที่มีประโยชน์เพียงพอที่จะเกินดุลที่ละเมิดสมมติฐานของการทดสอบนี้หรือไม่? อะไรคือผลที่ตามมาจากการใช้เพียร์สันสหสัมพันธ์แทนที่จะเป็นพอลิคอร์ติก?

3
วิธีอ่าน p, d และ q ของ auto.arima () อย่างไร
ฉันจะรับp,d and qค่าในARIMA(p,d,q)แบบจำลองโดยประมาณได้auto.arima(mytimeseries)อย่างไร arima_model <- auto.arima (mytimeseries, ic = 'bic') ถ้าเราดูผลลัพธ์ของ arima_model $ ARMA เราได้รับ, [1] 1 0 0 0 1 2 0 ความหมายของตัวเลขที่ปรากฏในลำดับข้างต้นคืออะไร?
10 r  arima 

1
วิธีสร้างเคอร์เนล perceptron อย่างง่าย?
ปัญหาการจัดหมวดหมู่ที่มีขอบเขตไม่เชิงเส้นไม่สามารถแก้ไขได้โดยง่ายตรอน รหัส R ต่อไปนี้มีวัตถุประสงค์เพื่อเป็นตัวอย่างและเป็นไปตามตัวอย่างนี้ใน Python): nonlin <- function(x, deriv = F) { if (deriv) x*(1-x) else 1/(1+exp(-x)) } X <- matrix(c(-3,1, -2,1, -1,1, 0,1, 1,1, 2,1, 3,1), ncol=2, byrow=T) y <- c(0,0,1,1,1,0,0) syn0 <- runif(2,-1,1) for (iter in 1:100000) { l1 <- nonlin(X %*% syn0) l1_error <- y - l1 …

2
แพ็กเกจ R สำหรับการรวมค่า p โดยใช้วิธีฟิชเชอร์หรือ Stouffer
มีแพ็คเกจ R (หรือแม้แต่ฟังก์ชัน R พื้นฐาน) ที่ใช้วิธีของ Fisher's หรือ Stoufferเพื่อรวมค่า p หรือไม่? การเขียนโค้ดนี้ควรจะเป็นเรื่องเล็กน้อย แต่ฉันอยากจะใช้ (และอ้างอิง) แพ็คเกจ โค้ดตัวอย่างในคำถามนี้: วิธีฟิชเชอร์สำหรับการรวมค่า p - แล้วหางล่างเป็นอย่างไร?

1
ฉันจะเปรียบเทียบ 2 วิธีที่มีการกระจาย Laplace ได้อย่างไร
ฉันต้องการเปรียบเทียบ 2 ตัวอย่างหมายถึงผลตอบแทน 1 นาที ฉันคิดว่าพวกเขากระจาย Laplace (ตรวจสอบแล้ว) และฉันแบ่งผลตอบแทนออกเป็น 2 กลุ่ม ฉันจะตรวจสอบว่ามีความแตกต่างอย่างมีนัยสำคัญได้อย่างไร ฉันคิดว่าฉันไม่สามารถปฏิบัติต่อพวกเขาเหมือนการแจกแจงแบบปกติเพราะแม้ว่าพวกเขาจะมีค่ามากกว่า 300 ค่า แต่ QQ-plot แสดงให้เห็นว่ามีความแตกต่างอย่างมากกับการกระจายแบบปกติ

1
โมเดลเมทริกซ์สำหรับโมเดลเอฟเฟกต์ผสม
ในlmerฟังก์ชั่นภายในlme4ในRมีการเรียกร้องให้สร้างเมทริกซ์รูปแบบของผลกระทบสุ่มตามที่อธิบายไว้ที่นี่ , หน้า 7-9ZZZ คำนวณ entails KhatriRao และ / หรือผลิตภัณฑ์ Kronecker สองเมทริกซ์และx_i J i X iZZZJผมJผมJ_iXผมXผมX_i เมทริกซ์เป็นคำหนึ่ง: "เมทริกซ์ตัวบ่งชี้ของดัชนีปัจจัยการจัดกลุ่ม" แต่ดูเหมือนว่าจะเป็นเมทริกซ์เบาบางที่มีการเข้ารหัสแบบดัมมี่เพื่อเลือกหน่วย (ตัวอย่างเช่นอาสาสมัครในการวัดซ้ำ) ที่สอดคล้องกับระดับลำดับขั้นสูง การสังเกตใด ๆ เมทริกซ์ที่ดูเหมือนว่าจะทำหน้าที่เป็นตัวเลือกของการวัดในระดับที่ต่ำกว่าลำดับชั้นเพื่อให้การรวมกันของทั้งสอง "เตอร์" จะให้ผลผลิตเมทริกซ์,ของแบบฟอร์มแสดงในกระดาษผ่านตัวอย่างต่อไปนี้:X i Z iJผมJผมJ_iXผมXผมX_iZผมZผมZ_i (f<-gl(3,2)) [1] 1 1 2 2 3 3 Levels: 1 2 3 (Ji<-t(as(f,Class="sparseMatrix"))) 6 x 3 sparse Matrix of class "dgCMatrix" …

4
วิธีหลีกเลี่ยงคำ log (0) ในการถดถอย
ฉันติดตามเวกเตอร์ X และ Y อย่างง่าย: > X [1] 1.000 0.063 0.031 0.012 0.005 0.000 > Y [1] 1.000 1.000 1.000 0.961 0.884 0.000 > > plot(X,Y) ฉันต้องการทำการถดถอยโดยใช้บันทึกของ X เพื่อหลีกเลี่ยงการบันทึก (0) ฉันพยายามใส่ +1 หรือ +0.1 หรือ +0.00001 หรือ +0.000000000000001: > summary(lm(Y~log(X))) Error in lm.fit(x, y, offset = offset, singular.ok = singular.ok, …

1
วิธีทดสอบว่า“ สถานะก่อนหน้า” มีอิทธิพลต่อ“ สถานะต่อมา” ใน R หรือไม่
ลองนึกภาพสถานการณ์: เรามีบันทึกทางประวัติศาสตร์ (20 ปี) จากเหมืองสามแห่ง การมีเงินอยู่เพิ่มความน่าจะเป็นในการค้นหาทองคำในปีหน้าหรือไม่? วิธีทดสอบคำถามดังกล่าว นี่คือข้อมูลตัวอย่าง: mine_A <- c("silver","rock","gold","gold","gold","gold","gold", "rock","rock","rock","rock","silver","rock","rock", "rock","rock","rock","silver","rock","rock") mine_B <- c("rock","rock","rock","rock","silver","rock","rock", "silver","gold","gold","gold","gold","gold","rock", "silver","rock","rock","rock","rock","rock") mine_C <- c("rock","rock","silver","rock","rock","rock","rock", "rock","silver","rock","rock","rock","rock","silver", "gold","gold","gold","gold","gold","gold") time <- seq(from = 1, to = 20, by = 1)

1
เปรียบเทียบแบบผสมเอฟเฟกต์และเอฟเฟกต์คงที่ (การทดสอบความสำคัญของเอฟเฟกต์แบบสุ่ม)
ให้สามตัวแปรyและxซึ่งเป็นบวกอย่างต่อเนื่องและzซึ่งเป็นเด็ดขาดฉันมีสองรูปแบบผู้สมัครที่กำหนดโดย: fit.me <- lmer( y ~ 1 + x + ( 1 + x | factor(z) ) ) และ fit.fe <- lm( y ~ 1 + x ) ฉันหวังว่าจะเปรียบเทียบแบบจำลองเหล่านี้เพื่อพิจารณาว่าแบบจำลองใดเหมาะสมกว่า ดูเหมือนว่าผมว่าในความรู้สึกบางอย่างฝังอยู่ในfit.fe fit.meโดยทั่วไปเมื่อสถานการณ์ทั่วไปนี้มีการทดสอบแบบไคสแควร์สามารถทำได้ ในRเราสามารถทำการทดสอบนี้ด้วยคำสั่งดังต่อไปนี้ anova(fit.fe,fit.me) เมื่อทั้งสองรุ่นมีเอฟเฟกต์แบบสุ่ม (สร้างโดยlmerจากlme4แพ็คเกจ) anova()คำสั่งทำงานได้ดี เนื่องจากโดยทั่วไปแล้วจะแนะนำให้ทดสอบสถิติ Chi-Square ผ่านการจำลองอย่างไรก็ตามเรายังสามารถใช้สถิติในขั้นตอนการจำลองได้ เมื่อทั้งสองรุ่นมีเอฟเฟกต์ถาวรเท่านั้นวิธีการนี้ --- และanova()คำสั่งที่เกี่ยวข้อง--- ทำงานได้ดี แต่เมื่อรุ่นหนึ่งที่มีผลกระทบสุ่มและรูปแบบที่ลดลงมีเพียงผลกระทบคงที่ในขณะที่สถานการณ์ข้างต้นanova()คำสั่งไม่ทำงาน โดยเฉพาะอย่างยิ่งฉันได้รับข้อผิดพลาดต่อไปนี้: > anova(fit.fe, fit.me) Error: $ …

3
วิธีการและตัวอย่างของการจัดกลุ่มกราฟใน“ R”
ฉันกำลังมองหาการจัดกลุ่ม / ผสานโหนดในกราฟโดยใช้การจัดกลุ่มกราฟใน 'r' นี่คือรูปแบบของเล่นที่น่าทึ่งของปัญหาของฉัน มี "กลุ่ม" สอง มี "สะพาน" เชื่อมต่อกับกลุ่ม นี่คือเครือข่ายผู้สมัคร: เมื่อฉันดูระยะการเชื่อมต่อ "hopcount" ถ้าคุณต้องการฉันจะได้เมทริกซ์ต่อไปนี้: mymatrix <- rbind( c(1,1,2,3,3,3,2,1,1,1), c(1,1,1,2,2,2,1,1,1,1), c(2,1,1,1,1,1,1,1,2,2), c(3,2,1,1,1,1,1,2,3,3), c(3,2,1,1,1,1,1,2,3,3), c(3,2,1,1,1,1,1,2,2,2), c(2,1,1,1,1,1,1,1,2,2), c(1,1,1,2,2,2,1,1,1,1), c(1,1,2,3,3,2,2,1,1,1), c(1,1,2,3,3,2,2,1,1,1)) ความคิดที่นี่: โชคหรือเนื่องจากความเรียบง่ายของของเล่นเมทริกซ์มีแพทช์ที่เห็นได้ชัดนี่ไม่ใช่กรณีในเมทริกซ์ (ใหญ่มาก) ถ้าฉันสุ่มความสัมพันธ์ระหว่างจุดกับแถวมันจะไม่สะอาด ฉันอาจจะผิดหนึ่ง - ดังนั้นถ้าฉันพิมพ์ผิดแจ้งให้ฉันทราบ Hop-count ที่นี่คือจำนวน hops ที่สั้นที่สุดเพื่อเชื่อมต่อจุดบนแถว i กับจุดบนคอลัมน์ j การกระโดดด้วยตัวเองยังคงเป็นการกระโดดดังนั้นเส้นทแยงมุมจึงเป็นเส้นโค้งทั้งหมด ดังนั้นในเมทริกซ์นี้ระยะทางที่มากขึ้น (ฮ็อพ) มีจำนวนมาก ถ้าฉันต้องการเมทริกซ์ที่แสดง "การเชื่อมต่อ" แทนระยะทางฉันสามารถทำ dot-inverse …

1
ฉันจะค้นหา p-value ของการถดถอยแบบอิสระ
ฉันมีตัวแปรบางอย่างและฉันสนใจที่จะค้นหาความสัมพันธ์ที่ไม่ใช่เชิงเส้นระหว่างพวกเขา ดังนั้นฉันจึงตัดสินใจใส่เดือยหรือดินเหลืองและพิมพ์พล็อตที่ดี (ดูรหัสด้านล่าง) แต่ฉันยังต้องการที่จะมีสถิติบางอย่างที่ทำให้ฉันมีความคิดว่าความสัมพันธ์นั้นเป็นเรื่องของการสุ่ม ... นั่นคือฉันต้องการค่า p โดยรวมบางอย่างเช่นฉันมีการถดถอยเชิงเส้น กล่าวอีกนัยหนึ่งฉันต้องรู้ว่าเส้นโค้งที่พอดีนั้นเหมาะสมหรือไม่เนื่องจากรหัสของฉันจะพอดีกับเส้นโค้งกับข้อมูลใด ๆ x <- rnorm(1000) y <- sin(x) + rnorm(1000, 0, 0.5) cor.test(x,y) plot(x, y, xlab = xlab, ylab = ylab) spl1 <- smooth.spline(x, y, tol = 1e-6, df = 8) lines(spl1, col = "green", lwd = 2) spl2 <- loess(y ~ …
10 r  regression  splines  loess 

1
Bootstrap: การประเมินอยู่นอกช่วงความมั่นใจ
ฉันทำการ bootstrapping ด้วยโมเดลผสม (มีหลายตัวแปรที่มีการโต้ตอบและหนึ่งตัวแปรสุ่ม) ฉันได้รับผลลัพธ์นี้ (บางส่วนเท่านั้น): > boot_out ORDINARY NONPARAMETRIC BOOTSTRAP Call: boot(data = a001a1, statistic = bootReg, R = 1000) Bootstrap Statistics : original bias std. error t1* 4.887383e+01 -1.677061e+00 4.362948e-01 t2* 3.066825e+01 1.264024e+00 5.328387e-01 t3* 8.105422e+01 2.368599e+00 6.789091e-01 t4* 1.620562e+02 4.908711e+00 1.779522e+00 ...... ตอนนี้ฉันต้องการได้รับช่วงความเชื่อมั่นสำหรับการสกัดกั้น: > boot.ci(boot_out,type=c("norm","basic","perc"), index=1) BOOTSTRAP …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.