คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

4
การวิเคราะห์ ROC และ multiROC: วิธีการคำนวณจุดตัดที่เหมาะสมที่สุด?
ฉันพยายามที่จะเข้าใจวิธีคำนวณจุดตัดที่เหมาะสมที่สุดสำหรับเส้นโค้ง ROC (ค่าที่ความไวและความเฉพาะเจาะจงสูงสุด) ฉันใช้ชุดข้อมูลจากแพคเกจaSAHpROC outcomeตัวแปรสามารถอธิบายได้โดยสองตัวแปรอิสระและs100b ndkaใช้ไวยากรณ์ของEpiแพคเกจฉันได้สร้างสองรุ่น: library(pROC) library(Epi) ROC(form=outcome~s100b, data=aSAH) ROC(form=outcome~ndka, data=aSAH) ผลลัพธ์จะแสดงในกราฟสองกราฟต่อไปนี้: ในรูปแบบของกราฟแรก ( s100b) lr.eta=0.304ฟังก์ชั่นบอกว่าตัดจุดที่ดีที่สุดเป็นภาษาท้องถิ่นที่คุ้มค่าที่สอดคล้องกับ ในกราฟที่สอง ( ndka) จุดตัดที่เหมาะสมที่สุดจะถูกแปลเป็นภาษาท้องถิ่นตามค่าที่สอดคล้องกับlr.eta=0.335(ความหมายของlr.eta) คืออะไร คำถามแรกของฉันคือ: อะไรคือความสอดคล้องs100bและndkaค่าสำหรับlr.etaค่าที่ระบุ (จุดตัดที่เหมาะสมที่สุดในแง่ของs100bและndka) คืออะไร? คำถามที่สอง: ตอนนี้สมมติว่าฉันสร้างแบบจำลองโดยคำนึงถึงตัวแปรทั้งสอง: ROC(form=outcome~ndka+s100b, data=aSAH) กราฟที่ได้รับคือ: ฉันต้องการที่จะรู้ว่าสิ่งที่เป็นค่าของndkaและs100bที่ความรู้สึกและความเฉพาะเจาะจงจะถูกขยายโดยฟังก์ชั่น ในแง่อื่น ๆ : ค่าของndkaและs100bที่เรามี Se = 68.3% และ Sp = 76.4% (ค่าที่ได้จากกราฟ) คืออะไร? ฉันคิดว่าคำถามที่สองนี้เกี่ยวข้องกับการวิเคราะห์แบบ MultiROC แต่เอกสารของEpiแพคเกจไม่ได้อธิบายวิธีการคำนวณจุดตัดที่เหมาะสมที่สุดสำหรับตัวแปรทั้งสองที่ใช้ในแบบจำลอง คำถามของฉันดูเหมือนกับคำถามนี้จากreasearchGateมากซึ่งกล่าวโดยย่อ: การกำหนดคะแนนตัดที่แสดงถึงการแลกเปลี่ยนที่ดีขึ้นระหว่างความไวและความเฉพาะเจาะจงของการวัดนั้นตรงไปตรงมา …

2
การจำลองการถดถอยเชิงเส้นหลายแบบ
ฉันใหม่สำหรับภาษา R ฉันต้องการทราบวิธีจำลองจากตัวแบบการถดถอยเชิงเส้นหลายแบบที่ตอบสนองสมมติฐานทั้งสี่ของการถดถอย โอเคขอบคุณ. สมมติว่าฉันต้องการจำลองข้อมูลตามชุดข้อมูลนี้: y<-c(18.73,14.52,17.43,14.54,13.44,24.39,13.34,22.71,12.68,19.32,30.16,27.09,25.40,26.05,33.49,35.62,26.07,36.78,34.95,43.67) x1<-c(610,950,720,840,980,530,680,540,890,730,670,770,880,1000,760,590,910,650,810,500) x2<-c(1,1,3,2,1,1,3,3,2,2,1,3,3,2,2,2,3,3,1,2) fit<-lm(y~x1+x2) summary(fit) แล้วฉันจะได้รับผลลัพธ์: Call: lm(formula = y ~ x1 + x2) Residuals: Min 1Q Median 3Q Max -13.2805 -7.5169 -0.9231 7.2556 12.8209 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 42.85352 11.33229 3.782 0.00149 ** x1 -0.02534 0.01293 -1.960 0.06662 . x2 …

2
ใช้ R สำหรับ GLM ด้วยการกระจายแกมม่า
ขณะนี้ฉันมีปัญหาในการทำความเข้าใจไวยากรณ์สำหรับ R เพื่อปรับ GLM ให้เหมาะสมโดยใช้การแจกแจงแกมมา ฉันมีชุดข้อมูลซึ่งแต่ละแถวมี 3 co-variates ( ), ตัวแปรตอบกลับ ( Y ) และพารามิเตอร์รูปร่าง ( K ) ฉันต้องการจำลองสเกลของการแจกแจงแกมม่าเป็นฟังก์ชันเชิงเส้นของสามตัวแปร แต่ฉันไม่เข้าใจวิธีตั้งค่ารูปร่างของการแจกแจงเป็นKสำหรับแต่ละแถวของข้อมูลX1,X2,X3X1,X2,X3X_1, X_2, X_3YYYKKKKKK สถานการณ์ที่ฉันคิดว่าคล้ายคลึงกันคือสำหรับการแจกแจงแบบทวินาม GLM ต้องการให้ทราบจำนวนการทดลอง ( ) สำหรับการป้อนข้อมูลแต่ละครั้งNNN

5
การทำคลัสเตอร์ (k- หมายถึงหรืออย่างอื่น) ที่มีข้อ จำกัด ขนาดของกลุ่มขั้นต่ำ
ฉันต้องการจัดกลุ่มหน่วยเป็นกลุ่มเพื่อลดผลรวมภายในกลุ่มของสี่เหลี่ยม (WSS) แต่ฉันต้องตรวจสอบให้แน่ใจว่าแต่ละกลุ่มมีหน่วยอย่างน้อยm มีความคิดใดบ้างหากฟังก์ชั่นการจัดกลุ่มของ R อนุญาตให้ทำการจัดกลุ่มเป็นkกลุ่มภายใต้ข้อ จำกัด ขนาดของกลุ่มขั้นต่ำ? kmeans () ดูเหมือนจะไม่เสนอตัวเลือกการ จำกัด ขนาดkkkmmmkkk
14 r  clustering 

2
อะไรคือความแตกต่างระหว่างเอาต์พุต“ coef” และ“ (exp) coef” ของ coxph ใน R?
ฉันได้พยายามที่จะมองเห็นสิ่งที่เอาท์พุท "coef" และ "(exp) coef" ของ coxph มีความหมาย ดูเหมือนว่า "coef" (exp) "เป็นการเปรียบเทียบตัวแปรแรกในรูปแบบตามกลุ่มที่กำหนดไว้ในคำสั่ง ฟังก์ชัน coxph มาถึงค่าสำหรับ "coef" และ "(exp) coef" อย่างไร นอกจากนี้ coxph จะกำหนดค่าเหล่านี้เมื่อมีการเซ็นเซอร์ที่เกี่ยวข้องได้อย่างไร

1
ทำไมข้อผิดพลาด“ การปรับโดยประมาณ 'a' คือ NA” ที่สร้างขึ้นจากแพ็คเกจการบูต R เมื่อคำนวณช่วงความเชื่อมั่นโดยใช้วิธีการ bca
ฉันมีเวกเตอร์ของตัวเลขที่ฉันได้อัปโหลดไว้ที่นี่ (... / code / MyData.Rdata) โดยใช้ dput ฉันต้องการรับ bca ci ดังนั้นฉันจึงเขียนรหัสนี้: my.mean <- function(dat, idx){ return (mean(dat[idx], na.rm = TRUE)) } boot.out<-boot(data=my.data, statistic = my.mean, R=1000) แต่เมื่อฉันเรียกใช้สิ่งต่อไปนี้ฉันจะได้รับสิ่งนี้: > boot.ci(boot.out) Error in bca.ci(boot.out, conf, index[1L], L = L, t = t.o, t0 = t0.o, : estimated adjustment 'a' is NA …
14 r  bootstrap 

2
การประมาณความน่าจะเป็นเพื่อการอยู่รอดใน R
จากตัวอย่างของเวลาการอยู่รอดฉันต้องการประเมินความน่าจะเป็นของเวลาที่มีชีวิตรอดสำหรับบางเฉพาะโดยใช้เครื่องมือประเมิน Kaplan-Meier เป็นไปได้ไหมที่จะทำเช่นนี้? โปรดทราบว่าไม่จำเป็นต้องเป็นเวลาของเหตุการณ์nnnเสื้อเสื้อtเสื้อเสื้อtRเสื้อเสื้อt
14 r  kaplan-meier 

1
การตีความเอาต์พุต. L & .Q จาก GLM ทวินามลบที่มีข้อมูลหมวดหมู่
ฉันเพิ่งวิ่ง GLM ลบแบบทวินามและนี่คือผลลัพธ์: Call: glm.nb(formula = small ~ method + site + depth, data = size.dat, init.theta = 1.080668549, link = log) Deviance Residuals: Min 1Q Median 3Q Max -2.2452 -0.9973 -0.3028 0.3864 1.8727 Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 1.6954 0.1152 14.720 < 2e-16 *** method.L -0.6828 …

3
ทำไมอัตราต่อรองจากสูตรและการตกปลาของ R แตกต่างกันอย่างไร ควรเลือกแบบใด
ในตัวอย่างต่อไปนี้ > m = matrix(c(3, 6, 5, 6), nrow=2) > m [,1] [,2] [1,] 3 5 [2,] 6 6 > (OR = (3/6)/(5/6)) #1 [1] 0.6 > fisher.test(m) #2 Fisher's Exact Test for Count Data data: m p-value = 0.6699 alternative hypothesis: true odds ratio is not equal to 1 …

2
ฉันสามารถใช้ CLR (การแปลงอัตราส่วนบันทึกเป็นศูนย์กลาง) เพื่อเตรียมข้อมูลสำหรับ PCA ได้หรือไม่
ฉันกำลังใช้สคริปต์ มันเป็นบันทึกหลัก ฉันมี dataframe ซึ่งแสดงองค์ประกอบต่าง ๆ ในคอลัมน์ที่มีความลึกที่กำหนด (ในคอลัมน์แรก) ฉันต้องการทำ PCA ด้วยและสับสนเกี่ยวกับวิธีการมาตรฐานที่ฉันต้องเลือก มีคนของคุณใช้clr()ในการเตรียมข้อมูลของคุณสำหรับprcomp()? หรือว่ามันเป็นการปลอมปนวิธีแก้ปัญหาของฉัน ฉันได้พยายามใช้clr()กับข้อมูลก่อนที่จะใช้ฟังก์ชั่นนอกเหนือจากการใช้ขนาดแอตทริบิวต์ในprcomp()prcomp() data_f_clr<- clr(data_f) data_pca <- prcomp(data_f, center = TRUE, scale. = TRUE) https://stat.ethz.ch/R-manual/R-devel/library/stats/html/prcomp.html สเกลอธิบายเพื่อปรับสเกลข้อมูลดังนั้นจึงมีความแปรปรวนของหน่วย เนื่องจากข้อมูลของฉันมีขนาดแตกต่างกันมากนั่นคือสิ่งที่ฉันต้องการฉันจึงคิด ปัญหาคือว่าฉันได้รับการแก้ไขที่แตกต่างกันเมื่อฉันใช้รหัสด้านบนหรือเมื่อฉันข้ามclr()(ซึ่งทำให้ผลลัพธ์ที่ต้องการมากขึ้น) แต่ฉันต้องการที่จะรู้ว่าทำไมการclr()รบกวนในกรณีนี้คืออะไร?

1
ความเท่าเทียมกันของ (0 + ปัจจัย | กลุ่ม) และ (1 | กลุ่ม) + (1 | กลุ่ม: ปัจจัย) ข้อมูลจำเพาะของผลกระทบแบบสุ่มในกรณีที่สัดส่วนสมมาตร
ดักลาสเบตส์กล่าวว่าแบบจำลองต่อไปนี้เทียบเท่ากัน "ถ้าเมทริกซ์ความแปรปรวนร่วมแปรปรวนสำหรับเอฟเฟกต์สุ่ม - ค่าเวกเตอร์มีรูปแบบพิเศษเรียกว่าสมมาตรผสม" ( สไลด์ 91 ในการนำเสนอนี้ ): m1 <- lmer(y ~ factor + (0 + factor|group), data) m2 <- lmer(y ~ factor + (1|group) + (1|group:factor), data) เบตส์เฉพาะใช้ตัวอย่างนี้: library(lme4) data("Machines", package = "MEMSS") m1a <- lmer(score ~ Machine + (0 + Machine|Worker), Machines) m2a <- lmer(score ~ Machine …

2
ส่วนเบี่ยงเบนมาตรฐาน r, r กำลังสองและส่วนที่เหลือบอกอะไรเราเกี่ยวกับความสัมพันธ์เชิงเส้น
พื้นหลังเล็ก ๆ ฉันกำลังทำการตีความการวิเคราะห์การถดถอย แต่ฉันสับสนกับความหมายของ r, r กำลังสองและส่วนเบี่ยงเบนมาตรฐานที่เหลือ ฉันรู้คำจำกัดความ: ลักษณะเฉพาะ r วัดความแข็งแรงและทิศทางของความสัมพันธ์เชิงเส้นระหว่างตัวแปรสองตัวบนสเปลตเตอร์ล็อต R-squared เป็นการวัดทางสถิติว่าข้อมูลอยู่ใกล้กับเส้นการถดถอยที่เหมาะสมหรือไม่ ค่าเบี่ยงเบนมาตรฐานส่วนที่เหลือเป็นคำทางสถิติที่ใช้อธิบายความเบี่ยงเบนมาตรฐานของจุดที่เกิดขึ้นรอบฟังก์ชันเชิงเส้นและเป็นการประมาณความแม่นยำของตัวแปรตามที่วัด ( ไม่ทราบว่าหน่วยคืออะไรข้อมูลใด ๆ เกี่ยวกับหน่วยที่นี่จะเป็นประโยชน์ ) (ที่มา: ที่นี่ ) คำถาม แม้ว่าฉันจะ "เข้าใจ" ลักษณะของตัวละคร แต่ฉันเข้าใจว่าเงื่อนไขเหล่านี้รบกวนการสรุปเกี่ยวกับชุดข้อมูล ฉันจะแทรกตัวอย่างเล็ก ๆ น้อย ๆ ที่นี่บางทีนี่อาจเป็นคำแนะนำในการตอบคำถามของฉัน ( อย่าลังเลที่จะใช้ตัวอย่างของคุณเอง!) ตัวอย่าง นี่ไม่ใช่คำถามวิธีการทำงานอย่างไรก็ตามฉันค้นหาในหนังสือของฉันเพื่อรับตัวอย่างง่ายๆ (ชุดข้อมูลปัจจุบันที่ฉันกำลังวิเคราะห์ซับซ้อนเกินไปและใหญ่เกินกว่าจะแสดงได้ที่นี่) สุ่มเลือกแปลง 20 แปลงขนาด 20x4 เมตรในไร่ข้าวโพดขนาดใหญ่ สำหรับแต่ละแปลงความหนาแน่นของพืช (จำนวนพืชในแปลง) และน้ำหนักเฉลี่ยของซัง (กรัมของเมล็ดต่อซัง) ผลลัพธ์เป็น givin ในตารางต่อไปนี้: (ที่มา: …

1
อะไรคือความแตกต่างระหว่างการถดถอยโลจิสติกและการถดถอยการตอบสนองแบบเศษส่วน?
เท่าที่ฉันทราบความแตกต่างระหว่างตัวแบบโลจิสติกและตัวแบบการตอบสนองแบบเศษส่วน (frm) คือตัวแปรตาม (Y) ซึ่ง frm คือ [0,1] แต่โลจิสติกคือ {0, 1} นอกจากนี้ frm ใช้ตัวประมาณค่าความน่าจะเป็นในการกำหนดพารามิเตอร์ โดยปกติเราสามารถใช้เพื่อให้ได้รูปแบบโลจิสติกโดยglmglm(y ~ x1+x2, data = dat, family = binomial(logit)) สำหรับ FRM เราเปลี่ยนไป family = binomial(logit)family = quasibinomial(logit) ฉันสังเกตเห็นว่าเรายังสามารถใช้family = binomial(logit)เพื่อรับพารามิเตอร์ของ frm เพราะมันให้ค่าประมาณเดียวกัน ดูตัวอย่างต่อไปนี้ library(foreign) mydata <- read.dta("k401.dta") glm.bin <- glm(prate ~ mrate + age + sole …

1
อธิบายว่า "eigen" ช่วยเปลี่ยนเมทริกซ์ได้อย่างไร
คำถามของฉันที่เกี่ยวข้องกับเทคนิคการคำนวณใช้ประโยชน์ในหรือgeoR:::.negloglik.GRFgeoR:::solve.geoR ในการตั้งค่าโมเดลเชิงเส้นผสม: โดยที่และเป็นเอฟเฟกต์แบบคงที่และแบบสุ่มตามลำดับ นอกจากนี้β b Σ = cov ( Y )Y=Xβ+Zb+eY=Xβ+Zb+e Y=X\beta+Zb+e ββ\betabbbΣ=cov(Y)Σ=cov(Y)\Sigma=\text{cov}(Y) เมื่อประเมินผลกระทบมีความจำเป็นต้องคำนวณ ซึ่งปกติสามารถทำได้โดยใช้สิ่งที่ชอบแต่บางครั้งเกือบจะไม่สามารถย้อนกลับได้ดังนั้นให้ใช้เล่ห์เหลี่ยม(X′Σ−1X)−1X′Σ−1Y(X′Σ−1X)−1X′Σ−1Y (X'\Sigma^{-1}X)^{-1}X'\Sigma^{-1} Y solve(XtS_invX,XtS_invY)(X′Σ−1X)(X′Σ−1X)(X'\Sigma^{-1}X)geoR t.ei=eigen(XtS_invX) crossprod(t(t.ei$vec)/sqrt(t.ei$val))%*%XtS_invY (สามารถเห็นได้ในgeoR:::.negloglik.GRFและgeoR:::.solve.geoR) ซึ่งจำนวนเงินที่จะเน่าเฟะ ที่และดังนั้น (X′Σ−1X)=ΛDΛ−1(X′Σ−1X)=ΛDΛ−1 (X'\Sigma^{-1}X)=\Lambda D \Lambda^{-1}\\ Λ′=Λ−1Λ′=Λ−1\Lambda'=\Lambda^{-1}(X′Σ−1X)−1=(D−1/2Λ−1)′(D−1/2Λ−1)(X′Σ−1X)−1=(D−1/2Λ−1)′(D−1/2Λ−1) (X'\Sigma^{-1}X)^{-1}=(D^{-1/2}\Lambda^{-1})'(D^{-1/2}\Lambda^{-1}) สองคำถาม: วิธีการที่ไม่สลายตัวไอเกนนี้จะช่วยให้กลับหัว ?(X′Σ−1X)(X′Σ−1X)(X'\Sigma^{-1}X) มีทางเลือกอื่น ๆ (ที่แข็งแกร่งและมั่นคง) หรือไม่? (เช่นqr.solveหรือchol2inv?)

2
ขั้นตอนและวิธีวิเคราะห์ Timeseries โดยใช้ R
ฉันกำลังทำงานในโครงการขนาดเล็กที่เราพยายามคาดการณ์ราคาสินค้า (น้ำมันอลูมิเนียมดีบุก ฯลฯ ) ในอีก 6 เดือนข้างหน้า ฉันมีตัวแปรดังกล่าว 12 ตัวที่จะทำนายและฉันมีข้อมูลตั้งแต่ เม.ย. 2551 - พ.ค. 2556 ฉันจะทำนายอย่างไรดี? ฉันทำสิ่งต่อไปนี้แล้ว: นำเข้าข้อมูลเป็นชุดข้อมูล Timeseries ฤดูกาลทั้งหมดของตัวแปรมีแนวโน้มที่จะแปรผันตามเทรนด์ดังนั้นฉันจะเป็นแบบจำลองแบบคูณ ฉันนำ log ของตัวแปรมาแปลงเป็นสารเติมแต่ง สำหรับแต่ละตัวแปรที่ย่อยสลายข้อมูลโดยใช้ STL ฉันวางแผนที่จะใช้การทำให้เรียบแบบเลขชี้กำลังของโฮลท์วินเทอร์ ARIMA และโครงข่ายใยประสาทเทียมในการคาดการณ์ ฉันแบ่งข้อมูลเป็นการฝึกอบรมและทดสอบ (80, 20) วางแผนที่จะเลือกรุ่นที่มีแม่, MPE, MAPE และ MASE น้อยลง ฉันทำถูกไหม? อีกคำถามหนึ่งที่ฉันเคยมีก่อนที่จะส่งต่อไปยัง ARIMA หรือโครงข่ายประสาทฉันควรทำให้ข้อมูลราบรื่นหรือไม่? ถ้าใช่ใช้อะไร? ข้อมูลแสดงทั้งฤดูกาลและแนวโน้ม แก้ไข: การแนบพล็อตชุดข้อมูลและข้อมูล Year <- c(2008, 2008, 2008, …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.