คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

1
ความแตกต่างระหว่างตัวแก้ปัญหาการเขียนโปรแกรม R กำลังสองต่างกันอย่างไร
ฉันกำลังมองหาแพ็คเกจเพื่อช่วยฉันแก้ปัญหาการหาค่าเหมาะที่สุดกำลังสองและฉันเห็นว่ามีแพ็คเกจต่างกันอย่างน้อยครึ่งโหล ตามหน้านี้ : QP (โปรแกรมกำลังสอง, 90C20): cplexAPI , kernlab , limSolve , LowRankQP , quadprog , Rcplex , Rmosek บางส่วนของเหล่านี้ (Rmosek และ cplexAPI) ขึ้นอยู่กับแพ็คเกจอื่น ๆ ดังนั้นฉันไม่สนใจสิ่งเหล่านั้น อะไรคือความแตกต่างที่โดดเด่นระหว่างแพ็คเกจ QP อื่น ๆ ?
9 r  optimization 

3
วิธีการจัดเรียงข้อมูล 2D ใหม่เพื่อให้ได้ค่าสหสัมพันธ์อย่างไร
ฉันมีชุดข้อมูลอย่างง่ายต่อไปนี้ที่มีตัวแปรต่อเนื่องสองตัว เช่น: d = data.frame(x=runif(100,0,100),y = runif(100,0,100)) plot(d$x,d$y) abline(lm(y~x,d), col="red") cor(d$x,d$y) # = 0.2135273 ฉันต้องจัดเรียงข้อมูลใหม่เพื่อให้มีความสัมพันธ์ระหว่างตัวแปรให้เป็น ~ 0.6 ฉันต้องการเก็บค่าเฉลี่ยและสถิติเชิงพรรณนาอื่น ๆ (sd, min, max, ฯลฯ .) ของตัวแปรทั้งสองให้คงที่ ฉันรู้ว่าเป็นไปได้ที่จะสร้างความสัมพันธ์กับข้อมูลที่ได้รับเช่น: d2 = with(d,data.frame(x=sort(x),y=sort(y))) plot(d2$x,d2$y) abline(lm(y~x,d2), col="red") cor(d2$x,d2$y) # i.e. 0.9965585 ถ้าฉันพยายามใช้sampleฟังก์ชั่นสำหรับงานนี้: cor.results = c() for(i in 1:1000){ set.seed(i) d3 = with(d,data.frame(x=sample(x),y=sample(y))) cor.results = c(cor.results,cor(d3$x,d3$y)) …
9 r  correlation 

1
การติดตั้งโมเดลเชิงเส้นตรงแบบเฮเทอโรเซสติกสำหรับการตอบสนองแบบทวินาม
ผมมีข้อมูลจากการออกแบบการทดลองต่อไปนี้: ข้อสังเกตของฉันมีการนับจำนวนของตัวเลขของความสำเร็จ (คนK) ออกจากจำนวนของการทดลอง (ตรงN) วัดสองกลุ่มแต่ละประกอบด้วยIบุคคลจากTการรักษาที่ในแต่ละชุดปัจจัยดังกล่าวมีRการทำซ้ำ . ดังนั้นทั้งหมดที่ฉันมี 2 * I * T * R K 'และสอดคล้องN ' s ข้อมูลมาจากชีววิทยา แต่ละคนเป็นยีนที่ฉันวัดระดับการแสดงออกของสองรูปแบบทางเลือก (เนื่องจากปรากฏการณ์ที่เรียกว่าการประกบทางเลือก) ดังนั้นKคือระดับการแสดงออกของหนึ่งในรูปแบบและNคือผลรวมของระดับการแสดงออกของทั้งสองรูปแบบ ตัวเลือกระหว่างสองรูปแบบในสำเนาที่แสดงออกเพียงครั้งเดียวถือว่าเป็นการทดลองของ Bernoulli ดังนั้นKจากNสำเนาตามทวินาม แต่ละกลุ่มประกอบด้วยยีนที่แตกต่างกัน ~ 20 และยีนในแต่ละกลุ่มมีหน้าที่ทั่วไปซึ่งแตกต่างกันระหว่างสองกลุ่ม สำหรับยีนแต่ละตัวในแต่ละกลุ่มฉันมีการวัดประมาณ 30 ตัวอย่างจากแต่ละเนื้อเยื่อที่แตกต่างกัน (การรักษา) ฉันต้องการประเมินผลกระทบที่กลุ่มและการรักษามีต่อความแปรปรวนของ K / N การแสดงออกของยีนเป็นที่รู้กันว่า overdispersed ดังนั้นการใช้ทวินามลบในรหัสด้านล่าง เช่นRรหัสของข้อมูลจำลอง: library(MASS) set.seed(1) I = 20 # individuals in …

1
ช่วงความเชื่อมั่นสำหรับผลการรักษาโดยเฉลี่ยจากน้ำหนักคะแนนความชอบ?
ฉันพยายามที่จะประเมินผลการรักษาโดยเฉลี่ยจากข้อมูลการสังเกตโดยใช้น้ำหนักคะแนนความชอบ (โดยเฉพาะ IPTW) ฉันคิดว่าฉันคำนวณ ATE อย่างถูกต้อง แต่ฉันไม่ทราบวิธีคำนวณช่วงความมั่นใจของ ATE ในขณะที่คำนึงถึงน้ำหนักความชอบแบบผกผัน นี่คือสมการที่ฉันใช้ในการคำนวณผลการรักษาโดยเฉลี่ย (อ้างอิง Med Med. 10 ก.ย. 2010; 29 (20): 2137–2148): โดยที่จำนวนวิชาทั้งหมด,สถานะการรักษา,สถานะผลลัพธ์และคะแนนความชอบTE=1ยังไม่มีข้อความΣ1ยังไม่มีข้อความZผมYผมพีผม-1ยังไม่มีข้อความΣ1ยังไม่มีข้อความ( 1 -Zผม)Yผม1 -พีผมATE=1ยังไม่มีข้อความΣ1ยังไม่มีข้อความZผมYผมพีผม-1ยังไม่มีข้อความΣ1ยังไม่มีข้อความ(1-Zผม)Yผม1-พีผมATE=\frac1N\sum_1^N\frac{Z_iY_i}{p_i}-\frac1N\sum_1^N\frac{(1-Z_i)Y_i}{1-p_i}ยังไม่มีข้อความ=ยังไม่มีข้อความ=N=Zผม=Zผม=Z_i=Yผม=Yผม=Y_i=พีผม=พีผม=p_i= ไม่มีใครทราบแพ็คเกจ R ที่จะคำนวณช่วงความมั่นใจของผลการรักษาโดยเฉลี่ยโดยคำนึงถึงน้ำหนักหรือไม่ สามารถระบุsurveyความช่วยเหลือในแพคเกจที่นี่? ฉันสงสัยว่าสิ่งนี้จะได้ผลหรือไม่: library(survey) sampsvy=svydesign(id=~1,weights=~iptw,data=df) svyby(~surgery=='lump',~treatment,design=sampsvy,svyciprop,vartype='ci',method='beta') #which produces this result: treatment surgery == "lump" ci_l ci_u No 0.1644043 0.1480568 0.1817876 Yes 0.2433215 0.2262039 0.2610724 ฉันไม่รู้ว่าจะไปจากที่นี่เพื่อหาช่วงความมั่นใจของความแตกต่างระหว่างสัดส่วน …

1
ฉันจะตีความความแปรปรวนของเอฟเฟกต์แบบสุ่มได้อย่างไรในโมเดลผสมแบบเส้นตรงทั่วไป
ในโลจิสติกส์แบบจำลองเชิงเส้นผสมแบบเชิงเส้นทั่วไป (ครอบครัว = ทวินาม) ฉันไม่รู้วิธีตีความความแปรปรวนของผลกระทบแบบสุ่ม: Random effects: Groups Name Variance Std.Dev. HOSPITAL (Intercept) 0.4295 0.6554 Number of obs: 2275, groups: HOSPITAL, 14 ฉันจะตีความผลลัพธ์ที่เป็นตัวเลขนี้ได้อย่างไร ฉันมีตัวอย่างของผู้ป่วยไตวายเรื้อรังในการศึกษาแบบหลายศูนย์ ฉันกำลังทดสอบว่าความน่าจะเป็นของผู้ป่วยที่ได้รับการรักษาด้วยยาลดความดันโลหิตเฉพาะนั้นเหมือนกันระหว่างศูนย์หรือไม่ สัดส่วนของผู้ป่วยที่รักษาแตกต่างกันอย่างมากระหว่างศูนย์ แต่อาจเกิดจากความแตกต่างในลักษณะพื้นฐานของผู้ป่วย ดังนั้นฉันจึงประมาณแบบจำลองเชิงเส้นผสมแบบทั่วไป (โลจิสติก) ปรับสำหรับคุณสมบัติหลักของผู้ป่วย นี่คือผลลัพธ์ที่ได้: Generalized linear mixed model fit by maximum likelihood ['glmerMod'] Family: binomial ( logit ) Formula: HTATTO ~ AGE + …
9 r  lme4-nlme 

2
การสุ่มตัวอย่าง CDF ผกผันสำหรับการแจกแจงแบบผสม
เวอร์ชันย่อที่ไม่อยู่ในบริบท ปล่อยให้เป็นตัวแปรสุ่มด้วย CDF yyyF(⋅)≡{θθ+(1−θ)×CDFlog-normal(⋅;μ,σ) y = 0 y > 0F(⋅)≡{θ y = 0 θ+(1−θ)×CDFlog-normal(⋅;μ,σ) y > 0 F(\cdot) \equiv \cases{\theta & y = 0 \\ \theta + (1-\theta) \times \text{CDF}_{\text{log-normal}}(\cdot; \mu, \sigma) & y > 0} สมมติว่าฉันต้องการจำลองการจับด้วยวิธี inverse CDF เป็นไปได้ไหม ฟังก์ชั่นนี้ไม่ได้มีสิ่งที่ตรงกันข้าม จากนั้นอีกครั้งมีการสุ่มตัวอย่างการแปลงผกผันสำหรับการกระจายการผสมของการแจกแจงปกติสองรายการซึ่งแสดงให้เห็นว่ามีวิธีที่รู้จักในการใช้การสุ่มตัวอย่างการแปลงผกผันที่นี่yyy ฉันทราบวิธีสองขั้นตอน แต่ฉันไม่ทราบวิธีนำไปใช้กับสถานการณ์ของฉัน (ดูด้านล่าง) รุ่นยาวที่มีพื้นหลัง ฉันติดตั้งโมเดลต่อไปนี้สำหรับการตอบสนองที่มีค่าเวกเตอร์โดยใช้ MCMC (โดยเฉพาะสแตน):yi=(y1,…,yK)iyi=(y1,…,yK)iy^i = …

2
การตรวจสอบสมมติฐานอัตราต่อรองที่เก็บรักษาไว้ในการถดถอยโลจิสติกอันดับโดยใช้ฟังก์ชั่น polr
ฉันได้ใช้ฟังก์ชั่น 'polr' ในแพ็คเกจ MASS เพื่อเรียกใช้การถดถอยโลจิสติกอันดับสำหรับตัวแปรตอบกลับหมวดหมู่ตามลำดับที่มีตัวแปรอธิบายต่อเนื่อง 15 ตัว ฉันได้ใช้รหัส (แสดงด้านล่าง) เพื่อตรวจสอบว่ารูปแบบของฉันเป็นไปตามอัตราต่อรองสัดส่วนสมมติฐานคำแนะนำต่อไประบุไว้ในคู่มือยูซีแอล อย่างไรก็ตามฉันกังวลเล็กน้อยเกี่ยวกับผลลัพธ์ที่บ่งบอกว่าไม่เพียง แต่มีค่าสัมประสิทธิ์ในจุดตัดต่าง ๆ ที่คล้ายกัน แต่พวกมันเหมือนกันหมด (ดูกราฟด้านล่าง) FGV1b <- data.frame(FG1_val_cat=factor(FGV1b[,"FG1_val_cat"]), scale(FGV1[,c("X","Y","Slope","Ele","Aspect","Prox_to_for_FG", "Prox_to_for_mL", "Prox_to_nat_border", "Prox_to_village", "Prox_to_roads", "Prox_to_rivers", "Prox_to_waterFG", "Prox_to_watermL", "Prox_to_core", "Prox_to_NR", "PCA1", "PCA2", "PCA3")])) b <- polr(FG1_val_cat ~ X + Y + Slope + Ele + Aspect + Prox_to_for_FG + Prox_to_for_mL + …

1
การโน้มน้าวใจที่มีประสิทธิภาพ (ใน R)
ฉันต้องการคำนวณ / ประเมินผลการบิด ก.( x ) =∫Dฉ( x - t ) ϕ ( t ) dเสื้อ,g(x)=∫Df(x−t)ϕ(t)dt,g(x)=\int_D f(x-t) \phi(t) dt, ที่คือความหนาแน่นและเป็นฟังก์ชั่นได้อย่างราบรื่นด้วยการสนับสนุนที่มีขนาดกะทัดรัดDการบิดไม่มีอยู่ในรูปแบบปิดและฉันจำเป็นต้องรวมเข้าด้วยกันเป็นตัวเลข คำถามของฉันคือ: มีวิธีที่มีประสิทธิภาพในการทำเช่นนี้? ฉันต้องการใช้มันใน R ดังนั้นฉันต้องการดูว่ามีวิธีที่ดีกว่าการใช้คำสั่งหรือไม่ฉffφϕ\phiDDD integrate()
9 r  convolution 

1
ทำไมการใส่ข้อมูลหลาย ๆ ครั้งจึงมีคุณภาพต่ำ
พิจารณารหัส R ต่อไปนี้: > data <- data.frame( a=c(NA,2,3,4,5,6),b=c(2.2,NA,6.1,8.3,10.2,12.13),c=c(4.2,7.9,NA,16.1,19.9,23)) > data a b c 1 NA 2.20 4.2 2 2 NA 7.9 3 3 6.10 NA 4 4 8.30 16.1 5 5 10.20 19.9 6 6 12.13 23.0 c = 2*b = 4*aที่คุณสามารถดูฉันได้ออกแบบข้อมูลเพื่อให้ประมาณ a=1, b=2, c=12ดังนั้นเราคาดว่าจะได้ค่าที่ขาดหายไปจะเป็นรอบ ดังนั้นฉันทำการวิเคราะห์: > imp <- mi(data) …

2
จะทำอย่างไรเมื่อ CFA เหมาะสมกับหลายรายการที่ไม่ดี
ฉันไม่แน่ใจว่าจะดำเนินการอย่างไรกับ CFA im นี้ในภาษาลาวา ฉันมีตัวอย่างของผู้เข้าร่วม 172 คน (ฉันรู้ว่าไม่มากนักสำหรับ CFA) และ 28 รายการที่มีเครื่องชั่ง Likert 7 จุดที่ควรโหลดในเจ็ดปัจจัย ฉันทำ CFA ด้วย„ mlm“ - ตัวประเมินผล แต่โมเดลพอดีนั้นแย่มาก (χ2 (df = 329) = 739.36; ดัชนีเปรียบเทียบแบบพอดี (CFI) = .69 รากมาตรฐานที่ได้มาตรฐานหมายถึงส่วนที่เหลือเป็นตาราง (SRMR) = 10 รูตหมายถึงความคลาดเคลื่อนกำลังสองของการประมาณ (RMSEA) =. 09; RMSEA ช่วงความเชื่อมั่น 90% (CI) = [.08, .10] ฉันได้ลองทำสิ่งต่อไปนี้แล้ว: แบบจำลอง bifactor …

2
การจัดกลุ่มข้อมูลที่มีเสียงดังหรือมีค่าผิดปกติ
ฉันมีข้อมูลที่มีเสียงดังของตัวแปรสองตัวเช่นนี้ x1 <- rep(seq(0,1, 0.1), each = 3000) set.seed(123) y1 <- rep (c(0.2, 0.8, 0.3, 0.9, 0.65, 0.35,0.7,0.1,0.25, 0.3, 0.95), each = 3000) set.seed(1234) e1 = rnorm(length(x1), 0.07,0.07) set.seed(1223) e2 = rnorm(length(x1), 0.07,0.07) set.seed(1334) yn <- rnorm(20000, 0.5,0.9) set.seed(2344) xn <- rnorm(20000, 0.5,0.9) y <- c(y1 + e1,yn) x <- …

1
วิธีการสร้างข้อมูลการอยู่รอดด้วยโควาเรียที่ขึ้นอยู่กับเวลาโดยใช้ R
ฉันต้องการสร้างเวลาการเอาชีวิตรอดจากโมเดลอันตรายตามสัดส่วนของค็อกซ์ที่มีเวลาแปรปรวนร่วม รูปแบบคือ h(t|Xi)=h0(t)exp(γXi+αmi(t))h(t|Xi)=h0(t)exp⁡(γXi+αmi(t))h(t|X_i) =h_0(t) \exp(\gamma X_i + \alpha m_{i}(t)) ที่ถูกสร้างขึ้นจากทวินาม (1,0.5) และTXiXiX_imi(t)=β0+β1Xi+β2Xitmi(t)=β0+β1Xi+β2Xitm_{i}(t)=\beta_0 + \beta_1 X_{i} + \beta_2 X_{i} t ค่าพารามิเตอร์จริงถูกใช้เป็นγ=1.5,β0=0,β1=−1,β2=−1.5,h0(t)=1γ=1.5,β0=0,β1=−1,β2=−1.5,h0(t)=1\gamma = 1.5, \beta_0 = 0, \beta_1 = -1, \beta_2 = -1.5, h_0(t) = 1 สำหรับตัวแปรอิสระตามเวลา (เช่นฉันสร้างขึ้นดังนี้h(t|Xi)=h0(t)exp(γXi)h(t|Xi)=h0(t)exp⁡(γXi)h(t|X_i) =h_0(t) \exp(\gamma X_i) #For time independent case # h_0(t) = 1 gamma <- -1 …

1
ทำความเข้าใจกับการสลายตัวของมูลค่าเอกพจน์ในบริบทของ LSI
คำถามของฉันโดยทั่วไปเกี่ยวกับการแยกแยะมูลค่าเอกเทศ (SVD) และโดยเฉพาะอย่างยิ่งในการทำดัชนีความหมายแฝง (LSI) บอกว่าฉันมีที่มีความถี่ 5 คำสำหรับเอกสาร 7 ฉบับAw o r d× do c u m e n tAword×document A_{word \times document} A = matrix(data=c(2,0,8,6,0,3,1, 1,6,0,1,7,0,1, 5,0,7,4,0,5,6, 7,0,8,5,0,8,5, 0,10,0,0,7,0,0), ncol=7, byrow=TRUE) rownames(A) <- c('doctor','car','nurse','hospital','wheel') ฉันได้รับตีนเป็ดเมทริกซ์สำหรับโดยใช้ SVD: TAAAA = U⋅ D ⋅VTA=U⋅D⋅VTA = U \cdot D \cdot V^T s = svd(A) …

2
การประมาณอัตราส่วนความเสี่ยงที่ปรับแล้วในข้อมูลไบนารีโดยใช้การถดถอยแบบปัวซอง
ฉันสนใจที่จะประเมินอัตราส่วนความเสี่ยงที่ปรับแล้วซึ่งคล้ายกับวิธีที่เราประมาณการอัตราต่อรองที่ปรับแล้วโดยใช้การถดถอยโลจิสติกส์ วรรณกรรมบางฉบับ (เช่นนี้ ) บ่งชี้ว่าการใช้การถดถอยปัวซองกับข้อผิดพลาดมาตรฐานของฮิเบอร์ - ไวท์เป็นวิธีที่ใช้แบบจำลองในการทำสิ่งนี้ ฉันไม่พบวรรณกรรมเกี่ยวกับวิธีการปรับค่าความแปรปรวนร่วมต่อเนื่องที่มีผลต่อสิ่งนี้ การจำลองอย่างง่ายต่อไปนี้แสดงให้เห็นว่าปัญหานี้ไม่ตรงไปตรงมามาก: arr <- function(BLR,RR,p,n,nr,ce) { B = rep(0,nr) for(i in 1:nr){ b <- runif(n)<p x <- rnorm(n) pr <- exp( log(BLR) + log(RR)*b + ce*x) y <- runif(n)<pr model <- glm(y ~ b + x, family=poisson) B[i] <- coef(model)[2] } return( mean( …

3
การตรวจสอบความถูกต้องแบบข้าม K-fold หรือ hold-out สำหรับการถดถอยแบบสันโดยใช้ R
ฉันกำลังทำงานกับการตรวจสอบความถูกต้องของการทำนายข้อมูลของฉันกับ 200 วิชาและ 1,000 ตัวแปร ฉันสนใจการถดถอยตามจำนวนตัวแปร (ฉันต้องการใช้) มากกว่าจำนวนตัวอย่าง ดังนั้นฉันต้องการใช้ตัวประมาณค่าการหดตัว ข้อมูลตัวอย่างประกอบด้วยข้อมูลต่อไปนี้: #random population of 200 subjects with 1000 variables M <- matrix(rep(0,200*100),200,1000) for (i in 1:200) { set.seed(i) M[i,] <- ifelse(runif(1000)<0.5,-1,1) } rownames(M) <- 1:200 #random yvars set.seed(1234) u <- rnorm(1000) g <- as.vector(crossprod(t(M),u)) h2 <- 0.5 set.seed(234) y <- g …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.