คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

4
วิธีการเขียนสูตรโมเดลเชิงเส้นด้วย 100 ตัวแปรใน R
ล็อคแล้ว คำถามและคำตอบนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ มีวิธีง่าย ๆ ใน R ในการสร้างการถดถอยเชิงเส้นเหนือโมเดลที่มี 100 พารามิเตอร์ใน R หรือไม่? สมมติว่าเรามีเวกเตอร์ Y 10 ค่าและ dataframe X กับ 10 คอลัมน์และ 100 Y = X[[1]] + X[[2]] + ... + X[[100]]แถวในสัญกรณ์คณิตศาสตร์ผมจะเขียน ฉันจะเขียนสิ่งที่คล้ายกันในไวยากรณ์ R ได้อย่างไร
22 r 

2
ฉันจะใส่ชุดข้อมูลกับการกระจาย Pareto ใน R ได้อย่างไร
สมมติว่ามีข้อมูลต่อไปนี้: 8232302 684531 116857 89724 82267 75988 63871 23718 1696 436 439 248 235 ต้องการวิธีง่ายๆในการจัดวางชุดข้อมูลนี้ (และชุดข้อมูลอื่น ๆ ) ให้เป็นแบบ Pareto เป็นการดีที่มันจะส่งออกค่าทางทฤษฎีที่ตรงกันจับคู่พารามิเตอร์น้อยลง

1
วิธีการสลายอนุกรมเวลาที่มีองค์ประกอบตามฤดูกาลหลายรายการ
ฉันมีอนุกรมเวลาที่มีส่วนประกอบตามฤดูกาลสองเท่าและฉันต้องการแยกส่วนประกอบออกเป็นส่วนประกอบอนุกรมเวลาดังต่อไปนี้ (แนวโน้มองค์ประกอบตามฤดูกาล 1 องค์ประกอบตามฤดูกาล 2 และองค์ประกอบผิดปกติ) เท่าที่ฉันทราบขั้นตอน STL สำหรับการแยกย่อยซีรีย์ใน R อนุญาตเพียงหนึ่งองค์ประกอบตามฤดูกาลดังนั้นฉันจึงลองย่อยสลายซีรีส์สองครั้ง ขั้นแรกโดยการตั้งค่าความถี่ให้เป็นองค์ประกอบตามฤดูกาลแรกโดยใช้รหัสต่อไปนี้: ser = ts(data, freq=48) dec_1 = stl(ser, s.window="per") จากนั้นฉันแยกส่วนประกอบที่ผิดปกติของซีรี่ส์ที่ย่อยสลาย ( dec_1) โดยการตั้งค่าความถี่ให้เป็นองค์ประกอบตามฤดูกาลที่สองเช่น: ser2 = ts(dec_1$time.series[,3], freq=336) dec_2 = stl(ser2, s.window="per") ฉันไม่มั่นใจกับวิธีนี้มากนัก และฉันอยากรู้ว่ามีวิธีอื่นใดในการย่อยสลายซีรีส์ที่มีหลายฤดูกาล นอกจากนี้ฉันได้สังเกตเห็นว่าtbats()ฟังก์ชั่นในแพ็คเกจการคาดการณ์ R ช่วยให้ผู้ใช้สามารถปรับโมเดลให้เหมาะกับซีรี่ส์ที่มีหลายฤดูกาลได้ แต่ก็ไม่ได้บอกว่าจะสลายซีรีย์ด้วย

4
เหตุใดการถดถอยเชิงเส้นและ ANOVA จึงให้ค่า
ฉันพยายามใส่ข้อมูลอนุกรมเวลาหนึ่งชุด (โดยไม่ทำซ้ำ) โดยใช้แบบจำลองการถดถอย ข้อมูลมีลักษณะดังนี้: > xx.2 value time treat 1 8.788269 1 0 2 7.964719 6 0 3 8.204051 12 0 4 9.041368 24 0 5 8.181555 48 0 6 8.041419 96 0 7 7.992336 144 0 8 7.948658 1 1 9 8.090211 6 1 10 8.031459 12 1 11 …

1
ทำไมฟังก์ชั่น R 'princomp' และ 'prcomp' ให้ค่าลักษณะที่แตกต่างกัน
คุณสามารถใช้ชุดข้อมูล Decathlon {FactoMineR} ในการทำซ้ำนี้ คำถามคือเหตุผลที่ค่าลักษณะเฉพาะที่คำนวณแตกต่างจากเมทริกซ์ความแปรปรวนร่วม นี่คือค่าลักษณะเฉพาะที่ใช้princomp: > library(FactoMineR);data(decathlon) > pr <- princomp(decathlon[1:10], cor=F) > pr$sd^2 Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 1.348073e+02 2.293556e+01 9.747263e+00 1.117215e+00 3.477705e-01 1.326819e-01 Comp.7 Comp.8 Comp.9 Comp.10 6.208630e-02 4.938498e-02 2.504308e-02 4.908785e-03 และเช่นเดียวกันโดยใช้PCA: > res<-PCA(decathlon[1:10], scale.unit=FALSE, ncp=5, graph = FALSE) > res$eig eigenvalue percentage of variance cumulative …
22 r  pca 

6
ทฤษฎีกราฟ - การวิเคราะห์และการสร้างภาพ
ฉันไม่แน่ใจว่าหัวเรื่องเข้าสู่ความสนใจของ CrossValidated คุณจะบอกฉัน ฉันต้องศึกษากราฟ (จากทฤษฎีกราฟ ) เช่น ฉันมีจุดจำนวนหนึ่งที่เชื่อมต่ออยู่ ฉันมีตารางที่มีจุดทั้งหมดและจุดแต่ละจุดขึ้นอยู่กับ (ฉันมีตารางอื่นที่มีความหมาย) คำถามของฉันคือ: มีซอฟต์แวร์ที่ดี (หรือแพ็คเกจ R) เพื่อการศึกษาที่ง่ายดายหรือไม่? มีวิธีง่าย ๆ ในการแสดงกราฟหรือไม่?

3
ตีความแกน y ของแปลงที่พึ่งพาบางส่วน
คำถามนี้ถูกโยกย้ายจาก Stack Overflow เพราะสามารถตอบได้ในการตรวจสอบข้าม อพยพ 5 ปีที่ผ่านมา ฉันได้อ่านหัวข้ออื่น ๆ เกี่ยวกับพล็อตพึ่งพาบางส่วนและส่วนใหญ่อยู่ในวิธีการที่คุณพล็อตพวกเขาด้วยแพคเกจที่แตกต่างกันไม่ใช่วิธีที่คุณสามารถตีความได้อย่างถูกต้องดังนั้น: ฉันอ่านและสร้างแผนการพึ่งพาบางส่วนในปริมาณที่พอใช้ ฉันรู้ว่าพวกเขาวัดผลกระทบเล็กน้อยของตัวแปรในฟังก์ชั่นƒS (withS) ด้วยค่าเฉลี่ยผลกระทบของตัวแปรอื่นทั้งหมด ((c) จากแบบจำลองของฉัน ค่า y ที่สูงกว่าหมายความว่าพวกเขามีอิทธิพลต่อการทำนายชั้นเรียนของฉันอย่างแม่นยำ อย่างไรก็ตามฉันไม่พอใจกับการตีความเชิงคุณภาพนี้ โมเดลของฉัน (ฟอเรสต์แบบสุ่ม) กำลังทำนายคลาสรอบคอบสองคลาส "ใช่ต้นไม้" และ "ไม่มีต้นไม้" TRI เป็นตัวแปรที่พิสูจน์แล้วว่าเป็นตัวแปรที่ดีสำหรับเรื่องนี้ สิ่งที่ฉันเริ่มคิดว่าค่า Y กำลังแสดงความน่าจะเป็นสำหรับการจำแนกประเภทที่ถูกต้อง ตัวอย่าง: y (0.2) แสดงว่าค่า TRI ของ> ~ 30 มีโอกาส 20% ในการระบุการจำแนกประเภท True Positive อย่างถูกต้อง อยู่ที่ไหนตรงกันข้าม y (-0.2) แสดงว่าค่า TRI …

2
ทำไมฉันถึงได้รับผลต่างแบบไม่มีศูนย์ของเอฟเฟกต์แบบสุ่มในโมเดลผสมของฉันแม้ว่าข้อมูลจะมีการเปลี่ยนแปลงบ้าง
เราได้เรียกใช้การถดถอยโลจิสติกเอฟเฟ็กต์แบบผสมโดยใช้ไวยากรณ์ต่อไปนี้ # fit model fm0 <- glmer(GoalEncoding ~ 1 + Group + (1|Subject) + (1|Item), exp0, family = binomial(link="logit")) # model output summary(fm0) หัวเรื่องและรายการเป็นเอฟเฟกต์แบบสุ่ม เราได้ผลลัพธ์ที่แปลกซึ่งมีค่าสัมประสิทธิ์และความเบี่ยงเบนมาตรฐานสำหรับเทอมที่เป็นทั้งคู่ Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) [glmerMod] Family: binomial ( logit ) Formula: GoalEncoding ~ 1 + Group + (1 | …

2
การทำคลัสเตอร์เมทริกซ์ไบนารี
ฉันมีเมทริกซ์กึ่งกึ่งกลางของคุณสมบัติไบนารีของมิติ 250k x 100 แต่ละแถวเป็นผู้ใช้และคอลัมน์เป็น "แท็ก" แบบไบนารีของพฤติกรรมผู้ใช้บางอย่างเช่น "Likes_cats" user 1 2 3 4 5 ... ------------------------- A 1 0 1 0 1 B 0 1 0 1 0 C 1 0 0 1 0 ฉันต้องการให้ผู้ใช้พอดีกับ 5-10 คลัสเตอร์และวิเคราะห์การโหลดเพื่อดูว่าฉันสามารถตีความกลุ่มพฤติกรรมของผู้ใช้ได้หรือไม่ ดูเหมือนจะมีวิธีการค่อนข้างน้อยในการปรับคลัสเตอร์ให้เหมาะสมกับข้อมูลไบนารี - เราคิดว่าอะไรอาจเป็นกลยุทธ์ที่ดีที่สุดสำหรับข้อมูลนี้ PCA การสร้างเมทริกซ์ความคล้ายคลึงกันของ Jaccardติดตั้งคลัสเตอร์แบบลำดับขั้นจากนั้นใช้ "โหนด" ด้านบน K-มีเดีย K-medoids พร็อกซิมัส ? แอกเนส …

3
เอาต์พุตสถิติ W โดย wilcox.test () ใน R เหมือนกับสถิติ U หรือไม่
ฉันเพิ่งได้อ่านเกี่ยวกับการทดสอบ Mann-Whitney U ปรากฎว่าการทดสอบนี้ใน R คุณจำเป็นต้องทำการทดสอบ Wilcoxon จริง ๆ ! คำถามของฉัน: เป็น W สถิติของwilcox.testใน R เหมือนกับสถิติ U?

2
การทดสอบ Wald ในการถดถอย (OLS และ GLMs): t- กับการกระจาย z
ฉันเข้าใจว่าการทดสอบ Wald สำหรับสัมประสิทธิ์การถดถอยขึ้นอยู่กับคุณสมบัติต่อไปนี้ที่เก็บ asymptotically (เช่น Wasserman (2006): สถิติทั้งหมดหน้า 153, 214-215): โดยที่แสดงถึงสัมประสิทธิ์การถดถอยโดยประมาณแสดงถึงข้อผิดพลาดมาตรฐานของสัมประสิทธิ์การถดถอยและเป็นค่าที่น่าสนใจ (มักจะเป็น 0 เพื่อทดสอบว่าค่าสัมประสิทธิ์เป็นหรือไม่ แตกต่างจาก 0) ดังนั้นขนาดการทดสอบ Wald คือ: ปฏิเสธเมื่อใดβ^SE(β)β0β0αH0| W| >zα/2( β^- β0)SEˆ( β^)∼ N( 0 , 1 )(β^−β0)se^(β^)∼N(0,1) \frac{(\hat{\beta}-\beta_{0})}{\widehat{\operatorname{se}}(\hat{\beta})}\sim \mathcal{N}(0,1) β^β^\hat{\beta}SEˆ( β^)se^(β^)\widehat{\operatorname{se}}(\hat{\beta})β0β0\beta_{0}β0β0\beta_{0}αα\alphaH0H0H_{0}| W| > zα / 2|W|>zα/2|W|> z_{\alpha/2}โดยที่ W= β^SEˆ( β^).W=β^se^(β^). W=\frac{\hat{\beta}}{\widehat{\operatorname{se}}(\hat{\beta})}. แต่เมื่อคุณทำการถดถอยเชิงเส้นด้วยlmใน R, -value แทน -value จะใช้ในการทดสอบว่าสัมประสิทธิ์การถดถอยแตกต่างกันอย่างมีนัยสำคัญจาก …

3
ทำไม Lars และ Glmnet จึงเสนอวิธีแก้ปัญหาต่าง ๆ สำหรับ Lasso?
ฉันต้องการเข้าใจแพ็คเกจ R Larsและดีกว่าGlmnetซึ่งใช้เพื่อแก้ปัญหา Lasso: (สำหรับตัวอย่างpตัวแปรและNดูwww.stanford.edu/~hastie/Papers/glmnet.pdfหน้า 3)m ฉันn( β0β) ∈ Rp + 1[ 12 NΣi = 1ยังไม่มีข้อความ( yผม- β0- xTผมβ)2+ λ | | β| |ล.1]ม.ผมn(β0β)∈Rพี+1[12ยังไม่มีข้อความΣผม=1ยังไม่มีข้อความ(Yผม-β0-xผมTβ)2+λ||β||ล.1]min_{(\beta_0 \beta) \in R^{p+1}} \left[\frac{1}{2N}\sum_{i=1}^{N}(y_i-\beta_0-x_i^T\beta)^2 + \lambda||\beta ||_{l_{1}} \right]พีพีpยังไม่มีข้อความยังไม่มีข้อความN ดังนั้นฉันจึงใช้ทั้งชุดของเล่นเดียวกัน น่าเสียดายที่ทั้งสองวิธีไม่ได้ให้วิธีแก้ไขปัญหาเดียวกันสำหรับการป้อนข้อมูลเดียวกัน ไม่มีใครมีความคิดที่แตกต่างมาจากไหน? ฉันได้ผลลัพธ์ดังนี้: หลังจากสร้างข้อมูล (8 ตัวอย่าง, 12 คุณสมบัติ, การออกแบบ Toeplitz, ทุกอย่างที่อยู่กึ่งกลาง) ฉันคำนวณเส้นทาง Lasso ทั้งหมดโดยใช้ Lars จากนั้นฉันใช้ Glmnet …

1
ความสัมพันธ์ Intraclass (ICC) สำหรับการโต้ตอบ?
สมมติว่าฉันมีการวัดสำหรับแต่ละเรื่องในแต่ละเว็บไซต์ ตัวแปรสองตัวคือหัวเรื่องและไซต์เป็นที่สนใจในแง่ของการคำนวณค่าความสัมพันธ์ภายในเซลล์ (ICC) โดยทั่วไปฉันจะใช้ฟังก์ชั่นlmerจากแพคเกจ R lme4และเรียกใช้ lmer(measurement ~ 1 + (1 | subject) + (1 | site), mydata) ค่า ICC สามารถหาได้จากผลต่างสำหรับเอฟเฟกต์แบบสุ่มในโมเดลด้านบน อย่างไรก็ตามเมื่อเร็ว ๆ นี้ฉันอ่านกระดาษที่ไขปริศนาตัวฉันจริงๆ จากตัวอย่างข้างต้นผู้เขียนคำนวณค่า ICC สามค่าในกระดาษพร้อมฟังก์ชั่น lme จากแพ็คเกจ nlme: หนึ่งค่าสำหรับหัวเรื่อง, หนึ่งค่าสำหรับไซต์และค่าหนึ่งสำหรับการโต้ตอบของหัวเรื่องและไซต์ ไม่มีการให้รายละเอียดเพิ่มเติมในเอกสาร ฉันสับสนจากสองมุมมองต่อไปนี้: จะคำนวณค่า ICC ด้วย lme ได้อย่างไร? ฉันไม่รู้วิธีระบุเอฟเฟกต์สุ่มทั้งสาม (หัวเรื่องไซต์และการโต้ตอบ) ใน lme การพิจารณา ICC เป็นเรื่องที่มีความหมายจริงๆหรือไม่สำหรับการโต้ตอบของหัวเรื่องและไซต์ จากการสร้างแบบจำลองหรือมุมมองทางทฤษฎีคุณสามารถคำนวณได้ แต่ในทางแนวคิดแล้วฉันมีปัญหาในการตีความการโต้ตอบดังกล่าว

5
การถดถอยพหุนามแบบมุมฉากดิบหรือ?
ฉันต้องการที่จะถอยหลังตัวแปรyYyบนx,x2,…,x5x,x2,...,x5x,x^2,\ldots,x^5 5 ฉันควรทำสิ่งนี้โดยใช้ชื่อพหุนามแบบมุมฉากหรือไม่? ฉันดูคำถามบนเว็บไซต์ที่จัดการกับสิ่งเหล่านี้ แต่ฉันไม่เข้าใจจริงๆว่าอะไรคือความแตกต่างระหว่างการใช้งาน เหตุใดฉันจึงไม่สามารถทำการถดถอยแบบ "ปกติ" เพื่อรับค่าสัมประสิทธิ์βiβผม\beta_iของy=∑5i=0βixiy=∑i=05βixiy=\sum_{i=0}^5 \beta_i x^i (พร้อมกับค่า p และสิ่งอื่น ๆ ที่ดีทั้งหมด) และแทนที่จะต้องกังวลว่าจะใช้หรือไม่ ชื่อพหุนามดิบหรือมุมฉาก? ตัวเลือกนี้ดูเหมือนว่าฉันจะอยู่นอกขอบเขตของสิ่งที่ฉันต้องการจะทำ ในหนังสือสถิติที่ฉันกำลังอ่าน (ISLR โดย Tibshirani และคณะ) สิ่งเหล่านี้ไม่ได้กล่าวถึง ที่จริงแล้วพวกเขาถูกวัดผลในทางใดทางหนึ่ง เหตุผลคือ AFAIK ซึ่งในlm()ฟังก์ชั่นใน R ใช้y ~ poly(x, 2)จำนวนเงินเพื่อใช้ชื่อพหุนามแบบมุมฉากและใช้y ~ x + I(x^2)จำนวนเงินเพื่อใช้วัตถุดิบ แต่ในหน้า 116 ผู้เขียนบอกว่าเราใช้ตัวเลือกแรกเพราะตัวหลังเป็น "ยุ่งยาก" ซึ่งไม่มีข้อบ่งชี้ว่าคำสั่งเหล่านี้จริง ๆ กับสิ่งที่แตกต่างกันโดยสิ้นเชิง (คำถามที่สาม) เหตุใดผู้เขียน ISLR จึงทำให้ผู้อ่านสับสนเช่นนั้น

8
คุณจะเห็นภาพความสัมพันธ์ระหว่างตัวแปรเด็ดขาด 3 ตัวได้อย่างไร
ฉันมีชุดข้อมูลที่มีตัวแปรเด็ดขาดสามชุดและฉันต้องการเห็นภาพความสัมพันธ์ระหว่างทั้งสามในกราฟเดียว ความคิดใด ๆ ขณะนี้ฉันกำลังใช้กราฟสามตัวต่อไปนี้: กราฟแต่ละกราฟใช้สำหรับระดับพื้นฐานของภาวะซึมเศร้า (Mild, Moderate, Severe) จากนั้นในแต่ละกราฟฉันดูความสัมพันธ์ระหว่างการรักษา (0,1) และการปรับปรุงอาการซึมเศร้า (ไม่มี, ปานกลาง, เป็นกอบเป็นกำ) กราฟ 3 ตัวนี้ทำงานเพื่อดูความสัมพันธ์แบบ 3 ทาง แต่มีวิธีการทำเช่นนี้กับกราฟเดียวหรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.