คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

1
การตีความพล็อต. lm ()
ฉันมีคำถามเกี่ยวกับการตีความกราฟที่สร้างขึ้นโดยพล็อต (lm) ในอาร์ฉันสงสัยว่าพวกคุณจะบอกวิธีการตีความสเกลตำแหน่งและพล็อตที่เหลือ? ความคิดเห็นใด ๆ ที่จะได้รับการชื่นชม สมมติว่ามีความรู้พื้นฐานเกี่ยวกับสถิติการถดถอยและเศรษฐมิติ

1
เอฟเฟ็กต์แบบซ้อน vs แบบซ้อน: พวกมันต่างกันอย่างไรและพวกมันระบุอย่างถูกต้องใน lme4 ได้อย่างไร?
นี่คือวิธีที่ฉันเข้าใจการซ้อนแบบสุ่มกับเอฟเฟกต์แบบข้าม: เอฟเฟกต์แบบสุ่มซ้อนกันเกิดขึ้นเมื่อปัจจัยระดับล่างลดลงจะปรากฏเฉพาะภายในระดับเฉพาะของปัจจัยระดับบน ตัวอย่างเช่นนักเรียนในชั้นเรียนที่จุดคงที่ในเวลา ในlme4ฉันคิดว่าเราเป็นตัวแทนผลสุ่มสำหรับข้อมูลที่ซ้อนกันในสองวิธีที่เทียบเท่า: (1|class/pupil) # or (1|class) + (1|class:pupil) ข้ามสุ่มผลหมายความว่าปัจจัยที่กำหนดปรากฏในมากกว่าหนึ่งระดับของปัจจัยระดับบน ตัวอย่างเช่นมีนักเรียนภายในชั้นเรียนที่ถูกวัดเป็นเวลาหลายปี ในlme4เราจะเขียน: (1|class) + (1|pupil) อย่างไรก็ตามเมื่อฉันดูชุดข้อมูลที่ซ้อนอยู่โดยเฉพาะฉันสังเกตว่าสูตรทั้งสองแบบให้ผลลัพธ์เหมือนกัน (โค้ดและผลลัพธ์ด้านล่าง) อย่างไรก็ตามฉันได้เห็นชุดข้อมูลอื่นที่ทั้งสองสูตรให้ผลลัพธ์ที่แตกต่างกัน แล้วเกิดอะไรขึ้นที่นี่? mydata <- read.csv("https://web.archive.org/web/20160624172041if_/http://www-personal.umich.edu/~bwest/classroom.csv") # (the data is no longer at `http://www-personal.umich.edu/~bwest/classroom.csv` # hence the link to web.archive.org) # Crossed version: Linear mixed model fit by REML ['lmerMod'] Formula: mathgain ~ …

2
เราน่ากลัวแค่ไหนเกี่ยวกับคำเตือนการบรรจบกันใน lme4
หากเราติดตั้ง glmer อีกครั้งเราอาจได้รับคำเตือนที่บอกเราว่าแบบจำลองกำลังค้นหาช่วงเวลาที่ยากลำบากในการบรรจบกัน ... เช่น >Warning message: In checkConv(attr(opt, "derivs"), opt$par, ctrl = control$checkConv, : Model failed to converge with max|grad| = 0.00389462 (tol = 0.001) อีกวิธีในการตรวจสอบการสนทนาที่กล่าวถึงในหัวข้อนี้โดย @Ben Bolker คือ: relgrad <- with(model@optinfo$derivs,solve(Hessian,gradient)) max(abs(relgrad)) #[1] 1.152891e-05 ถ้าmax(abs(relgrad))เป็นเช่น<0.001นั้นสิ่งที่อาจจะตกลง ... ดังนั้นในกรณีนี้เรามีผลลัพธ์ที่ขัดแย้งกัน? เราควรเลือกระหว่างวิธีการและรู้สึกปลอดภัยกับแบบจำลองของเราอย่างไร ในทางกลับกันเมื่อเราได้รับค่าสุดโต่งเช่น: >Warning message: In checkConv(attr(opt, "derivs"), opt$par, ctrl = control$checkConv, …

3
การขาดอันดับคืออะไรและจะจัดการกับมันอย่างไร
การปรับการถดถอยโลจิสติกให้เหมาะสมโดยใช้lme4ลงท้ายด้วย Error in mer_finalize(ans) : Downdated X'X is not positive definite. สาเหตุที่เป็นไปได้ของข้อผิดพลาดนี้คือการขาดอันดับ การจัดอันดับบกพร่องคืออะไรและฉันควรจะแก้ไขอย่างไร
87 r  logistic  lme4-nlme 

4
วิธีการเลือกไลบรารี nlme หรือ lme4 R สำหรับโมเดลเอฟเฟกต์ผสม
ฉันมีโมเดลเอฟเฟ็กต์แบบผสมไม่กี่แบบ (โดยเฉพาะอย่างยิ่งแบบจำลองตามยาว) ที่ใช้lme4ในRแต่ต้องการที่จะเชี่ยวชาญโมเดลและโค้ดที่ไปกับพวกเขาจริงๆ อย่างไรก็ตามก่อนที่จะดำน้ำด้วยเท้าทั้งสองข้าง (และซื้อหนังสือ) ฉันต้องการให้แน่ใจว่าฉันกำลังเรียนรู้ห้องสมุดที่ถูกต้อง ฉันเคยชินlme4กับตอนนี้เพราะฉันเพิ่งพบว่าง่ายกว่าnlmeแต่ถ้าnlmeดีกว่าสำหรับวัตถุประสงค์ของฉันฉันก็รู้สึกว่าฉันควรจะใช้มัน ฉันแน่ใจว่าไม่มี "ดีกว่า" ในวิธีที่ง่าย แต่ฉันจะให้คุณค่าความคิดเห็นหรือความคิดบางอย่าง เกณฑ์หลักของฉันคือ: ใช้งานง่าย (ฉันเป็นนักจิตวิทยาโดยการฝึกอบรมและไม่เฉพาะในสถิติหรือการเข้ารหัส แต่ฉันกำลังเรียนรู้) คุณสมบัติที่ดีสำหรับการติดตั้งข้อมูลตามยาว (ถ้ามีความแตกต่างตรงนี้ - แต่นี่คือสิ่งที่ฉันใช้เป็นหลัก) สรุปกราฟิกที่ดี (ง่ายต่อการตีความ) อีกครั้งไม่แน่ใจว่ามีความแตกต่างที่นี่หรือไม่ แต่ฉันมักจะสร้างกราฟสำหรับคนที่มีความเชี่ยวชาญด้านเทคนิคน้อยกว่าฉันดังนั้นพล็อตที่ชัดเจนดีจึงเป็นสิ่งที่ดีเสมอ () สำหรับเหตุผลนี้). ตามปกติหวังว่าคำถามนี้จะไม่คลุมเครือเกินไปและขอบคุณล่วงหน้าสำหรับภูมิปัญญาใด ๆ !


3
ตัวอย่าง: การถดถอย LASSO โดยใช้ glmnet สำหรับผลลัพธ์ไบนารี
ฉันเริ่มตะลุยกับการใช้งานglmnetกับการถดถอยแบบ LASSOซึ่งผลลัพธ์ของความสนใจของฉันนั้นเป็นแบบขั้วคู่ ฉันได้สร้างกรอบข้อมูลจำลองขนาดเล็กด้านล่าง: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
วิธีที่ดีที่สุดที่จะนำเสนอป่าสุ่มในสิ่งพิมพ์?
ฉันกำลังใช้อัลกอริธึมป่าแบบสุ่มเป็นตัวจําแนกที่มีประสิทธิภาพของสองกลุ่มในการศึกษาขนาดเล็กที่มีคุณสมบัติ 1,000 รายการ วิธีที่ดีที่สุดที่จะนำเสนอป่าสุ่มเพื่อให้มีข้อมูลเพียงพอที่จะทำให้มันทำซ้ำได้ในกระดาษคืออะไร? มีวิธีการลงจุดใน R เพื่อทำแผนผังต้นไม้จริงหรือไม่หากมีคุณสมบัติจำนวนน้อย? OOB ประมาณการอัตราข้อผิดพลาดเป็นสถิติที่ดีที่สุดในการอ้าง?

2
วิธีการสุ่มตัวอย่าง / การจำลองใหม่: monte carlo, bootstrapping, jackknifing, cross-validation, การทดสอบแบบสุ่มและการทดสอบการเปลี่ยนรูป
ฉันพยายามเข้าใจความแตกต่างระหว่างวิธีการสุ่มใหม่ (การจำลองมอนติคาร์โล, การบูตแบบพาราเมตริก, การบู๊ตแบบไม่มีพารามิเตอร์, การทดสอบแบบสุ่ม, การตรวจสอบข้าม, การทดสอบแบบสุ่มและการเปลี่ยนรูป) และการนำไปใช้ในบริบทของฉันเอง ว่าฉันมีสถานการณ์ดังต่อไปนี้ - ฉันต้องการดำเนินการ ANOVA ด้วยตัวแปรY ( Yvar) และX variable ( Xvar) Xvarเป็นหมวดหมู่ ฉันสนใจในสิ่งต่อไปนี้: (1) ความสำคัญของ p-values ​​- อัตราการค้นพบที่ผิด (2) ขนาดผลของXvarระดับ Yvar <- c(8,9,10,13,12, 14,18,12,8,9, 1,3,2,3,4) Xvar <- c(rep("A", 5), rep("B", 5), rep("C", 5)) mydf <- data.frame (Yvar, Xvar) คุณช่วยให้ฉันอธิบายความแตกต่างของการสุ่มตัวอย่างด้วยตัวอย่างงานที่ชัดเจนว่าวิธีการสุ่มตัวอย่างใหม่นี้ทำงานอย่างไร การแก้ไข: นี่คือความพยายามของฉัน: Bootstrap …

15
GUI ที่ดีสำหรับ R เหมาะสำหรับผู้เริ่มต้นที่ต้องการเรียนรู้การเขียนโปรแกรมใน R หรือไม่?
มี GUI สำหรับ R ที่ช่วยให้ผู้เริ่มต้นเริ่มเรียนรู้และเขียนโปรแกรมในภาษานั้นได้ง่ายขึ้นหรือไม่?
73 r 


15
ทำตัวอย่างที่สำคัญของการวิจัยที่ทำซ้ำได้โดยใช้ R
คำถาม:มีตัวอย่างที่ดีของการวิจัยที่ทำซ้ำได้โดยใช้ R ที่ให้บริการออนไลน์ได้อย่างอิสระหรือไม่? ตัวอย่างในอุดมคติ: โดยเฉพาะตัวอย่างอุดมคติจะมี: ข้อมูลดิบ (และข้อมูลเมตานึกคิดอธิบายข้อมูล) รหัส R ทั้งหมดรวมถึงการนำเข้าข้อมูลการประมวลผลการวิเคราะห์และการสร้างผลลัพธ์ Sweave หรือวิธีการอื่นสำหรับเชื่อมโยงผลลัพธ์สุดท้ายไปยังเอกสารสุดท้าย ทั้งหมดอยู่ในรูปแบบที่สามารถดาวน์โหลดและคอมไพล์ได้อย่างง่ายดายบนคอมพิวเตอร์ของผู้อ่าน ตามอุดมคติแล้วตัวอย่างจะเป็นบทความในวารสารหรือวิทยานิพนธ์ที่เน้นในหัวข้อที่ประยุกต์ใช้จริงแทนที่จะเป็นตัวอย่างการสอนเชิงสถิติ เหตุผลที่ให้ความสนใจ: ฉันสนใจเป็นพิเศษในหัวข้อที่นำไปใช้ในบทความในวารสารและวิทยานิพนธ์เพราะในสถานการณ์เหล่านี้มีประเด็นเพิ่มเติมหลายประการเกิดขึ้น: ปัญหาที่เกิดขึ้นเกี่ยวข้องกับการทำความสะอาดและการประมวลผลข้อมูล ปัญหาที่เกิดขึ้นเกี่ยวข้องกับการจัดการข้อมูลเมตา วารสารและวิทยานิพนธ์มักจะมีความคาดหวังของคู่มือสไตล์เกี่ยวกับลักษณะและการจัดรูปแบบของตารางและตัวเลข วารสารและวิทยานิพนธ์จำนวนมากมักจะมีการวิเคราะห์ที่หลากหลายซึ่งทำให้เกิดปัญหาเกี่ยวกับเวิร์กโฟลว์ (เช่นวิธีการวิเคราะห์ลำดับ) และเวลาในการประมวลผล (เช่นปัญหาการวิเคราะห์แคชเป็นต้น) การดูตัวอย่างการทำงานที่สมบูรณ์สามารถให้วัสดุการเรียนการสอนที่ดีสำหรับนักวิจัยที่เริ่มต้นด้วยการวิจัยที่ทำซ้ำได้

8
สร้างตัวแปรสุ่มที่มีความสัมพันธ์ที่กำหนดไว้กับตัวแปรที่มีอยู่
สำหรับการศึกษาการจำลองฉันต้องสร้างตัวแปรสุ่มที่แสดง prefined (ประชากร) ความสัมพันธ์กับตัวแปรที่มีอยู่YYYY ฉันดูในRแพ็คเกจcopulaและCDVineสามารถสร้างการแจกแจงหลายตัวแปรแบบสุ่มด้วยโครงสร้างการพึ่งพาที่กำหนด อย่างไรก็ตามเป็นไปไม่ได้ที่จะแก้ไขหนึ่งในตัวแปรที่เป็นผลลัพธ์ของตัวแปรที่มีอยู่ ความคิดและลิงก์ไปยังฟังก์ชั่นที่มีอยู่นั้นได้รับการชื่นชม! สรุป: คำตอบที่ถูกต้องสองคำขึ้นมาพร้อมกับโซลูชันที่แตกต่าง: R สคริปต์โดย Caracal ซึ่งจะคำนวณตัวแปรสุ่มกับที่แน่นอน (ตัวอย่าง) ความสัมพันธ์กับตัวแปรที่กำหนดไว้ล่วงหน้า R ฟังก์ชั่นฉันพบตัวเองซึ่งจะคำนวณตัวแปรสุ่มที่มีการกำหนดประชากรความสัมพันธ์กับตัวแปรที่กำหนดไว้ล่วงหน้า [@ttnphns 'นอกจากนี้: ฉันใช้เสรีภาพในการขยายชื่อคำถามจากกรณีตัวแปรคงที่เดียวเป็นจำนวนคงที่ของตัวแปรคงที่; เช่นวิธีการสร้างตัวแปรที่มีคอร์เรชั่นที่กำหนดไว้ล่วงหน้าพร้อมกับตัวแปรคงที่บางตัวที่มีอยู่]

4
ความแตกต่างระหว่างฟังก์ชั่น R prcomp และ princomp คืออะไร?
ฉันเปรียบเทียบ?prcompและ?princompพบบางสิ่งเกี่ยวกับการวิเคราะห์องค์ประกอบหลักของ Q-mode และ R-mode (PCA) แต่อย่างสุจริต - ฉันไม่เข้าใจ ใครสามารถอธิบายความแตกต่างได้และอาจอธิบายได้ว่าจะใช้เมื่อไร
69 r  pca 

2
การถดถอยหลายตัวแปรหลายตัวแปรใน R
ฉันมี 2 ตัวแปรตาม (DVs) ซึ่งแต่ละคะแนนอาจได้รับอิทธิพลจากชุดของตัวแปรอิสระ 7 ตัว (IVs) DV เป็นแบบต่อเนื่องในขณะที่ชุดของ IV ประกอบด้วยการผสมผสานของตัวแปรแบบต่อเนื่องและแบบไบนารี (ในรหัสด้านล่างตัวแปรต่อเนื่องจะเขียนด้วยตัวอักษรตัวพิมพ์ใหญ่และตัวแปรไบนารีในตัวอักษรตัวพิมพ์เล็ก) จุดประสงค์ของการศึกษาคือการเปิดเผยว่า DVs เหล่านี้ได้รับอิทธิพลจากตัวแปร IV อย่างไร ฉันเสนอรูปแบบหลายตัวแปรการถดถอย (MMR) หลายตัวแปรต่อไปนี้: my.model <- lm(cbind(A, B) ~ c + d + e + f + g + H + I) เมื่อต้องการตีความผลลัพธ์ที่ฉันเรียกสองคำสั่ง: summary(manova(my.model)) Manova(my.model) เอาต์พุตจากการโทรทั้งสองวางด้านล่างและแตกต่างกันอย่างมาก ใครช่วยกรุณาอธิบายว่าควรเลือกข้อความใดในการสรุปผล MMR อย่างถูกต้องและทำไม ข้อเสนอแนะใด ๆ จะได้รับการชื่นชมอย่างมาก เอาต์พุตโดยใช้summary(manova(my.model))ข้อความสั่ง: …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.