คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

4
แพ็กเกจ R สำหรับการสร้างแบบจำลองหัวข้อ / LDA: เพียง `topicmodels` และ` lda` [ปิด]
สำหรับฉันดูเหมือนว่ามีเพียงสองแพ็คเกจ R เท่านั้นที่สามารถดำเนินการจัดสรร Latent Dirichlet : หนึ่งคือldaประพันธ์โดย Jonathan Chang; และอื่น ๆ ที่topicmodelsเขียนโดย Bettina Grünและ Kurt Hornik อะไรคือความแตกต่างระหว่างสองแพ็คเกจนี้ในแง่ของประสิทธิภาพรายละเอียดการติดตั้งและการใช้งานที่เพิ่มขึ้น?

6
การตีความการทดสอบ Shapiro-Wilk
ฉันค่อนข้างใหม่กับสถิติและฉันต้องการความช่วยเหลือจากคุณ ฉันมีตัวอย่างเล็ก ๆ ดังนี้: H4U 0.269 0.357 0.2 0.221 0.275 0.277 0.253 0.127 0.246 ฉันรันการทดสอบ Shapiro-Wilk โดยใช้ R: shapiro.test(precisionH4U$H4U) และฉันได้ผลลัพธ์ดังนี้ W = 0.9502, p-value = 0.6921 ทีนี้ถ้าฉันสมมติว่าระดับนัยสำคัญที่ 0.05 กว่าค่า p มีค่ามากกว่า alpha (0.6921> 0.05) และฉันไม่สามารถปฏิเสธสมมติฐานว่างเกี่ยวกับการแจกแจงแบบปกติได้ แต่มันบอกว่าตัวอย่างมีการแจกแจงแบบปกติ ? ขอบคุณ!

2
การติดตั้งโมเดล ARIMAX ด้วยการทำให้เป็นปกติหรือการลงโทษ (เช่นกับเชือก, ตาข่ายยางยืดหรือการถดถอยสัน)
ฉันใช้ฟังก์ชั่นauto.arima ()ในแพ็คเกจพยากรณ์เพื่อให้พอดีกับรุ่น ARMAX ที่มีตัวแปรหลากหลาย อย่างไรก็ตามฉันมักจะมีตัวแปรจำนวนมากให้เลือกและมักจะจบลงด้วยรูปแบบสุดท้ายที่ทำงานกับชุดย่อยของพวกเขา ฉันไม่ชอบเทคนิค ad-hoc สำหรับการเลือกตัวแปรเพราะฉันเป็นมนุษย์และมีอคติ แต่อนุกรมเวลาการตรวจสอบข้ามเป็นเรื่องยากดังนั้นฉันจึงไม่พบวิธีที่ดีในการลองชุดย่อยที่แตกต่างกันของตัวแปรที่มีอยู่โดยอัตโนมัติและ ฉันกำลังปรับโมเดลของฉันโดยใช้วิจารณญาณที่ดีที่สุดของฉันเอง เมื่อฉันพอดีกับโมเดล glm ฉันสามารถใช้ elastic net หรือ lasso สำหรับการทำให้เป็นปกติและการเลือกตัวแปรผ่านแพ็คเกจglmnet มีชุดเครื่องมือที่มีอยู่ใน R สำหรับใช้ net elastic ในโมเดล ARMAX หรือฉันจะต้องหมุนเอง นี่เป็นความคิดที่ดีใช่ไหม แก้ไข: มันสมเหตุสมผลหรือไม่ที่จะคำนวณเงื่อนไข AR และ MA ด้วยตนเอง (พูดถึง AR5 และ MA5) และใช้ glmnet เพื่อให้พอดีกับโมเดลหรือไม่ แก้ไข 2: ดูเหมือนว่าแพ็กเกจFitARทำให้ฉันเป็นส่วนหนึ่ง แต่ไม่ใช่ทั้งหมดในนั้น

3
วิธีการถดถอยแบบฉาก (รวมสี่เหลี่ยมจัตุรัสน้อยที่สุด) ผ่านทาง PCA ได้อย่างไร
ฉันมักจะใช้lm()ในการวิจัยเพื่อดำเนินการถดถอยเชิงเส้นของyyyบนxxxxฟังก์ชั่นที่ส่งกลับค่าสัมประสิทธิ์ββ\betaดังกล่าวว่าy=βx.y=βx.y = \beta x. วันนี้ฉันได้เรียนรู้เกี่ยวกับกำลังสองรวมน้อยที่สุดและสามารถprincomp()ใช้ฟังก์ชัน (การวิเคราะห์องค์ประกอบหลัก, PCA) เพื่อดำเนินการได้ มันควรจะดีสำหรับฉัน (แม่นยำยิ่งขึ้น) ฉันได้ทำการทดสอบโดยใช้princomp()เช่น: r <- princomp( ~ x + y) ปัญหาของฉันคือวิธีการตีความผลลัพธ์ ฉันจะรับสัมประสิทธิ์การถดถอยได้อย่างไร โดย "ค่าสัมประสิทธิ์" ผมหมายถึงจำนวนββ\betaว่าผมจะต้องใช้ในการคูณxxxคุ้มค่าที่จะให้ตัวเลขที่ใกล้เคียงกับปีyyy


3
R: การสุ่มฟอเรสต์การโยน NaN / Inf ในข้อผิดพลาด“ การเรียกฟังก์ชันต่างประเทศ” แม้จะไม่มีชุดข้อมูลของ NaN [ปิด]
ฉันใช้คาเร็ตเพื่อรันฟอเรสต์แบบสุ่มที่ผ่านการตรวจสอบความถูกต้องข้ามชุดข้อมูล ตัวแปร Y เป็นปัจจัย ไม่มีชุดข้อมูลของ NaN, Inf's หรือ NA ในชุดข้อมูลของฉัน อย่างไรก็ตามเมื่อใช้ป่าสุ่มฉันได้รับ Error in randomForest.default(m, y, ...) : NA/NaN/Inf in foreign function call (arg 1) In addition: There were 28 warnings (use warnings() to see them) Warning messages: 1: In data.matrix(x) : NAs introduced by coercion 2: In data.matrix(x) : NAs …

2
ข้อผิดพลาด“ ระบบเป็นเอกพจน์คำนวณ” เมื่อเรียกใช้ glm
ฉันใช้แพ็คเกจฐานข้อมูลที่แข็งแกร่งเพื่อเรียกใช้การประมาณค่า GLM อย่างไรก็ตามเมื่อฉันทำฉันได้รับข้อผิดพลาดต่อไปนี้: Error in solve.default(crossprod(X, DiagB * X)/nobs, EEq) : system is computationally singular: reciprocal condition number = 1.66807e-16 สิ่งนี้หมายความว่า / บ่งชี้? และฉันจะแก้ปัญหาได้อย่างไร PS หากคุณต้องการอะไร (สูตร / ข้อมูลจำเพาะหรือข้อมูล) ที่จะตอบฉันยินดีที่จะให้มัน

1
ค่า“ ความถี่” สำหรับข้อมูลช่วงเวลาวินาที / นาทีใน R
ฉันใช้ R (3.1.1) และโมเดล ARIMA สำหรับการคาดการณ์ ฉันต้องการที่จะรู้ว่าสิ่งที่ควรเป็นพารามิเตอร์ "ความถี่" ซึ่งได้รับมอบหมายในts()ฟังก์ชั่นถ้าฉันใช้ข้อมูลอนุกรมเวลาซึ่งเป็น: คั่นด้วยนาทีและกระจายไปทั่ว 180 วัน (1440 นาที / วัน) คั่นด้วยวินาทีและกระจายไปทั่ว 180 วัน (86,400 วินาที / วัน) ถ้าฉันจำคำจำกัดความได้ถูกต้อง "ความถี่" ใน ts ใน R คือจำนวนการสังเกตต่อ "ซีซัน" คำถามตอนที่ 1: "ฤดูกาล" ในกรณีของฉันคืออะไร หากฤดูกาลคือ "วัน" ดังนั้น "ความถี่" เป็นนาที = 1440 และ 86,400 เป็นวินาทีหรือไม่ คำถามที่ 2: "ความถี่" อาจขึ้นอยู่กับสิ่งที่ฉันพยายามบรรลุ / …

1
การเปรียบเทียบการจัดกลุ่มลำดับชั้นแบบย่อที่ได้จากระยะทางและวิธีการต่าง ๆ
[ชื่อเริ่มต้น "การวัดความคล้ายคลึงกันสำหรับต้นไม้การจัดกลุ่มแบบลำดับชั้น" ถูกเปลี่ยนในภายหลังโดย @ttnphns เพื่อให้สะท้อนหัวข้อได้ดียิ่งขึ้น] ฉันกำลังทำการวิเคราะห์คลัสเตอร์แบบลำดับชั้นจำนวนหนึ่งเกี่ยวกับ dataframe ของบันทึกผู้ป่วย (เช่นคล้ายกับhttp://www.biomedcentral.com/1471-2105/5/126/figure/F1?highres=y ) ฉันกำลังทดลองกับการวัดระยะทางที่แตกต่างกันน้ำหนักของพารามิเตอร์ที่แตกต่างกันและวิธีการลำดับชั้นที่แตกต่างกันเพื่อทำความเข้าใจผลกระทบที่มีต่อกลุ่ม / โครงสร้าง / มุมมองสุดท้ายของต้นไม้ (dendrogram) คำถามของฉันไม่ว่าจะมีการคำนวณมาตรฐาน / การวัดเพื่อคำนวณความแตกต่างระหว่างต้นไม้แบบลำดับชั้นที่แตกต่างกันและวิธีการใช้สิ่งนี้ใน R (เช่นเพื่อหาจำนวนที่ต้นไม้บางต้นเกือบเหมือนกันและแตกต่างกันอย่างมาก)

2
เหตุใดการถดถอยของสันเขา glmnet จึงให้คำตอบที่แตกต่างจากการคำนวณด้วยตนเอง
ฉันใช้ glmnet เพื่อคำนวณการถดถอยของสันเขา ฉันได้ผลลัพธ์บางอย่างที่ทำให้ฉันสงสัยว่า glmnet นั้นกำลังทำสิ่งที่ฉันคิด เพื่อตรวจสอบนี้ฉันเขียนสคริปต์ R ง่าย ๆ ที่ฉันเปรียบเทียบผลลัพธ์ของการถดถอยของสันที่กระทำโดยแก้และหนึ่งใน glmnet ความแตกต่างสำคัญ: n <- 1000 p. <- 100 X. <- matrix(rnorm(n*p,0,1),n,p) beta <- rnorm(p,0,1) Y <- X%*%beta+rnorm(n,0,0.5) beta1 <- solve(t(X)%*%X+5*diag(p),t(X)%*%Y) beta2 <- glmnet(X,Y, alpha=0, lambda=10, intercept=FALSE, standardize=FALSE, family="gaussian")$beta@x beta1-beta2 บรรทัดฐานของความแตกต่างมักจะอยู่ที่ประมาณ 20 ซึ่งไม่สามารถเกิดขึ้นได้เนื่องจากอัลกอริทึมที่แตกต่างกันเชิงตัวเลขฉันต้องทำอะไรผิดพลาด การตั้งค่าใดที่ฉันต้องตั้งค่าglmnetเพื่อให้ได้ผลลัพธ์เช่นเดียวกับสันเขา

3
วิธีรับค่า p โดยรวมและขนาดเอฟเฟกต์สำหรับปัจจัยเชิงหมวดหมู่ในโมเดลผสม (lme4)
ฉันต้องการรับค่า p และขนาดผลกระทบของตัวแปรเด็ดขาดแบบอิสระ (มีหลายระดับ) - นั่นคือ "โดยรวม" และไม่ใช่สำหรับแต่ละระดับแยกกันเช่นเดียวกับเอาต์พุตปกติจากlme4ในอาร์มันเป็นเหมือน สิ่งที่ผู้คนรายงานเมื่อใช้ ANOVA ฉันจะได้รับสิ่งนี้ได้อย่างไร

7
ทำไมและเมื่อสร้างแพ็คเกจ R
ฉันเข้าใจคำถามนี้ค่อนข้างกว้าง แต่ฉันสงสัยว่าอะไรควรเป็นจุดเด็ดขาดในการตัดสินใจสร้างแพคเกจใหม่สำหรับอาร์ (เฉพาะเจาะจง) ฉันจะเพิ่มเติมว่าคำถามไม่เกี่ยวกับเหตุผลที่ ใช้ R ในตัวเองเพิ่มเติมเกี่ยวกับการตัดสินใจรวบรวมสคริปต์ต่างๆและรวมเข้ากับแพ็คเกจใหม่ ในบรรดาประเด็นที่อาจนำไปสู่การตัดสินใจเหล่านี้ฉันได้นึกถึง: การไม่มีอยู่ของแพ็กเกจอื่นในฟิลด์ย่อยเดียวกัน ความจำเป็นในการแลกเปลี่ยนกับนักวิจัยคนอื่นและอนุญาตให้ทำซ้ำการทดลอง; และในบรรดาประเด็นที่อาจนำไปสู่การตัดสินใจที่ตรงกันข้าม: ส่วนหนึ่งของวิธีการที่ใช้ในแพ็คเกจอื่นแล้ว; จำนวนฟังก์ชั่นใหม่ไม่เพียงพอที่จะปรับให้เหมาะสมเพื่อสร้างแพ็คเกจอิสระใหม่ ฉันอาจลืมจุดต่าง ๆ ที่อาจไปในรายการใดรายการหนึ่งและเกณฑ์เหล่านี้ดูเหมือนเป็นส่วนตัว ดังนั้นสิ่งที่คุณจะพูดควรปรับและ ณ จุดที่จะเริ่มรวบรวมฟังก์ชั่นต่างๆและข้อมูลในแพคเกจใหม่เอกสารและกว้างใช้ได้?
28 r  software 

1
จะตีความความแปรปรวนและสหสัมพันธ์ของเอฟเฟกต์แบบสุ่มในโมเดลผสมผลกระทบได้อย่างไร
ฉันหวังว่าคุณคงไม่สนใจคำถามนี้ แต่ฉันต้องการความช่วยเหลือในการตีความเอาต์พุตสำหรับโมเดลเอฟเฟกต์แบบผสมเชิงเส้นฉันพยายามเรียนรู้ที่จะทำในอาร์ฉันยังใหม่กับการวิเคราะห์ข้อมูลตามยาวและการถดถอยเชิงเส้นผสม ฉันมีโมเดลที่เหมาะกับสัปดาห์เป็นตัวทำนายเวลาและให้คะแนนในหลักสูตรการจ้างงานตามผลลัพธ์ของฉัน ฉันทำแบบจำลองคะแนนด้วยสัปดาห์ (เวลา) และผลกระทบคงที่หลายเพศและการแข่งขัน โมเดลของฉันมีเอฟเฟกต์แบบสุ่ม ฉันต้องการความช่วยเหลือในการทำความเข้าใจความหมายของความแปรปรวนและสหสัมพันธ์ ผลลัพธ์มีดังต่อไปนี้: Random effects Group Name Variance EmpId intercept 680.236 weeks 13.562 Residual 774.256 correlaton คือ. 311 ฉันสามารถตีความความสัมพันธ์เนื่องจากมีความสัมพันธ์เชิงบวกระหว่างสัปดาห์และคะแนน แต่ฉันต้องการที่จะสามารถพูดได้ในแง่ของ "23% ของ ... " ฉันขอขอบคุณความช่วยเหลือ ขอบคุณ "แขก" และมาโครที่ตอบกลับ ขออภัยที่ไม่ตอบกลับฉันออกไปประชุมและฉันกำลังติดตาม นี่คือผลลัพธ์และบริบท นี่คือสรุปสำหรับรุ่น LMER ที่ฉันวิ่ง >summary(LMER.EduA) Linear mixed model fit by maximum likelihood Formula: Score ~ …

1
การคำนวณซ้ำของเอฟเฟกต์จากโมเดล lmer
ฉันเพิ่งอ่านบทความนี้ซึ่งอธิบายถึงวิธีการคำนวณความสามารถในการทำซ้ำ (ความน่าเชื่อถือหรือความสัมพันธ์ภายในอินทราเน็ต) ของการวัดผ่านการสร้างแบบจำลองเอฟเฟกต์ผสม รหัส R จะเป็น: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted repeatability R = intercept_var/(intercept_var+residual_var) #compute n0, the repeatability adjustment n = as.data.frame(table(my_data$unit)) k = nrow(n) N = sum(n$Freq) n0 = (N-(sum(n$Freq^2)/N))/(k-1) #compute …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

5
อะไรคืออันตรายของการละเมิดข้อสันนิษฐานเกี่ยวกับความเป็นเนื้อเดียวกันสำหรับการถดถอยเชิงเส้น?
ยกตัวอย่างเช่นพิจารณาChickWeightชุดข้อมูลในอาร์ความแปรปรวนเพิ่มขึ้นตามกาลเวลาดังนั้นหากฉันใช้การถดถอยเชิงเส้นอย่างง่ายเช่น: m <- lm(weight ~ Time*Diet, data=ChickWeight) คำถามของฉัน: รูปแบบใดที่จะเป็นที่น่าสงสัย? ปัญหา จำกัด อยู่ที่การประมาณนอกTimeช่วงหรือไม่? การถดถอยเชิงเส้นมีความอดทนต่อการละเมิดสมมติฐานนี้อย่างไร (กล่าวคือมันจะต้องทำให้เกิดปัญหาแบบ heteroscedastic อย่างไร)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.