คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

1
ความแตกต่างระหว่าง PROC Mixed และ lme / lmer ใน R - degree of freedom
หมายเหตุ: คำถามนี้เป็นคำถามใหม่เนื่องจากต้องลบคำถามก่อนหน้านี้ด้วยเหตุผลทางกฎหมาย ในขณะที่เปรียบเทียบ PROC MIXED จาก SAS กับฟังก์ชันlmeจากnlmeแพ็คเกจใน R ฉันพบความแตกต่างที่ค่อนข้างสับสน โดยเฉพาะอย่างยิ่งองศาอิสระในการทดสอบที่แตกต่างกันระหว่างPROC MIXEDและlmeและฉันสงสัยว่าทำไม เริ่มจากชุดข้อมูลต่อไปนี้ (รหัส R ระบุด้านล่าง): ind: ปัจจัยบ่งชี้บุคคลที่จะทำการวัด fac: อวัยวะที่ใช้ทำการวัด trt: ปัจจัยบ่งชี้การรักษา y: ตัวแปรตอบสนองต่อเนื่องบางอย่าง ความคิดคือการสร้างแบบจำลองง่ายๆดังต่อไปนี้: y ~ trt + (ind): indเป็นปัจจัยสุ่ม y ~ trt + (fac(ind)): facซ้อนกันindเป็นปัจจัยสุ่ม โปรดทราบว่ารุ่นสุดท้ายที่ควรทำให้เกิดเอกเป็นมีเพียง 1 ค่าของyสำหรับการรวมกันของทุกและindfac แบบจำลองแรก ใน SAS ฉันสร้างโมเดลต่อไปนี้: PROC MIXED data=Data; CLASS ind fac …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

1
Logistic quantile regression - วิธีการถ่ายทอดผลลัพธ์
ในโพสต์ก่อนหน้านี้ฉันสงสัยว่าจะจัดการกับคะแนน EQ-5D ได้อย่างไร เมื่อเร็ว ๆ นี้ฉันได้พบกับการถดถอยเชิงปริมาณของโลจิสติกส์ที่Bottai และ McKeownแนะนำซึ่งนำเสนอวิธีการที่ยอดเยี่ยมในการจัดการกับผลลัพธ์ที่ถูกผูกไว้ สูตรง่าย: l o gฉันt ( y) = l o g( y- ym ฉันnYm a x- y)logit(y)=log(y−yminymax−y)logit(y)=log(\frac{y-y_{min}}{y_{max}-y}) เพื่อหลีกเลี่ยงการเข้าสู่ระบบ (0) และการหารด้วย 0 คุณขยายช่วงโดยมีค่าขนาดเล็กεสิ่งนี้ทำให้สภาพแวดล้อมที่เคารพขอบเขตของคะแนนεϵ\epsilon ปัญหาคือว่าใด ๆจะอยู่ในขนาด logit และที่ไม่ได้ทำให้รู้สึกใด ๆ เว้นแต่เปลี่ยนกลับเข้าสู่ระดับปกติ แต่นั่นหมายความว่าβจะไม่เชิงเส้น สำหรับจุดประสงค์ในการสร้างกราฟสิ่งนี้ไม่สำคัญ แต่ไม่ได้มีมากกว่าβ : s สิ่งนี้จะไม่สะดวกมากββ\betaββ\betaββ\beta คำถามของฉัน: คุณแนะนำให้รายงาน logit โดยไม่รายงานการขยายเต็มได้อย่างไรββ\beta ตัวอย่างการนำไปปฏิบัติ สำหรับการทดสอบการใช้งานฉันได้เขียนแบบจำลองโดยใช้ฟังก์ชั่นพื้นฐานนี้: outcome=β0+β1∗xtest3+β2∗sexoutcome=β0+β1∗xtest3+β2∗sexoutcome=\beta_0+\beta_1* xtest^3+\beta_2*sex β0=0β0=0\beta_0 …

1
การประมาณการแจกแจงจากข้อมูล
ฉันมีตัวอย่างของข้อมูลที่สร้างขึ้นRโดยrnorm(50,0,1)ดังนั้นข้อมูลที่เห็นได้ชัดก็คือการแจกแจงแบบปกติ อย่างไรก็ตามRไม่ "รู้" ข้อมูลการแจกจ่ายนี้เกี่ยวกับข้อมูล มีวิธีการRที่สามารถประมาณการกระจายตัวอย่างของฉันมาจากไหน? ถ้าไม่ฉันจะใช้shapiro.testฟังก์ชั่นและดำเนินการต่อ
12 r  distributions 

1
การถดถอยกำลังสองน้อยที่สุดบางส่วนใน R: ทำไม PLS กับข้อมูลมาตรฐานไม่เทียบเท่ากับการเพิ่มความสัมพันธ์สูงสุด
ฉันใหม่มากในบางส่วนกำลังสองน้อยที่สุด (PLS) และฉันพยายามที่จะเข้าใจผลลัพธ์ของฟังก์ชัน R plsr()ในplsแพ็คเกจ ให้เราจำลองข้อมูลและเรียกใช้ PLS: library(pls) n <- 50 x1 <- rnorm(n); xx1 <- scale(x1) x2 <- rnorm(n); xx2 <- scale(x2) y <- x1 + x2 + rnorm(n,0,0.1); yy <- scale(y) p <- plsr(yy ~ xx1+xx2, ncomp=1) ฉันคาดหวังว่าตัวเลขต่อไปนี้aaaและbbb > ( w <- loading.weights(p) ) Loadings: Comp 1 xx1 …

2
RFM และการสร้างแบบจำลองมูลค่าตลอดชีวิตของลูกค้าใน R
ใครช่วยบอกวิธีการสร้างแบบจำลองความใหม่ความถี่และค่าเงิน (RFM) และการสร้างแบบจำลองมูลค่าลูกค้าใน R นอกจากนี้มีใครบางคนสามารถอ้างอิงวรรณกรรมบางอย่างกับฉันได้หรือไม่

3
ชุดข้อมูลที่เป็นภาพประกอบและการวิเคราะห์สำหรับการสร้างแบบจำลองหลายระดับ
ฉันเพิ่งเข้าเรียนหลักสูตรเบื้องต้นเกี่ยวกับการสร้างแบบจำลองหลายระดับ ชุดข้อมูลและตัวอย่างส่วนใหญ่ที่เราใช้นั้นมาจากสังคมศาสตร์ ฉันเพิ่งฝึกงาน 2 สัปดาห์ในแผนกชีวสถิติที่พวกเขาต้องการให้ฉันเริ่มโครงการที่เกี่ยวข้องกับการเปลี่ยนแปลงในระดับที่โรงพยาบาลของผู้ป่วยสำหรับภาวะฉุกเฉินที่มีอัตราการตายสูงทั้งระหว่างโรงพยาบาลและ 5 ปีขึ้นไป ช่วงเวลา. ฉันเริ่มฝึกงานในสัปดาห์หน้าและฉันหวังว่าจะหาหนังสือหรือแหล่งข้อมูลออนไลน์ที่มีการวิเคราะห์ที่คล้ายกัน (ควรใช้กับ R, Stata หรือ MLwiN) โดยเฉพาะอย่างยิ่งที่พวกเขามีชุดข้อมูลสำหรับผู้อ่าน ลิงค์ใด ๆ ที่จะได้รับการต้อนรับมากที่สุด แก้ไข: ฉันจะทำงานกับชุดข้อมูลที่มีรายละเอียดทุกแง่มุมที่บันทึกไว้ของการดูแลในโรงพยาบาลของผู้ป่วย ผลลัพธ์หลักที่น่าสนใจคือการเสียชีวิตภายใน 30 วันนับจากวันรับเข้าเรียน

2
SVM ที่มีขนาดกลุ่มไม่เท่ากันในข้อมูลการฝึกอบรม
ฉันกำลังพยายามสร้าง SVM จากข้อมูลการฝึกอบรมซึ่งมีกลุ่มหนึ่งแสดงมากกว่ากลุ่มอื่น อย่างไรก็ตามกลุ่มจะถูกนำเสนออย่างเท่าเทียมกันในข้อมูลการทดสอบในที่สุด ดังนั้นฉันต้องการใช้class.weightsพารามิเตอร์ของe1071ส่วนต่อประสาน R libsvmเพื่อความสมดุลระหว่างอิทธิพลของทั้งสองกลุ่มในข้อมูลการฝึกอบรม เนื่องจากฉันไม่แน่ใจว่าจะระบุน้ำหนักเหล่านี้ได้อย่างไรฉันจึงทำการทดสอบเล็กน้อย: สร้างข้อมูลที่มีค่าว่างบางส่วน (คุณสมบัติแบบสุ่มอัตราส่วน 2: 1 ระหว่างป้ายกำกับกลุ่ม) พอดี svm ด้วยclass.weightsชุดพารามิเตอร์ ทำนายชุดข้อมูลว่างใหม่จำนวนหนึ่งและดูสัดส่วนของคลาส ทำซ้ำกระบวนการทั้งหมดหลายครั้งสำหรับชุดการฝึกอบรมแบบ null ที่แตกต่างกัน นี่คือรหัส R ที่ฉันใช้: nullSVM <- function(n.var, n.obs) { # Simulate null training data vars = matrix(rnorm(n.var*n.obs), nrow=n.obs) labels = rep(c('a', 'a', 'b'), length.out=n.obs) data = data.frame(group=labels, vars) # Fit SVM …

2
อินทิกรัลประมาณโดยใช้การจำลองมอนติคาร์โลใน R
ฉันจะประมาณอินทิกรัลต่อไปนี้โดยใช้การจำลอง MC ได้อย่างไร ∫1−1∫1−1|x−y|dxdy∫−11∫−11|x−y|dxdy \int_{-1}^{1} \int_{-1}^{1} |x-y| \,\mathrm{d}x \,\mathrm{d}y ขอบคุณ! แก้ไข (บางบริบท): ฉันกำลังพยายามเรียนรู้วิธีใช้การจำลองเพื่อการอินทิเกรตโดยประมาณและฉันได้รับการฝึกฝนเมื่อฉันประสบปัญหาบางอย่าง แก้ไข 2 + 3 : อย่างใดฉันก็สับสนและคิดว่าฉันต้องแยกอินทิกรัลเป็นส่วนแยก ดังนั้นฉันคิดออกจริง: n <- 15000 x <- runif(n, min=-1, max=1) y <- runif(n, min=-1, max=1) mean(4*abs(x-y))

3
การอ่านเพียงสองในสามคอลัมน์ด้วย read.csv
ล็อคแล้ว คำถามและคำตอบของคำถามนี้ถูกล็อคเนื่องจากคำถามอยู่นอกหัวข้อ แต่มีความสำคัญทางประวัติศาสตร์ ขณะนี้ไม่ยอมรับคำตอบหรือการโต้ตอบใหม่ ฉันมีชุดข้อมูล ascii ซึ่งประกอบด้วยสามคอลัมน์ แต่มีเพียงสองชุดสุดท้ายเท่านั้นที่เป็นข้อมูลจริง ตอนนี้ผมต้องการที่จะสร้าง dotchart read.csv(file = "result1", sep= " ")ของข้อมูลโดยใช้ R อ่านทั้งสามคอลัมน์ ฉันจะหลีกเลี่ยงสิ่งนี้ได้อย่างไร
12 r 

4
การพยากรณ์อนุกรมเวลาไบนารี
ฉันมีซีรี่ย์เวลาแบบไบนารี่ด้วย 1 เมื่อรถไม่เคลื่อนที่และ 0 เมื่อรถเคลื่อนที่ ฉันต้องการพยากรณ์ล่วงหน้าเป็นเวลานานถึง 36 ชั่วโมงและทุกชั่วโมง วิธีแรกของฉันคือใช้ Naive Bayes โดยใช้ข้อมูลต่อไปนี้: t-24 (ทุกวันตามฤดูกาล), t-48 (ฤดูกาลประจำสัปดาห์), ชั่วโมงของวัน อย่างไรก็ตามผลลัพธ์ไม่ดีมาก คุณแนะนำบทความหรือซอฟต์แวร์ใดสำหรับปัญหานี้

2
จะระบุความแตกต่างที่เฉพาะเจาะจงสำหรับการวัด ANOVA ซ้ำโดยใช้รถยนต์ได้อย่างไร
ฉันพยายามเรียกใช้มาตรการ Anova ใน R ซ้ำแล้วตามด้วยความแตกต่างเฉพาะบนชุดข้อมูลนั้น ฉันคิดว่าวิธีที่ถูกต้องน่าจะใช้ Anova()จากแพ็คเกจรถ ช่วยให้แสดงคำถามของฉันพร้อมตัวอย่างที่นำมาจากการ?Anovaใช้ OBrienKaiserข้อมูล (หมายเหตุ: ฉันสรุปปัจจัยทางเพศจากตัวอย่าง): เรามีการออกแบบที่มีปัจจัยหนึ่งระหว่างวิชาการรักษา (3 ระดับ: การควบคุม A, B) และซ้ำ 2 - วัด (ภายในวิชา) ปัจจัยระยะ (3 ระดับ: แบบทดสอบก่อนเรียนหลังการติดตาม) และชั่วโมง (5 ระดับ: 1 ถึง 5) ตาราง ANOVA มาตรฐานมอบให้โดย (แตกต่างจากตัวอย่าง (Anova) ฉันเปลี่ยนเป็น Type 3 Sums of Squares นั่นคือสิ่งที่สาขาของฉันต้องการ): require(car) phase <- factor(rep(c("pretest", "posttest", "followup"), …

2
การวาดกราฟแท่งหลายอันบนกราฟใน R [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน4 ปีที่แล้ว ฉันต้องการพล็อตกราฟแท่งสี่แท่งบนกราฟเดี่ยวในอาร์ฉันใช้รหัสต่อไปนี้ ในที่นี้จะรักษาตำนานไว้บนกราฟได้อย่างไรโดยเฉพาะตำนานควรอยู่ระหว่าง 2 และ 3 barplots ฉันลองด้วยpar(mar=c(4.1,4.1,8.1,4.1)แต่ก็ไม่ประสบความสำเร็จ ยิ่งไปกว่านั้นฉันยังพยายามวิ่งlegend()ตามบาร์ปล็อตที่สอง แต่ไม่มีประโยชน์ ตำนานสำหรับทั้งสี่ barplots โปรดช่วยฉันในเรื่องนี้ par(mfrow=c(1,4)) barplot(t(A), beside=T, ylim=c(-100,100),..) barplot(t(B), beside=T, ylim=c(-100,100),..) barplot(t(C), beside=T, ylim=c(-100,100),..) barplot(t(D), beside=T, ylim=c(-100,100),..) legend(...)

9
หนังสือสำหรับภาพรวมทั่วไปและแนวคิดของวิธีการทางสถิติ
ฉันสนใจเกี่ยวกับศักยภาพของการวิเคราะห์ทางสถิติสำหรับการจำลอง / การพยากรณ์ / การประเมินฟังก์ชั่น ฯลฯ อย่างไรก็ตามฉันไม่รู้อะไรมากเกี่ยวกับเรื่องนี้และความรู้ทางคณิตศาสตร์ของฉันยังค่อนข้าง จำกัด - ฉันเป็นนักศึกษาระดับปริญญาตรีด้านวิศวกรรมซอฟต์แวร์ ฉันกำลังมองหาหนังสือที่จะให้ฉันเริ่มต้นกับบางสิ่งที่ฉันอ่านต่อไป: การถดถอยเชิงเส้นและการถดถอยแบบอื่น ๆ วิธีการแบบเบส์วิธีการมอนเต้คาร์โลการเรียนรู้ของเครื่อง ฯลฯ ฉันก็ต้องการเริ่มต้นด้วย R เช่นกัน มีหนังสือเล่มหนึ่งที่รวมทั้งสองอย่างนี้เข้าด้วยกัน โดยเฉพาะอย่างยิ่งฉันต้องการให้หนังสืออธิบายสิ่งต่าง ๆ ในเชิงแนวคิดและไม่ได้อยู่ในรายละเอียดทางเทคนิคมากเกินไป - ฉันต้องการให้สถิติใช้งานได้ง่ายสำหรับฉันเพราะฉันเข้าใจว่ามีสถิติความเสี่ยงที่ผิดพลาดจำนวนมาก ฉันอยู่นอกหลักสูตรยินดีที่จะอ่านหนังสือมากขึ้นเพื่อปรับปรุงความเข้าใจในหัวข้อที่ฉันเห็นว่ามีค่า

2
การจัดกลุ่มข้อมูลเชิงพื้นที่ใน R
ฉันมีชุดข้อมูลอุณหภูมิพื้นผิวทะเล (SST) รายเดือนและฉันต้องการใช้วิธีการคลัสเตอร์บางอย่างเพื่อตรวจหาภูมิภาคที่มีรูปแบบ SST ที่คล้ายกัน ฉันมีชุดของไฟล์ข้อมูลรายเดือนที่ใช้งานตั้งแต่ปี 1985 ถึง 2009 และต้องการใช้การจัดกลุ่มกับแต่ละเดือนเป็นขั้นตอนแรก แต่ละไฟล์มีข้อมูลที่ gridded สำหรับ 3,584,16 จุดที่ประมาณ 50% เป็นที่ดินและมีการทำเครื่องหมายด้วยค่า 99.99 ที่จะเป็น NA รูปแบบข้อมูลคือ: lon lat sst -10.042 44.979 12.38 -9.998 44.979 12.69 -9.954 44.979 12.90 -9.910 44.979 12.90 -9.866 44.979 12.54 -9.822 44.979 12.37 -9.778 44.979 12.37 -9.734 44.979 12.51 -9.690 44.979 …
12 r  clustering  spatial 

1
ทดสอบความเท่าเทียมกันของแบบจำลองที่ไม่ซ้อนกัน
สมมติว่าเป็นฟังก์ชันเชิงเส้นของxและหุ่นd สมมติฐานของฉันอยู่ที่dตัวเองเป็นเหมือนดัชนีประสมของเวกเตอร์ของตัวแปรอื่น ๆ Z ผมได้รับการสนับสนุนในการนี้ในM N O VของZ (เช่นซี1 , ซี2 , ... , Z n ) บนd มีวิธีใดที่จะทดสอบความเท่ากันของโมเดลทั้งสองนี้:yyyxxxddddddZZZMANOVAMANOVAMANOVAZZZz1z1z_1z2z2z_2znznz_nddd รุ่น 1: y=b0+b1⋅x+b2⋅d+e1y=b0+b1⋅x+b2⋅d+e1y = b_0 + b_1 \cdot x + b_2\cdot d + e_1 รุ่น 2: y=g0+Z⋅G+e2y=g0+Z⋅G+e2y = g_0 + Z\cdot G + e_2 โดยที่คือเวกเตอร์คอลัมน์ของพารามิเตอร์GGG

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.