คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

3
จะทราบได้อย่างไรว่าอนุกรมเวลาอยู่กับที่หรือหยุดนิ่ง?
ผมใช้ R, ฉันค้นหาใน Google และได้เรียนรู้ว่าkpss.test(), PP.test()และadf.test()มีการใช้ความรู้เกี่ยวกับ stationarity ของอนุกรมเวลา แต่ฉันไม่ใช่นักสถิติที่สามารถตีความผลลัพธ์ของพวกเขาได้ > PP.test(x) Phillips-Perron Unit Root Test data: x Dickey-Fuller = -30.649, Truncation lag parameter = 7, p-value = 0.01 > kpss.test(b$V1) KPSS Test for Level Stationarity data: b$V1 KPSS Level = 0.0333, Truncation lag parameter = 3, p-value = 0.1 Warning …

3
การจัดหมวดหมู่ R เป็นข้อความได้ดีเพียงใด [ปิด]
ฉันพยายามเพิ่มความเร็วให้สูงขึ้นด้วย R. ในที่สุดฉันก็ต้องการใช้ไลบรารี R สำหรับการจำแนกข้อความ ฉันแค่สงสัยว่าประสบการณ์ของผู้คนเกี่ยวข้องกับความสามารถในการปรับขนาดของ R เมื่อพูดถึงการจำแนกข้อความ ฉันมีแนวโน้มที่จะพบข้อมูลมิติสูง (~ 300k มิติ) ฉันกำลังมองหาการใช้ SVM และ Random Forest โดยเฉพาะอย่างยิ่งเป็นอัลกอริทึมการจำแนกประเภท ไลบรารี R จะปรับขนาดตามขนาดปัญหาของฉันหรือไม่ ขอบคุณ แก้ไข 1: เพื่อชี้แจงชุดข้อมูลของฉันมีแนวโน้มที่จะมี 1,000-3,000 แถว (อาจเพิ่มอีกเล็กน้อย) และ 10 คลาส แก้ไข 2: ตั้งแต่ฉันยังใหม่กับ R ฉันจะขอโปสเตอร์ให้เฉพาะเจาะจงมากที่สุดเท่าที่จะเป็นไปได้ ตัวอย่างเช่นหากคุณกำลังแนะนำเวิร์กโฟลว์ / ไปป์ไลน์โปรดตรวจสอบให้แน่ใจว่าได้ระบุถึงไลบรารี R ที่เกี่ยวข้องในแต่ละขั้นตอนถ้าเป็นไปได้ พอยน์เตอร์เพิ่มเติมบางอย่าง (สำหรับตัวอย่างโค้ดตัวอย่าง ฯลฯ ) จะเป็นไอซิ่งบนเค้ก แก้ไข 3: ก่อนอื่นขอขอบคุณทุกคนสำหรับความคิดเห็นของคุณ และประการที่สองฉันขอโทษบางทีฉันควรจะให้บริบทมากขึ้นสำหรับปัญหา …

6
กราฟเส้นมีจำนวนบรรทัดมากเกินไปมีวิธีแก้ไขที่ดีกว่าไหม
ฉันพยายามกราฟจำนวนการกระทำของผู้ใช้ (ในกรณีนี้ "ไลค์") เมื่อเวลาผ่านไป ดังนั้นฉันจึงมี "จำนวนการกระทำ" เป็นแกน y ของฉันแกน x ของฉันคือเวลา (สัปดาห์) และแต่ละบรรทัดแสดงถึงผู้ใช้หนึ่งคน ปัญหาของฉันคือฉันต้องการดูข้อมูลนี้สำหรับกลุ่มผู้ใช้ประมาณ 100 คน กราฟเส้นจะกลายเป็นยุ่งเหยิงอย่างรวดเร็วด้วย 100 บรรทัด มีกราฟชนิดที่ดีกว่าที่ฉันสามารถใช้แสดงข้อมูลนี้หรือไม่ หรือฉันควรดูที่ความสามารถในการสลับเปิด / ปิดแต่ละบรรทัด? ฉันต้องการดูข้อมูลทั้งหมดในครั้งเดียว แต่ความสามารถในการมองเห็นจำนวนการกระทำที่มีความแม่นยำสูงนั้นไม่สำคัญอย่างยิ่ง ทำไมฉันถึงทำสิ่งนี้ สำหรับชุดย่อยของผู้ใช้ของฉัน (ผู้ใช้อันดับต้น ๆ ) ฉันต้องการค้นหาว่าแอปพลิเคชันใดที่อาจไม่ชอบเวอร์ชันใหม่ของแอพพลิเคชั่นที่เปิดตัวในวันที่กำหนด ฉันกำลังมองหาจำนวนการกระทำที่ลดลงอย่างมีนัยสำคัญโดยผู้ใช้แต่ละคน

2
การตีความของ biplots ในการวิเคราะห์องค์ประกอบหลัก
ฉันได้พบกับบทช่วยสอนที่ดีนี้: คู่มือการวิเคราะห์ทางสถิติโดยใช้อาร์บทที่ 13 การวิเคราะห์องค์ประกอบหลัก: โอลิมปิกเซพธาลอนเกี่ยวกับวิธีการทำ PCA ในภาษา R ฉันไม่เข้าใจการตีความรูปที่ 13.3: ดังนั้นฉันจึงวางแผน eigenvector แรกเทียบกับ eigenvector ที่สอง นั่นหมายความว่าอย่างไร? สมมติว่าค่าไอเกนค่าที่สอดคล้องกับไอเกนเวอเตอร์ตัวแรกอธิบาย 60% ของการเปลี่ยนแปลงในชุดข้อมูลและค่าไอเกนค่าที่สอง -Eigenvector อธิบายความแปรปรวน 20% การพล็อตสิ่งเหล่านี้กันหมายความว่าอย่างไร

1
สัญชาตญาณเบื้องหลังการโต้ตอบของผลิตภัณฑ์เทนเซอร์ในเกม (แพ็คเกจ MGCV ใน R)
ทั่วไปรุ่นสารเติมแต่งเป็นคนที่ ตัวอย่างเช่น ฟังก์ชั่นนั้นราบรื่นและสามารถประเมินได้ มักจะถูกลงโทษโดยเส้นโค้ง MGCV เป็นแพ็คเกจใน R ที่ทำเช่นนั้นและผู้แต่ง (Simon Wood) เขียนหนังสือเกี่ยวกับแพ็คเกจของเขาด้วยตัวอย่าง R Ruppert และคณะ (2003) เขียนหนังสือที่เข้าถึงได้ง่ายขึ้นเกี่ยวกับสิ่งที่เรียบง่ายกว่าในสิ่งเดียวกัน y=α+f1(x1)+f2(x2)+eiy=α+f1(x1)+f2(x2)+ei y = \alpha + f_1(x_1) + f_2(x_2) + e_i คำถามของฉันเกี่ยวกับการโต้ตอบภายในแบบจำลองเหล่านี้ ถ้าฉันต้องการทำสิ่งต่อไปนี้: ถ้าเราอยู่ในดินแดน OLS (ที่เป็นเพียงเบต้า) ผมไม่มีปัญหากับการตีความ\หากเราประเมินผ่านเดอร์ไลน์ที่ถูกลงโทษฉันก็ไม่มีปัญหากับการตีความในบริบทเพิ่มเติม ฉฉ 3y=α+f1(x1)+f2(x2)+f3(x1×x2)+eiy=α+f1(x1)+f2(x2)+f3(x1×x2)+ei y = \alpha + f_1(x_1) + f_2(x_2) + f_3(x_1\times x_2) + e_i ffff^3f^3\hat{f}_3 แต่แพ็คเกจ MGCV ใน …

1
การจัดกึ่งกลางสร้างความแตกต่างใน PCA ได้อย่างไร (สำหรับการแยกย่อย SVD และ eigen)
การจัดกึ่งกลาง (หรือลบความหมาย) ข้อมูลของคุณมีความแตกต่างจาก PCA อย่างไร ฉันได้ยินมาว่ามันทำให้คณิตศาสตร์ง่ายขึ้นหรือป้องกันพีซีเครื่องแรกไม่ให้ถูกครอบงำด้วยค่าเฉลี่ยของตัวแปร แต่ฉันรู้สึกว่าฉันยังไม่สามารถเข้าใจแนวคิดได้อย่างมั่นคง ตัวอย่างเช่นคำตอบยอดนิยมที่นี่ข้อมูลที่อยู่ตรงกลางกำจัดการสกัดกั้นในการถดถอยและ PCA ได้อย่างไร อธิบายวิธีที่การไม่อยู่ตรงกลางจะดึง PCA แรกผ่านจุดเริ่มต้นแทนที่จะเป็นแกนหลักของคลาวด์พอยต์ จากความเข้าใจของฉันเกี่ยวกับวิธีที่พีซีได้รับจาก eigenvectors เมทริกซ์ความแปรปรวนร่วมฉันไม่สามารถเข้าใจได้ว่าทำไมสิ่งนี้จึงเกิดขึ้น ยิ่งกว่านั้นการคำนวณของฉันเองที่มีและไม่มีการกำหนดกึ่งกลางดูเหมือนจะไม่สมเหตุสมผล พิจารณาดอกไม้ setosa ในirisชุดข้อมูลใน R. ฉันคำนวณค่าลักษณะเฉพาะและค่าลักษณะเฉพาะของเมทริกซ์ความแปรปรวนร่วมตัวอย่างดังนี้ data(iris) df <- iris[iris$Species=='setosa',1:4] e <- eigen(cov(df)) > e $values [1] 0.236455690 0.036918732 0.026796399 0.009033261 $vectors [,1] [,2] [,3] [,4] [1,] -0.66907840 0.5978840 0.4399628 -0.03607712 [2,] -0.73414783 -0.6206734 …
30 r  pca  svd  eigenvalues  centering 

3
ฉันควรใช้ปัจจัยเงินเฟ้อแปรปรวนใด:หรือ ?
ฉันพยายามที่จะตีความปัจจัยเงินเฟ้อแปรปรวนโดยใช้ฟังก์ชั่นในแพคเกจการvif R carฟังก์ชั่นการพิมพ์ทั้งทั่วไปและ{DF})} ตามไฟล์ช่วยเหลือค่าหลังนี้VIFVIF\text{VIF}GVIF1/(2⋅df)GVIF1/(2⋅df)\text{GVIF}^{1/(2\cdot\text{df})} หากต้องการปรับสำหรับมิติของความเชื่อมั่นวงรีฟังก์ชันยังพิมพ์ GVIF ^ [1 / (2 * df)] โดยที่ df คือองศาอิสระที่เกี่ยวข้องกับคำนั้น ฉันไม่เข้าใจความหมายของคำอธิบายนี้ในไฟล์ช่วยเหลือดังนั้นฉันไม่แน่ใจว่าควรใช้หรือ . สำหรับโมเดลของฉันค่าทั้งสองนี้แตกต่างกันมาก (สูงสุดคือ ~ ; สูงสุดคือ ~ )GVIFGVIF\text{GVIF}GVIF1/(2⋅df)GVIF1/(2⋅df)\text{GVIF}^{1/(2\cdot\text{df})}GVIFGVIF\text{GVIF}606060GVIF1/(2⋅df)GVIF1/(2⋅df)\text{GVIF}^{1/(2\cdot\text{df})}333 มีคนช่วยอธิบายให้ฉันฟังหน่อยได้ไหมว่าฉันควรใช้อะไรดีและอะไรคือความหมายโดยการปรับมิติความเชื่อมั่นของวงรี?

4
อะไรคือความแตกต่างระหว่างการทดสอบของ McNemar กับการทดสอบแบบไคสแควร์และคุณรู้ได้อย่างไรว่าจะใช้เมื่อใด
ฉันได้ลองอ่านจากแหล่งข้อมูลต่าง ๆ แล้ว แต่ฉันยังไม่ชัดเจนว่าการทดสอบใดที่จะเหมาะสมในกรณีของฉัน มีคำถามที่แตกต่างกันสามคำถามที่ฉันถามเกี่ยวกับชุดข้อมูลของฉัน: วิชาถูกทดสอบการติดเชื้อจาก X ในเวลาต่างกัน ฉันต้องการทราบว่าสัดส่วนของการบวกสำหรับ X หลังจากนั้นเกี่ยวข้องกับสัดส่วนการบวกสำหรับ X ก่อนหน้านี้หรือไม่: After |no |yes| Before|No |1157|35 | |Yes |220 |13 | results of chi-squared test: Chi^2 = 4.183 d.f. = 1 p = 0.04082 results of McNemar's test: Chi^2 = 134.2 d.f. = 1 p = 4.901e-31 จากความเข้าใจของฉันเนื่องจากข้อมูลเป็นการวัดซ้ำฉันต้องใช้การทดสอบของ …

5
ความลึกของการโต้ตอบหมายถึงอะไรใน GBM
ฉันมีคำถามเกี่ยวกับพารามิเตอร์ความลึกของการโต้ตอบใน gbm ใน R นี่อาจเป็นคำถาม noob ซึ่งฉันต้องขออภัย แต่พารามิเตอร์ที่ฉันเชื่อว่าหมายถึงจำนวนของโหนดขั้วในต้นไม้โดยทั่วไปบ่งบอกถึงวิธี X ปฏิสัมพันธ์ระหว่างผู้ทำนายหรือไม่ แค่พยายามที่จะเข้าใจวิธีการทำงาน นอกจากนี้ฉันได้รับแบบจำลองที่แตกต่างกันมากถ้าฉันมีชุดข้อมูลที่มีตัวแปรปัจจัยสองตัวที่แตกต่างกันเมื่อเทียบกับชุดข้อมูลเดียวกันยกเว้นตัวแปรตัวประกอบสองตัวนั้นรวมกันเป็นปัจจัยเดียว (เช่นระดับ X ในปัจจัย 1, Y ระดับในปัจจัย 2) ปัจจัย X * Y) หลังมีความหมายมากกว่าเดิม ฉันคิดว่าการเพิ่มความลึกของการมีปฏิสัมพันธ์จะทำให้ความสัมพันธ์นี้ดีขึ้น

2
การตีความพล็อต (glm.model)
ใครช่วยบอกฉันได้ว่าจะตีความ 'ส่วนที่เหลือเทียบพอดี', 'ปกติ q-q', 'มาตราส่วนที่ตั้ง' และ 'ส่วนที่เหลือเทียบกับความสามารถในการแปลง'? ฉันกำลังจัดวาง GLM แบบทวินามให้เหมาะสมแล้วบันทึกและวางแผนใหม่

5
วิธีจัดการกับข้อมูลแบบลำดับชั้น / ซ้อนในการเรียนรู้ของเครื่อง
ฉันจะอธิบายปัญหาด้วยตัวอย่าง สมมติว่าคุณต้องการที่จะทำนายรายได้ของแต่ละบุคคลที่มีคุณลักษณะบางอย่าง: {อายุ, เพศ, ประเทศ, ภูมิภาค, เมือง} คุณมีชุดข้อมูลการฝึกอบรมเช่นนั้น train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train CountryID RegionID CityID Age Gender Income 1 1 1 1 23 M 31 2 1 1 1 48 F 42 3 …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

1
ข้อผิดพลาดมาตรฐานคำนวณอย่างไรสำหรับค่าติดตั้งจากการถดถอยโลจิสติก
เมื่อคุณทำนายค่าที่ติดตั้งจากตัวแบบการถดถอยโลจิสติกจะคำนวณข้อผิดพลาดมาตรฐานอย่างไร ฉันหมายถึงค่าติดตั้งไม่ใช่สำหรับค่าสัมประสิทธิ์ (ซึ่งเกี่ยวข้องกับเมทริกซ์ข้อมูลฟิชเชอร์) ฉันค้นพบวิธีรับตัวเลขด้วยเท่านั้นR(เช่นที่นี่ในวิธีใช้ r-help หรือที่นี่ใน Stack Overflow) แต่ฉันไม่สามารถหาสูตรได้ pred <- predict(y.glm, newdata= something, se.fit=TRUE) หากคุณสามารถให้แหล่งข้อมูลออนไลน์ (ควรอยู่บนเว็บไซต์มหาวิทยาลัย) นั่นจะเป็นสิ่งที่ยอดเยี่ยม

1
การเลือกคุณสมบัติและรุ่นที่มี glmnet บนข้อมูล Methylation (p >> N)
ฉันต้องการใช้ GLM และ Elastic Net เพื่อเลือกคุณลักษณะที่เกี่ยวข้องเหล่านั้น + สร้างแบบจำลองการถดถอยเชิงเส้น (เช่นทั้งการคาดคะเนและความเข้าใจดังนั้นมันจะดีกว่าถ้าปล่อยให้มีพารามิเตอร์ค่อนข้างน้อย) ผลลัพธ์จะต่อเนื่อง มันคือยีนต่อราย ฉันได้อ่านเกี่ยวกับแพ็คเกจแล้ว แต่ฉันไม่แน่ใจ 100% เกี่ยวกับขั้นตอนการปฏิบัติตาม:200002000020000505050glmnet ดำเนินการ CV เพื่อเลือกแลมบ์ดา: cv <- cv.glmnet(x,y,alpha=0.5) (Q1) เมื่อได้รับข้อมูลอินพุตแล้วคุณจะเลือกค่าอัลฟาที่ต่างออกไปหรือไม่ (Q2)ฉันต้องทำอย่างอื่นก่อนสร้างแบบจำลองหรือไม่ พอดีกับรุ่น: model=glmnet(x,y,type.gaussian="covariance",lambda=cv$lambda.min) (Q3) มีอะไรดีไปกว่า "ความแปรปรวนร่วม" หรือไม่? (Q4)หากเลือกแลมบ์ดาโดย CV ทำไมขั้นตอนนี้จึงจำเป็นต้องใช้nlambda=? (Q5)ดีกว่าที่จะใช้lambda.minหรือlambda.1se? รับค่าสัมประสิทธิ์เพื่อดูว่าพารามิเตอร์ใดมีหลุด ("."): predict(model, type="coefficients") ในหน้าช่วยเหลือมีหลายpredictวิธีการ (เช่นpredict.fishnet, predict.glmnet, predict.lognetฯลฯ ) แต่มีคำว่า "ธรรมดา" ทำนายตามที่ฉันเห็นในตัวอย่าง (Q6)ฉันควรใช้predictหรือpredict.glmnetอื่น ๆ หรือ? แม้จะเป็นสิ่งที่ฉันได้อ่านเกี่ยวกับวิธีการทำให้เป็นมาตรฐาน …

2
คำนวณ Transition Matrix (Markov) ใน R
มีวิธีใน R (ฟังก์ชันในตัว) ในการคำนวณเมทริกซ์การเปลี่ยนแปลงสำหรับ Markov Chain จากชุดการสังเกตหรือไม่? ตัวอย่างเช่นการใช้ชุดข้อมูลดังต่อไปนี้และคำนวณเมทริกซ์การเปลี่ยนแปลงคำสั่งแรก? dat<-data.frame(replicate(20,sample(c("A", "B", "C","D"), size = 100, replace=TRUE)))
29 r  markov-process 

3
ฉันสามารถใช้การทดสอบใดในการเปรียบเทียบความชันจากแบบจำลองการถดถอยสองแบบขึ้นไป
ฉันต้องการทดสอบความแตกต่างในการตอบสนองของตัวแปรสองตัวต่อตัวทำนายหนึ่งตัว นี่คือตัวอย่างที่ทำซ้ำได้น้อยที่สุด library(nlme) ## gls is used in the application; lm would suffice for this example m.set <- gls(Sepal.Length ~ Petal.Width, data = iris, subset = Species == "setosa") m.vir <- gls(Sepal.Length ~ Petal.Width, data = iris, subset = Species == "virginica") m.ver <- gls(Sepal.Length ~ Petal.Width, data = iris, …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.