คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

3
วิธีที่เหมาะสมในการจัดการกับตารางฉุกเฉิน 3 ระดับ
ฉันมีตารางฉุกเฉินสามระดับโดยมีข้อมูลการนับสปีชีส์หลายชนิดพืชโฮสต์ที่พวกเขาถูกรวบรวมและการสะสมนั้นเกิดขึ้นในวันที่ฝนตกหรือไม่ (อันนี้สำคัญจริงๆ!) เมื่อใช้ R ข้อมูลปลอมอาจเป็นดังนี้: count <- rpois(8, 10) species <- rep(c("a", "b"), 4) host <- rep(c("c","c", "d", "d"), 2) rain <- c(rep(0,4), rep(1,4)) my.table <- xtabs(count ~ host + species + rain) , , rain = 0 species host a b c 12 15 d 10 13 , , …

7
แพ็คเกจการขุดข้อความสำหรับ R คืออะไรและมีโปรแกรมขุดข้อความโอเพ่นซอร์สอื่น ๆ อีกหรือไม่
คุณสามารถแนะนำแพ็คเกจการขุดข้อความใน R ที่สามารถใช้กับข้อมูลจำนวนมากได้หรือไม่? ประการที่สองมี GUI สำหรับแพ็คเกจการขุดข้อความใน R หรือไม่? ประการที่สามมีอีกโปรแกรมขุดข้อความโอเพนซอร์สที่ใช้งานง่ายและใช้งานง่ายหรือไม่
12 r  text-mining 

4
การวิเคราะห์ข้อมูลลมด้วย R
สวัสดีฉันกำลังทำการวิเคราะห์ข้อมูลลมเพื่อประเมินพลังงานจากกังหันลม ฉันใช้เวลา 10 ปีของข้อมูลลมและทำกราฟฮิสโตแกรม ขั้นตอนที่สองของฉันคือการกระจายข้อมูล Weibull ให้พอดีกับข้อมูล ฉันใช้ R พร้อมแพ็คเกจlmomเพื่อคำนวณรูปร่าง Weibul และมาตราส่วนนี่คือรหัสที่ฉันใช้: >library(lmom) wind.moments<-samlmu(as.numeric(pp$WS)) moments<-pelwei(wind.moments) x.wei<-rweibull(n=length(pp$WS), shape=moments["delta"], scale=moments["beta"]) hist(as.numeric(pp$WS), freq=FALSE) lines(density(x.wei), col="red", lwd=4) ดูเหมือนว่ามีความล่าช้าระหว่างข้อมูลและฟังก์ชันความหนาแน่น คุณช่วยฉันได้ไหม คำถามอื่นคือคุณสามารถช่วยฉันในการคำนวณพลังงานประจำปีจากฟังก์ชันความหนาแน่นได้หรือไม่ ขอบคุณ
12 r  distributions 

4
การตั้งค่า Sweave, R, ลาเท็กซ์, Eclipse StatET [ปิด]
ปิด. คำถามนี้เป็นคำถามปิดหัวข้อ ไม่ยอมรับคำตอบในขณะนี้ ต้องการปรับปรุงคำถามนี้หรือไม่ อัปเดตคำถามเพื่อให้เป็นไปตามหัวข้อสำหรับการตรวจสอบข้าม ปิดให้บริการใน3 ปีที่ผ่านมา ไม่กี่วันที่ผ่านมาฉันเห็นโพสต์เกี่ยวกับวิธีตั้งค่า SweaveR ซึ่งจะอนุญาตให้ผู้ใช้ส่งออกสิ่งต่าง ๆ โดยตรงเช่นตารางกราฟ ฯลฯ ไปยัง Latex ฉันไม่สามารถทำตามคำแนะนำได้ ทุกคนสามารถให้คำแนะนำทีละขั้นตอนเกี่ยวกับวิธีการทำได้ทั้ง Mac และ Windows
12 r 

2
Split-Plot ANOVA: การทดสอบเปรียบเทียบแบบใน R
ฉันจะทดสอบเอฟเฟกต์ใน ANOVA แบบแยกส่วนได้อย่างไรโดยใช้การเปรียบเทียบแบบจำลองที่เหมาะสมสำหรับใช้กับXและMข้อโต้แย้งของanova.mlm()ใน R ฉันคุ้นเคยกับ?anova.mlmDalgaard (2007) [1] น่าเสียดายที่มันมีเฉพาะแปรงแบบแยกส่วน การทำเช่นนี้ในการออกแบบแบบสุ่มอย่างสมบูรณ์ด้วยสองปัจจัยภายในวิชา: N <- 20 # 20 subjects total P <- 3 # levels within-factor 1 Q <- 3 # levels within-factor 2 DV <- matrix(rnorm(N* P*Q), ncol=P*Q) # random data in wide format id <- expand.grid(IVw1=gl(P, 1), IVw2=gl(Q, 1)) # intra-subjects layout …

1
การกรองดาต้าเฟรม
ยังคงเรียนรู้ฟังก์ชันพื้นฐานใน R ฟังก์ชั่นชุดย่อยดูเหมือนว่าจะกรองตามเงื่อนไขตามคอลัมน์เดียวโดยมีหรือไม่มีเงื่อนไขหลายข้อ? ฉันจะกรองข้อมูลจาก dataframe ได้อย่างไร เมื่อคุณได้รับเงื่อนไขที่หลากหลาย เมื่อเงื่อนไขจะต้องมีการใช้ข้ามคอลัมน์ที่มีอยู่ ตัวอย่าง: กำหนดกรอบข้อมูลที่มี name D1 D2 D3 D4 julius "A" "A" "B" "B" cate "D" "E" "A" "C" karo "A" "D" "C" "E" บอกว่าฉันต้องการที่จะกรอง dataframe นี้เพื่อให้เฉพาะชื่อที่ใด ๆ ของ D1 ถึง D4 เป็น 'E' แล้วฉันควรจะมี name D1 D2 D3 D4 cate "D" "E" "A" …
12 r 

2
เราจะทำแบบทดสอบสมมติฐาน MCMC กับแบบจำลองการถดถอยแบบผสมเอฟเฟกต์ด้วยความชันแบบสุ่มได้อย่างไร
ไลบรารี่ languageR จัดเตรียมวิธีการ (pvals.fnc) เพื่อทำการทดสอบ MCMC อย่างมีนัยสำคัญของเอฟเฟกต์คงที่ในรูปแบบการถดถอยเอฟเฟกต์เอฟเฟกต์แบบพอดีโดยใช้ lmer อย่างไรก็ตาม pvals.fnc ให้ข้อผิดพลาดเมื่อโมเดล lmer มีความลาดชันแบบสุ่ม มีวิธีการทำแบบทดสอบสมมติฐาน MCMC ของแบบจำลองดังกล่าวหรือไม่? ถ้าเป็นเช่นนั้นได้อย่างไร (หากได้รับคำตอบคำตอบควรมีตัวอย่างการทำงานใน R) ถ้าไม่มีเหตุผลทางความคิด / การคำนวณว่าทำไมไม่มีทาง? คำถามนี้อาจเกี่ยวข้องกับคำถามนี้แต่ฉันไม่เข้าใจเนื้อหาที่นั่นเพียงพอที่จะแน่ใจ แก้ไข 1 : หลักฐานของแนวคิดที่แสดงว่า pvals.fnc () ยังคงทำ 'บางสิ่งบางอย่าง' กับโมเดล lme4 แต่มันไม่ได้ทำอะไรกับแบบจำลองความชันแบบสุ่ม library(lme4) library(languageR) #the example from pvals.fnc data(primingHeid) # remove extreme outliers primingHeid = primingHeid[primingHeid$RT < 7.1,] …

5
การจำแนกประเภทที่ดีกว่าของค่าเริ่มต้นในการถดถอยโลจิสติก
การเปิดเผยแบบเต็ม: นี่คือการบ้าน ฉันได้รวมลิงก์ไปยังชุดข้อมูล ( http://www.bertelsen.ca/R/logistic-regression.sav ) เป้าหมายของฉันคือการเพิ่มการคาดการณ์ของผู้ชำระหนี้ในชุดข้อมูลนี้ ทุกรุ่นที่ฉันคิดมานั้นคาดการณ์> 90% ของผู้ไม่ defaulters แต่ <40% ของผู้ defaulters ทำให้ประสิทธิภาพการจำแนกโดยรวมประมาณ 80% ดังนั้นฉันสงสัยว่ามีผลกระทบระหว่างการโต้ตอบตัวแปรหรือไม่ ภายในการถดถอยแบบโลจิสติกส์นอกเหนือจากการทดสอบชุดค่าผสมที่เป็นไปได้แต่ละวิธีมีวิธีการระบุผลกระทบที่อาจเกิดขึ้นจากการโต้ตอบ หรืออีกวิธีหนึ่งในการเพิ่มประสิทธิภาพของการจำแนกประเภทของ defaulters ฉันติดอยู่คำแนะนำใด ๆ จะเป็นประโยชน์ในการเลือกคำ R-code หรือไวยากรณ์ SPSS ของคุณ ตัวแปรหลักของฉันอยู่ในฮิสโทแกรมและสแกตเตอร์ล็อตต่อไปนี้ (ยกเว้นตัวแปร dichotomous) คำอธิบายของตัวแปรหลัก: age: Age in years employ: Years with current employer address: Years at current address income: Household income in …
12 r  logistic  spss  self-study 

2
การวิเคราะห์รายการสำหรับมือใหม่ R
ฉันพยายามประเมินการทดสอบตัวเลือกหลายรายการ 20 ข้อ ฉันต้องการทำการวิเคราะห์รายการเช่นสามารถพบได้ในตัวอย่างนี้ ดังนั้นสำหรับคำถามแต่ละข้อฉันต้องการค่า P และค่าสหสัมพันธ์กับผลรวมและการกระจายตัวเลือกที่เลือก ฉันไม่รู้อะไรเกี่ยวกับแพคเกจซอฟต์แวร์ทางสถิติที่หลากหลาย แต่ฉันต้องการใช้ R เนื่องจากฉันพอใจกับการเขียนโปรแกรมและ R เป็นโอเพ่นซอร์ส หลอกเวิร์กโฟลว์ที่ฉันจินตนาการคือ: เตรียมข้อมูลใน excel และส่งออกเป็น CSV โหลดข้อมูลใน R โหลดแพ็คเกจที่ทำในสิ่งที่ฉันต้องการ รันคำสั่งของแพ็คเกจนั้น ส่งออกและรายงาน ฉันมั่นใจกับ 1 และ 2 แต่มีปัญหากับ 3 อาจเป็นเพราะฉันไม่มีคำศัพท์เชิงสถิติเพื่อเปรียบเทียบแพ็กเกจที่ฉันเรียกดูบน CRAN ltmดูเหมือนว่าจะเป็นแพ็คเกจที่ถูกต้อง แต่ฉันก็บอกไม่ได้ แพคเกจใดที่ใช้คำสั่งจะเป็นอย่างไร คำถามด้านข้าง: ในตัวอย่างที่เชื่อมโยงคุณคิดว่า MC และ MI จะทำอะไร

3
มีปัญหาร้ายแรงหรือไม่ในการลดการสังเกตด้วยค่าที่หายไปเมื่อคำนวณเมทริกซ์สหสัมพันธ์?
ฉันมีชุดข้อมูลขนาดใหญ่ที่มีตัวแปร 2500 ตัวและชอบการสังเกต 142 ครั้ง ฉันต้องการเรียกใช้ความสัมพันธ์ระหว่าง Variable X และส่วนที่เหลือของตัวแปร แต่สำหรับคอลัมน์จำนวนมากมีรายการขาดหายไป ฉันพยายามทำสิ่งนี้ใน R โดยใช้อาร์กิวเมนต์ "pairwise-complete" ( use=pairwise.complete.obs) และมันแสดงความสัมพันธ์จำนวนมาก แต่บางคนใน StackOverflow โพสต์ลิงก์ไปยังบทความนี้http://bwlewis.github.io/covar/missing.htmlและทำให้วิธีการ "จับคู่แบบเต็ม" ใน R ดูใช้ไม่ได้ คำถามของฉัน: ฉันจะรู้ได้อย่างไรว่าเมื่อใดที่เหมาะสมที่จะใช้ตัวเลือก "pairwise-complete" ฉันuse = complete.obsกลับมาno complete element pairsแล้วดังนั้นถ้าคุณสามารถอธิบายสิ่งที่มีความหมายเช่นนั้นก็จะดี

1
ทำไม lm และ biglm ใน R จึงให้ค่า p ที่ต่างกันสำหรับข้อมูลเดียวกัน
นี่คือตัวอย่างเล็ก ๆ : MyDf<-data.frame(x=c(1,2,3,4), y=c(1.2, .7, -.5, -3)) ตอนนี้ด้วยbase::lm: > lm(y~x, data=MyDf) %>% summary Call: lm(formula = y ~ x, data = MyDf) Residuals: 1 2 3 4 -0.47 0.41 0.59 -0.53 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 3.0500 0.8738 3.491 0.0732 . x -1.3800 0.3191 -4.325 0.0495 …

3
วิธีการใช้รูปแบบผสมโดยใช้ฟังก์ชั่น betareg ใน R?
ฉันมีชุดข้อมูลประกอบด้วยสัดส่วนที่วัด "ระดับกิจกรรม" ของลูกอ๊อดแต่ละตัวดังนั้นจึงทำให้ค่าที่ผูกไว้ระหว่าง 0 และ 1 ข้อมูลนี้ถูกรวบรวมโดยการนับจำนวนครั้งที่บุคคลย้ายภายในช่วงเวลาหนึ่ง (1 สำหรับการเคลื่อนไหว 0 สำหรับไม่มีการเคลื่อนไหว) จากนั้นค่าเฉลี่ยเพื่อสร้างหนึ่งค่าต่อบุคคล ผลกระทบคงที่หลักของฉันคือ "ระดับความหนาแน่น" ปัญหาที่ฉันเผชิญคือว่าฉันมีตัวแปรปัจจัย "บ่อน้ำ" ที่ฉันต้องการรวมไว้เป็นเอฟเฟกต์แบบสุ่ม - ฉันไม่สนใจความแตกต่างระหว่างบ่อน้ำ แต่ต้องการที่จะอธิบายถึงสถิติเหล่านั้น ประเด็นสำคัญอย่างหนึ่งเกี่ยวกับบ่อน้ำคือฉันมีเพียง 3 แห่งเท่านั้นและฉันเข้าใจว่ามันเป็นอุดมคติที่จะมีระดับปัจจัยมากกว่า (5+) เมื่อจัดการกับเอฟเฟกต์แบบสุ่ม หากเป็นไปได้ที่จะทำฉันต้องการคำแนะนำเกี่ยวกับวิธีการใช้รูปแบบผสมโดยใช้betareg()หรือbetamix()ในอาร์ฉันได้อ่านไฟล์วิธีใช้ R แต่ฉันมักจะพบพวกเขายากที่จะเข้าใจ (สิ่งที่แต่ละพารามิเตอร์อาร์กิวเมนต์จริงๆหมายถึงในบริบท ของข้อมูลของฉันเองและความหมายของผลลัพธ์ในแง่ของระบบนิเวศ) และดังนั้นฉันจึงมักจะทำงานได้ดีขึ้นผ่านตัวอย่าง ในบันทึกที่เกี่ยวข้องฉันสงสัยว่าถ้าฉันสามารถใช้glm()ภายใต้ตระกูลทวินามและลิงค์ logit แทนการทำบัญชีสุ่มเอฟเฟ็กต์กับข้อมูลประเภทนี้

1
ไล่ระดับสีสำหรับฟังก์ชั่นการสูญเสียโลจิสติก
ฉันจะถามคำถามที่เกี่ยวข้องกับคนนี้ ฉันพบตัวอย่างของการเขียนฟังก์ชันการสูญเสียที่กำหนดเองสำหรับ xgboost ที่นี่ : loglossobj <- function(preds, dtrain) { # dtrain is the internal format of the training data # We extract the labels from the training data labels <- getinfo(dtrain, "label") # We compute the 1st and 2nd gradient, as grad and hess preds <- 1/(1 + exp(-preds)) …

1
วิธีใดดีที่สุดในการวิเคราะห์อภิมานเครือข่าย
ขณะนี้มีวิธีการต่าง ๆ ในการทำการวิเคราะห์อภิมานเครือข่ายหรือเปรียบเทียบการรักษาแบบผสม รายการที่ใช้บ่อยที่สุดและเข้าถึงได้อาจเป็นสิ่งต่อไปนี้: ในกรอบ Bayesian : วิธีการปฏิสัมพันธ์ออกแบบโดยการรักษาใน WinBUGS (เช่นJackson et al ); การสร้างแบบจำลอง Bayesian แบบแขนตามลำดับชั้นใน WinBUGS (เช่นZhao et al ); การแยกแบบลำดับขั้น (เช่นการแยกโหนด) การสร้างแบบจำลองแบบเบย์โดยใช้ WinBUGS หรือผ่านgemtcและrjagsใน R (เช่นDias et alหรือvan Valkenhoef et al ); การประมาณ Laplace ซ้อนกัน (INLA) ใน WinBUGS (เช่นSauter et al ); ในกรอบบ่อย : การวิเคราะห์ความแปรปรวนแบบแฟคทอเรียลใน SAS (เช่นPiepho ); …

5
วิธีการวิเคราะห์แนวโน้มในอนุกรมเวลาที่ไม่เป็นงวด
สมมติว่าฉันมีการติดตามอนุกรมเวลาที่ไม่เป็นระยะ เห็นได้ชัดว่าแนวโน้มกำลังลดลงและฉันต้องการพิสูจน์ด้วยการทดสอบบางอย่าง (พร้อมค่า p ) ฉันไม่สามารถใช้การถดถอยเชิงเส้นแบบคลาสสิกได้เนื่องจากความสัมพันธ์เชิงสัมพันธ์ระหว่างค่าอัตโนมัติ library(forecast) my.ts <- ts(c(10,11,11.5,10,10.1,9,11,10,8,9,9, 6,5,5,4,3,3,2,1,2,4,4,2,1,1,0.5,1), start = 1, end = 27,frequency = 1) plot(my.ts, col = "black", type = "p", pch = 20, cex = 1.2, ylim = c(0,13)) # line of moving averages lines(ma(my.ts,3),col="red", lty = 2, lwd = 2) ตัวเลือกของฉันคืออะไร?
12 r  time-series 

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.