คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

1
วิธีการคำนวณค่าเฉลี่ยและค่าเบี่ยงเบนมาตรฐานสำหรับการแจกแจงแบบปกติโดยใช้ 2 เปอร์เซนต์
ฉันพยายามคำนวณค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานจาก 2 เปอร์เซนต์สำหรับการแจกแจงล็อกนอร์มอล ฉันประสบความสำเร็จในการคำนวณสำหรับการแจกแจงแบบปกติโดยใช้X = mean + sd * Zและการหาค่าเฉลี่ยและ sd ฉันคิดว่าฉันขาดสมการเมื่อพยายามทำแบบเดียวกันกับการแจกแจงแบบล็อกนอร์มัล ฉันดูวิกิพีเดียและพยายามใช้ln(X) = mean + sd * Zแต่ฉันสับสนว่าค่าเฉลี่ยและ sd ในกรณีนี้เป็นการแจกแจงแบบปกติหรือ lognormal ฉันควรใช้สมการใด และฉันจะต้องมากกว่า 2 เปอร์เซ็นต์เพื่อแก้การคำนวณ?
11 r  lognormal 

1
สัญชาตญาณของการแปรผันของข้อมูล (VI) สำหรับการตรวจสอบความถูกต้องของคลัสเตอร์คืออะไร
สำหรับนักสถิติที่ไม่ใช่ฉันมันยากมากที่จะจับความคิดของVIตัวชี้วัด (การเปลี่ยนแปลงของข้อมูล) แม้หลังจากอ่านบทความที่เกี่ยวข้องโดย Marina Melia "การเปรียบเทียบการจัดกลุ่ม - ระยะทางตามข้อมูล " (วารสารการวิเคราะห์หลายตัวแปร 2007) ในความเป็นจริงฉันไม่คุ้นเคยกับคำศัพท์หลาย ๆ ด้านล่างคือ MWE และฉันต้องการทราบว่าผลลัพธ์หมายถึงอะไรในการวัดต่างๆที่ใช้ ฉันมีสองกลุ่มนี้ใน R และใน ID เดียวกัน: > dput(a) structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, …

1
ผลลัพธ์การถดถอยของสันเขาแตกต่างกันในการใช้ lm.ridge และ glmnet
ฉันใช้ข้อมูลบางอย่างที่จะหาทางออกที่ดีที่สุดของตัวแปรแบบการถดถอยโดยใช้การถดถอยสันในอาร์ฉันได้ใช้lm.ridgeและglmnet(เมื่อalpha=0) lambda=0แต่ผลที่แตกต่างกันมากโดยเฉพาะอย่างยิ่งเมื่อ มันสมมติว่าตัวประมาณค่าพารามิเตอร์ทั้งสองมีค่าเหมือนกัน แล้วปัญหาอะไรที่นี่? ขอแสดงความนับถืออย่างสูง

1
ทำความเข้าใจกับเอาต์พุตของ bootstrap ที่ดำเนินการใน R (tsboot, MannKendall)
ฉันมีคำถามเกี่ยวกับการแปลความหมายของการโทร tsboot ใน R ฉันตรวจสอบเอกสารของทั้ง Kendall และแพคเกจสำหรับบูต แต่ฉันก็ไม่ฉลาดกว่าก่อน เมื่อฉันเรียกใช้ bootstrap โดยใช้ตัวอย่างเช่นในแพคเกจ Kendall ที่สถิติการทดสอบเป็นเอกภาพของ Kendall: library(Kendall) # Annual precipitation entire Great Lakes # The Mann-Kendall trend test confirms the upward trend. data(PrecipGL) MannKendall(PrecipGL) ซึ่งยืนยันแนวโน้มขาขึ้น: tau = 0.265, 2-sided pvalue =0.00029206 ตัวอย่างจากนั้นใช้บล็อก bootstrap ต่อไป: # #Use block bootstrap library(boot) data(PrecipGL) MKtau<-function(z) MannKendall(z)$tau …
11 r  bootstrap 

2
“ การถดถอยแบบขั้นตอน” ทำงานอย่างไร
ฉันใช้รหัส R ต่อไปนี้เพื่อให้พอดีกับโมเดล probit: p1 <- glm(natijeh ~ ., family=binomial(probit), data=data1) stepwise(p1, direction='backward/forward', criterion='BIC') ฉันต้องการที่จะรู้ว่าสิ่งที่ทำstepwiseและbackward/forwardทำสิ่งที่แน่นอนและวิธีการเลือกตัวแปร?

2
วิธีรับค่า p-pooled จากการทดสอบที่ทำในชุดข้อมูลหลายชุด
เมื่อใช้ Amelia ใน R ฉันได้รับชุดข้อมูลหลายชุด หลังจากนั้นฉันทำการทดสอบซ้ำใน SPSS ตอนนี้ฉันต้องการรวมผลการทดสอบ ฉันรู้ว่าฉันสามารถใช้กฎของ Rubin (ดำเนินการผ่านแพ็คเกจการใส่หลาย ๆ แบบใน R) เพื่อรวมหมายถึงและข้อผิดพลาดมาตรฐาน แต่ฉันจะรวมค่า p ได้อย่างไร เป็นไปได้ไหม? มีฟังก์ชั่นใน R ที่จะทำเช่นนั้น? ขอบคุณล่วงหน้า.

4
วิธีการเลือกจำนวนของต้นไม้ในรูปแบบการถดถอยที่เพิ่มขึ้นทั่วไป?
มีกลยุทธ์ในการเลือกจำนวนต้นไม้ใน GBM หรือไม่? โดยเฉพาะntreesการโต้แย้งในRเรื่องgbmฟังก์ชั่น ฉันไม่เห็นว่าทำไมคุณไม่ควรตั้งค่าntreesที่เหมาะสมที่สุด ฉันสังเกตเห็นว่าต้นไม้จำนวนมากขึ้นลดความแปรปรวนของผลลัพธ์ได้จากหลาย GBM อย่างชัดเจน ฉันไม่คิดว่าต้นไม้จำนวนมากจะนำไปสู่การ overfitting ความคิดใด ๆ

1
R neuralnet - คำนวณให้คำตอบคงที่
ฉันกำลังพยายามใช้neuralnetแพ็คเกจของ R (เอกสารที่นี่ ) เพื่อคาดการณ์ นี่คือสิ่งที่ฉันพยายามทำ: library(neuralnet) x <- cbind(runif(50, min=1, max=500), runif(50, min=1, max=500)) y <- x[, 1] * x[, 2] train <- data.frame(x, y) n <- names(train) f <- as.formula(paste('y ~', paste(n[!n %in% 'y'], collapse = ' + '))) net <- neuralnet(f, train, hidden = c(5, 5), threshold=0.01) …

2
ความสัมพันธ์อัตโนมัติเชิงพื้นที่สำหรับข้อมูลอนุกรมเวลา
ฉันมีชุดข้อมูล 20 ปีของการนับจำนวนปีของสายพันธุ์ที่อุดมสมบูรณ์สำหรับชุดรูปหลายเหลี่ยม (~ 200 รูปหลายเหลี่ยมที่ต่อเนื่องและมีรูปร่างไม่สม่ำเสมอ) ฉันใช้การวิเคราะห์การถดถอยเพื่ออนุมานแนวโน้ม (การเปลี่ยนแปลงจำนวนต่อปี) สำหรับรูปหลายเหลี่ยมแต่ละรูปรวมถึงการรวมข้อมูลรูปหลายเหลี่ยมตามขอบเขตการจัดการ ฉันแน่ใจว่ามีข้อมูลเชิงพื้นที่สัมพันธ์อัตโนมัติซึ่งแน่นอนว่าจะส่งผลกระทบต่อการวิเคราะห์การถดถอยสำหรับข้อมูลรวม คำถามของฉันคือ - ฉันจะรันการทดสอบ SAC สำหรับข้อมูลอนุกรมเวลาได้อย่างไร ฉันต้องดู SAC ​​ของส่วนที่เหลือจากการถดถอยของฉันในแต่ละปี (โมแรนระดับโลกของฉัน) หรือไม่? หรือฉันสามารถทำการทดสอบหนึ่งครั้งกับทุกปีได้หรือไม่? เมื่อฉันทดสอบว่าใช่มี SAC มีวิธีง่าย ๆ ในการจัดการเรื่องนี้หรือไม่? พื้นหลังสถิติของฉันมีน้อยและทุกอย่างที่ฉันได้อ่านในการสร้างแบบจำลองเชิงพื้นที่มีความซับซ้อนมาก ฉันรู้ว่า R มีฟังก์ชั่น autocovariate ทางไกล - นี่ใช้ง่ายไหม? ฉันค่อนข้างสับสนในการประเมิน / addess SAC สำหรับปัญหานี้และจะขอบคุณคำแนะนำลิงก์หรือการอ้างอิงใด ๆ ขอบคุณล่วงหน้า!

5
ถ้าไม่ใช่ปัวซองแล้วการกระจายตัวนี้คืออะไร?
ฉันมีชุดข้อมูลที่มีจำนวนการกระทำที่ดำเนินการโดยบุคคลในระยะเวลา 7 วัน การกระทำที่เฉพาะเจาะจงไม่ควรเกี่ยวข้องกับคำถามนี้ นี่คือสถิติเชิงพรรณนาสำหรับชุดข้อมูล: RangeMeanVarianceNumber of observations0−77218.22791696Range0−772Mean18.2Variance2791Number of observations696 \begin{array}{|c|c|} \hline \text{Range} & 0 - 772 \\ \hline \text{Mean} & 18.2 \\ \hline \text{Variance} & 2791 \\ \hline \text{Number of observations} & 696 \\ \hline \end{array} นี่คือฮิสโตแกรมของข้อมูล: เมื่อพิจารณาจากแหล่งข้อมูลฉันคิดว่ามันจะพอดีกับการแจกแจงปัวซอง อย่างไรก็ตามความแปรปรวนเฉลี่ยและฮิสโตแกรมนั้นมีน้ำหนักทางด้านซ้ายอย่างมาก นอกจากนี้ฉันgoodfitทำการทดสอบใน R และได้รับ: > gf <- goodfit(actions,type="poisson", method = "MinChisq") …

2
การสุ่มตัวอย่างด้วยการแทนที่ด้วย R randomForest
การใช้งาน RandomForest ไม่อนุญาตให้มีการสุ่มตัวอย่างเกินจำนวนการสังเกตแม้ว่าจะสุ่มตัวอย่างด้วยการเปลี่ยน ทำไมนี้ ทำงานได้ดี: rf <- randomForest(Species ~ ., iris, sampsize=c(1, 1, 1), replace=TRUE) rf <- randomForest(Species ~ ., iris, sampsize=3, replace=TRUE) สิ่งที่ฉันต้องการจะทำ: rf <- randomForest(Species ~ ., iris, sampsize=c(51, 1, 1), replace=TRUE) Error in randomForest.default(m, y, ...) : sampsize can not be larger than class frequency ข้อผิดพลาดที่คล้ายกันโดยไม่มีตัวอย่างแบ่งชั้น: rf …

2
แบบจำลองการนับศูนย์ที่ไม่พองใน R: ประโยชน์ที่แท้จริงคืออะไร
สำหรับการวิเคราะห์การนับนกศูนย์ที่สูงเกินจริงผมอยากจะใช้รุ่นนับเป็นศูนย์ที่สูงขึ้นโดยใช้แพคเกจ R pscl อย่างไรก็ตามเมื่อดูตัวอย่างที่ให้ไว้ในเอกสารสำหรับหนึ่งในฟังก์ชั่นหลัก ( ? zeroinfl ) ฉันเริ่มสงสัยว่าประโยชน์ที่แท้จริงของรุ่นเหล่านี้คืออะไร จากตัวอย่างโค้ดที่ให้ไว้ฉันคำนวณปัวซองมาตรฐาน, แบบกึ่งกลาง - ปัวซองและโมเดลไบโอโนเมียลบ, ปัวซองแบบ zero-inflated แบบง่าย, และแบบจำลองทวินามลบ, แบบปัวซองแบบพองตัวแบบศูนย์และแบบลบลบทวินาม จากนั้นฉันตรวจสอบฮิสโทแกรมของข้อมูลที่ตรวจพบและข้อมูลที่ติดตั้ง (นี่คือรหัสสำหรับการทำซ้ำ) library(pscl) data("bioChemists", package = "pscl") ## standard count data models fm_pois <- glm(art ~ ., data = bioChemists, family = poisson) fm_qpois <- glm(art ~ ., data = bioChemists, family …

1
การเปรียบเทียบแบบหลายแบบผสมสำหรับการโต้ตอบระหว่างตัวทำนายแบบต่อเนื่องและหมวดหมู่
ฉันต้องการใช้lme4เพื่อให้พอดีกับการถดถอยแบบผสมและmultcompเพื่อคำนวณการเปรียบเทียบแบบคู่ ฉันมีชุดข้อมูลที่ซับซ้อนพร้อมตัวทำนายอย่างต่อเนื่องและจัดหมวดหมู่หลายชุด แต่คำถามของฉันสามารถแสดงให้เห็นได้โดยใช้ChickWeightชุดข้อมูลในตัวเป็นตัวอย่าง: m <- lmer(weight ~ Time * Diet + (1 | Chick), data=ChickWeight, REML=F) Timeมีความต่อเนื่องและDietเป็นหมวดหมู่ (4 ระดับ) และมีลูกไก่หลายตัวต่ออาหาร ลูกไก่ทุกตัวเริ่มต้นด้วยน้ำหนักเท่ากัน แต่อาหารของพวกมัน (อาจ) ส่งผลต่ออัตราการเติบโตดังนั้นการDietสกัดกั้นควรจะเหมือนกัน (มากหรือน้อย) เหมือนกัน แต่ความลาดชันอาจแตกต่างกัน ฉันจะได้รับการเปรียบเทียบแบบคู่สำหรับผลของการสกัดกั้นDietแบบนี้: summary(glht(m, linfct=mcp(Diet = "Tukey"))) และแน่นอนพวกเขาไม่ได้แตกต่างกันอย่างมีนัยสำคัญ แต่ฉันจะทำการทดสอบแบบอะนาล็อกเพื่อให้ได้Time:Dietผลอย่างไร เพียงแค่ใส่คำที่โต้ตอบลงไปในmcpข้อผิดพลาด: summary(glht(m, linfct=mcp('Time:Diet' = "Tukey"))) Error in summary(glht(m, linfct = mcp(`Time:Diet` = "Tukey"))) : error in …

2
สมมติฐานการถดถอยของปัวซองและวิธีทดสอบใน R
ฉันต้องการทดสอบว่าการถดถอยแบบใดที่เหมาะกับข้อมูลของฉันที่สุด ตัวแปรตามของฉันคือการนับและมีศูนย์จำนวนมาก และฉันต้องการความช่วยเหลือในการกำหนดรูปแบบและครอบครัวที่จะใช้ (ปัวซองหรือ quasipoisson หรือการถดถอยปัวซองปัวซอง) และวิธีทดสอบสมมติฐาน การถดถอยปัวซอง: เท่าที่ฉันเข้าใจสมมติฐานที่แข็งแกร่งคือความแปรปรวนเฉลี่ย = ความแปรปรวน คุณทดสอบสิ่งนี้อย่างไร พวกเขาต้องอยู่ใกล้กันแค่ไหน? มีการใช้ค่าเฉลี่ยและความแปรปรวนแบบไม่มีเงื่อนไขหรือมีเงื่อนไขหรือไม่ ฉันจะทำอย่างไรถ้าข้อสันนิษฐานนี้ไม่ได้ถืออยู่? ฉันอ่านว่าหากความแปรปรวนมากกว่าค่าเฉลี่ยเรามีการกระจายเกินความเร็วและวิธีที่เป็นไปได้ในการจัดการกับสิ่งนี้คือการรวมตัวแปรอิสระมากขึ้นหรือ family = quasipoisson การแจกจ่ายนี้มีข้อกำหนดหรือข้อสมมติฐานอื่น ๆ หรือไม่? ฉันจะใช้การทดสอบแบบใดเพื่อดูว่า (1) หรือ (2) เหมาะสมกว่าดีกว่าanova(m1,m2)หรือไม่? ฉันยังอ่านด้วยว่าการแจกแจงลบ - ทวินามสามารถใช้เมื่อการกระจายเกินปกติปรากฏขึ้น ฉันจะทำสิ่งนี้ใน R ได้อย่างไร ความแตกต่างของ quasipoisson คืออะไร? การถดถอยปัวซองที่ไม่ทำให้เป็นศูนย์: ฉันอ่านว่าการใช้การทดสอบ vuong จะตรวจสอบว่าแบบจำลองใดที่เหมาะสมกว่า > vuong (model.poisson, model.zero.poisson) ถูกต้องหรือไม่ การถดถอยแบบไม่มี Zero-สมมติฐานมีอะไรบ้าง? บริการด้านวิชาการของ UCLA กลุ่มให้คำปรึกษาทางสถิติมีส่วนเกี่ยวกับการถดถอยแบบปัวซองที่ไม่ทำให้เป็นศูนย์และทดสอบแบบจำลองเซโรพเลต …

1
รับผลลัพธ์ที่แตกต่างเมื่อทำการพล็อตจุดไข่ปลา 95% ด้วย ggplot หรือแพ็คเกจวงรี
ฉันต้องการให้เห็นภาพผลลัพธ์ของการจัดกลุ่ม (สร้างด้วยprotoclust{protoclust}) โดยสร้างแผนการสแกลเลอร์สำหรับแต่ละคู่ของตัวแปรที่ใช้สำหรับการจำแนกข้อมูลของฉันการระบายสีตามคลาส คลาส elipses- ทับซ้อนกันภายใต้ตัวแปรแต่ละคู่) ฉันใช้รูปวาดของวงรีในสองวิธีที่แตกต่างกันและรูปวงรีที่ได้นั้นแตกต่างกัน! (รูปวงรีที่ใหญ่กว่าสำหรับการใช้งานครั้งแรก!) นิรนัยที่มีขนาดแตกต่างกันเท่านั้น ฉันเดาว่าฉันต้องทำอะไรผิดโดยใช้หนึ่งในนั้น (หวังว่าจะไม่ใช้ทั้งคู่!) หรือด้วยข้อโต้แย้ง มีใครบอกฉันได้ไหมว่าฉันทำอะไรผิด นี่คือรหัสสำหรับการใช้งานทั้งสอง ทั้งสองขึ้นอยู่กับคำตอบของวิธีการที่วงรีข้อมูลสามารถวางทับบน scatterplot ggplot2 ได้อย่างไร ### 1st implementation ### using ellipse{ellipse} library(ellipse) library(ggplot2) library(RColorBrewer) colorpal <- brewer.pal(10, "Paired") x <- data$x y <- data$y group <- data$group df <- data.frame(x=x, y=y, group=factor(group)) df_ell <- data.frame() for(g in …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.