คำถามติดแท็ก r

ใช้แท็กนี้สำหรับคำถาม * on-topic * ที่ (a) เกี่ยวข้องกับ `R` ไม่ว่าจะเป็นส่วนสำคัญของคำถามหรือคำตอบที่คาดหวัง & (b) ไม่ใช่เพียงแค่ * เกี่ยวกับวิธีการใช้` R '

3
เหตุใดจึงมีความแตกต่างระหว่างการคำนวณช่วงความเชื่อมั่นแบบโลจิสติก 95% ด้วยตนเองและการใช้ฟังก์ชัน confint () ใน R
เรียนคุณทุกคน - ฉันสังเกตเห็นบางสิ่งแปลก ๆ ที่ไม่สามารถอธิบายได้ไหม โดยสรุป: แนวทางแบบแมนนวลเพื่อคำนวณช่วงความมั่นใจในโมเดลการถดถอยโลจิสติกและฟังก์ชัน R confint()ให้ผลลัพธ์ที่แตกต่างกัน ฉันเคยผ่านการถดถอยโลจิสติกประยุกต์ของ Hosmer & Lemeshow แล้ว (ฉบับที่ 2) ในบทที่ 3 มีตัวอย่างของการคำนวณอัตราส่วนอัตราต่อรองและช่วงความมั่นใจ 95% ด้วย R ฉันสามารถสร้างโมเดลได้อย่างง่ายดาย: Call: glm(formula = dataset$CHD ~ as.factor(dataset$dich.age), family = "binomial") Deviance Residuals: Min 1Q Median 3Q Max -1.734 -0.847 -0.847 0.709 1.549 Coefficients: Estimate Std. Error z value …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

2
การค้นหาควอไทล์ใน R
ฉันทำงานผ่านตำราเรียนสถิติขณะเรียนรู้ R และฉันพบเจอสิ่งกีดขวางในตัวอย่างต่อไปนี้: หลังจากดูที่?quantileฉันพยายามที่จะสร้างสิ่งนี้ใน R ด้วยต่อไปนี้: > nuclear <- c(7, 20, 16, 6, 58, 9, 20, 50, 23, 33, 8, 10, 15, 16, 104) > quantile(nuclear) 0% 25% 50% 75% 100% 6.0 9.5 16.0 28.0 104.0 เนื่องจากข้อความและ R มีผลลัพธ์ที่แตกต่างกันฉันรวบรวมว่า R ใช้ประโยชน์จากค่ามัธยฐานในการคำนวณควอไทล์อันดับที่หนึ่งและสาม คำถาม: ฉันควรจะรวมค่ามัธยฐานในการคำนวณควอไทล์ที่หนึ่งและสามหรือไม่? โดยเฉพาะตำราหรือ R มีความถูกต้องหรือไม่? หากหนังสือเรียนนั้นถูกต้องมีวิธีใดบ้างที่จะบรรลุถึงสิ่งนี้ใน R ขอบคุณล่วงหน้า.
33 r  quantiles 

1
วิธีการฝึกอบรมและตรวจสอบความถูกต้องของโมเดลโครงข่ายประสาทเทียมใน R
ฉันใหม่กับการสร้างแบบจำลองด้วยเครือข่ายประสาท แต่ฉันจัดการเพื่อสร้างเครือข่ายประสาทด้วยจุดข้อมูลที่มีอยู่ทั้งหมดที่เหมาะกับข้อมูลที่สังเกตได้ดี เครือข่ายประสาทเทียมทำใน R ด้วยแพ็คเกจ nnet: require(nnet) ##33.8 is the highest value mynnet.fit <- nnet(DOC/33.80 ~ ., data = MyData, size = 6, decay = 0.1, maxit = 1000) mynnet.predict <- predict(mynnet.fit)*33.80 mean((mynnet.predict - MyData$DOC)^2) ## mean squared error was 16.5 ข้อมูลที่ฉันกำลังวิเคราะห์มีลักษณะดังต่อไปนี้โดยที่ DOC เป็นตัวแปรที่จะต้องมีแบบจำลอง (มีการสังเกตประมาณ 17,000): Q GW_level Temp t_sum …

4
ข้อผิดพลาดมาตรฐานการจัดกลุ่มใน R (ทั้งด้วยตนเองหรือใน PLM)
ฉันพยายามที่จะเข้าใจข้อผิดพลาดมาตรฐาน "การจัดกลุ่ม" และวิธีการดำเนินการใน R (มันเป็นเรื่องเล็กน้อยใน Stata) ใน RI ไม่ประสบความสำเร็จในการใช้งานplmหรือเขียนฟังก์ชั่นของตัวเอง ฉันจะใช้diamondsข้อมูลจากggplot2แพ็คเกจ ฉันสามารถแก้ไขเอฟเฟกต์ด้วยตัวแปรจำลองได้ > library(plyr) > library(ggplot2) > library(lmtest) > library(sandwich) > # with dummies to create fixed effects > fe.lsdv <- lm(price ~ carat + factor(cut) + 0, data = diamonds) > ct.lsdv <- coeftest(fe.lsdv, vcov. = vcovHC) > ct.lsdv t …

14
การอ้างอิงสำหรับการวิเคราะห์การอยู่รอด
ฉันกำลังมองหาหนังสือ / บทช่วยสอนที่ดีเพื่อเรียนรู้เกี่ยวกับการวิเคราะห์ความอยู่รอด ฉันยังสนใจในการอ้างอิงในการทำการวิเคราะห์การอยู่รอดในอาร์
33 r  survival  references 

5
แนวทาง AIC ในการเลือกแบบจำลอง
ฉันมักจะใช้ BIC เป็นความเข้าใจของฉันก็คือว่ามันให้ความสำคัญกับความแตกต่างอย่างยิ่งกว่า AIC อย่างไรก็ตามฉันตัดสินใจที่จะใช้วิธีการที่ครอบคลุมมากขึ้นในตอนนี้และต้องการใช้ AIC ด้วยเช่นกัน ฉันรู้ว่า Raftery (1995) นำเสนอแนวทางที่ดีสำหรับความแตกต่างของ BIC: 0-2 อ่อนแอ 2-4 เป็นหลักฐานเชิงบวกสำหรับแบบจำลองที่ดีกว่า ฯลฯ ฉันดูในตำราเรียนและพวกเขาดูแปลก ๆ ใน AIC (ดูเหมือนความแตกต่างที่มากขึ้นนั้นอ่อนแอและความแตกต่างเล็กน้อยใน AIC หมายถึงแบบจำลองที่ดีกว่า) สิ่งนี้ขัดกับสิ่งที่ฉันรู้ว่าฉันได้รับการสอนแล้ว ความเข้าใจของฉันคือคุณต้องการ AIC ที่ต่ำกว่า ไม่มีใครทราบว่าแนวทางของ Raftery ขยายไปถึง AIC ด้วยหรือฉันอาจอ้างอิงแนวทางบางประการสำหรับ "ความแข็งแกร่งของหลักฐาน" สำหรับรุ่นหนึ่งเทียบกับอีกรุ่นหนึ่งหรือไม่? และใช่การตัดไม่ได้ยอดเยี่ยม (ฉันคิดว่ามันน่ารำคาญ) แต่มันมีประโยชน์เมื่อเปรียบเทียบหลักฐานประเภทต่าง ๆ

1
เปรียบเทียบสองรุ่นโดยใช้ฟังก์ชัน anova () ใน R
จากเอกสารสำหรับanova(): เมื่อได้รับลำดับของวัตถุ 'anova' ทดสอบแบบจำลองกับอีกแบบหนึ่งตามลำดับที่ระบุ ... การทดสอบแบบจำลองเทียบกันหมายความว่าอย่างไร และทำไมคำสั่งซื้อถึงมีความสำคัญ? นี่คือตัวอย่างจากบทช่วยสอน GenABEL : > modelAdd = lm(qt~as.numeric(snp1)) > modelDom = lm(qt~I(as.numeric(snp1)>=2)) > modelRec = lm(qt~I(as.numeric(snp1)>=3)) anova(modelAdd, modelGen, test="Chisq") Analysis of Variance Table Model 1: qt ~ as.numeric(snp1) Model 2: qt ~ snp1 Res.Df RSS Df Sum of Sq Pr(>Chi) 1 2372 2320 2 …
32 r  anova 

6
แบบจำลอง Bayesian ที่แข็งแกร่งสำหรับการประมาณขนาดของการแจกแจงแบบปกติเป็นอย่างไร
มีจำนวนของที่มีอยู่ประมาณที่แข็งแกร่งของขนาด เป็นตัวอย่างที่น่าสังเกตคือการเบี่ยงเบนสัมบูรณ์เฉลี่ยที่เกี่ยวข้องกับค่าเบี่ยงเบนมาตรฐานเป็นσ=MAD⋅1.4826σ=MAD⋅1.4826\sigma = \mathrm{MAD}\cdot1.4826 1.4826 ในกรอบการทำงานแบบเบย์มีหลายวิธีที่จะประเมินตำแหน่งของการกระจายตัวแบบปกติอย่างคร่าวๆ (เช่นการปนเปื้อนที่ผิดปกติโดยค่าผิดปกติ) ตัวอย่างเช่นใคร ๆ สามารถสันนิษฐานได้ว่าข้อมูลนั้นถูกแจกจ่าย ณ การแจกแจงหรือการแจก Laplace ตอนนี้คำถามของฉัน: แบบจำลองแบบเบย์สำหรับการวัดขนาดของการแจกแจงแบบปกติอย่างคร่าวๆในลักษณะที่แข็งแกร่งจะแข็งแกร่งในแง่เดียวกับ MAD หรือตัวประมาณที่คล้ายกัน เช่นเดียวกับกรณีของ MAD มันจะเป็นระเบียบถ้าโมเดล Bayesian สามารถเข้าใกล้ SD ของการแจกแจงแบบปกติในกรณีที่การกระจายของข้อมูลกระจายตามปกติ แก้ไข 1: ตัวอย่างทั่วไปของแบบจำลองที่มีความทนทานต่อการปนเปื้อน / ค่าผิดปกติเมื่อสมมติว่าข้อมูลyiYผมy_iเป็นเรื่องปกติประมาณใช้ในการแจกแจงเช่น: yi∼t(m,s,ν)Yผม~เสื้อ(ม.,s,ν)y_i \sim \mathrm{t}(m, s,\nu) โดยที่mม.mคือค่าเฉลี่ยsssคือขนาดและνν\nuคือระดับความอิสระ สำหรับนักบวชที่เหมาะสมบนm,sม.,sm, sและνν\nu , mม.mจะเป็นการประมาณค่าเฉลี่ยของyiYผมy_iที่จะทนทานต่อค่าผิดปกติ อย่างไรก็ตามsssจะไม่เป็นประมาณการที่สอดคล้องกันของ SD ของyiyiy_iเป็นsssขึ้นอยู่กับννν\nuตัวอย่างเช่นถ้าνν\nuจะได้รับการแก้ไขเป็น 4.0 และโมเดลด้านบนจะถูกติดตั้งกับตัวอย่างจำนวนมากจากการแจกแจงจากนั้น sจะอยู่ที่ประมาณ 0.82 สิ่งที่ฉันกำลังมองหาคือโมเดลที่แข็งแกร่งเช่นโมเดล t แต่สำหรับ SD แทนที่จะเป็น …

1
ทำไม R ถึงส่งกลับ NA เป็นสัมประสิทธิ์ lm ()
ฉันปรับlm()โมเดลให้เหมาะสมกับชุดข้อมูลที่มีตัวบ่งชี้สำหรับไตรมาสทางการเงิน (Q1, Q2, Q3 ทำให้ Q4 เป็นค่าเริ่มต้น) ใช้lm(Y~., data = data) ฉันได้รับNAเป็นค่าสัมประสิทธิ์สำหรับไตรมาสที่ 3 และคำเตือนว่าตัวแปรหนึ่งตัวถูกแยกออกเนื่องจากภาวะเอกฐาน ฉันต้องเพิ่มคอลัมน์ Q4 หรือไม่
32 r  regression 

5
จะเปลี่ยนข้อมูลระหว่างรูปแบบแบบกว้างและแบบยาวใน R ได้อย่างไร [ปิด]
คุณสามารถมีข้อมูลในรูปแบบกว้างหรือในรูปแบบยาว นี่เป็นสิ่งสำคัญเนื่องจากวิธีการใช้งานที่แตกต่างกันขึ้นอยู่กับรูปแบบ ฉันรู้ว่าคุณต้องทำงานกับmelt()และcast()จากแพคเกจการก่อร่างใหม่ แต่ดูเหมือนว่าบางสิ่งที่ฉันไม่ได้รับ มีคนให้ภาพรวมสั้น ๆ กับฉันว่าคุณทำสิ่งนี้ได้อย่างไร

3
R จัดการค่าที่ขาดหายไปใน lm ได้อย่างไร
ฉันต้องการถดถอยเวกเตอร์ B เทียบกับแต่ละคอลัมน์ในเมทริกซ์ A นี่เป็นเรื่องไม่สำคัญหากไม่มีข้อมูลที่หายไป แต่ถ้าเมทริกซ์ A มีค่าที่ขาดหายไปการถดถอยของฉันกับ A นั้นถูก จำกัด ให้รวมแถวเท่านั้น ค่าที่มีอยู่ ( พฤติกรรมna.omitเริ่มต้น) สิ่งนี้สร้างผลลัพธ์ที่ไม่ถูกต้องสำหรับคอลัมน์ที่ไม่มีข้อมูลขาดหายไป ฉันสามารถถอยหลังเมทริกซ์คอลัมน์ B กับคอลัมน์แต่ละคอลัมน์ของเมทริกซ์ A แต่ฉันมีการถดถอยนับพันที่ต้องทำและนี่เป็นการห้ามช้าและไม่เหมาะสม na.excludeฟังก์ชั่นที่ดูเหมือนว่าจะได้รับการออกแบบสำหรับกรณีนี้ แต่ฉันไม่สามารถทำให้การทำงาน ฉันทำอะไรผิดที่นี่ ใช้ R 2.13 บน OSX หากมีความสำคัญ A = matrix(1:20, nrow=10, ncol=2) B = matrix(1:10, nrow=10, ncol=1) dim(lm(A~B)$residuals) # [1] 10 2 (the expected 10 residual values) …

4
ฉันจะพอดีกับโมเดลหลายระดับสำหรับผลลัพธ์ปัวส์ซองที่กระจายอยู่ทั่วได้อย่างไร
ฉันต้องการติดตั้ง GLMM หลายระดับพร้อมการกระจายแบบปัวซอง (ด้วยการกระจายตัวมากเกินไป) โดยใช้ R ในขณะนี้ฉันกำลังใช้lme4แต่ฉันสังเกตเห็นว่าเมื่อเร็ว ๆ นี้quasipoissonครอบครัวถูกลบออก ฉันเคยเห็นที่อื่นว่าคุณสามารถสร้างแบบจำลองการกระจายตัวเกินสำหรับการแจกแจงทวินามโดยการเพิ่มการสกัดกั้นแบบสุ่มด้วยระดับหนึ่งต่อการสังเกต สิ่งนี้ใช้ได้กับการแจกแจงแบบปัวซองด้วยหรือไม่ มีวิธีที่ดีกว่าที่จะทำหรือไม่ มีแพ็คเกจอื่น ๆ ที่คุณอยากแนะนำอีกไหม?

4
วิธีการทดสอบสองตัวอย่างใน R โดยการใส่สถิติตัวอย่างมากกว่าข้อมูลดิบ
สมมติว่าเรามีสถิติที่ระบุด้านล่าง gender mean sd n f 1.666667 0.5773503 3 m 4.500000 0.5773503 4 คุณทำการทดสอบสองตัวอย่าง (เพื่อดูว่ามีความแตกต่างอย่างมีนัยสำคัญระหว่างค่าเฉลี่ยของผู้ชายและผู้หญิงในบางตัวแปร) โดยใช้สถิติเช่นนี้แทนที่จะเป็นข้อมูลจริงหรือไม่ ฉันหาที่ใดบนอินเทอร์เน็ตไม่พบ บทเรียนส่วนใหญ่และแม้กระทั่งคู่มือจัดการกับการทดสอบด้วยชุดข้อมูลจริงเท่านั้น
32 r  t-test 

5
คำแนะนำสีและความหนาของเส้นสำหรับแปลงเส้น
มีการเขียนมากมายเกี่ยวกับตัวเลือกสีที่เป็นมิตรกับตาบอดสำหรับแผนที่รูปหลายเหลี่ยมและพื้นที่สีเทาโดยทั่วไป (ดูตัวอย่างhttp://colorbrewer2.org ) ฉันไม่สามารถค้นหาคำแนะนำสำหรับสีของเส้นและความหนาของเส้นที่แตกต่างกันสำหรับกราฟเส้น เป้าหมายคือ: แยกแยะเส้นได้อย่างง่ายดายแม้ในขณะที่พวกเขาพันกัน เส้นนั้นแยกได้ง่ายโดยบุคคลที่มีอาการตาบอดสีในรูปแบบที่พบได้บ่อยที่สุด บรรทัด (สำคัญน้อยกว่า) เป็นมิตรกับเครื่องพิมพ์ (ดู Color Brewer ด้านบน) ในบริบทของเส้นสเกลสีดำและสีเทาฉันพบว่ามันมีประสิทธิภาพมากที่จะมีเส้นสีดำบาง ๆ และเส้นสเกลสีเทาหนาขึ้น ฉันขอขอบคุณคำแนะนำเฉพาะที่รวมถึงสีที่ต่างกันระดับของสีเทาและความหนาของเส้น ฉันไม่ชอบประเภทบรรทัดที่แตกต่างกัน (ทึบ / ประ / ประ) แต่สามารถพูดออกมาจากความคิดเห็นนั้น มันจะดีกว่าที่จะมีคำแนะนำถึง 10 เส้นโค้งในกราฟ ยิ่งไปกว่านั้นจะต้องทำตามที่ Color Brewer ทำ: อนุญาตให้คำแนะนำสำหรับ m line เป็นส่วนย่อยของคำแนะนำสำหรับ n บรรทัดที่ n> m และแตกต่าง m จาก 1 ถึง 10 โปรดทราบ : ฉันขอขอบคุณคำแนะนำที่เน้นเฉพาะส่วนของการระบายสีเส้นของคำถาม ผู้ปฏิบัติงานบางคนเพิ่มสัญลักษณ์ให้กับเส้นทุกสองสามเซนติเมตรเพื่อแยกความแตกต่างของชั้นเรียนที่ดีกว่า …

1
แนวทางที่มีประโยชน์สำหรับพารามิเตอร์ GBM คืออะไร
แนวทางที่มีประโยชน์สำหรับการทดสอบพารามิเตอร์ (เช่นความลึกของการโต้ตอบ, minchild, อัตราตัวอย่าง ฯลฯ ) โดยใช้ GBM คืออะไร? สมมติว่าฉันมีคุณสมบัติ 70-100 ประชากร 200,000 และฉันต้องการทดสอบความลึกของการโต้ตอบที่ 3 และ 4 ชัดเจนว่าฉันต้องทำการทดสอบบางอย่างเพื่อดูว่าการรวมกันของพารามิเตอร์ใดถือตัวอย่างที่ดีที่สุด ข้อเสนอแนะเกี่ยวกับวิธีการออกแบบการทดสอบนี้?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.